dc.contributor.advisor | Taskinen, Sara | |
dc.contributor.advisor | Kärkkäinen, Salme | |
dc.contributor.author | Yläjärvi, Antti | |
dc.date.accessioned | 2023-06-14T10:10:30Z | |
dc.date.available | 2023-06-14T10:10:30Z | |
dc.date.issued | 2023 | |
dc.identifier.uri | https://jyx.jyu.fi/handle/123456789/87761 | |
dc.description.abstract | Neuroverkkojen sovellukset ovat yleistyneet viimeisen kymmenen vuoden aikana. Nykyisin neuroverkkoja sovelletaan useilla aloilla, kuten lääketieteellisessä kuvantamisessa ja diagnostiikassa tai itseohjautuvissa autoissa, joilla ennusteen lisäksi tieto tämän uskottavuudesta voi olla kriittistä. Robustisuus ja epävarmuuden luotettava kvantifiointi on tärkeää myös muilla sovellusaloilla erityisesti, kun datan volyymi voi ajaa virheiden kumulatiiviset kustannukset merkittäviksi. On kuitenkin todettu, ettei esimerkiksi neuroverkkojen ennustamia todennäköisyyksiä voida yleisesti pitää luotettavina mittoina ennusteeseen liittyvälle epävarmuudelle.
Neuroverkkojen ennusteen epävarmuuden kvantifioimiseksi ja robustisuuden parantamiseksi on kirjallisuudessa esitetty kymmeniä erilaisia menetelmiä. Yksi tutkimussuunta on neuroverkon ja Gaussisen prosessin yhdistävät menetelmät. Gaussiset prosessit ovat joustavia parametrittomia Bayesiläisiä malleja, jotka voidaan yhdistää neuroverkkoon käytännössä kajoamatta alkuperäiseen malliin tai tämän arkkitehtuuriin. Menetelmien eduksi voidaan lukea ennusteen saaminen piste-estimaatin sijaan jakaumana, mikä mahdollistaa myös varianssin hyödyntämisen epävarmuutta
koskevassa päättelyssä.
Tässä tutkielmassa esitellään kaksi verrattain uutta kirjallisuudessa esitettyä Gaussisen prosessin ja neuroverkon yhdistävää menetelmää sekä tarkastellaan, voidaanko näillä parantaa Transformer -neuroverkon robustisuutta ja epävarmuuden kvantifioinnin luotettavuutta. Menetelmiä tarkastellaan luonnollisen kielen käsittelyyn liittyvässä tehtävässä, missä neuroverkkona käytetään Googlen tutkijaryhmän kehittämää, Transformer -arkkitehtuuriin perustuvaa, BERT-mallia. Tutkielmassa osoitettiin BERT-mallin olevan verrattain robusti. Mallin suorituskykyä todettiin kuitenkin
voitavan parantaa Gaussista prosessia lisäksi soveltamalla. Merkittävimmät hyödyt todettiin poikkeavien havaintojen tunnistamisessa, missä Gaussisella prosessilla ennusteelle saatava varianssi osoittautui selvästi ennustevoimaisimmaksi mitaksi. | fi |
dc.format.extent | 61 | |
dc.language.iso | fi | |
dc.rights | In Copyright | |
dc.subject.other | luonnollisen kielen käsittely | |
dc.title | Transformer -neuroverkon robustisuuden parantaminen Gaussisen prosessin ja neuroverkon yhdistävillä menetelmillä | |
dc.identifier.urn | URN:NBN:fi:jyu-202306143826 | |
dc.type.ontasot | Master’s thesis | en |
dc.type.ontasot | Pro gradu -tutkielma | fi |
dc.contributor.tiedekunta | Matemaattis-luonnontieteellinen tiedekunta | fi |
dc.contributor.tiedekunta | Faculty of Sciences | en |
dc.contributor.laitos | Matematiikan ja tilastotieteen laitos | fi |
dc.contributor.laitos | Department of Mathematics and Statistics | en |
dc.contributor.yliopisto | Jyväskylän yliopisto | fi |
dc.contributor.yliopisto | University of Jyväskylä | en |
dc.contributor.oppiaine | Tilastotiede | fi |
dc.contributor.oppiaine | Statistics | en |
dc.rights.copyright | © The Author(s) | |
dc.rights.accesslevel | openAccess | |
dc.contributor.oppiainekoodi | 4043 | |
dc.subject.yso | neuroverkot | |
dc.subject.yso | matematiikka | |
dc.subject.yso | ennusteet | |
dc.subject.yso | gaussiset prosessit | |
dc.subject.yso | epävarmuus | |
dc.subject.yso | tilastotiede | |
dc.subject.yso | tilastomenetelmät | |
dc.rights.url | https://rightsstatements.org/page/InC/1.0/ | |