Transformer -neuroverkon robustisuuden parantaminen Gaussisen prosessin ja neuroverkon yhdistävillä menetelmillä
Authors
Date
2023Copyright
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Neuroverkkojen sovellukset ovat yleistyneet viimeisen kymmenen vuoden aikana. Nykyisin neuroverkkoja sovelletaan useilla aloilla, kuten lääketieteellisessä kuvantamisessa ja diagnostiikassa tai itseohjautuvissa autoissa, joilla ennusteen lisäksi tieto tämän uskottavuudesta voi olla kriittistä. Robustisuus ja epävarmuuden luotettava kvantifiointi on tärkeää myös muilla sovellusaloilla erityisesti, kun datan volyymi voi ajaa virheiden kumulatiiviset kustannukset merkittäviksi. On kuitenkin todettu, ettei esimerkiksi neuroverkkojen ennustamia todennäköisyyksiä voida yleisesti pitää luotettavina mittoina ennusteeseen liittyvälle epävarmuudelle.
Neuroverkkojen ennusteen epävarmuuden kvantifioimiseksi ja robustisuuden parantamiseksi on kirjallisuudessa esitetty kymmeniä erilaisia menetelmiä. Yksi tutkimussuunta on neuroverkon ja Gaussisen prosessin yhdistävät menetelmät. Gaussiset prosessit ovat joustavia parametrittomia Bayesiläisiä malleja, jotka voidaan yhdistää neuroverkkoon käytännössä kajoamatta alkuperäiseen malliin tai tämän arkkitehtuuriin. Menetelmien eduksi voidaan lukea ennusteen saaminen piste-estimaatin sijaan jakaumana, mikä mahdollistaa myös varianssin hyödyntämisen epävarmuutta
koskevassa päättelyssä.
Tässä tutkielmassa esitellään kaksi verrattain uutta kirjallisuudessa esitettyä Gaussisen prosessin ja neuroverkon yhdistävää menetelmää sekä tarkastellaan, voidaanko näillä parantaa Transformer -neuroverkon robustisuutta ja epävarmuuden kvantifioinnin luotettavuutta. Menetelmiä tarkastellaan luonnollisen kielen käsittelyyn liittyvässä tehtävässä, missä neuroverkkona käytetään Googlen tutkijaryhmän kehittämää, Transformer -arkkitehtuuriin perustuvaa, BERT-mallia. Tutkielmassa osoitettiin BERT-mallin olevan verrattain robusti. Mallin suorituskykyä todettiin kuitenkin
voitavan parantaa Gaussista prosessia lisäksi soveltamalla. Merkittävimmät hyödyt todettiin poikkeavien havaintojen tunnistamisessa, missä Gaussisella prosessilla ennusteelle saatava varianssi osoittautui selvästi ennustevoimaisimmaksi mitaksi.
...


Keywords
Metadata
Show full item recordCollections
- Pro gradu -tutkielmat [25543]
Related items
Showing items with similar title or keywords.
-
Bayesian semiparametric long memory models for discretized event data
Chakraborty, Antik; Ovaskainen, Otso; Dunson, David B. (Institute of Mathematical Statistics, 2022)We introduce a new class of semiparametric latent variable models for long memory discretized event data. The proposed methodology is motivated by a study of bird vocalizations in the Amazon rain forest; the timings of ... -
Osakekurssien ennustaminen koneoppimisen menetelmillä
Hoikkala, Kalle (2021)Osakemarkkinoiden ennustaminen ja ennustettavuus on ollut polttava kysymys sijoittajien ja tutkijoiden keskuudessa jo vuosikymmeniä. Tekoälyn suosion kasvun myötä koneoppimisen menetelmistä on pyritty löytämään keinoja ... -
Rejoinder to Comments on Recent Developments in PLS
Evermann, Jöerg; Rönkkö, Mikko (Association for Information Systems, 2023)When we were first invited to write an essay on the use of PLS for CAIS, we wanted to focus on recent developments to help applied IS researchers, and the CAIS community of authors, reviewers, and editors make use of the ... -
Valmistumisaikaan vaikuttavat tekijät : elinaika- ja ryhmittelyanalyysin sovellus
Hästbacka, Heli (2021)Tämän tutkielman tarkoituksena on mallintaa Jyväskylän yliopiston matemaattis-luonnontieteellisen tiedekunnan opiskelijoiden valmistumisaikoja ryhmittelyanalyysin ja elinaika-analyysin keinoin. Valmistumisaikana tarkastellaan ... -
Luonnollisen suomen kielen ymmärtäminen koneellisesti
Lehtomäki, Eerik; Kukkaniemi, Riku (2020)Tässä tutkimuksessa selvitettiin, miten luonnollisen kielen ymmärtämiseen rakennetut teknologiat soveltuvat suomen kielen käsittelyyn. Tutkimusosuuksissa selvisi, että vain harvat teknologioista tukevat suomen kieltä. ...