Transformer -neuroverkon robustisuuden parantaminen Gaussisen prosessin ja neuroverkon yhdistävillä menetelmillä
Tekijät
Päivämäärä
2023Tekijänoikeudet
© The Author(s)
Neuroverkkojen sovellukset ovat yleistyneet viimeisen kymmenen vuoden aikana. Nykyisin neuroverkkoja sovelletaan useilla aloilla, kuten lääketieteellisessä kuvantamisessa ja diagnostiikassa tai itseohjautuvissa autoissa, joilla ennusteen lisäksi tieto tämän uskottavuudesta voi olla kriittistä. Robustisuus ja epävarmuuden luotettava kvantifiointi on tärkeää myös muilla sovellusaloilla erityisesti, kun datan volyymi voi ajaa virheiden kumulatiiviset kustannukset merkittäviksi. On kuitenkin todettu, ettei esimerkiksi neuroverkkojen ennustamia todennäköisyyksiä voida yleisesti pitää luotettavina mittoina ennusteeseen liittyvälle epävarmuudelle.
Neuroverkkojen ennusteen epävarmuuden kvantifioimiseksi ja robustisuuden parantamiseksi on kirjallisuudessa esitetty kymmeniä erilaisia menetelmiä. Yksi tutkimussuunta on neuroverkon ja Gaussisen prosessin yhdistävät menetelmät. Gaussiset prosessit ovat joustavia parametrittomia Bayesiläisiä malleja, jotka voidaan yhdistää neuroverkkoon käytännössä kajoamatta alkuperäiseen malliin tai tämän arkkitehtuuriin. Menetelmien eduksi voidaan lukea ennusteen saaminen piste-estimaatin sijaan jakaumana, mikä mahdollistaa myös varianssin hyödyntämisen epävarmuutta
koskevassa päättelyssä.
Tässä tutkielmassa esitellään kaksi verrattain uutta kirjallisuudessa esitettyä Gaussisen prosessin ja neuroverkon yhdistävää menetelmää sekä tarkastellaan, voidaanko näillä parantaa Transformer -neuroverkon robustisuutta ja epävarmuuden kvantifioinnin luotettavuutta. Menetelmiä tarkastellaan luonnollisen kielen käsittelyyn liittyvässä tehtävässä, missä neuroverkkona käytetään Googlen tutkijaryhmän kehittämää, Transformer -arkkitehtuuriin perustuvaa, BERT-mallia. Tutkielmassa osoitettiin BERT-mallin olevan verrattain robusti. Mallin suorituskykyä todettiin kuitenkin
voitavan parantaa Gaussista prosessia lisäksi soveltamalla. Merkittävimmät hyödyt todettiin poikkeavien havaintojen tunnistamisessa, missä Gaussisella prosessilla ennusteelle saatava varianssi osoittautui selvästi ennustevoimaisimmaksi mitaksi.
...
Asiasanat
Metadata
Näytä kaikki kuvailutiedotKokoelmat
- Pro gradu -tutkielmat [29556]
Lisenssi
Samankaltainen aineisto
Näytetään aineistoja, joilla on samankaltainen nimeke tai asiasanat.
-
Bayesian semiparametric long memory models for discretized event data
Chakraborty, Antik; Ovaskainen, Otso; Dunson, David B. (Institute of Mathematical Statistics, 2022)We introduce a new class of semiparametric latent variable models for long memory discretized event data. The proposed methodology is motivated by a study of bird vocalizations in the Amazon rain forest; the timings of ... -
Osakekurssien ennustaminen koneoppimisen menetelmillä
Hoikkala, Kalle (2021)Osakemarkkinoiden ennustaminen ja ennustettavuus on ollut polttava kysymys sijoittajien ja tutkijoiden keskuudessa jo vuosikymmeniä. Tekoälyn suosion kasvun myötä koneoppimisen menetelmistä on pyritty löytämään keinoja ... -
Luonnollisen kielen käsittelyn mahdollisuudet
Smolander, Kari (1988) -
Rejoinder to Comments on Recent Developments in PLS
Evermann, Jöerg; Rönkkö, Mikko (Association for Information Systems, 2023)When we were first invited to write an essay on the use of PLS for CAIS, we wanted to focus on recent developments to help applied IS researchers, and the CAIS community of authors, reviewers, and editors make use of the ... -
Valmistumisaikaan vaikuttavat tekijät : elinaika- ja ryhmittelyanalyysin sovellus
Hästbacka, Heli (2021)Tämän tutkielman tarkoituksena on mallintaa Jyväskylän yliopiston matemaattis-luonnontieteellisen tiedekunnan opiskelijoiden valmistumisaikoja ryhmittelyanalyysin ja elinaika-analyysin keinoin. Valmistumisaikana tarkastellaan ...
Ellei toisin mainittu, julkisesti saatavilla olevia JYX-metatietoja (poislukien tiivistelmät) saa vapaasti uudelleenkäyttää CC0-lisenssillä.