Transformer -neuroverkon robustisuuden parantaminen Gaussisen prosessin ja neuroverkon yhdistävillä menetelmillä
Tekijät
Päivämäärä
2023Tekijänoikeudet
© The Author(s)
Neuroverkkojen sovellukset ovat yleistyneet viimeisen kymmenen vuoden aikana. Nykyisin neuroverkkoja sovelletaan useilla aloilla, kuten lääketieteellisessä kuvantamisessa ja diagnostiikassa tai itseohjautuvissa autoissa, joilla ennusteen lisäksi tieto tämän uskottavuudesta voi olla kriittistä. Robustisuus ja epävarmuuden luotettava kvantifiointi on tärkeää myös muilla sovellusaloilla erityisesti, kun datan volyymi voi ajaa virheiden kumulatiiviset kustannukset merkittäviksi. On kuitenkin todettu, ettei esimerkiksi neuroverkkojen ennustamia todennäköisyyksiä voida yleisesti pitää luotettavina mittoina ennusteeseen liittyvälle epävarmuudelle.
Neuroverkkojen ennusteen epävarmuuden kvantifioimiseksi ja robustisuuden parantamiseksi on kirjallisuudessa esitetty kymmeniä erilaisia menetelmiä. Yksi tutkimussuunta on neuroverkon ja Gaussisen prosessin yhdistävät menetelmät. Gaussiset prosessit ovat joustavia parametrittomia Bayesiläisiä malleja, jotka voidaan yhdistää neuroverkkoon käytännössä kajoamatta alkuperäiseen malliin tai tämän arkkitehtuuriin. Menetelmien eduksi voidaan lukea ennusteen saaminen piste-estimaatin sijaan jakaumana, mikä mahdollistaa myös varianssin hyödyntämisen epävarmuutta
koskevassa päättelyssä.
Tässä tutkielmassa esitellään kaksi verrattain uutta kirjallisuudessa esitettyä Gaussisen prosessin ja neuroverkon yhdistävää menetelmää sekä tarkastellaan, voidaanko näillä parantaa Transformer -neuroverkon robustisuutta ja epävarmuuden kvantifioinnin luotettavuutta. Menetelmiä tarkastellaan luonnollisen kielen käsittelyyn liittyvässä tehtävässä, missä neuroverkkona käytetään Googlen tutkijaryhmän kehittämää, Transformer -arkkitehtuuriin perustuvaa, BERT-mallia. Tutkielmassa osoitettiin BERT-mallin olevan verrattain robusti. Mallin suorituskykyä todettiin kuitenkin
voitavan parantaa Gaussista prosessia lisäksi soveltamalla. Merkittävimmät hyödyt todettiin poikkeavien havaintojen tunnistamisessa, missä Gaussisella prosessilla ennusteelle saatava varianssi osoittautui selvästi ennustevoimaisimmaksi mitaksi.
...
Asiasanat
Metadata
Näytä kaikki kuvailutiedotKokoelmat
- Pro gradu -tutkielmat [29740]
Lisenssi
Samankaltainen aineisto
Näytetään aineistoja, joilla on samankaltainen nimeke tai asiasanat.
-
Bayesian semiparametric long memory models for discretized event data
Chakraborty, Antik; Ovaskainen, Otso; Dunson, David B. (Institute of Mathematical Statistics, 2022)We introduce a new class of semiparametric latent variable models for long memory discretized event data. The proposed methodology is motivated by a study of bird vocalizations in the Amazon rain forest; the timings of ... -
Osakekurssien ennustaminen koneoppimisen menetelmillä
Hoikkala, Kalle (2021)Osakemarkkinoiden ennustaminen ja ennustettavuus on ollut polttava kysymys sijoittajien ja tutkijoiden keskuudessa jo vuosikymmeniä. Tekoälyn suosion kasvun myötä koneoppimisen menetelmistä on pyritty löytämään keinoja ... -
Automated content assessment and feedback for Finnish L2 learners in a picture description speaking task
Phan, Nhan; von Zansen, Anna; Kautonen, Maria; Voskoboinik, Ekaterina; Grosz, Tamas; Hilden, Raili; Kurimo, Mikko (International Speech Communication Association, 2024)We propose a framework to address several unsolved challenges in second language (L2) automatic speaking assessment (ASA) and feedback. The challenges include: 1. ASA of visual task completion, 2. automated content grading ... -
CaptainA self-study mobile app for practising speaking : task completion assessment and feedback with generative AI
Phan, Nhan; von Zansen, Anna; Kautonen, Maria; Grosz, Tamas; Kurimo, Mikko (International Speech Communication Association, 2024)We introduce the CaptainA mobile app, designed to meet the needs of second language (L2) learners engaged in self-study of Finnish, with potential applicability to other languages. Our app can provide automatic speaking ... -
Luonnollisen kielen käsittelyn mahdollisuudet
Smolander, Kari (1988)
Ellei toisin mainittu, julkisesti saatavilla olevia JYX-metatietoja (poislukien tiivistelmät) saa vapaasti uudelleenkäyttää CC0-lisenssillä.