dc.contributor.advisor | Kärkkäinen, Salme | |
dc.contributor.author | Moisio, Lasse | |
dc.date.accessioned | 2016-12-19T09:18:27Z | |
dc.date.available | 2016-12-19T09:18:27Z | |
dc.date.issued | 2016 | |
dc.identifier.other | oai:jykdok.linneanet.fi:1644705 | |
dc.identifier.uri | https://jyx.jyu.fi/handle/123456789/52428 | |
dc.description.abstract | Luokitteluanalyysin tyypillinen ongelma on mallin valinta ja/tai muuttujien eli piirteiden valinta. Tavoitteena on estimoida luotettavasti luokitteluvirheen todennäköisyys opetusaineiston avulla - ideaalissa tilanteessa käyttäen riippumatonta testiaineistoa. Tällöin saadaan estimaatti yleistämisvirheelle, joka kuvaa opetusaineistosta estimoidun mallin kykyä ennustaa riippumatonta testiaineistoa. Usein kuitenkin aineiston niukkuudesta johtuen ei voida käyttää erillistä riippumatonta testiaineistoa, jolloin ei myöskään voida estimoida suoraan yleistämisvirhettä.
Tällöin voidaan kuitenkin käyttää otoksen uudelleenkäyttömenetelmiä, joista käytetyimmät lienevät ristiinvalidointi ja bootstrap. Menetelmien etuna on, että ne estimoivat hyvin odotettua yleistämisvirhettä, joka ei rajoitu vain tiettyyn opetusaineistoon, vaan on odotusarvo yli kaikkien mahdollisten opetusaineistojen. Odotettu yleistämisvirhe on osoittautunutkin useiden tutkimusten mukaan hyödylliseksi työkaluksi tilastollisessa analyysissa.
Luokitteluvirheen todennäköisyyden arviointiin liittyy olennaisesti myös käsite Bayes-virhe, jolla tarkoitetaan pienintä saavutettavissa olevaa luokitteluvirheen todennäköisyyttä. Tässä työssä piirteitä mallinnetaan p-ulotteisella normaalijakaumalla ja rajaudutaan kvadraattiseen luokittelijaan (QDA). Tyypillisesti Bayes-virhettä ei tiedetä, ja sen laskeminen analyyttisesti on usein haastavaa tai mahdotonta. Tässä työssä esitetään menetelmä Bayes-virheen arvioimiseksi Monte Carlo -integroinnilla.
Aiemmissa tutkimuksissa otoksen uudelleenkäyttömenetelmiä on verrattu odotettuun yleistämisvirheeseen, kuten myös tehdään tässä työssä. Lisäksi otoksen uudelleenkäyttömenetelmiä verrataan Bayes-virheeseen. Parhaat tulokset saavutettiin .632-bootstrap-estimaattorilla ja .632+-bootstrap-estimaattorilla sekä toistetulla ristiinvalidoinnilla K:n arvolla 10. Toistettu ristiinvalidointi K:n arvoilla 5 ja 10 ja aineiston jako toistuvasti opetus- ja testiaineistoksi jakosuhteilla 80/20 ja 90/10 tuottivat likimain yhtä hyviä tuloksia.
Menetelmien vertailu toteutettiin simulointikokeella, joka perustuu 50 luokkaa ja 64 piirrettä sisältävään pohjaeläinaineistoon. Simulointikokeessa käytettävät luokkien (2-8) ja piirteiden (2-50) lukumäärät ovat suurempia kuin aiemmissa tutkimuksissa on yleensä käytetty. | fi |
dc.format.extent | 1 verkkoaineisto (55 sivua) | |
dc.format.mimetype | application/pdf | |
dc.language.iso | fin | |
dc.rights | Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty. | fi |
dc.rights | This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited. | en |
dc.subject.other | Bayes-virhe | |
dc.subject.other | yleistämisvirhe | |
dc.subject.other | luokitteluvirhe | |
dc.subject.other | QDA | |
dc.subject.other | bootstrap | |
dc.subject.other | ristiinvalidointi | |
dc.subject.other | aineiston jako | |
dc.title | Luokittelumenetelmän evaluointimenetelmien vertailu pienten aineistojen tapauksessa simulointikokein | |
dc.identifier.urn | URN:NBN:fi:jyu-201612195151 | |
dc.type.ontasot | Pro gradu -tutkielma | fi |
dc.type.ontasot | Master’s thesis | en |
dc.contributor.tiedekunta | Matemaattis-luonnontieteellinen tiedekunta | fi |
dc.contributor.tiedekunta | Faculty of Sciences | en |
dc.contributor.laitos | Matematiikan ja tilastotieteen laitos | fi |
dc.contributor.laitos | Department of Mathematics and Statistics | en |
dc.contributor.yliopisto | University of Jyväskylä | en |
dc.contributor.yliopisto | Jyväskylän yliopisto | fi |
dc.contributor.oppiaine | Tilastotiede | fi |
dc.contributor.oppiaine | Statistics | en |
dc.date.updated | 2016-12-19T09:18:27Z | |
dc.rights.accesslevel | openAccess | fi |
dc.type.publication | masterThesis | |
dc.contributor.oppiainekoodi | 4043 | |
dc.subject.yso | bayesilainen menetelmä | |
dc.subject.yso | validointi | |
dc.format.content | fulltext | |
dc.type.okm | G2 | |