Luokittelumenetelmän evaluointimenetelmien vertailu pienten aineistojen tapauksessa simulointikokein
Luokitteluanalyysin tyypillinen ongelma on mallin valinta ja/tai muuttujien eli piirteiden valinta. Tavoitteena on estimoida luotettavasti luokitteluvirheen todennäköisyys opetusaineiston avulla - ideaalissa tilanteessa käyttäen riippumatonta testiaineistoa. Tällöin saadaan estimaatti yleistämisvirheelle, joka kuvaa opetusaineistosta estimoidun mallin kykyä ennustaa riippumatonta testiaineistoa. Usein kuitenkin aineiston niukkuudesta johtuen ei voida käyttää erillistä riippumatonta testiaineistoa, jolloin ei myöskään voida estimoida suoraan yleistämisvirhettä.
Tällöin voidaan kuitenkin käyttää otoksen uudelleenkäyttömenetelmiä, joista käytetyimmät lienevät ristiinvalidointi ja bootstrap. Menetelmien etuna on, että ne estimoivat hyvin odotettua yleistämisvirhettä, joka ei rajoitu vain tiettyyn opetusaineistoon, vaan on odotusarvo yli kaikkien mahdollisten opetusaineistojen. Odotettu yleistämisvirhe on osoittautunutkin useiden tutkimusten mukaan hyödylliseksi työkaluksi tilastollisessa analyysissa.
Luokitteluvirheen todennäköisyyden arviointiin liittyy olennaisesti myös käsite Bayes-virhe, jolla tarkoitetaan pienintä saavutettavissa olevaa luokitteluvirheen todennäköisyyttä. Tässä työssä piirteitä mallinnetaan p-ulotteisella normaalijakaumalla ja rajaudutaan kvadraattiseen luokittelijaan (QDA). Tyypillisesti Bayes-virhettä ei tiedetä, ja sen laskeminen analyyttisesti on usein haastavaa tai mahdotonta. Tässä työssä esitetään menetelmä Bayes-virheen arvioimiseksi Monte Carlo -integroinnilla.
Aiemmissa tutkimuksissa otoksen uudelleenkäyttömenetelmiä on verrattu odotettuun yleistämisvirheeseen, kuten myös tehdään tässä työssä. Lisäksi otoksen uudelleenkäyttömenetelmiä verrataan Bayes-virheeseen. Parhaat tulokset saavutettiin .632-bootstrap-estimaattorilla ja .632+-bootstrap-estimaattorilla sekä toistetulla ristiinvalidoinnilla K:n arvolla 10. Toistettu ristiinvalidointi K:n arvoilla 5 ja 10 ja aineiston jako toistuvasti opetus- ja testiaineistoksi jakosuhteilla 80/20 ja 90/10 tuottivat likimain yhtä hyviä tuloksia.
Menetelmien vertailu toteutettiin simulointikokeella, joka perustuu 50 luokkaa ja 64 piirrettä sisältävään pohjaeläinaineistoon. Simulointikokeessa käytettävät luokkien (2-8) ja piirteiden (2-50) lukumäärät ovat suurempia kuin aiemmissa tutkimuksissa on yleensä käytetty.
...
Asiasanat
Metadata
Näytä kaikki kuvailutiedotKokoelmat
- Pro gradu -tutkielmat [29556]
Samankaltainen aineisto
Näytetään aineistoja, joilla on samankaltainen nimeke tai asiasanat.
-
Puuttuvan tiedon käsittely aivosähkökäyrämittauksissa
Era, Lauri (2016)Aivosähkökäyrämittaukset ovat tyypillisesti hyvin työläitä ja pitkäkestoisia. Näiden seikkojen johdosta otoskoot ovat usein pieniä. Lisäksi osa koehenkilöistä päätyy lopettamaan mittaukset kesken, tai ei jaksa keskittyä ... -
Bayesian Kelly criterion as an allocation strategy in Finnish stock markets
Heikkinen, Risto (2020)Kellyn kriteeriksi kutsutaan sijoitusstrategiaa, jossa tavoitteena on varallisuuden kasvuvauhdin maksimointi pitkällä ajanjaksolla. Sen alkuperäisen version soveltamiseen liittyy heikkouksia kuten suuri varallisuuden ... -
Valkosolupitoisuuksien bayesilainen mallintaminen lasten leukemian ylläpitohoidossa
Karppinen, Santeri (2018)Lasten akuutin lymfoblastileukemian ylläpitovaiheen hoidossa tehtävät lääkeannostuspäätökset pohjataan nykyisin potilaan veren valkosolupitoisuuteen, joka on hoidon tehokkuudesta kertova tekijä. Potilaalle sopiva lääkeannostus ... -
Price Optimization Combining Conjoint Data and Purchase History : A Causal Modeling Approach
Valkonen, Lauri; Tikka, Santtu; Helske, Jouni; Karvanen, Juha (University of Pennsylvania Press, 2024)Pricing decisions of companies require an understanding of the causal effect of a price change on the demand. When real-life pricing experiments are infeasible, data-driven decision-making must be based on alternative data ... -
Bayesian applications in dynamic econometric models
Luoto, Jani (University of Jyväskylä, 2009)The purpose of this thesis is to provide a few new ideas to the field of Bayesian econometrics. In particular, the focus of the thesis is on analyzing dynamic econometric models. In the first essay, we provide an easily ...
Ellei toisin mainittu, julkisesti saatavilla olevia JYX-metatietoja (poislukien tiivistelmät) saa vapaasti uudelleenkäyttää CC0-lisenssillä.