Luokitteluvirheen estimaattoreiden ja luokittelumenetelmien vertailu

Abstract
Tutkimuksessa pohjaeläinaineiston pohjalta haluttiin simuloida yksilöitä, joita ryhdyttiin luokittelemaan eri luokittelumenetelmillä. Tarkastelun kohteena oli, miten luokittelumenetelmät vertailevat keskenään normaalijakautuneisuusoletuksen ollessa voimassa ja miten eri estimaattorien tulokset vertautuvat keskenään. Tavoitteena oli estimoida yleistämisvirhettä. Kun mallissa on kaksi luokkaa ja kaksi piirettä otoskoon ollessa 50, havaittiin kvadraattisen luokittelijan olevan optimi normaalijakautunaisuusoletuksella tuottaessa pienimpiä virheitä. Lähimmäksi kvadraattisen luokittelijan tuloksia pääsi lineaarinen luokittelija. Vertaillessa luokittelijoita huonoiten suoriutui lähinaapurinmenetelmä. Erot lineaarisen luokittelijan ja tukivektorikoneiden välillä eivät olleet suuria, vaikkakin lineaarisen luokittelijanvaihtelu oli pienempää. Kun otoskoko oli 500 ja mallit monimutkastuivat sisältäen 8 luokkaa ja 8 piirrettä, suoriutui lineaarinen luokittelija edelleen toisiksi parhaiten kvadraattisen luokittelijan antaessa pienimmät virheet. Neuroverkot ja lähinaapurinmenetelmä havaittiin suoriutuvan huonoiten. Tukivektorikone lineaarisella ytimellä suoriutui sädeperusteista paremmin ja myös sen vaihtelu pysyi pienempänä. Kolmannessa tapauksessa, missä luokkia oli 50 ja piirteitä 8 otoskoon ollessa 10000, suoriutui lähinaapurinmenetelmä edelleen muita menetelmiä huonommin. Alhaisimmat virheet olivat edelleen kvadraattisella luokittelijalla, mutta toiseksi parhaimmat tulokset tuotti satunnaismetsä. Estimaattoreiden tulokset vaihtelivat tapauskohtaisesti. Toistuva jako opetus- ja testiaineistoksi jaolla 90/10, ristiinvalidointi arvolla K=N, sekä Err(.632) havaittiin useasti eroavan vähiten yleistämisvirheestä. Toisaalta Err (.632) havaittiin myös useasti aliestimoimassa yleistämisvirhettä. Huonoiten estimaattoreista suoriutuivat toistuva jako opetus- ja testiaineistoksi 50-50-jaolla, Err (1), sekä ristiinvalidointi arvolla K = 2.
Main Author
Format
Theses Master thesis
Published
2023
Subjects
The permanent address of the publication
https://urn.fi/URN:NBN:fi:jyu-202306083598Käytä tätä linkitykseen.
Language
Finnish
License
In CopyrightOpen Access
Copyright© The Author(s)

Share