Konvoluutioneuroverkko - sovelluksena DNA-sekvenssien luokittelu
Authors
Date
2022Copyright
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Luokitteluongelman ratkaisussa tavoitteena on määrätä havainto kuuluvaksi johonkin tiedossa olevaan luokkaan. Erilaisia luokittelumenetelmiä on paljon, mutta erityisesti viime vuosina syväoppimismenetelmät ovat osoittautuneet soveltuvan erinomaisesti luokitteluongelmien ratkaisuksi monissa sovelluksissa. Tässä tutkielmassa esitellään täysin kytketty neuroverkko ja konvoluutioneuroverkko (CNN) luokitteluongelman ratkaisuna sekä sovelletaan CNN:ää hyönteislajien tunnistuksessa, jossa lajit luokitellaan niiden DNA-sekvenssien perusteella.
Neuroverkkojen tarkastelu aloitetaan täysin kytketystä neuroverkosta. Aluksi esitetään neuroverkkojen perusidea, keskeistä termistöä, toiminta luokittelutilanteessa, rakenne sekä neuroverkon parametrien estimointi stokastista gradienttimenetelmää, neuroverkon virhefunktiota ja vastavirta-algoritmia käyttämällä. Vastavirta-algoritmi on laaja kokonaisuus erilaisia toimintoja, joiden tehtävä on päivittää neuroverkon parametrit siten, että neuroverkon virhe minimoituu. Vastavirta-algoritmi monesti ohitetaan sen monimutkaisuuden vuoksi, mutta tässä tutkielmassa se esitetään yksityiskohtaisesti.
CNN:n yhteydessä esitetään ensin kaksi tapaa esikäsitellä aineistoa luokittelua varten: Ensimmäinen tapa liittyy tavallisten kuvien luokitteluun, kun taas toinen tapa liittyy DNA-sekvenssiluokittelun sovellukseen. Näin saadaan kaksi erilaista CNN-luokitinta: yksi- ja kaksiulotteinen CNN. Lisäksi CNN:n yhteydessä esitetään huolellisesti CNN:n rakenne ja sen matemaattiset operaatiot väri- ja harmaasävykuvien sekä DNA-sekvenssien luokittelussa.
Käytetty DNA-sekvenssiaineisto sisältää tuhansia DNA-sekvenssejä tuhansilta eri hyönteislajeilta. Analyysivaiheessa mukaan valitaan vuorollaan sellaiset 10, 100, 500 tai 1000 lajia, joista DNA-sekvenssejä on saatavilla eniten. DNA-sekvenssit esikäsitellään kahdella esitetyllä tavalla, jolloin varsinainen luokittelu tehdään käyttäen sekä yksi- että kaksiulotteista CNN:ää. Luokittelutarkkuuksien ja neuroverkon parametrien estimointiin tarvittavan ajan perusteella yksiulotteinen versio osoittautui paremmaksi DNA-sekvenssien luokittelumenetelmäksi. Luokittelutarkkuudet testiaineistolla nousivat parhaimmillaan noin 95--100 % välille valitusta lajien lukumäärästä riippuen.
...
Keywords
Metadata
Show full item recordCollections
- Pro gradu -tutkielmat [29116]
Related items
Showing items with similar title or keywords.
-
Yleistetyt lineaariset latenttimuuttujamallit – sovelluksena lajiyhteisöjen mallinnus
Kulmala, Markus (2022)Lajiyhteisöjen mallintamiseen liittyvillä menetelmillä pystytään saamaan tietoa ekologisista vuorovaikutussuhteista ja ennustamaan ympäristökovariaattien muutosten vaikutusta lajiyhteisöihin. Tällaiset kysymykset ovat ... -
Tulevaisuuden työkalu metsien suojeluarvon määritykseen? : boreaalisten puulajien tunnistus hyperspektrikuvauksen avulla
Kauniskangas, Laura (2022)Puulajien tunnistusta hyperspektrikuvista, yhdistettynä nykyiseen metsä-inventointiin, pidetään potentiaalisena keinona lisätä metsänhoidon kustannus-tehokkuutta sekä kartoittaa metsien suojelutarpeita kattavasti. Tutkimusta ... -
Darknet-liikenteen analysointi koneoppimisalgoritmeilla
Arikainen, Anna (2023)Tämä pro gradu -tutkielma käsittelee Darknet 2020 -nimisen datasetin testaamista random forest-, gradient boosting- ja logistic regression-algoritmeilla. Tutkimus toteutettiin konstruktiivisena tutkimuksena. Tutkimuksen ... -
Additiivinen sekamalli : sovelluksena Alzheimerin taudin geneettisen riskin vaikutus insuliinin arvoihin
Heinonen, Saara (2022)Tässä tutkielmassa tavoitteena on tutkia Alzheimerin taudin (AD) geneettisen riskin yhteyttä seerumista määritettyyn insuliinipitoisuuteen. AD on aivoja rappeuttava tauti, jonka perinnäistä syytä ei täysin tiedetä. Suurimmassa ... -
Sokean signaalinkäsittelyn menetelmiä : sovelluksena EEG-aineiston analysointi
Mänttäri, Suvi (2011)