Konvoluutioneuroverkko - sovelluksena DNA-sekvenssien luokittelu
Authors
Date
2022Copyright
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Luokitteluongelman ratkaisussa tavoitteena on määrätä havainto kuuluvaksi johonkin tiedossa olevaan luokkaan. Erilaisia luokittelumenetelmiä on paljon, mutta erityisesti viime vuosina syväoppimismenetelmät ovat osoittautuneet soveltuvan erinomaisesti luokitteluongelmien ratkaisuksi monissa sovelluksissa. Tässä tutkielmassa esitellään täysin kytketty neuroverkko ja konvoluutioneuroverkko (CNN) luokitteluongelman ratkaisuna sekä sovelletaan CNN:ää hyönteislajien tunnistuksessa, jossa lajit luokitellaan niiden DNA-sekvenssien perusteella.
Neuroverkkojen tarkastelu aloitetaan täysin kytketystä neuroverkosta. Aluksi esitetään neuroverkkojen perusidea, keskeistä termistöä, toiminta luokittelutilanteessa, rakenne sekä neuroverkon parametrien estimointi stokastista gradienttimenetelmää, neuroverkon virhefunktiota ja vastavirta-algoritmia käyttämällä. Vastavirta-algoritmi on laaja kokonaisuus erilaisia toimintoja, joiden tehtävä on päivittää neuroverkon parametrit siten, että neuroverkon virhe minimoituu. Vastavirta-algoritmi monesti ohitetaan sen monimutkaisuuden vuoksi, mutta tässä tutkielmassa se esitetään yksityiskohtaisesti.
CNN:n yhteydessä esitetään ensin kaksi tapaa esikäsitellä aineistoa luokittelua varten: Ensimmäinen tapa liittyy tavallisten kuvien luokitteluun, kun taas toinen tapa liittyy DNA-sekvenssiluokittelun sovellukseen. Näin saadaan kaksi erilaista CNN-luokitinta: yksi- ja kaksiulotteinen CNN. Lisäksi CNN:n yhteydessä esitetään huolellisesti CNN:n rakenne ja sen matemaattiset operaatiot väri- ja harmaasävykuvien sekä DNA-sekvenssien luokittelussa.
Käytetty DNA-sekvenssiaineisto sisältää tuhansia DNA-sekvenssejä tuhansilta eri hyönteislajeilta. Analyysivaiheessa mukaan valitaan vuorollaan sellaiset 10, 100, 500 tai 1000 lajia, joista DNA-sekvenssejä on saatavilla eniten. DNA-sekvenssit esikäsitellään kahdella esitetyllä tavalla, jolloin varsinainen luokittelu tehdään käyttäen sekä yksi- että kaksiulotteista CNN:ää. Luokittelutarkkuuksien ja neuroverkon parametrien estimointiin tarvittavan ajan perusteella yksiulotteinen versio osoittautui paremmaksi DNA-sekvenssien luokittelumenetelmäksi. Luokittelutarkkuudet testiaineistolla nousivat parhaimmillaan noin 95--100 % välille valitusta lajien lukumäärästä riippuen.
...


Keywords
Metadata
Show full item recordCollections
- Pro gradu -tutkielmat [27645]
Related items
Showing items with similar title or keywords.
-
Yleistetyt lineaariset latenttimuuttujamallit – sovelluksena lajiyhteisöjen mallinnus
Kulmala, Markus (2022)Lajiyhteisöjen mallintamiseen liittyvillä menetelmillä pystytään saamaan tietoa ekologisista vuorovaikutussuhteista ja ennustamaan ympäristökovariaattien muutosten vaikutusta lajiyhteisöihin. Tällaiset kysymykset ovat ... -
Sokean signaalinkäsittelyn menetelmiä : sovelluksena EEG-aineiston analysointi
Mänttäri, Suvi (2011) -
Additiivinen sekamalli : sovelluksena Alzheimerin taudin geneettisen riskin vaikutus insuliinin arvoihin
Heinonen, Saara (2022)Tässä tutkielmassa tavoitteena on tutkia Alzheimerin taudin (AD) geneettisen riskin yhteyttä seerumista määritettyyn insuliinipitoisuuteen. AD on aivoja rappeuttava tauti, jonka perinnäistä syytä ei täysin tiedetä. Suurimmassa ... -
Reitinhakualgoritmien käyttö videopeleissä
Keränen, Emil (2018)Reitinhaku on sekä videopeleissä että tekoälyn ja robotiikan puolella hyvin tuttu ongelma. Sen tutkimiseen on käytetty viime vuosina paljon resursseja lisääntyneen tekoälykiinnostuksen vuoksi. Tässä tutkielmassa keskitytään ... -
Keinotekoisten neuroverkkojen hyödyntäminen automaattisessa lintujen tunnistamisessa äänen perusteella
Sintonen, Lauri (2018)Tässä tutkielmassa esitellään keinotekoisten neuroverkkojen hyödyntämistä automaattisessa lintujen tunnistamisessa äänen perusteella. Keskeisenä motiivina ovat sekä neuroverkkoihin tutustuminen että lintujen automaattisen ...