Voiko vähästä oppia : koneoppimisen haasteet pienellä aineistolla

Kauppinen, Jussi

dc.contributor.author	Kauppinen, Jussi
dc.date.accessioned	2019-05-17T06:54:29Z
dc.date.available	2019-05-17T06:54:29Z
dc.date.issued	2019
dc.identifier.uri	https://jyx.jyu.fi/handle/123456789/64021
dc.description.abstract	Tämä kandidaatintutkielma käsittelee koneoppimista pienellä aineistolla. Koneoppimisessa kone parantaa suorituskykyään jonkin tietyn tehtävän ratkaisemiseksi itsenäisesti sitä mukaa kun lisää kokemusta tai dataa kertyy. Koneoppimisongelmat voidaan jakaa luokittelu- ja regressio-ongelmiin. Yleensä koneoppimistehtävät vaativat ison aineiston tarkan koneoppimismallin opettamiseksi, mutta usein kattavan aineiston hankkiminen muodostuu ongelmaksi. Tämän tutkielman tavoitteena on käydä läpi minkälaisia ongelmia koneoppimismallin opetuksessa ilmenee kun käytettävissä on pieni aineisto ja esitellä ratkaisuja näihin ongelmiin. Tutkielma tehtiin kirjallisuuskatsauksena. Tutkitut julkaisut käsittelivät edellä mainittuja ongelmia, sekä niihin kehiteltyjä ratkaisuja. Tutkielmassa selvisi, että pienellä aineistolla on haastavampaa opettaa hyvin yleistyvää koneoppimismallia, ja ylisovittumisen välttäminen on vaikeaa. Yleistymisen parantamiseksi esitellään keinotekoista lisädataa generoiva SMOTE-tekniikka, ja ylisovittumista yritetään saada kuriin regularisoinnin avulla	fi
dc.description.abstract	This bachelor’s thesis deals with machine learning with little data. In machine learning, the machine improves its performance to solve a specific task independently as more experience or data accumulates. Machine learning problems can be divided into classification and regression problems. Usually, machine learning tasks require large data to train an accurate machine learning model, but often obtaining large enough data is problematic. The aim of this thesis is to review the problems encountered in training a machine learning model when there is only little data available and solutions to these problems. The thesis was made as a literature review. The publications examined deal with the above-mentioned problems, as well as the solutions developed for them. In the thesis it became clear that it is more challenging to teach a machine learning model that generalizes well with little material, and it is difficult to avoid overfitting. In order to generalize better, we examine SMOTE technology to generate synthetic data and to prevent overfitting we talk about regularization.	en
dc.format.extent	20
dc.language.iso	fi
dc.rights	In Copyright	en
dc.subject.other	luokittelu
dc.subject.other	pieni data
dc.subject.other	pieni aineisto
dc.subject.other	regularisointi
dc.title	Voiko vähästä oppia : koneoppimisen haasteet pienellä aineistolla
dc.type	bachelor thesis
dc.identifier.urn	URN:NBN:fi:jyu-201905172650
dc.type.ontasot	Bachelor's thesis	en
dc.type.ontasot	Kandidaatintyö	fi
dc.contributor.tiedekunta	Informaatioteknologian tiedekunta	fi
dc.contributor.tiedekunta	Faculty of Information Technology	en
dc.contributor.laitos	Informaatioteknologia	fi
dc.contributor.laitos	Information Technology	en
dc.contributor.yliopisto	Jyväskylän yliopisto	fi
dc.contributor.yliopisto	University of Jyväskylä	en
dc.contributor.oppiaine	Tietotekniikka	fi
dc.contributor.oppiaine	Mathematical Information Technology	en
dc.type.coar	http://purl.org/coar/resource_type/c_7a1f
dc.type.publication	bachelorThesis
dc.contributor.oppiainekoodi	602
dc.subject.yso	koneoppiminen
dc.rights.url	https://rightsstatements.org/page/InC/1.0/