Avoimen lähdekoodin projektien kehitystehtävien valmistumisajan arviointi koneoppimismenetelmin

Holopainen, Lauri

dc.contributor.advisor	Isomöttönen, Ville
dc.contributor.author	Holopainen, Lauri
dc.date.accessioned	2022-02-28T07:09:27Z
dc.date.available	2022-02-28T07:09:27Z
dc.date.issued	2022
dc.identifier.uri	https://jyx.jyu.fi/handle/123456789/79975
dc.description.abstract	Ohjelmistovirheiden korjausajan arviointi on perinteisesti tehty asiantuntija-arvioinnin perusteella. Automaattisia menetelmiä korjausajan ennustamiseksi on kehitetty lähinnä keskittyen yksittäisiin ohjelmistoprojekteihin. Tässä tutkimuksessa replikoitiin ohjelmistoprojektien kehitystehtävien valmistumisaikoja koneoppimismenetelmin ennustava tutkimus, ja tutkittiin saman menetelmän soveltuvuutta virheraporttien sulkeutumisaikojen ennustamiseen. Koneoppimismenetelmänä käytettiin Random Forest -luokittimia. Aineisto käsitti yli 39 tuhatta avoimesti saatavilla olevaa ohjelmistoprojektia, lähes 13 miljoonaa kehitystehtävää ja yli 1.5 miljoonaa virheraporttia. Replikaatiotutkimuksessa laajempi opetus ja testausdata tuottivat hieman alkuperäistä tutkimusta heikommat tulokset, mutta uudet havainnot kuitenkin vahvistivat alkuperäisiä huomioita. Virheraporttien sulkeutumisajan ennustamisen huomattiin olevat haastavampi tehtävä kuin yleisempi kehitystehtävän valmistumisajan arviointi, ja menetelmää voisi kehittää tutkimalla luokittimen kannalta hyödyllisimpiä muuttujia. Tulosten perusteella näyttäisi siltä, että tekoälyn sovellettavuus yksittäisiä virheraportteja tarkastellessa on vielä heikkoa, mutta siitä voi olla hyötyä suuria tietomääriä käsiteltäessä.	fi
dc.description.abstract	Estimating the resolution time of software defects has usually been done based on expert knowledge. Automatic methods to predict the resolution time has been done mostly by focusing on a few software projects. In this study, a replication of a previous study about predicting the issue resolution time of software projects with machine learning methods was performed, and the suitability of the method to predict the resolution time of defect reports was explored. Random Forest classification was the implemented machine learning method. The data set consisted of over 39 thousand publicly available software projects, almost 13 million issues and over 1.5 million defect reports. Larger data set of the replication produced slightly weaker results compared to the original paper, but new observations verified the points of the original study. Predicting the resolution time of defect reports turned out to be a harder task than the more general task of predicting resolution time of an issue. The method could be improved by studying the most useful features for the classifier. On the basis of the results, it would seem that the applicability of artificial intelligence when inspecting isolated defect reports is poor, but it could be useful when handling large data collections.	en
dc.format.extent	70
dc.format.mimetype	application/pdf
dc.language.iso	fi
dc.subject.other	ohjelmistovirhe
dc.subject.other	virheraportti
dc.title	Avoimen lähdekoodin projektien kehitystehtävien valmistumisajan arviointi koneoppimismenetelmin
dc.identifier.urn	URN:NBN:fi:jyu-202202281702
dc.type.ontasot	Pro gradu -tutkielma	fi
dc.type.ontasot	Master’s thesis	en
dc.contributor.tiedekunta	Informaatioteknologian tiedekunta	fi
dc.contributor.tiedekunta	Faculty of Information Technology	en
dc.contributor.laitos	Informaatioteknologia	fi
dc.contributor.laitos	Information Technology	en
dc.contributor.yliopisto	Jyväskylän yliopisto	fi
dc.contributor.yliopisto	University of Jyväskylä	en
dc.contributor.oppiaine	Tietotekniikka	fi
dc.contributor.oppiaine	Mathematical Information Technology	en
dc.rights.copyright	Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.	fi
dc.rights.copyright	This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.	en
dc.type.publication	masterThesis
dc.contributor.oppiainekoodi	602
dc.subject.yso	ohjelmistokehitys
dc.subject.yso	avoin lähdekoodi
dc.subject.yso	koneoppiminen
dc.subject.yso	tiedonlouhinta
dc.format.content	fulltext
dc.type.okm	G2

Aineistoon kuuluvat tiedostot

Nimi:: URN:NBN:fi:jyu-202202281702.pdf
Koko:: 474.5Kb
Tiedostomuoto:: PDF

Katso/Avaa

Aineisto kuuluu seuraaviin kokoelmiin

Pro gradu -tutkielmat [29564]

Näytä suppeat kuvailutiedot

Avoimen lähdekoodin projektien kehitystehtävien valmistumisajan arviointi koneoppimismenetelmin

Aineistoon kuuluvat tiedostot

Aineisto kuuluu seuraaviin kokoelmiin

Samankaltainen aineisto

Avoimen lähdekoodin toiminnanohjausjärjestelmän haasteet organisaatiolle : case Pupesoft ﻿

Avoimen lähdekoodin hyödyt ohjelmistoyrityksissä ﻿

Avoimen lähdekoodin UML-mallinnusvälineiden vertailu pienten ohjelmistoprojektien tarpeisiin ﻿

Organisaation tiedonhaku : tarkastelussa avoimen lähdekoodin ratkaisut ﻿

Avoimen lähdekoodin alustojen sopivuus älykotiin ﻿

Avoimen lähdekoodin toiminnanohjausjärjestelmän haasteet organisaatiolle : case Pupesoft

Avoimen lähdekoodin hyödyt ohjelmistoyrityksissä

Avoimen lähdekoodin UML-mallinnusvälineiden vertailu pienten ohjelmistoprojektien tarpeisiin

Organisaation tiedonhaku : tarkastelussa avoimen lähdekoodin ratkaisut

Avoimen lähdekoodin alustojen sopivuus älykotiin