MuZero ja mallipohjainen vahvistusoppiminen

Leinonen, Hertta

dc.contributor.advisor	Annala, Leevi
dc.contributor.author	Leinonen, Hertta
dc.date.accessioned	2021-05-12T05:51:42Z
dc.date.available	2021-05-12T05:51:42Z
dc.date.issued	2021
dc.identifier.uri	https://jyx.jyu.fi/handle/123456789/75464
dc.description.abstract	Tutkielmassa pyritään selvittämään, mitä mallipohjainen vahvistusoppiminen tarkoittaa, ja kuinka sitä hyödynnetään MuZero-nimisen tekoälyn algoritmissa. MuZeroa on testattu menestyksekkäästi sekä klassisissa lautapeleissä, että visuaalisesti monimutkaisissa Atari –peleissä. MuZero yhdistää toiminnassaan syvän mallipohjaisen vahvistusoppimisen, sekä Monte Carlo -puuhaun, saavuttaen kyvyn suoriutua keskenään hyvin erilaisista peleistä tuntematta niiden sääntöjä entuudestaan.	fi
dc.description.abstract	The aim of this thesis is to find out what model-based reinforcement learning is and how it is utilized in MuZero’s algorithm. MuZero has been successfully tested in both classic board games and visually complex Atari games. MuZero combines deep model-based reinforcement learning with Monte Carlo tree search, achieving the ability to play different games without knowing their rules.	en
dc.format.extent	26
dc.language.iso	fi
dc.subject.other	MuZero
dc.subject.other	syväoppiminen
dc.subject.other	mallipohjainen vahvistusoppiminen
dc.subject.other	Monte Carlo -puuhaku
dc.subject.other	DeepMind
dc.title	MuZero ja mallipohjainen vahvistusoppiminen
dc.identifier.urn	URN:NBN:fi:jyu-202105122744
dc.type.ontasot	Bachelor's thesis	en
dc.type.ontasot	Kandidaatintyö	fi
dc.contributor.tiedekunta	Informaatioteknologian tiedekunta	fi
dc.contributor.tiedekunta	Faculty of Information Technology	en
dc.contributor.laitos	Informaatioteknologia	fi
dc.contributor.laitos	Information Technology	en
dc.contributor.yliopisto	Jyväskylän yliopisto	fi
dc.contributor.yliopisto	University of Jyväskylä	en
dc.contributor.oppiaine	Tietotekniikka	fi
dc.contributor.oppiaine	Mathematical Information Technology	en
dc.rights.copyright	Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.	fi
dc.rights.copyright	This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.	en
dc.contributor.oppiainekoodi	602
dc.subject.yso	tekoäly
dc.subject.yso	algoritmit
dc.subject.yso	Monte Carlo -menetelmät
dc.subject.yso	tietotekniikka
dc.subject.yso	pelit
dc.subject.yso	koneoppiminen
dc.subject.yso	lautapelit

Aineistoon kuuluvat tiedostot

Nimi:: URN:NBN:fi:jyu-202105122744.pdf
Koko:: 366.2Kb
Tiedostomuoto:: PDF

Katso/Avaa

Aineisto kuuluu seuraaviin kokoelmiin

Kandidaatintutkielmat [5273]

Näytä suppeat kuvailutiedot

MuZero ja mallipohjainen vahvistusoppiminen

Aineistoon kuuluvat tiedostot

Aineisto kuuluu seuraaviin kokoelmiin

Samankaltainen aineisto

AnatomySketch : An Extensible Open-Source Software Platform for Medical Image Analysis Algorithm Development ﻿

Automatic social distance estimation for photographic studies : Performance evaluation, test benchmark, and algorithm ﻿

Tilinpäätöspetosten havaitseminen algortimipohjaisten menetelmien avulla ﻿

DL_Track : Automated analysis of muscle architecture from B-mode ultrasonography images using deep learning ﻿

Between- and within-day repeatability of markerless 2D motion analysis using deep neural networks ﻿

AnatomySketch : An Extensible Open-Source Software Platform for Medical Image Analysis Algorithm Development

Automatic social distance estimation for photographic studies : Performance evaluation, test benchmark, and algorithm

Tilinpäätöspetosten havaitseminen algortimipohjaisten menetelmien avulla

DL_Track : Automated analysis of muscle architecture from B-mode ultrasonography images using deep learning

Between- and within-day repeatability of markerless 2D motion analysis using deep neural networks