dc.contributor.advisor | Annala, Leevi | |
dc.contributor.author | Leinonen, Hertta | |
dc.date.accessioned | 2021-05-12T05:51:42Z | |
dc.date.available | 2021-05-12T05:51:42Z | |
dc.date.issued | 2021 | |
dc.identifier.uri | https://jyx.jyu.fi/handle/123456789/75464 | |
dc.description.abstract | Tutkielmassa pyritään selvittämään, mitä mallipohjainen vahvistusoppiminen tarkoittaa, ja kuinka sitä hyödynnetään MuZero-nimisen tekoälyn algoritmissa. MuZeroa on testattu menestyksekkäästi sekä klassisissa lautapeleissä, että visuaalisesti monimutkaisissa Atari –peleissä. MuZero yhdistää toiminnassaan syvän mallipohjaisen vahvistusoppimisen, sekä Monte Carlo -puuhaun, saavuttaen kyvyn suoriutua keskenään hyvin erilaisista peleistä tuntematta niiden sääntöjä entuudestaan. | fi |
dc.description.abstract | The aim of this thesis is to find out what model-based reinforcement learning is and how it is utilized in MuZero’s algorithm. MuZero has been successfully tested in both classic board games and visually complex Atari games. MuZero combines deep model-based reinforcement learning with Monte Carlo tree search, achieving the ability to play different games without knowing their rules. | en |
dc.format.extent | 26 | |
dc.language.iso | fi | |
dc.subject.other | MuZero | |
dc.subject.other | syväoppiminen | |
dc.subject.other | mallipohjainen vahvistusoppiminen | |
dc.subject.other | Monte Carlo -puuhaku | |
dc.subject.other | DeepMind | |
dc.title | MuZero ja mallipohjainen vahvistusoppiminen | |
dc.identifier.urn | URN:NBN:fi:jyu-202105122744 | |
dc.type.ontasot | Bachelor's thesis | en |
dc.type.ontasot | Kandidaatintyö | fi |
dc.contributor.tiedekunta | Informaatioteknologian tiedekunta | fi |
dc.contributor.tiedekunta | Faculty of Information Technology | en |
dc.contributor.laitos | Informaatioteknologia | fi |
dc.contributor.laitos | Information Technology | en |
dc.contributor.yliopisto | Jyväskylän yliopisto | fi |
dc.contributor.yliopisto | University of Jyväskylä | en |
dc.contributor.oppiaine | Tietotekniikka | fi |
dc.contributor.oppiaine | Mathematical Information Technology | en |
dc.rights.copyright | Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty. | fi |
dc.rights.copyright | This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited. | en |
dc.contributor.oppiainekoodi | 602 | |
dc.subject.yso | tekoäly | |
dc.subject.yso | algoritmit | |
dc.subject.yso | Monte Carlo -menetelmät | |
dc.subject.yso | tietotekniikka | |
dc.subject.yso | pelit | |
dc.subject.yso | koneoppiminen | |
dc.subject.yso | lautapelit | |