MuZero ja mallipohjainen vahvistusoppiminen
Tekijät
Päivämäärä
2021Tekijänoikeudet
Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.
Tutkielmassa pyritään selvittämään, mitä mallipohjainen vahvistusoppiminen tarkoittaa, ja kuinka sitä hyödynnetään MuZero-nimisen tekoälyn algoritmissa. MuZeroa on testattu menestyksekkäästi sekä klassisissa lautapeleissä, että visuaalisesti monimutkaisissa Atari –peleissä. MuZero yhdistää toiminnassaan syvän mallipohjaisen vahvistusoppimisen, sekä Monte Carlo -puuhaun, saavuttaen kyvyn suoriutua keskenään hyvin erilaisista peleistä tuntematta niiden sääntöjä entuudestaan. The aim of this thesis is to find out what model-based reinforcement learning is and how it is utilized in MuZero’s algorithm. MuZero has been successfully tested in both classic board games and visually complex Atari games. MuZero combines deep model-based reinforcement learning with Monte Carlo tree search, achieving the ability to play different games without knowing their rules.
Asiasanat
Metadata
Näytä kaikki kuvailutiedotKokoelmat
- Kandidaatintutkielmat [5333]
Samankaltainen aineisto
Näytetään aineistoja, joilla on samankaltainen nimeke tai asiasanat.
-
AnatomySketch : An Extensible Open-Source Software Platform for Medical Image Analysis Algorithm Development
Zhuang, Mingrui; Chen, Zhonghua; Wang, Hongkai; Tang, Hong; He, Jiang; Qin, Bobo; Yang, Yuxin; Jin, Xiaoxian; Yu, Mengzhu; Jin, Baitao; Li, Taijing; Kettunen, Lauri (Springer, 2022)The development of medical image analysis algorithm is a complex process including the multiple sub-steps of model training, data visualization, human–computer interaction and graphical user interface (GUI) construction. ... -
Automatic social distance estimation for photographic studies : Performance evaluation, test benchmark, and algorithm
Seker, Mert; Männistö, Anssi; Iosifidis, Alexandros; Raitoharju, Jenni (Elsevier, 2022)The social distancing regulations introduced to slow down the spread of COVID-19 virus directly affect a basic form of non-verbal communication, and there may be longer term impacts on human behavior and culture that remain ... -
Between- and within-day repeatability of markerless 2D motion analysis using deep neural networks
Romppanen, Vesa (2021)The purpose of this study was to evaluate kinematic analysis repeatability by deep learning approach in countermovement jump. Seventy athletes (39 women, 31 men) performed two maximal countermovement jumps in either one ... -
Darknet-liikenteen analysointi koneoppimisalgoritmeilla
Arikainen, Anna (2023)Tämä pro gradu -tutkielma käsittelee Darknet 2020 -nimisen datasetin testaamista random forest-, gradient boosting- ja logistic regression-algoritmeilla. Tutkimus toteutettiin konstruktiivisena tutkimuksena. Tutkimuksen ... -
Tilinpäätöspetosten havaitseminen algoritmipohjaisten menetelmien avulla
Kokko, Santtu (2024)Tilinpäätöstietoja koskevat petokset ovat yksi talouspetosten merkittävimmistä ja huomattavimmista petosmuodoista. Tilinpäätöspetoksia voidaan pitää erittäin merkittävänä taloudellisen petoksen tyyppinä, koska niiden ...
Ellei toisin mainittu, julkisesti saatavilla olevia JYX-metatietoja (poislukien tiivistelmät) saa vapaasti uudelleenkäyttää CC0-lisenssillä.