Natural language generation methods on small datasets

Abstract
Tämän Pro gradu -tutkielman tavoitteena on tutkia takaisinkytkettyjen neuroverkkojen (RNN) käyttöä luonnollisen kielen generointiin pienillä tietoaineistoilla. Pieni tietoaineisto luodaan keräämällä tekstiä laulun sanoista, ja kaksi mallia, sanatason RNN ja merkkitason RNN, rakennetaan luonnollisen kielen generoimista varten. Mallien suorituskykyä verrataan generoidun tekstin laadun ja tulosteen monimuotoisuuden perusteella ja tarkastellaan eri hyperparametrien vaikutusta mallien suorituskykyyn. Havaitaan, että sanatason RNN luo koherentimpaa tekstiä kuin merkkitason RNN malli.

This thesis studies the use of recurrent neural networks (RNNs) for natural language generation on small datasets. A small dataset is created by collecting text on song lyrics, and two models, a word-level RNN and a character-level RNN, are built for natural language generation. The performance of the models is compared based on the quality of generated text and the diversity of the output, and the impact of different hyperparameters on the models' performance is explored. Word-level model is found to outperform the character-level model in generating coherent sentences.
Main Author
Format
Theses Master thesis
Published
2023
Subjects
The permanent address of the publication
https://urn.fi/URN:NBN:fi:jyu-202306163904Use this for linking
Language
English
License
In Copyright
Tekijä ei ole antanut lupaa avoimeen julkaisuun, joten aineisto on luettavissa vain Jyväskylän yliopiston kirjaston arkistotyösemalta. Ks. https://kirjasto.jyu.fi/kokoelmat/arkistotyoasema..
Copyright© The Author(s)

Share