Few-shot learning for speaker recognition
2021:135 | 2022:166 | 2023:132 | 2024:124 | 2025:6
Tutkielman tavoitteena on vertailla uusimpia koneoppimiseen pohjautuvia menetelmiä puhujan tunnistamiseen vähäisellä datan määrällä. Puhujan tunnistamisessa tavoitteena on tunnistaa eri puhujat äänidatasta, sen käyttötarkoituksiin sisältyy mm. puhujan diarioiminen ja biometrinen tunnistus äänen avulla. Tutkielma rajoittuu puhujan tapaukseen, jossa käytettävissä on kaksi lyhyttä nauhoitetta, joko yhdeltä tai kahdelta, ennestään tuntemattomalta puhujalta. Joiden pohjalta pyritään tunnistamaan, sisältävätkö nauhoitteet puhetta samalta puhujalta. Lisäksi tutkielmassa tutkitaan Englanninkielisellä puheella koulutettujen neuroverkkojen tarkkuutta Suomenkieliseen puheeseen sovellettuna. Johon kehitetään sopiva datasetti Suomenkielisen puhekorpuksen pohjalta.
Tutkielman tulokset osoittavat uusimpien menetelmien suoriutuvan erinomaisesti. Vaikkakin parhaiden tuloksien saavuttaminen osoittautui vaativan enemmän koulutusdataa kuin mitä tutkielmassa käytetään. Menetelmät yleistyvät hyvin myös suomenkieliselle puheelle siitä huolimatta, että koulutuksessa käytettiin vain englanninkielistä puhetta. Lisäksi tuloksien pohjalta tehdään mielenkiintoisia huomioita vertailuun valittujen muuttujien osalta, joita käytetään neuroverkkojen koulutuksessa. Vertailussa oli menetelmien lisäksi koulutusdatan puhujien määrä, puhe esimerkkin pituus ja äänidatan augmentointi.
...
This thesis sets out to compare recent methods in speaker recognition, from a small amount of data. Speaker recognition aims to distinguish speakers from within audio data containing speech, the use cases include for example speaker diarization and voice biometric authentication. The scope is limited to identification, two samples from one or two distinct previously unknown speakers are provided. With the aim being to identify whether the two samples are spoken by the same speaker. Additionally, the accuracy of networks trained on English speech on Finnish speech is also measured. For which a new dataset, suitable for benchmarking speaker recognition, consisting of Finnish speech was developed from an existing speech recognition dataset.
The results show that the latest methods perform very well. However, to achieve the best results it is apparent that more training data is required, than what was used in this thesis. The methods generalized to Finnish speech, despite being trained with English speech. Additionally, interesting observations are made regarding the parameters chosen for training. In addition to comparing different methods, the effects of different number of speakers used for training, various sample lengths and data augmentation are also compared.
...
Asiasanat
Metadata
Näytä kaikki kuvailutiedotKokoelmat
- Pro gradu -tutkielmat [29773]
Lisenssi
Samankaltainen aineisto
Näytetään aineistoja, joilla on samankaltainen nimeke tai asiasanat.
-
Taxonomy-Informed Neural Networks for Smart Manufacturing
Terziyan, Vagan; Vitko, Oleksandra (Elsevier, 2024)A neural network (NN) is known to be an efficient and learnable tool supporting decision-making processes particularly in Industry 4.0. The majority of NNs are data-driven and, therefore, depend on training data quantity ... -
Collaborative resilience : taxonomy-informed neural networks for smart assets' maintenance in hostile Industry 4.0 environments
Terziyan, Vagan; Vitko, Oleksandra (Inderscience Publishers, 2024)This paper explores knowledge-informed machine learning and particularly taxonomy-informed neural networks (TINN) to enhance data-driven smart assets' maintenance by contextual knowledge. Focusing on assets within the same ... -
Domain‐specific neural networks improve automated bird sound recognition already with small amount of local data
Lauha, Patrik; Somervuo, Panu; Lehikoinen, Petteri; Geres, Lisa; Richter, Tobias; Seibold, Sebastian; Ovaskainen, Otso (Wiley-Blackwell, 2022)An automatic bird sound recognition system is a useful tool for collecting data of different bird species for ecological analysis. Together with autonomous recording units (ARUs), such a system provides a possibility to ... -
Assessment of microalgae species, biomass, and distribution from spectral images using a convolution neural network
Salmi, Pauliina; Calderini, Marco; Pääkkönen, Salli; Taipale, Sami; Pölönen, Ilkka (Springer Science and Business Media LLC, 2022)Effective monitoring of microalgae growth is crucial for environmental observation, while the applications of this monitoring could also be expanded to commercial and research-focused microalgae cultivation. Currently, the ... -
Quantification of Errors Generated by Uncertain Data in a Linear Boundary Value Problem Using Neural Networks
Halonen, Vilho; Pölönen, Ilkka (Society for Industrial & Applied Mathematics (SIAM), 2023)Quantifying errors caused by indeterminacy in data is currently computationally expensive even in relatively simple PDE problems. Efficient methods could prove very useful in, for example, scientific experiments done with ...
Ellei toisin mainittu, julkisesti saatavilla olevia JYX-metatietoja (poislukien tiivistelmät) saa vapaasti uudelleenkäyttää CC0-lisenssillä.