Automaattinen puheentunnistus ja puheen fysikaaliset perusteet

Richterich, Nicolas

URN:NBN:fi:jyu-202309135080.pdf

Automaattinen puheentunnistus ja puheen fysikaaliset perusteet

Abstract

Tässä tutkielmassa käsitellään puheen tuottamisen fysiikkaa ja automaattista puheentunnistamista. Tutkielma jakautuu neljään osaan, joista ensimmäisessä tutustutaan puheen fyysisiin perusteisiin lagrangelaisen mekaniikan ja termodynamiikan keinoin sekä käydään läpi pitkittäisten aaltojen seuraksena ilmeneviä akustisia ominaisuuksia fluideissa. Toisessa luvussa esitellään analogisen aaltosignaalin digitoinnin periaatteet ja tutustutaan eri muunnoksiin signaalinkäsittelyn työkaluina, jonka jälkeen syvennytään signaalin lyhytaikakäsittelyyn ja sen sovelluksiin puheenkäsittelyssä. Kolmannessa luvussa puheentuotantoa käsitellään foneettisesti lähde-suodin-mallin avulla sekä käydään läpi yksittäisten foneemien laskennallisia tunnistamismetodeja. Tutkielman neljännessä luvussa perehdytään ensin neuroverkkojen ja koneoppimisen perusteisiin, jonka jälkeen käydään läpi niille perustuvia nykyaikaisessa puheentunnistuksessa käytetyttyjä kielimalleja ja akustisia malleja. Lopuksi esitellään suomenkielinen puheentunnistumalli. Tutkielman tavoite on tutustuttaa lukija puheen aaltomekaaniseen luonteeseen sekä luoda yleiskatsaus puheentuotannon ja -tunnistamisen mekanismeihin.

This thesis is concerned with the physics of speech production and the mechanisms of automatic speech recognition. The thesis is split into four parts, of which the first investigates the physical basis of speech through Lagrangian mechanics and thermodynamics and the acoustic phenomena caused by longitudinal waves in fluids. The second chapter presents the principles of analog signal discretization and examines different transformation methods as tools for signal processing, after which short-term signal processing and its applications in speech processing are delved into. In the third chapter speech production is explained with the source-filter-model of phonation and different ways of phoneme recognition are discussed. Neural networks and machine learning are presented in the fourth chapter, after which language models and acoustical models based on them are investigated. Finally, a Finnish language speech recognition model is presented. The goal of the thesis is to familiarize the reader with the wave mechanical nature of speech and to give an overview in the mechanisms of speech production and recognition.

Main Author

Richterich, Nicolas

Format

Theses Bachelor thesis

Published

2023

Subjects

puheakustiikka

puheteknologia

puheentunnistus

signaalinkäsittely

tekoäly

fonetiikka

akustiikka

fysiikka

The permanent address of the publication

https://urn.fi/URN:NBN:fi:jyu-202309135080Use this for linking

Language

Finnish

License

Automaattinen puheentunnistus ja puheen fysikaaliset perusteet

Share

Similar Items