Automaattinen puheentunnistus ja puheen fysikaaliset perusteet
Tässä tutkielmassa käsitellään puheen tuottamisen fysiikkaa ja automaattista puheentunnistamista. Tutkielma jakautuu neljään osaan, joista ensimmäisessä tutustutaan puheen fyysisiin perusteisiin lagrangelaisen mekaniikan ja termodynamiikan keinoin sekä käydään läpi pitkittäisten aaltojen seuraksena ilmeneviä akustisia ominaisuuksia fluideissa. Toisessa luvussa esitellään analogisen aaltosignaalin digitoinnin periaatteet ja tutustutaan eri muunnoksiin signaalinkäsittelyn työkaluina, jonka jälkeen syvennytään signaalin lyhytaikakäsittelyyn ja sen sovelluksiin puheenkäsittelyssä. Kolmannessa luvussa puheentuotantoa käsitellään foneettisesti lähde-suodin-mallin avulla sekä käydään läpi yksittäisten foneemien laskennallisia tunnistamismetodeja. Tutkielman neljännessä luvussa perehdytään ensin neuroverkkojen ja koneoppimisen perusteisiin, jonka jälkeen käydään läpi niille perustuvia nykyaikaisessa puheentunnistuksessa käytetyttyjä kielimalleja ja akustisia malleja. Lopuksi esitellään suomenkielinen puheentunnistumalli.
Tutkielman tavoite on tutustuttaa lukija puheen aaltomekaaniseen luonteeseen sekä luoda yleiskatsaus puheentuotannon ja -tunnistamisen mekanismeihin.
...
This thesis is concerned with the physics of speech production and the mechanisms of automatic speech recognition. The thesis is split into four parts, of which the first investigates the physical basis of speech through Lagrangian mechanics and thermodynamics and the acoustic phenomena caused by longitudinal waves in fluids. The second chapter presents the principles of analog signal discretization and examines different transformation methods as tools for signal processing, after which short-term signal processing and its applications in speech processing are delved into. In the third chapter speech production is explained with the source-filter-model of phonation and different ways of phoneme recognition are discussed. Neural networks and machine learning are presented in the fourth chapter, after which language models and acoustical models based on them are investigated. Finally, a Finnish language speech recognition model is presented.
The goal of the thesis is to familiarize the reader with the wave mechanical nature of speech and to give an overview in the mechanisms of speech production and recognition.
...
Asiasanat
Metadata
Näytä kaikki kuvailutiedotKokoelmat
- Kandidaatintutkielmat [5362]
Lisenssi
Samankaltainen aineisto
Näytetään aineistoja, joilla on samankaltainen nimeke tai asiasanat.
-
Kokemuksia robotista kieltenopetuksessa
Honkalammi, Hilla-Marja (Soveltavan kielentutkimuksen keskus, Jyväskylän yliopisto; Kielikoulutuspolitiikan verkosto, 2022)Sosiaaliset robotit tarjoavat uusia mahdollisuuksia kieltenopetukseen. Sosiaaliset robotit tulivat luokkahuoneisiin muutama vuosi sitten, mutta niiden käyttö kieltenopetuksessa on edelleen kohtalaisen harvinaista. Tässä ... -
Akustisia ratkaisuja tilaääniteoksille osana julkisten tilojen äänimaisemaa
Eela, Adalmina (2024)Tässä tutkielmassa perehdyn tilaääniteosten uniikkiin asemaan rajatussa ympäristössä olevana äänitaiteen muotona. Näkökulmanani ovat julkiset tilat ja niiden luomat äänimaisemat. Ollessaan julkisissa tiloissa käyvät ... -
Animaatiohahmot ja puheen animointi
Savolainen, Simo (2004) -
Tehokas opettaja vai hauska lelu? : sosiaaliset robotit kielten oppimisessa
Veivo, Outi (Soveltavan kielentutkimuksen keskus, Jyväskylän yliopisto; Kielikoulutuspolitiikan verkosto, 2022)Ensimmäiset kokeilut sosiaalisten robottien hyödyntämisestä kielten opetuksessa tehtiin jo parikymmentä vuotta sitten. Viime vuosina näitä kokeiluja on tehty paljon myös Suomessa. Tässä artikkelissa tarkastellaan sitä, ... -
Analyysi puheentunnistusratkaisun käyttöönoton vaikutuksista HUSissa
Bergström, Mikke (2022)Terveydenhuollon käyttömenojen jatkuvan kasvun myötä terveydenhuoltoon on ohjattu merkittäviä investointeja sen kustannustehokkuuden ja laadun parantamiseksi. Yhtenä tehostettavana osa-alueena on terveydenhuollon ...
Ellei toisin mainittu, julkisesti saatavilla olevia JYX-metatietoja (poislukien tiivistelmät) saa vapaasti uudelleenkäyttää CC0-lisenssillä.