Luonnollisen suomen kielen ymmärtäminen koneellisesti
Date
2020Tässä tutkimuksessa selvitettiin, miten luonnollisen kielen ymmärtämiseen rakennetut teknologiat soveltuvat suomen kielen käsittelyyn. Tutkimusosuuksissa selvisi, että vain harvat teknologioista tukevat suomen kieltä. Kielten tukitaso vaikutti perustuvan täysin palveluntarjoajien omaan käsitykseen kielituen laajuudesta.
Teknologioiden isoimmaksi ongelmaksi muodostui suomen kielen kohdalla taivutusmuodossa olevien sanojen käsittely. Teknologiat pystyivät käsittelemään sanoja ainoastaan siinä muodossa, jossa sanat oltiin teknologioille opetettu. Tämä tarkoittaa sitä, että teknologioiden toiminta suomen kielellä vaatisi kattavan opetusdatan, jossa tulisi ottaa tunnistettavien sanojen lisäksi huomioon kaikki sanojen taivutusmuodot. Tutkimuksessa tähän ongelmaan löytyi ratkaisu lemmauksesta, jonka avulla sanat pystyttiin muuttamaan perusmuotoon ennen teknologioiden käsittelyä. This study investigated how technologies built for understanding natural language are applicable to Finnish language processing. The research revealed that only a few technologies support the Finnish language. The level of language support seemed to be based entirely on service providers’ own perception of the scope of language support.
The biggest problem with technologies in the Finnish language was the processing of inflectional forms of words. Technologies could only handle words in the form in which the words were taught to the technologies. This means that the operation of technologies in the Finnish language would require comprehensive instructional data, which should include not only identifiable words but also any possible inflectional form. The study found a solution to this problem in lemmatisation, which allowed words to be transformed into their basic form before the technologies processed them.
Keywords
luonnollisen kielen käsittely luonnollisen kielen ymmärtäminen NLP NLU keskustelubotti entiteetti sanaluokittelu saneistus normalisointi lemmaus stemmaus Dialogflow Wit.ai LUIS Watson Assistant Amazon Lex Recast.ai Rasa Snips suomen kieli neuroverkot koneoppiminen intentio tekoäly luonnollinen kieli
Metadata
Show full item recordCollections
- Pro gradu -tutkielmat [29743]
License
Related items
Showing items with similar title or keywords.
-
Improving search engine results using different machine learning models and tools
Ambaye, Michael (2020)The aim of this thesis is to provide viable methods that can be used to improve the return position (RP) of a relevant document when a natural language query (NLQ) is applied by a user. For the purpose of demonstration, ... -
Challenges and insights in semantic search using language models
Hajihashemi Varnousfaderani, Elahe (2023)Information Retrieval systems such as search engines, originally designed to assist users in finding information, have evolved to become more potent and have found utility in wider range of applications by incorporating ... -
Vanhustyöntekijöiden teknologiaan liittämät tunteet : avovastausten analysoiminen tekoälypohjaisen klusteroinnin keinoin
Toivanen, Ida; Lampi, Anna; Sihto, Tiina; Oinas, Tomi; Taipale, Sakari (Sosiaalilääketieteen yhdistys ry, 2024)Sosiaali- ja terveydenhuollon työn teknologisoituminen on edennyt viime vuosina ripeästi. Käytetty teknologia herättää työntekijöissä tunteita, jotka vaikuttavat niin työnteon sujuvuuteen kuin asiakaskohtaamisiinkin. Tässä ... -
Enhancing Holonic Architecture with Natural Language Processing for System of Systems
Ashfaq, Muhammad; Sadik, Ahmed; Mikkonen, Tommi; Waseem, Muhammad; Mäkitalo, Niko (SCITEPRESS Science And Technology Publications, 2024)The ever-growing complexity and dynamic nature of modern System of Systems (SoS) necessitate efficient communication mechanisms to ensure interoperability and collaborative functioning among constituent systems (CS), ... -
Dokumenttien luokittelu luonnollisen kielen prosessointimenetelmillä
Kaipainen, Mikko (2020)Tämä tutkimus käsittelee dokumenttien luokittelua luonnollisen kielen prosessoinnin menetelmillä. Tutkimuksessa esitellään vektoriavaruusmallit ja dokumentin luokittelu kolmella yleisellä ohjatun oppimisen menetelmällä. ...