Word sense disambiguation for Finnish with an application to language learning

Abstract
Tehtävää sanan oikean merkityksen määritämiseksi automattisesti jossakin luonnollisen kielen ilmaisussa kutsutaan saneiden alamerkitysten yksiselitteistämiseksi. Tämä pro gradu -tutkielma kuvaa saneiden alamerkitysten yksiselitteistämisen itoimeenpanoa ja arviointia suomen kielelle, ja sitä motivoi tämän tehtävän uudenlainen soveltaminen tietokoneavusteiseen kielen oppimiseen. Tutkielmassa kaksikieliseen tekstitysaineistoon pohjaava sanojen alamerkitysten mukaan annotoitu korpus on luotu automattisesti palvelemaan opetusaineistona koneoppimiseen pohjautuville saneiden alamerkitysten yksiselitteistämisen tekniikoille. Seuravaksi saneiden alamerkitysten yksiselitteistämisen algoritmeja on muokattu suomen kielelle ja arvioitu niiden F1-mitan mukaan. Sen jälkeen on rakennettu sekä leksikaalinen tietämyskanta klusteroimalla ja tunnistamalla vastaavuuksia että välineet kompleksisten lekseemien poimimiseen ja analysointiin. Lopuksi on esitelty NiinMikäOli?!, tietokoneavusteinen kielen oppimisen väline, joka käyttää saneiden alamerkitysten yksiselitteistämistä uudella leksikaalisella resurssilla tarjotakseen sanojen rakenteeseen ja merkitykseen liittyvää kontekstisidonaista apua kielenoppijoille. Lisäksi on selitetty NiinMikäOli?!:n rakentamista ja käyttöliittymää ohjaavat suunnittelun periaatteet.

The task of automatically determining the correct meaning of a word within some natural language utterance is referred to as Word Sense Disambiguation (WSD). This thesis describes the implementation and evaluation of WSD for the Finnish language, motivated by its novel application to Computer Aided Language Learning (CALL). To serve as training data for Machine Learning (ML) based WSD techniques, a sense-annotated corpus is automatically created based on a collection of bilingual subtitles. Next, several WSD algorithms are adapted to Finnish and evaluated according to their F1-measure. Then, a Lexical Knowledge Base (LKB) is constructed by clustering and aligning existing resources, and tools to extract and analyse complex lexical units are created. Finally, TheWhatNow?!, a CALL tool which uses WSD on this new lexical resource to offer in context help related to word structure and meaning to language learners is introduced and the design principles guiding its construction and user interface are expounded.
Language
English
License
In CopyrightOpen Access

Share