Part-of-speech tagging in written slang

Korolainen, Valtteri

Katso/Avaa

4.6 Mb

Lataukset:

Show download details Hide download details

Tekijät

Korolainen, Valtteri

Päivämäärä

2014

Oppiaine

Tietojenkäsittelytiede

Erilaiset kieliteknologiasovellukset ovat olleet jo vuosikymmeniä arkipäiväises-sä käytössä. Esimerkiksi ennustava tekstinsyöttö ja automaattinen korjaus ovat olleet käytössä jo vuosikymmeniä. Puheen tunnistus ja kielen automaattinen kääntäminen ovat puolestaan hieman uudempia sovelluksia. Tieteenalana kieli-teknologia on vuosikymmeniä vanha, mutta silti koneilla on vielä monesti vai-keuksia ymmärtää luonnollisia kieliä. Tämän tutkimuksen tavoite on kartoittaa koneiden kykyä annotoida tekstiä automaattisesti kun käsiteltävä aineisto sisäl-tää slangia. Tutkimus sisältää empiirisen kokeen automaattisten annotointialgo-rimien toiminnasta. Kielen prosessointi on myös nykyään käytössä olevilla al-goritmeilla verrattain raskasta. Osa sovelluksista voidaan kuitenkin suorittaa pilvipalveluissa. Eurooppalaisten kielien prosessointi nykyalgoritmeilla on koh-tuullisen hyvällä tasolla verrattuna moniin muihin kieliin. Tähän syynä on huomattavasti laajempi taustatyö. Vaikka monet sovellukset onnis ... showmore

Contemporary computers have different capabilities to process natural lan-guages. For example speech recognition and machine translation are both due to study of natural language processing (NLP). Still, machines have some prob-lems of understanding a natural language since words can be ambiguous. Most of the time machines are able to understand the single words. Complete sen-tences are causing more problems. As well, a part of the actual language proc-essing is moved to cloud from local machines due to heavy algorithms that have a high time or space compelexity. English and other European languages have better success rate in NLP solutions than other languages. Mainly this is because of the amount of work and prior analysis done around the language. Even though variety of different NLP solutions exists, they are mainly focused on standard language. Our research contains empirical study which goal is to describe n-gram algorithm suitability in automatic slang annotation context. Slang ... showmore

Lisenssi