Part-of-speech tagging in written slang

Korolainen, Valtteri

dc.contributor.author	Korolainen, Valtteri
dc.date.accessioned	2014-08-28T05:58:02Z
dc.date.available	2014-08-28T05:58:02Z
dc.date.issued	2014
dc.identifier.other	oai:jykdok.linneanet.fi:1444778
dc.identifier.uri	https://jyx.jyu.fi/handle/123456789/44127
dc.description.abstract	Erilaiset kieliteknologiasovellukset ovat olleet jo vuosikymmeniä arkipäiväises-sä käytössä. Esimerkiksi ennustava tekstinsyöttö ja automaattinen korjaus ovat olleet käytössä jo vuosikymmeniä. Puheen tunnistus ja kielen automaattinen kääntäminen ovat puolestaan hieman uudempia sovelluksia. Tieteenalana kieli-teknologia on vuosikymmeniä vanha, mutta silti koneilla on vielä monesti vai-keuksia ymmärtää luonnollisia kieliä. Tämän tutkimuksen tavoite on kartoittaa koneiden kykyä annotoida tekstiä automaattisesti kun käsiteltävä aineisto sisäl-tää slangia. Tutkimus sisältää empiirisen kokeen automaattisten annotointialgo-rimien toiminnasta. Kielen prosessointi on myös nykyään käytössä olevilla al-goritmeilla verrattain raskasta. Osa sovelluksista voidaan kuitenkin suorittaa pilvipalveluissa. Eurooppalaisten kielien prosessointi nykyalgoritmeilla on koh-tuullisen hyvällä tasolla verrattuna moniin muihin kieliin. Tähän syynä on huomattavasti laajempi taustatyö. Vaikka monet sovellukset onnistuisivat usein ymmärtämään luonnollista yleiskieltä, niin slangin prosessointi on huomatta-vasti hankalampaa. Pääsyyt slangin prosessoinnin haasteellisuudelle ovat slan-gitutkimuksen vähäisyys kieliteknologioihin liittyen sekä slangin monesti kompleksisempi luonne. Automaattinen simultaanitulkkaus on jo jossain mää-rin mahdollista nykyaikaisilla kieliteknologiasovelluksilla. Yksi tapa arvioida tiettyä kieliteknologiaa on analysoida taustalla olevaa sanaluokkajäsentäjää, jonka tehtävä on annotoida tekstifragmentteja. Tämän tutkimuksen tutkimus-ongelmana on selvittää n-gram algoritmin suorityskyky muihin käytössä ole-viin algoritmeihin nähden slangia annotoitaessa. Tilastollisia lähestymistapoja käytettäessä myös taustalla oleva manuaalisen jäsentämisen laajuus vaikuttaa merkittävästi sanaluokkajäsentäjän toimintaan. Eurooppalaiset kielet voidaan prosessoida monesti luotettavammin tilastollisilla menetelmillä, kun taas esi-merkiksi Etelä-Intian kielet, kuten Hindi, ovat monesti luotettavampia proses-soida sääntöihin perustuvilla menetelmillä. Englanninkieli voidaan luonnolli-sessa muodossaan annotoida automaattisesti 97% tarkkudella; englanninkieli-sen slangin automaattinen annotointi saavuttaa puolestaan vain 93% tarkkusta-son. Tutkimustuloksista voidaan todeta, että vaikka algoritmin valinta vaikut-taa osaltaan annotoinnin tarkkuuteen, niin sääntöihin perustuvat menetelmät ovat tärkeä lisä slangin annotoinnissa. Tärkein sääntöihin perustuva lisämene-telmä on sanojen klusterointi.	fi
dc.description.abstract	Contemporary computers have different capabilities to process natural lan-guages. For example speech recognition and machine translation are both due to study of natural language processing (NLP). Still, machines have some prob-lems of understanding a natural language since words can be ambiguous. Most of the time machines are able to understand the single words. Complete sen-tences are causing more problems. As well, a part of the actual language proc-essing is moved to cloud from local machines due to heavy algorithms that have a high time or space compelexity. English and other European languages have better success rate in NLP solutions than other languages. Mainly this is because of the amount of work and prior analysis done around the language. Even though variety of different NLP solutions exists, they are mainly focused on standard language. Our research contains empirical study which goal is to describe n-gram algorithm suitability in automatic slang annotation context. Slang processing is more problematic than processing standard language, which can be seen in lower accuracy rates. Some of the problems are caused lack of extensive slang analysis when on the other hand some problems are due to complexity of slang. Simultaneous interpreter is one possible solution of up-coming NLP innovations but it has limitations since slang processing is still partly under a development. One way to analyze lingual capabilities of a ma-chine is to evaluate the success rate of Part-of-Speech (POS) tagging. The re-search problem is how n-gram algorithms are performing in slang tagging compared to previously experimented algorithms. As a result of this study it is been found that tagging algorithm selection is in major part of tagger accuracy. In statistical approaches corpus size is remarkably affecting the accuracy as well. Languages are performing differently with different algorithms. For instance, statistical tagging algorithms are mostly having better accuracies in European languages while rule based tagging algorithms are outperforming statistical taggers in South Indian languages. From the POS tagging point of view English slang can be considered as different language from Standard English. While Standard English text can be automatically tagged with success rate of 97% the slang taggers are only fairly reaching 93% success rate. As a conclusion for re-search findings, rule-based approaches are important addition for slang POS taggers. Most important of these kinds of tools is word clustering.	en
dc.format.extent	1 verkkoaineisto.
dc.format.mimetype	application/pdf
dc.language.iso	eng
dc.rights	In Copyright	en
dc.subject.other	Part-of-Speech tagging
dc.subject.other	Hidden-Markov Model
dc.subject.other	Natural Language Processing
dc.subject.other	Algorithms
dc.subject.other	Machine Learning
dc.subject.other	Language Technologies
dc.title	Part-of-speech tagging in written slang
dc.type	master thesis
dc.identifier.urn	URN:NBN:fi:jyu-201408282684
dc.type.ontasot	Pro gradu -tutkielma	fi
dc.type.ontasot	Master’s thesis	en
dc.contributor.tiedekunta	Informaatioteknologian tiedekunta	fi
dc.contributor.tiedekunta	Faculty of Information Technology	en
dc.contributor.laitos	Tietojenkäsittelytieteiden laitos	fi
dc.contributor.laitos	Department of Computer Science and Information Systems	en
dc.contributor.yliopisto	University of Jyväskylä	en
dc.contributor.yliopisto	Jyväskylän yliopisto	fi
dc.contributor.oppiaine	Tietojenkäsittelytiede	fi
dc.date.updated	2014-08-28T05:58:03Z
dc.type.coar	http://purl.org/coar/resource_type/c_bdcc
dc.type.publication	masterThesis
dc.contributor.oppiainekoodi	601
dc.subject.yso	kieliteknologia
dc.subject.yso	koneoppiminen
dc.subject.yso	algoritmit
dc.subject.yso	luonnollinen kieli
dc.format.content	fulltext
dc.rights.url	https://rightsstatements.org/page/InC/1.0/
dc.type.okm	G2

Aineistoon kuuluvat tiedostot

Nimi:: URN:NBN:fi:jyu-201408282684.pdf
Koko:: 4.698Mb
Tiedostomuoto:: PDF

Katso/Avaa

Aineisto kuuluu seuraaviin kokoelmiin

Pro gradu -tutkielmat [29708]

Näytä suppeat kuvailutiedot

Part-of-speech tagging in written slang

Aineistoon kuuluvat tiedostot

Aineisto kuuluu seuraaviin kokoelmiin

Samankaltainen aineisto

The Datafication of Hate : Expectations and Challenges in Automated Hate Speech Monitoring ﻿

Accelerating joint species distribution modelling with Hmsc-HPC by GPU porting ﻿

Multilayer perceptron training with multiobjective memetic optimization ﻿

Natural language processing In chatbot development : how does a chatbot process language? ﻿

Do Randomized Algorithms Improve the Efficiency of Minimal Learning Machine? ﻿

The Datafication of Hate : Expectations and Challenges in Automated Hate Speech Monitoring

Accelerating joint species distribution modelling with Hmsc-HPC by GPU porting

Multilayer perceptron training with multiobjective memetic optimization

Natural language processing In chatbot development : how does a chatbot process language?

Do Randomized Algorithms Improve the Efficiency of Minimal Learning Machine?