Tekstin representointi katkaistulla pääakselihajotelmalla luokittelussa
Tekstin representaatio on kiinteä osa luonnollisen kielen prosessointia, sillä se mahdollistaa luonnollisten kielten laskennallisen analysoinnin. Yleiset representaatiomenetelmät ovat syntaksiin perustuvia. Luonnolliseen kieleen liittyy kuitenkin olennaisesti tulkinnanvaraisuutta, mikä aiheuttaa syntaktisiin representaatioihin vääristymiä. Tutkielmassa tarkastellaan tekstin representointia katkaistulla pääakselihajotelmalla luokitteluongelman näkökulmasta. Pääakselihajotelmalla approksimoimalla tekstiaineistosta voidaan löytää termien ja dokumenttien assosiatiivisten yhteyksien rakenne, jota voidaan käyttää tekstin representointiin. Menetelmällä saatavat tulokset vaikuttavat lupaavilta syntaksiin perustuviin representaatiomentelmiin verrattuna. Text representation is a critical part of natural language processing and a prerequisite for any computational analysis. Popular representational methods are based on syntactic terms. However interpretability of natural language causes noise in syntactic representations. This paper evaluates the use of truncated singular value decomposition as text representation in text categorization. Singular value decomposition is used in transforming original term by document matrix into a subspace where text is represented as associations of terms and documents. Results show truncated singular value decomposition to be promising replacement for syntactic representation methods.
Metadata
Näytä kaikki kuvailutiedotKokoelmat
- Kandidaatintutkielmat [5362]
Lisenssi
Samankaltainen aineisto
Näytetään aineistoja, joilla on samankaltainen nimeke tai asiasanat.
-
Sylowin lauseet äärellisten ryhmien luokittelussa
Johansson, Jenna (2018)Tässä tutkielmassa luokitellaan äärelliset ryhmät isomorfiaa vaille kertalukuun $15$ asti. Lisäksi tutkielma tarjoaa menetelmiä, joita soveltamalla äärellisten ryhmien luokittelua olisi mahdollista jatkaa myös suurempien ... -
Selitettävän tekoälyn käyttö lentoliikenteen luokittelussa koneoppimismenetelmillä
Luopajärvi, Antti (2022)Tässä pro gradu-tutkielmassa luokitellaan ilma-aluksia niiden lentoratojen perusteella, jotka muodostetaan käyttäen joukkoistettua havaintodataa. Alukset jäsennellään kategorioihin niiden ensisijaisen käyttötarkoituksen ... -
Turvattomuuden teemojen representointi Ylen turvapaikanhakijoita koskevien uutisten kuvissa ja teksteissä
Kuhalainen, Satu (2016)Tiivistelmä – Abstract Tämä tutkielma käsittelee turvattomuuden teemojen representaatioita Ylen verkkouutisten kuvissa ja teksteissä. Aihe syntyi siitä havainnosta, että turvattomuuden teemat ovat runsaasti esillä erilaisissa ... -
”Hankala tyttö” : Lisbeth Salander ja erilaisuuden representointi Stieg Larssonin Millenium -trilogiassa
Kulmala, Elina (2021)Tutkimuksessa käsitellään Lisbeth Salanderin erilaisuutta ja erilaisuuden representaatioita Stieg Larssonin tunnetussa Millennium-trilogiassa. Erilaisuuden kuvauksia lähestytään poikkitieteellisesti muun muassa kirjallisuuden-, ... -
Tutkijoiden representointi Helsingin Sanomien tiedeuutisissa
Takula, Veera (2020)Tutkielma käsittelee sitä, miten tutkijoita representoidaan Helsingin Sanomien tiedeuutisissa. Tutkimuksen aineisto koostuu 21:stä Helsingin Sanomien tiedeuutisesta. Aineisto on kerätty lokakuusta joulukuuhun 2019. ...
Ellei toisin mainittu, julkisesti saatavilla olevia JYX-metatietoja (poislukien tiivistelmät) saa vapaasti uudelleenkäyttää CC0-lisenssillä.