Oppijansuomen n-grammit : korpusvetoinen tutkimus B1-kielitaitotason toistuvista monisanaisista rakenteista
Authors
Date
2020Copyright
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Tutkimuksessa kartoitetaan oppijansuomen B1-kielitaitotason kirjoitetuissa teksteissä ilmeneviä n-grammeja. Kielentutkimuksessa n-grammeilla tarkoitetaan tutkittavassa kieliaineistossa usein toistuvia, n-määrästä sanoja koostuvia sanaketjuja. Niiden ei tarvitse olla esimerkiksi kieliopillisesti täydellisiä rakenteita tai idiomeja. (Biber, Johansson, Leech, Conrad & Finegan 1999: 989–990; Granger & Paquot 2008: 38–39.) Tutkimus sijoittuu teoreettiselta viitekehykseltään tiiveimmin fraseologiaan, joka on kielentutkimuksen ala, jossa tutkitaan ennen kaikkea kielen käyttöä ja sen erilaisia valmisrakenteisia yksiköitä. N-grammit lukeutuvat sanojen syntagmaattisia myötäesiintymiä ilmaiseviin fraseologisiin yksikköihin.
Tutkimuksen merkittävimpänä tavoitteena on selvittää, millaisia n-grammeja Eurooppalaisella viitekehyksellä (EVK 2003) B1-kielitaitotasolle arvioidut suomenoppijat kirjoitetuissa teksteissään tuottavat ja mitä n-grammit kykenevät B1-tasoisen oppijansuomen leksikaalisista ja rakenteellisista piirteistä kertomaan. Samalla tutkimuksella halutaan laajentaa fraseologista oppijansuomen tutkimusta n-grammien osalta sekä kokeilla erilaisten metodien toimivuutta n-grammien tarkastelussa. Tutkimuksen aineistona toimii Kansainvälinen oppijansuomen korpus (ICLFI), jota lähestytään korpusvetoisella tutkimusmetodilla. Tutkimuksen aluksi korpuksen B1-taitotasoarvioinnin saaneista teksteistä haetaan korpusohjelmalla kaikki niissä esiintyvät, ennalta määrätyt raja-arvot ylittävät 3-, 4-, 5- ja 6-grammit, jotka kootaan yhdeksi listaksi frekvenssiensä mukaan järjestäen. Näitä n-grammeja analysoidaan tämän jälkeen leksikon osalta siten, että n-grammien sanoista laaditaan omat sananmuoto- ja lemmalistansa, ja rakenteiden puolesta niin, että huomio kiinnitetään ensi sijassa sellaisiin n-grammeihin, joihin sisältyy finiittiverbi, verbiliitto tai osa verbiliitosta. Verbillisistä n-grammeista selvitetään, mitä tempuksia ja syntaktisia lausetyyppejä (VISK § 891) niissä ilmenee ja kuinka paljon.
Tutkimuksen tulokset osoittavat, että leksikkonsa puolesta B1-tasoiset suomenoppijat käyttävät paljon natiivisuomestakin tuttua sanastoa, mutta mukana on myös joitain selkeitä leksikaalisia yliedustumia. Ne selittyvät pitkälti tekstien tehtävänannoilla. Sananmuotojen perusteella oppijat suosivat verbeissä runsaasti yksikön ensimmäisen persoonan muotoja. N-grammien lemmoissa edustuvat sanaluokkien osalta eniten nominit (45 %) ja verbit (32 %). Rakenteiden puolesta oppijansuomessa käytetään tempuksien osalta ylivoimaisesti eniten preesensiä (88,6 % verbillisten n-grammien esiintymistä). Syntaktisista lausetyypeistä käytetyin on kopulalause, jota ilmentää 36,4 prosenttia verbillisten n-grammien esiintymistä. Muina yleisluontoisina huomioina todetaan muun muassa, että n-grammeista yli 80 prosenttia on 3-grammeja ja että n-grammeissa esiintyy verrattain vähän kielenvastaisia muotoja. Moduksista indikatiivi on yhtä konditionaalimuotoista n-grammia lukuun ottamatta ainoa verbillisissä n-grammeissa käytetty tapaluokka. Verbittömät n-grammit toimivat tulosten perusteella pääosin asioiden rinnastajina sekä suhteuttavat tapahtumia aikaan. Tutkimustulokset lisäävät tietoa oppijankielen fraseologisista piirteistä ja viitoittavat osaltaan tietä mahdolliselle tulevalle tutkimukselle aiheesta.
...
Metadata
Show full item recordCollections
- Pro gradu -tutkielmat [29564]
Related items
Showing items with similar title or keywords.
-
Oppimiskontekstin vaikutus oppijanpragmatiikkaan : astemääritteet leksikaalisina nallekarhuina
Jantunen, Jarmo Harri (Eesti Rakenduslingvistika Uhing, 2015)Artikkelissa käsitellään oppimisympäristön vaikutusta astemääritteiden käyttöön. Astemääritteet ovat jonkin ominaisuuden asteen suurta, kohtalaista tai vähäistä määrää ilmaisevia, pragmaattista merkitystä kantavia adverbeja ... -
SAADA-verbin fraseologiaa : vertaileva korpustutkimus oppijan- ja natiivisuomesta
Tarvainen, Jenny (2018)Tutkielmassa vertaillaan oppijansuomen ja natiivisuomen fraseologisia piirteitä SAADA-verbin avulla. Ensin vertaillaan, missä merkityksissä SAADA-verbi esiintyy taajimmin oppijansuomen ja natiivisuomen aineistoissa, ... -
Dimensionality reduction framework for detecting anomalies from network logs
Sipola, Tuomo; Juvonen, Antti; Lehtonen, Joel (CRL Publishing, 2012)Dynamic web services are vulnerable to multitude of intrusions that could be previously unknown. Server logs contain vast amounts of information about network traffic, and finding attacks from these logs improves the ... -
Anomaly detection from network logs using diffusion maps
Sipola, Tuomo; Juvonen, Antti; Lehtonen, Joel (Springer, 2011)The goal of this study is to detect anomalous queries from network logs using a dimensionality reduction framework. The fequencies of 2-grams in queries are extracted to a feature matrix. Dimensionality reduction is done ... -
Corpora, phraseology and dictionaries : How does corpus research intersect language teaching and learning?
Jantunen, Jarmo Harri (Uusfilologinen Yhdistys, 2016)This article discusses the role of corpus data in language learning and teaching as well as the benefits of using authentic language data in learner dictionary writing. It has been argued that acquiring and teaching ...