'Broken Finnish': Accent perceptions in societal gatekeeping (SA 315581/JY 21000042461) project research dataset
Rikkinäistä suomea: Aksenttien arviointi yhteiskunnallisena portinvartijana -projektin hankeaineisto (SA 315581/JY 21000042461)
Halonen, Mia. 'Broken Finnish': Accent perceptions in societal gatekeeping (SA 315581/JY 21000042461) project research dataset. V. 1.9.2022. 10.17011/jyx/dataset/85233
Authors
Contributors
Date
2023Access restrictions
Restricted use due to personal information protection. You can still contact author to ask for a copy of the material.
Copyright
Halonen, Mia, Ahola, Sari, University of Jyväskylä, Centre for Applied Language Studies and Finnish National Agency for Education
Rikkinäistä suomea -hankkeen aineisto on rakennettu Yleisten kielitutkintojen suomen kielen tutkinnon pitkittäisaineiston (Yki) 2009-2019 pohjalle 2015, kerätty vuonna 2016 ja tutkittu 2018-2021/2024)
Projektin aineisto koostuu kahdesta laajemmasta osasta:
1) Arviointidata: kerätty hanketta varten suunnitellulla ja rakennetulla verkkoalustalla 2015-2016)
Informantit: 45 Yki-arvioijaa; 50 suomen puhutun kielen testin tekijää (10 arabian, 10 viron, 10
suomenruotsin, 10 venäjän ja 10 thain ensikielisen puhujan Yki-testinäytettä (5 mies-/5 naispuhujaa/ryhmä).
Data sisältää: a) numeeriset arviot (skaalalla 1-6) suorittajien kielitaidon osa-alueista (perustuvat Ykin arviointikriteereihin); b) sanalliset kuvaukset näytteestä ja/tai puhujasta; c) oletus suorittajan ensikielestä ja oletuksen varmuusaste (viisportaisella asteikolla); d) suorittajien puhenäytteet (1.5 min./näyte; .wav- ja .mp3-muodoissa; analyyseja Praatilla).
Dataformaatit: .xlsx (Microsoft Excel) ja.sav (IBM SPSS Statistics); tilastollisia analyyseja datan osien ja taustatietojen ja datan suhteista (esim. Rasch, MFRM, R); .wav-formaatti Praat-analyyseille; Praat-analyyseja; mp3-formaatti esitys- ja datankeruualustan tarpeisiin. Litteraatiot näytteistä.
2) Ykin pitkittäisaineisto (2009-2019)
122 (=kaikki) arvioijat; 33316 suorittajaa (yli 200 ensikieltä).
Aineisto sisältää arvioiden lisäksi:
Taustatietoja
a)arviojista: ikä, sukupuoli, koulutus, arviointikokemus,
b)suorittajista: ikä, sukupuoli, koulutus, Suomessaoloaika, suomen kielen opinnot
Datamuodot:
.xlsx (Microsoft Excel) ja .sav (IBM SPSS Statistics).
Aineisto käsittää vuonna 2023 yli 100000 data-/infopistettä. Yki-aineisto on jatkuvasti täydentyvä.
Hankkeessa tutkitaan ns. vieraan aksentin vaikutusta suullisen kielitaidon arviointiin Yleisten kielitutkintojen suomen kielen testissä: miten arvioijat kokevat testattavien puheen vieraan aksentin ja miten se vaikuttaa yleiseen arvioon puhujan kielitaidosta. Koska kielitaitotodistusta tarvitaan muun muassa työllistymiseen ja kansalaisuuteen, testi on merkittävä yhteiskunnallinen portinvartija.
Fokuksessa on neljä Suomen suurimpien maahanmuuttajaryhmien kieltä: arabia, viro, venäjä ja thai. Aineistossa on myös suomenruotsalaisia suorittajia. Kaikkiin näihin puhujaryhmiin kohdistuu Suomessa kielteisiä stereotypioita. Jotta saataisiin selville, millainen on aksentin suhde arviointiin, hankkeessa tutkitaan, kuinka arvioijien kokema aksentti ja todellinen, akustisesti mitattu aksentti vastaavat toisiaan, ja kuinka ne vaikuttavat arviointiin.
Ääntämisen ja aksenttien lisäksi hankkeessa tutkitaan arvioinnissa käytettäviä kielitaitokriteerejä, niiden käyttöä, suhdetta toisiinsa ja suhdetta yleiseen arvioon suorittajien kielitaidosta: mitkä puhutun kielen osataidot (sujuvuus, sidoksisuus, sanasto, rakenteiden tarkkuus ja ääntäminen) ovat vahvimmin sidoksissa koettuun kielitaitoon ja siten arvioon tutkintojärjestelmässä.
Monitieteinen tutkimusryhmä koostuu sosiolingvisteistä, (sosio)foneetikoista, kielitaidon arvioinnin tutkijoista ja tilastotieteilijöistä.
...
Data of project 'Broken Finnish': Accent perceptions in societal gatekeeping (SA 315581/JY 21000042461);
includes Project data (designed and constructed on the longitudinal data 2015; gathered 2016; analyzed/is analyzed 2018-2021) and National Certificate Language Proficiency examination (NCLP) longitudinal data 2009-2019.
The project includes two sets of data:
1) Rating data (gathered in an internet platform during 2015-2016). Informants: 44 NCLP raters; 50 L2 Finnish speaker test takers (10 Arabic, 10 Estonian, 10 Finland Swedish, 10 Russian and 10 Thai L1 speakers’ speech samples (5 male/5 female speakers in each L1 group).
Data outcome: a) numeric ratings on a six step scale (based on the NCLP rating criteria) of the focus group’s
speech performances; b) verbal descriptions of the performances; c) assumptions of the speakers’ L1 and the degree of certainty of the assumption (on a five step scale); d) speech samples of the test takers (1.5 min each).
Data output formats: .xlsx (Microsoft Excel) and .sav (IBM SPSS Statistics) formats; Statistical analyses (Rasch; MFRM; R) and modeling of the data; wav-format for Praat analyses; .mp3-format for packed data [to decrease the size of the files] in the rating platform and for research presentations. Transcriptions of the samples and Praat analyses.
2) Long-term data from the NCLP test system (2012-2016). 122 (=all) raters; 33,316 test takers (over 200 first languages).
Data outcome:
Background knowledge of a) the raters: age, gender, education, length of experience, b) the
test takers: L1, age, gender, education and length of Finnish studies.
Data output formats: .xlsx (Microsoft Excel) and .sav (IBM SPSS Statistics).
The data consist of more than 100 000 data entries/points. As the data is part of the active assessment system is grows all the time. This metadata description covers only the period of 2009-2019, which has been used in the project Broken Finnish (Rikkinäistä suomea).
The project focuses on accent perceptions in the National Certificates of Language Proficiency test in Finland. It explores how the test takers’ pronunciation is perceived as ‘foreign accent’ by the raters and how these perceptions affect the general proficiency rating. As the test is the most common way to prove language proficiency for the labour market and citizenship, it is a crucial societal gatekeeper.
The focus is on speakers of migrant groups of Arabic, Estonian, Russian, and Thai, and an older Finnish official minority group, Finland Swedish. The migrant groups belong to the biggest migrant groups, and all the groups face negative stereotyping in Finland. The project studies whether recognition or assumptions of the accents, possibly followed by the stereotypes concerning the speaker groups, might affect speech proficiency rating.
In addition to studying the accent perceptions the focus is on the assessment criteria of oral language proficiency, their use, internal relation and relation to the general proficiency level assessment. What of the oral language skills (fluency, coherence, vocabulary, structures and pronunciation) correlate best with the perceived general proficiency and, thus, the assessment in the NCLP.
The research team consist of sociolinguists, (socio)phoneticians, language test researchers, and statisticians.
...
Contains datasets
- Hirvelä, Tuija; Neittaanmäki, Reeta; Ahola, Sari; Halonen, Mia. Statistical analyses of project Broken Finnish (Rikkinäistä suomea). V. 30.8.2022. https://doi.org/10.17011/jyx/dataset/85234
Keywords
demographic statistics citizenship language tests legislation Russian language Thai language equality policy language examinations Language Act language acquisition equality (fundamental rights) Estonian language Arabic language Finnish as a second language criteria Nationality Act oral language skills adult language proficiency test personal assessment statistics (data) statistics (discipline) compilation of statistics Finland Swedish kansalaisuus kielikokeet lainsäädäntö venäjän kieli thain kieli tasa-arvopolitiikka kielitutkinnot kielilaki kielen omaksuminen yhdenvertaisuus viron kieli arabian kieli suomi toisena kielenä kriteerit kansalaisuuslaki suullinen kielitaito aikuisten kielitaitotutkinto henkilöarviointi tilastot tilastotiede tilastointi väestötilastot suomenruotsi
Publication(s) related to the dataset
- Halonen, M., Huhta, A., Ahola, S., Hirvelä, T., Neittaanmäki, R., Ohranen, S., & Ullakonoja, R. (2020). Ensikielen tunnistamisen merkityksestä suullisen kielitaidon arvioinnissa Yleisissä kielitutkinnoissa. In S. Grasz, T. Keisanen, F. Oloff, M. Rauniomaa, I. Rautiainen, & M. Siromaa (Eds.), Menetelmällisiä käänteitä soveltavassa kielentutkimuksessa - Methodological turns in applied language studies (pp. 56-70). Suomen soveltavan kielitieteen yhdistys ry. AFinLA:n vuosikirja, 2020. https://doi.org/10.30661/afinlavk.89453 https://jyx.jyu.fi/handle/123456789/73922
- Ahola, S. (2020). Yleisten kielitutkintojen arvioijien käsityksiä thainkieliseksi tunnistettujen suomenoppijoiden suullisesta kielitaidosta. Puhe ja kieli, 40(4), 203-224. https://doi.org/10.23997/pk.103307 https://jyx.jyu.fi/handle/123456789/74701
- Ahola, S. (2020). Sujuvaa mutta viron kielen vaikutusta : yleisten kielitutkintojen arvioijien käsityksiä vironkielisten suomenoppijoiden suullisesta taidosta. Virittäjä, 124(2), 217-242. https://doi.org/10.23982/vir.79831 https://jyx.jyu.fi/handle/123456789/77503
Dataset in research information system
https://converis.jyu.fi/converis/portal/detail/ResearchDataset/66509920
Metadata
Show full item recordCollections
- Tutkimusdata [277]
Related funder(s)
Suomen Akatemia; Academy of FinlandFunding program(s)
Academy Project, AoF; Akatemiahanke, SALicense
Related items
Showing items with similar title or keywords.
-
Statistical analyses of project Broken Finnish (Rikkinäistä suomea)
Ahola, Sari; Halonen, Mia; Neittaanmäki, Reeta; Hirvelä, Tuija (2023)Rikkinäistä suomea -Akatemia-hankeaineiston R-, facets-, MFRM-analyyseja. Esimerkiksi vuorovaikutuksia seuraavien muuttujien/tekijöiden välillä: arviointikriteerit (yleistaitotasoarvio; yleiskriteeri, sujuvuus, koherenssi, ... -
Longitudinal data of the National Certificate for Language Proficiency (NCLP) 2009-2019
Ohranen, Sari; Huhta, Ari; Neittaanmäki, Reeta; Hirvelä, Tuija; Ahola, Sari; Ullakonoja, Riikka; Halonen, Mia (2023)Longitudinal data of the National Certificate for Language Proficiency (NCLP) 2009-2019 consist of 1) the assessment data; 2) background information of the raters of the NCLP (N = 122), and 3) background information of the ... -
‘Broken Finnish’ : Speaker L1 and its recognition affecting rating in National Certificates of Language Proficiency test in Finnish
Ahola, Sari; Halonen, Mia (Association of Language Testers in Europe, 2021)As many European countries have language proficiency requirements for obtaining citizenship, language testing is a possible source of social inequality. The ‘Broken Finnish’ project has been set up to ensure test fairness ... -
Is Finnish Corporatism Reconfiguring, and Is It Good for Gender Equality?
Koskinen Sandberg, Paula; Elomäki, Anna; Mustosmäki, Armi; Kantola, Johanna (Springer, 2022)The Nordic model of employment relations, characterised by centralised collective bargaining and strong collaboration between social partners and the state, has often been linked to positive gender equality outcomes. ... -
Finnish students' views on the English language taught degree program in nursing
Mejías, Elisa (2019)Suomessa on tarjolla 12 tutkinto-ohjelmaa sairaanhoitajaopiskelijoille, joissa opintojen kieli on englanti. Tutkinto-ohjelmissa opiskelee sekä suomalaisia että kansainvälisiä opiskelijoita, ja heitä ohjaavat erilaiset ...