Automatic training data labeling for Finnish clinical narrative NLP tasks

Ihalainen, Simo

dc.contributor.advisor	Äyrämö, Sami
dc.contributor.advisor	Ruohonen, Toni
dc.contributor.advisor	Moilanen, Miika
dc.contributor.author	Ihalainen, Simo
dc.date.accessioned	2022-01-07T06:56:24Z
dc.date.available	2022-01-07T06:56:24Z
dc.date.issued	2022
dc.identifier.uri	https://jyx.jyu.fi/handle/123456789/79242
dc.description.abstract	Terveydenhuollossa suuri määrä dataa on tallennettuna elektronisiin potilastietojärjestelmiin potilaskertomusten muodossa. Potilaskertomustekstien tehokas hyödyntäminen päivittäisessä hoitotyössä ja kliinisessä tutkimuksessa vaatii edistyneiden luonnollisen kielen käsittelyalgoritmien käyttöä oleellisen data poimimiseksi potilasteksteistä. Monet tähän tarkoitukseen soveltuvat koneoppimisen menetelmät vaativat suuria määriä luokiteltua opetusdataa käytettäväksi mallin koulutukseen, mikä on potilaskertomusten tapauksessa aikaa vievää ja kallista toteuttaa. Tämän opinnäytetyön tarkoituksena oli tutkia automaattista opetusdatan luokittelua ja automaattisesti luodulla opetusdatalla koulutettujen mallien suorituskykyä kahden lääketie-teellisen riskitekijän (korkea kolesteroli, haitallinen alkoholinkäyttö) luokitteluun potilaskertomuksista. Kehitettyjen sääntöjen avulla luotiin automaattisesti luokiteltu opetusdatasetti, jota käytettiin eri koneoppimismallien kouluttamiseen. Samat mallit koulutettiin myös manuaalisesti luokitellulla 200 lauseen opetusdatasetillä. BERT-malli saavutti parhaan luokittelutarkkuuden sekä kolesterolin (94 %) että alkoholin (91 %) tapauksessa. BERT-malli pystyi hyödyntämään luonnollisen kielen ymmärrystä ja saavuttamaan paremman luokittelutarkkuuden kuin mihin opetusdatan luomiseen käytetyt säännöt pystyivät. Kaikki automaattisesti luodulla opetusdatalla koulutetut mallit pääsivät parempaan luokittelutarkkuuteen kuin mihin vastaavat pienellä manuaalisesti luokitellulla opetusdatalla koulutetut mallit pystyivät. Automaattinen opetusdatan luokittelu saattaisi olla arvokas työkalu koneoppimisprojektien kustannusten pienentämiseen tilanteissa, joissa opetusdatan manuaalinen luokittelu on aikaa vievää, kallista ja vaatii sovellusalan asiantuntijan työpanosta.	fi
dc.description.abstract	Large amounts of patient data is stored in electronic health records in unstructured data form as clinical narratives. The efficient use of clinical narratives in day-to-day care and clinical research requires advanced natural language processing methods to extract data from the texts. The common problem for many deep learning algorithms is the requirement for vast amounts of labeled training data, which is time consuming and expensive to acquire in the clinical narrative context. The purpose of this thesis was to assess a weak supervision based approach in automatic training data labeling, and the subsequent machine learning model per-formance in classifying two medical risk factors in Finnish language clinical narratives: high cholesterol and alcohol consumption. Heuristic rules were developed to automatically label sentences collected from clinical narratives to create a training dataset. Different machine learning models were trained with automatically labeled training dataset and with 200 manually labeled sentences. BERT model achieved the highest overall classification accuracy of 94 % in cholesterol task and 91 % in alcohol task. BERT model was able to capture hidden patterns in the data and leverage the natural language understanding to produce better classification results and classify cases which were not captured by the rules used to create the training data. All machine learning models trained with the automatically labeled data produced better classification results compared to the models trained with a small manually labeled dataset. Weak supervision approach might be a valuable tool to reduce the costs of applying machine learning algorithms in low-resource settings, where manual labeling process is time consuming, expensive, or requires the expertise of subject specialist.	en
dc.format.extent	48
dc.format.mimetype	application/pdf
dc.language.iso	en
dc.subject.other	natural language processing
dc.subject.other	clinical narratives
dc.subject.other	text analytics
dc.subject.other	medical risk factors
dc.subject.other	weak supervision
dc.subject.other	automatic training data labeling
dc.title	Automatic training data labeling for Finnish clinical narrative NLP tasks
dc.identifier.urn	URN:NBN:fi:jyu-202201071021
dc.type.ontasot	Pro gradu -tutkielma	fi
dc.type.ontasot	Master’s thesis	en
dc.contributor.tiedekunta	Informaatioteknologian tiedekunta	fi
dc.contributor.tiedekunta	Faculty of Information Technology	en
dc.contributor.laitos	Informaatioteknologia	fi
dc.contributor.laitos	Information Technology	en
dc.contributor.yliopisto	Jyväskylän yliopisto	fi
dc.contributor.yliopisto	University of Jyväskylä	en
dc.contributor.oppiaine	Tietotekniikka	fi
dc.contributor.oppiaine	Mathematical Information Technology	en
dc.rights.copyright	Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.	fi
dc.rights.copyright	This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.	en
dc.type.publication	masterThesis
dc.contributor.oppiainekoodi	602
dc.subject.yso	sairauskertomukset
dc.subject.yso	koneoppiminen
dc.subject.yso	tiedonlouhinta
dc.subject.yso	luonnollinen kieli
dc.subject.yso	NLP
dc.subject.yso	case records (patient documents)
dc.subject.yso	machine learning
dc.subject.yso	data mining
dc.subject.yso	natural language
dc.subject.yso	NLP
dc.format.content	fulltext
dc.type.okm	G2

Aineistoon kuuluvat tiedostot

Nimi:: URN:NBN:fi:jyu-202201071021.pdf
Koko:: 970.1Kb
Tiedostomuoto:: PDF

Katso/Avaa

Aineisto kuuluu seuraaviin kokoelmiin

Pro gradu -tutkielmat [29564]

Näytä suppeat kuvailutiedot

Automatic training data labeling for Finnish clinical narrative NLP tasks

Aineistoon kuuluvat tiedostot

Aineisto kuuluu seuraaviin kokoelmiin

Samankaltainen aineisto

Course Satisfaction in Engineering Education Through the Lens of Student Agency Analytics ﻿

Part-of-speech tagging in written slang ﻿

Natural language processing In chatbot development : how does a chatbot process language? ﻿

Data Analytics in Healthcare : A Tertiary Study ﻿

Problem Transformation Methods with Distance-Based Learning for Multi-Target Regression ﻿

Course Satisfaction in Engineering Education Through the Lens of Student Agency Analytics

Part-of-speech tagging in written slang

Natural language processing In chatbot development : how does a chatbot process language?

Data Analytics in Healthcare : A Tertiary Study

Problem Transformation Methods with Distance-Based Learning for Multi-Target Regression