Automatic training data labeling for Finnish clinical narrative NLP tasks
Abstract
Terveydenhuollossa suuri määrä dataa on tallennettuna elektronisiin potilastietojärjestelmiin potilaskertomusten muodossa. Potilaskertomustekstien tehokas hyödyntäminen päivittäisessä hoitotyössä ja kliinisessä tutkimuksessa vaatii edistyneiden luonnollisen kielen käsittelyalgoritmien käyttöä oleellisen data poimimiseksi potilasteksteistä. Monet tähän tarkoitukseen soveltuvat koneoppimisen menetelmät vaativat suuria määriä luokiteltua opetusdataa käytettäväksi mallin koulutukseen, mikä on potilaskertomusten tapauksessa aikaa vievää ja kallista toteuttaa. Tämän opinnäytetyön tarkoituksena oli tutkia automaattista opetusdatan luokittelua ja automaattisesti luodulla opetusdatalla koulutettujen mallien suorituskykyä kahden lääketie-teellisen riskitekijän (korkea kolesteroli, haitallinen alkoholinkäyttö) luokitteluun potilaskertomuksista. Kehitettyjen sääntöjen avulla luotiin automaattisesti luokiteltu opetusdatasetti, jota käytettiin eri koneoppimismallien kouluttamiseen. Samat mallit koulutettiin myös manuaalisesti luokitellulla 200 lauseen opetusdatasetillä. BERT-malli saavutti parhaan luokittelutarkkuuden sekä kolesterolin (94 %) että alkoholin (91 %) tapauksessa. BERT-malli pystyi hyödyntämään luonnollisen kielen ymmärrystä ja saavuttamaan paremman luokittelutarkkuuden kuin mihin opetusdatan luomiseen käytetyt säännöt pystyivät. Kaikki automaattisesti luodulla opetusdatalla koulutetut mallit pääsivät parempaan luokittelutarkkuuteen kuin mihin vastaavat pienellä manuaalisesti luokitellulla opetusdatalla koulutetut mallit pystyivät. Automaattinen opetusdatan luokittelu saattaisi olla arvokas työkalu koneoppimisprojektien kustannusten pienentämiseen tilanteissa, joissa opetusdatan manuaalinen luokittelu on aikaa vievää, kallista ja vaatii sovellusalan asiantuntijan työpanosta.
Main Author
Format
Theses
Master thesis
Published
2022
Subjects
The permanent address of the publication
https://urn.fi/URN:NBN:fi:jyu-202201071021Käytä tätä linkitykseen.
Language
English