Making Sense of Bureaucratic Documents : Named Entity Recognition for State Authority Archives
Poso, V., Lipsanen, M., Toivanen, I., & Välisalo, T. (2024). Making Sense of Bureaucratic Documents : Named Entity Recognition for State Authority Archives. In Archiving 2024 Final Program and Proceedings (pp. 6-10). Society for Imaging Science & Technology. Archiving, 21. https://doi.org/10.2352/issn.2168-3204.2024.21.1.2
Julkaistu sarjassa
ArchivingPäivämäärä
2024Tekijänoikeudet
© Authors 2024
The usability and accessibility of digitised archival data can be improved using deep learning solutions. In this paper, the authors present their work in developing a named entity recognition (NER) model for digitised archival data, specifically state authority documents. The entities for the model were chosen based on surveying different user groups. In addition to common entities, two new entities were created to identify businesses (FIBC) and archival documents (JON). The NER model was trained by fine-tuning an existing Finnish BERT model. The training data also included modern digitally born texts to achieve good performance with various types of inputs. The finished model performs fairly well with OCR-processed data, achieving an overall F1 score of 0.868, and particularly well with the new entities (F1 scores of 0.89 and 0.97 for JON and FIBC, respectively).
Julkaisija
Society for Imaging Science & TechnologyEmojulkaisun ISBN
978-0-89208-366-2Konferenssi
Archiving ConferenceKuuluu julkaisuun
Archiving 2024 Final Program and ProceedingsISSN Hae Julkaisufoorumista
2161-8798Asiasanat
Julkaisu tutkimustietojärjestelmässä
https://converis.jyu.fi/converis/portal/detail/Publication/243581273
Metadata
Näytä kaikki kuvailutiedotKokoelmat
Rahoittaja(t)
Suomen AkatemiaRahoitusohjelmat(t)
Tutkimusinfrastruktuuri, SALisenssi
Samankaltainen aineisto
Näytetään aineistoja, joilla on samankaltainen nimeke tai asiasanat.
-
Untapped data resources : Applying NER for historical archival records of state authorities
Poso, Venla; Välisalo, Tanja; Toivanen, Ida; Holmila, Antero; Ojala, Jari (University of Oslo Library, 2023)Archives around the world are digitising their material at a growing speed. The National Archives of Finland launched a mass digitisation process in 2019 aiming to digitise vast amounts of state authority archives. In order ... -
Haittaohjelmantunnistustekniikat Android-käyttöjärjestelmäympäristössä
Urtamo, Kimmo (2020)Ihmisten siirtyminen älypuhelinten käyttöön on johtanut niille julkaistujen haittaohjelmien valtavaan kasvuun. Tämä tutkielma tarkastelee Android-järjestelmälle kehitettyjä haittaohjelmantunnistuskeinoja ja suorittaa testejä ... -
Relaatiotietokanta valjastaa arkistot strategiatutkimukseen
Cheung, Zeerim (Kansallisarkisto, 2020)Artikkelin kirjoittajan tuore väitöskirja esittelee uuden, analyyttisesti jäsennellyn historiantutkimuksen menetelmän, joka perustuu laajojen arkistokokonaisuuksien digitoimiseen ja teorialähtöiseen analysoimiseen ... -
Kansallisarkisto kohti vuotta 2025
Ojala, Jari (Kansallisarkisto, 2020) -
Keinotekoisten neuroverkkojen hyödyntäminen automaattisessa lintujen tunnistamisessa äänen perusteella
Sintonen, Lauri (2018)Tässä tutkielmassa esitellään keinotekoisten neuroverkkojen hyödyntämistä automaattisessa lintujen tunnistamisessa äänen perusteella. Keskeisenä motiivina ovat sekä neuroverkkoihin tutustuminen että lintujen automaattisen ...
Ellei toisin mainittu, julkisesti saatavilla olevia JYX-metatietoja (poislukien tiivistelmät) saa vapaasti uudelleenkäyttää CC0-lisenssillä.