Automaattisen verkkoharavoinnin menetelmät ja haasteet
Authors
Date
2023Copyright
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Verkkoharavointi on tekniikka, jota käyttämällä voidaan kerätä tietoa internetistä ohjelmallisesti ja sitä voidaan hyödyntää moniin tieteellisiin ja kaupallisiin tarkoituksiin. Verkkoharavointiohjelmat voivat kuitenkin kohdata monenlaisia haasteita, jotka saattavat pakottaa kehittäjän päivittämään haravointiohjelmaa toistuvasti. Kirjallisuuden perusteella käyttöliittymättömät selaimet ja koneoppimisalgoritmit tuottavat yhdessä parhaiten erilaisia haasteita sietävän ohjelman. Verkkoharavoinnin ala on altis nopeille muutoksille, mutta nykyisen kirjallisuuden perusteella koneoppimiseen perustuvissa algoritmeissa on kenties eniten tutkittavaa. Web scraping is a technique that can be used to gather information from the Internet programmatically and it can be used for many scientific and commercial purposes. However, web scrapers can face a variety of challenges that may force the developer to update the scraper repeatedly. Based on the literature, headless browsers and machine learning algorithms together produce the best scrapers that tolerates different challenges. The field of web scraping is prone to rapid changes, but based on the current literature, algorithms based on machine learning have perhaps the most research to do.
Metadata
Show full item recordCollections
- Kandidaatintutkielmat [5273]
Related items
Showing items with similar title or keywords.
-
Digitaalisten pelien dialogien kehittäminen automaattisen tekstinluonnin avulla
Mäntysaari, Pekka (2022)Tämän kandidaatintutkielman tarkoitus oli selvittää voidaanko digitaalisten narratiivisten pelien dialogeja kehittää automaattisen tekstinluonnin avulla. Kirjallisuuskatsauksessa tarkasteltiin pelikehitykseen suunnattuja ... -
Hakukoneoptimoinnin hyödyt uusasiakashankinnassa
Immonen, Sauli (2020)Hakukoneoptimointi yritysten verkkosivuilla on noussut 2000-luvulla yhdeksi keskeisimmistä keinoista saavuttaa näkyvyyttä digitaalisen markkinoinnin kentällä uusasiakashankinnassa. Aihetta on tutkittu suhteellisen vähän, ... -
Automaattisen tekstinkorjauksen hyötyjä lukihäiriön näkökulmasta
Rantala, Ossi (2023)Työssä käydään läpi minkälaisia apuja on tarjolla koodaamiseen niille henkilöille, joilla on lukihäiriö. Tutkimuksessa huomataan, että ei ole vain yhtä apuohjelmistoja, jota voisi käyttää aina. Toisin sanoen niin sanottua ... -
Historiantutkija verkon ääressä : hakee, hakee ja soisi löytävänsä
Kyläkoski, Kaisa (Historiallinen yhdistys, 2022)Jo vuosikymmenen ajan on Suomessa keskusteltu ”digitaalisesta historiantutkimuksesta” ja sen rajauksesta, joka on useimmiten tiivistetty laskennallisuuteen. Huomattavasti vähemmän on mietitty digitaalisuuden merkitystä ... -
Menetelmiä henkilökohtaiseen tiedonhallintaan
Kivioja, Minna (2012)Henkilökohtainen tiedonhallinta sisältää erilaisia toimintoja tietojen käsittelemiseen, jota tehdään henkilökohtaisella tietokoneella sekä töissä että kotona. Tässä tutkielmassa käsitellään henkilökohtaisen tiedonhallinnan ...