Tiedonlouhinta rakenteisista dokumenteista
Tutkielman kokonaistavoite on vastata tietotulvan tuomiin haasteisiin tiedonlouhinnan tekniikoita käyttäen. Yleisenä tutkimuskohteena on tiedonlouhinta rakenteisista dokumenteista. Täsmällisemmin määriteltynä tutkimusongelma käsittää samaa skeemaa noudattavien XML-dokumenttien klusteroinnin ja tiedonhaun. Lisäksi käsitellään erilaisten haku- ja klusterointitekniikoiden yhdistämisen tuomia mahdollisuuksia dokumenttikokoelmien hahmottamisessa. Teoreettisessa osuudessa käydään läpi erilaisia indeksirakenteita, samanlaisuusmittoja, klusterointialgoritmeja ja hakumenetelmiä. Empiirisessä osuudessa on kehitetty ExtMiner-sovellus, joka tukee hakua, klusterointia ja visualisointia erilaisille XML-dokumenttikokoelmille. The overall objective of this thesis is to consider the challenges posed by information overflow using data mining techniques. The research concentrates on data mining from structured documents. More precisely, the research problem involves information retrieval and clustering from XML documents conforming to the same schema. The potential of combining various search and clustering techniques in order to comprehend document collections is considered. Various index structures, similarity measures, clustering algorithms and ranking techniques are reviewed in the theoretical part of this thesis. In the empirical part the ExtMiner-application is developed, supporting searching, clustering and visualization for various XML document collections.
Asiasanat
Metadata
Näytä kaikki kuvailutiedotKokoelmat
- Pro gradu -tutkielmat [29747]
Lisenssi
Samankaltainen aineisto
Näytetään aineistoja, joilla on samankaltainen nimeke tai asiasanat.
-
Tiedonhaun mahdollisuudet Lotus Notes ympäristössä IBM WebSphere -teknologian avulla : case: Metso Paper Rautpohja
Jääskeläinen, Mikko (2003) -
Improving search engine results using different machine learning models and tools
Ambaye, Michael (2020)The aim of this thesis is to provide viable methods that can be used to improve the return position (RP) of a relevant document when a natural language query (NLQ) is applied by a user. For the purpose of demonstration, ... -
Taming big knowledge evolution
Cochez, Michael (University of Jyväskylä, 2016)Information and its derived knowledge are not static. Instead, information is changing over time and our understanding of it evolves with our ability and willingness to consume the information. When compared to humans, ... -
Knowledge mining using robust clustering
Äyrämö, Sami (University of Jyväskylä, 2006)FM Sami Äyrämö tutki väitöstyössään suurten digitaalisten tietomassojen tehokasta hyödyntämistä ja siihen sovellettavia laskennallisesti älykkäitä niin kutsuttuja tiedonlouhintamenetelmiä (data mining). Aihe on ajankohtainen, ... -
Clustering of vocabulary for different levels of Finnish learners of EFL : a content analysis on textbooks
Kujala, Jaakko (2016)Sanaston oppiminen on keskeisimpiä edellytyksiä vieraan kielen oppimiselle, jonka vuoksi vieraiden kielten oppikirjojen tulisi panostaa erityisesti tapoihin, joilla uutta sanastoa opetetaan oppijoille. Semanttinen klusterointi, ...
Ellei toisin mainittu, julkisesti saatavilla olevia JYX-metatietoja (poislukien tiivistelmät) saa vapaasti uudelleenkäyttää CC0-lisenssillä.