Näytä suppeat kuvailutiedot

dc.contributor.advisorSaarela, Mirka
dc.contributor.advisorHämäläinen, Joonas
dc.contributor.authorRautiainen, Wiljam
dc.date.accessioned2022-06-21T10:36:25Z
dc.date.available2022-06-21T10:36:25Z
dc.date.issued2022
dc.identifier.urihttps://jyx.jyu.fi/handle/123456789/81931
dc.description.abstractTiedonkeruu ja -hallinta ovat kokeneet merkittäviä muutoksia viimeisen 50-vuoden aikana ja ovat tuoneet uusia tapoja ja teknologioita tiedon hallintaan ja tallentamiseen. Tuotamme nykyään valtavia määriä dataa ja käytämme tätä dataa yhä enemmän yhteiskunnan eri alueilla. Kasvava tietomäärä on luonut uusia ongelmia datan käytössä. Termistä big data on tullut laaja termi viittamaan valtavia datajoukkoja, joita ei voida prosessoida käyttäen hyväksi perinteisiä tietojenkäsittelysovelluksia. Nämä massiiviset datajoukot ovat luoneet uusia teknologioita ja ekosysteemejä näiden tietokokonaisuuksien käsittelemiseksi. Termit tietoallas, tietovarasto Apache Hadoop ja Apache Spark liitetään usein termiin big data. Tämä tutkielma tutkii, mitä big data on ja mistä komponenteista sen ekosysteemi koostuu. Tutkielmassa tarkastellaan ensin, miten tiedonhallinta on kehittynyt historian aikana ja miten olemme päätyneet nykyiseen tilanteeseen. Tämän jälkeen tutkielmassa tarkastellaan, miten big data määritellään tieteellisessä kirjallisuudessa ja mistä osista sen ekosysteemin koostuu. Seuraavaksi tutkielmassa tarkastellaan kahta yleisintä big data teknologiaa, Apache Hadoop, Apache Spark- teknologiaa. Tämän tutkielman tarkoituksena on selventää termiä big data ja tutkia, miten sen eri osat määritellään tieteellisessä kirjallisuudessa, sekä miten sen sisältämät kokonaisuudet ilmaistaan tieteellisessä kirjallisuudessa.fi
dc.description.abstractData collection and management have undergone significant changes over the past 50 years, introducing new ways and technologies for data management and data storing. Data has become increasingly more used in various areas of society, and we are now generating enormous amounts of data. This rising amount of data has created new problems when using this vast amount of data. Big data has become a broad term for enormous datasets that traditional data processing applications cannot process. Big data has created new technologies and ecosystems to process these datasets. The terms data lake, data warehouse, Apache Hadoop, and Apache Spark are often linked with big data applications. This thesis explores what big data is and what components its ecosystem consists of. The thesis will first examine how data management has evolved over history and how we have ended up in the current situation. The thesis then examines how big data is defined in the academic literature and what parts its ecosystem consists of. Next, the thesis will examine the two most common ways of big data data processing technologies, Apache Hadoop and Apache Spark. In sum, this thesis aims at clarifying the term big data and studying how its various aspects are defined in the academic literature.en
dc.format.extent56
dc.format.mimetypeapplication/pdf
dc.language.isoen
dc.subject.otherbig data ecosystems
dc.subject.otherApache Spark
dc.titleBig data : challenges, ecosystems and technologies
dc.identifier.urnURN:NBN:fi:jyu-202206213538
dc.type.ontasotPro gradu -tutkielmafi
dc.type.ontasotMaster’s thesisen
dc.contributor.tiedekuntaInformaatioteknologian tiedekuntafi
dc.contributor.tiedekuntaFaculty of Information Technologyen
dc.contributor.laitosInformaatioteknologiafi
dc.contributor.laitosInformation Technologyen
dc.contributor.yliopistoJyväskylän yliopistofi
dc.contributor.yliopistoUniversity of Jyväskyläen
dc.contributor.oppiaineTietotekniikkafi
dc.contributor.oppiaineMathematical Information Technologyen
dc.rights.copyrightJulkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.fi
dc.rights.copyrightThis publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.en
dc.type.publicationmasterThesis
dc.contributor.oppiainekoodi602
dc.subject.ysobig data
dc.subject.ysoApache Hadoop
dc.subject.ysobig data
dc.subject.ysoApache Hadoop
dc.format.contentfulltext
dc.rights.accessrightsTekijä ei ole antanut lupaa avoimeen julkaisuun, joten aineisto on luettavissa vain Jyväskylän yliopiston kirjaston arkistotyösemalta. Ks. https://kirjasto.jyu.fi/kokoelmat/arkistotyoasema..fi
dc.rights.accessrightsThe author has not given permission to make the work publicly available electronically. Therefore the material can be read only at the archival workstation at Jyväskylä University Library (https://kirjasto.jyu.fi/collections/archival-workstation).en
dc.type.okmG2


Aineistoon kuuluvat tiedostot

Thumbnail

Aineisto kuuluu seuraaviin kokoelmiin

Näytä suppeat kuvailutiedot