Big data : challenges, ecosystems and technologies
Authors
Date
2022Access restrictions
The author has not given permission to make the work publicly available electronically. Therefore the material can be read only at the archival workstation at Jyväskylä University Library (https://kirjasto.jyu.fi/collections/archival-workstation).
Tiedonkeruu ja -hallinta ovat kokeneet merkittäviä muutoksia
viimeisen 50-vuoden aikana ja ovat tuoneet uusia tapoja ja teknologioita tiedon hallintaan ja
tallentamiseen. Tuotamme nykyään valtavia määriä dataa ja käytämme tätä dataa yhä enemmän
yhteiskunnan eri alueilla. Kasvava tietomäärä on luonut uusia ongelmia datan käytössä.
Termistä big data on tullut laaja termi viittamaan valtavia datajoukkoja, joita ei voida prosessoida
käyttäen hyväksi perinteisiä tietojenkäsittelysovelluksia. Nämä massiiviset datajoukot
ovat luoneet uusia teknologioita ja ekosysteemejä näiden tietokokonaisuuksien käsittelemiseksi.
Termit tietoallas, tietovarasto Apache Hadoop ja Apache Spark liitetään usein
termiin big data. Tämä tutkielma tutkii, mitä big data on ja mistä komponenteista sen
ekosysteemi koostuu. Tutkielmassa tarkastellaan ensin, miten tiedonhallinta on kehittynyt
historian aikana ja miten olemme päätyneet nykyiseen tilanteeseen. Tämän jälkeen tutkielmassa
tarkastellaan, miten big data määritellään tieteellisessä kirjallisuudessa ja mistä osista
sen ekosysteemin koostuu. Seuraavaksi tutkielmassa tarkastellaan kahta yleisintä big data
teknologiaa, Apache Hadoop, Apache Spark- teknologiaa. Tämän tutkielman tarkoituksena
on selventää termiä big data ja tutkia, miten sen eri osat määritellään tieteellisessä kirjallisuudessa,
sekä miten sen sisältämät kokonaisuudet ilmaistaan tieteellisessä kirjallisuudessa.
...
Data collection and management have undergone significant changes over the
past 50 years, introducing new ways and technologies for data management and data storing.
Data has become increasingly more used in various areas of society, and we are now generating
enormous amounts of data. This rising amount of data has created new problems when
using this vast amount of data. Big data has become a broad term for enormous datasets that
traditional data processing applications cannot process. Big data has created new technologies
and ecosystems to process these datasets. The terms data lake, data warehouse, Apache
Hadoop, and Apache Spark are often linked with big data applications.
This thesis explores what big data is and what components its ecosystem consists of. The
thesis will first examine how data management has evolved over history and how we have
ended up in the current situation. The thesis then examines how big data is defined in the
academic literature and what parts its ecosystem consists of. Next, the thesis will examine
the two most common ways of big data data processing technologies, Apache Hadoop and
Apache Spark. In sum, this thesis aims at clarifying the term big data and studying how its
various aspects are defined in the academic literature.
...
Metadata
Show full item recordCollections
- Pro gradu -tutkielmat [29740]
License
Related items
Showing items with similar title or keywords.
-
Are we solving the right challenges? : evaluating the roles and responsibilities of public governance in emerging talent hub ecosystems : case study: City of Jyväskylä
Ranta, Iiris (2021)Tämän tutkielman tarkoituksena oli selvittää julkishallinnon rooleja ja vastuita kansainvälisten osaajien houkutteluun ja pitovoimaan keskittyvässä Talent Hub -ekosysteemissä. Tutkielma toteutettiin tapaustutkimuksena ... -
Quantum Software Ecosystem : Stakeholders, Interactions and Challenges
Stirbu, Vlad; Mikkonen, Tommi (Springer Nature Switzerland, 2024)The emergence of quantum computing proposes a revolutionary paradigm that can radically transform numerous scientific and industrial application domains. The ability of quantum computers to scale computations imply better ... -
Self-Sovereign Identity Ecosystems : Benefits and Challenges
Laatikainen, Gabriella; Kolehmainen, Taija; Abrahamsson, Pekka (Association for Information Systems, 2021)Verifiable credentials, coupled with decentralized ledger technologies, have been potential providers of trustworthy digital identity for individuals, organizations, and other entities, and thus, potential enablers of ... -
Exploring the Finnish Impact Investing Ecosystem : Perspectives on Challenges from Technology Startups
Okker, Timo; Mohanani, Rahul; Auvinen, Tommi; Abrahamsson, Pekka (Springer, 2024)The increasing significance of social and environmental impact within the technology startup business sector has garnered attention. Previous research has explored impact investing and related themes in the startup context. ... -
Challenge to define and quantify ecosystem collapse debt
Tahvanainen, Teemu; Sallinen, Antti; Keith, David (Open Science Centre, University of Jyväskylä, 2018)Degradation and loss of ecosystems are of great global concern. It is likely that decline of ecosystems will continue and a debt of ecosystem loss exists, comprising of 1) direct and expectedly continued forcing by detrimental ...