Show simple item record

dc.contributor.advisorKhriyenko, Oleksiy
dc.contributor.advisorTerziyan, Vagan
dc.contributor.authorZeb, Mian Shah
dc.date.accessioned2020-02-24T11:33:39Z
dc.date.available2020-02-24T11:33:39Z
dc.date.issued2020
dc.identifier.urihttps://jyx.jyu.fi/handle/123456789/67932
dc.description.abstractBig data-käsittelyjärjestelmät ovat tällä hetkellä kehittymässä stream-orientoituneiksi, eli data käsitellään heti saapuessaan. Perinteisemmin data säilöttiin tietokantaan, tiedostopohjaisesti tai muuhun tiedonsäilytysjärjestelmään, ja applikaatiot hakivat datan tarvittaessa. Stream-pohjainen järjestelmä käsittelee liikkuvaa dataa, jatkuva-aikaista dataa useasta lähteestä. Sen sijaan, että haetaan ajoittain dataa, stream-pohjaiset frameworkit pystyvät käsittelemään dataa heti kun se on saatavilla, täten vähentäen viivettä. Tässä tutkielmassa tehdään komparatiivinen analyysi eri stream-pohjaisten frameworkien välillä, perustuen valittuihin ominaisuuksiin. Tutkittavat frameworkit ovat Apache Samza, Apache Flink, Apache Storm ja Apache Spark Structured Streaming. Tutkielmassa perehdytään myös Apache Kafkaan, joka on lokiperusteinen tietovarasto, jota laajalti käytetään stream-pohjaisissa frameworkeissa.fi
dc.description.abstractBig data processing systems are evolving to be more stream oriented where data is processed continuously by processing it as soon as it arrives. Earlier data was often stored in a database, a file system or other form of data storage system. Applications would query the data as needed. Stram processing is the processing of data in motion. It works on continuous data retrieved from different resources. Instead of periodically collecting huge static data, streaming frameworks process data as soon as it becomes available, hence reducing latency. This thesis aims to conduct a comparative analysis of different streaming processors based on selected features. Research focuses on Apache Samza, Apache Flink, Apache Storm and Apache Spark Structured Streaming. Also, this thesis explains Apache Kafka which is a log-based data storage widely used in streaming frameworks.en
dc.format.extent48
dc.language.isoen
dc.subject.otherStream Processing
dc.subject.otherBatch Processing
dc.subject.otherApache Kafka
dc.subject.otherApache Samza
dc.subject.otherStreaming Engines
dc.titleComparative analysis of data stream processing systems
dc.identifier.urnURN:NBN:fi:jyu-202002242154
dc.type.ontasotMaster’s thesisen
dc.type.ontasotPro gradu -tutkielmafi
dc.contributor.tiedekuntaInformaatioteknologian tiedekuntafi
dc.contributor.tiedekuntaFaculty of Information Technologyen
dc.contributor.laitosInformaatioteknologiafi
dc.contributor.laitosInformation Technologyen
dc.contributor.yliopistoJyväskylän yliopistofi
dc.contributor.yliopistoUniversity of Jyväskyläen
dc.contributor.oppiaineTietojenkäsittelytiedefi
dc.contributor.oppiaineComputer Scienceen
dc.rights.copyrightJulkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.fi
dc.rights.copyrightThis publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.en
dc.contributor.oppiainekoodi601
dc.subject.ysotietojenkäsittely
dc.subject.ysobig data
dc.subject.ysotietojärjestelmät
dc.subject.ysotietotekniikka
dc.subject.ysodata
dc.subject.ysosuoratoisto
dc.subject.ysodata processing
dc.subject.ysobig data
dc.subject.ysodata systems
dc.subject.ysoinformation technology
dc.subject.ysodata
dc.subject.ysostreaming


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record