Show simple item record

dc.contributor.authorKunnari, Jukka-Pekka
dc.date.accessioned2022-12-08T10:27:55Z
dc.date.available2022-12-08T10:27:55Z
dc.date.issued2022
dc.identifier.urihttps://jyx.jyu.fi/handle/123456789/84236
dc.description.abstractSystem Information ja Event Management, eli SIEM-järjestelmistä on tullut viime vuosina organisaatioiden kyberturvallisuusvalvonnan keskeinen ratkaisu. Järjestelmä kerää ja varastoi loki-, eli tapahtumatietoa organisaation tietojärjestelmästä täyttäen paitsi lainsäädännölliset vaatimukset tapahtumatietojen säilyttämisestä, mutta mahdollistaen myös tietojärjestelmän toiminnan valvonnan ja esimerkiksi haitallisen toiminnan havaitsemisen, koska kyberhyökkääjien yleisesti käyttämistä tekniikoista jää jälkiä järjestelmän lokitietoihin. SIEM-Järjestelmien haasteena kuitenkin on, että tapahtumatietoa kertyy nopeasti hyvin suuria määriä, ja esimerkiksi kyberhyökkäyksen valmistelun merkkien havaitseminen suuresta tietomäärästä on haastavaa. Tässä pro gradu -tutkielmassa tarkastellaan mahdollisena ratkaisuna SIEM-järjestelmän toiminnan tehostamiseksi ja SIEM-järjestelmää hyödyntävien henkilöiden työn helpottamiseksi yhden tekoälyn muodon, koneoppimisen, hyödyntämistä osana järjestelmän toimintaa. Tutkimuksen päätutkimuskysymys oli, miten koneoppimista voidaan hyödyntää SIEM-järjestelmissä. Tutkimuksessa selvitettiin tunnettuja, SIEM-järjestelmissä hyödynnettyjä koneoppimisratkaisuja sekä konstruktiiviseen (DSRM; design science research methodology) tutkimusmenetelmään perustuen toteutettiin luonnollisen kielen prosessointia hyödyntävä koneoppimistoiminnallisuus, joka integroitiin Splunk Enterprise -sovellukseen perustuvaan SIEM-järjestelmään analysoimaan valvottavan järjestelmän Linux-palvelinten lokitietoja. Tutkimuksen perusteella koneoppimisen integroimiseen osaksi SIEM-järjestelmää on useita mahdollisia ratkaisuja. Tutkimuksessa toteutetun esimerkkiratkaisun avulla suuri lokimäärä voitiin jakaa niiden tekstisisällön perusteella omiin ryhmiinsä, sekä erottelemaan tapahtumien joukosta muista tapahtumista selvästi poikkeavat tapahtumat reaaliajassa rajaten kyberuhkien havaitsemisen kannalta kiinnostavat tapahtumat pienemmäksi ryhmäksi niiden tarkemman analysoinnin helpottamiseksi. Koneoppimisen integroiminen Splunkiin on melko yksinkertaista, koska tarvittavat lisäosat on saatavilla sovellukseen. Koneoppimismallin kehittäminen ja optimointi vaativat kuitenkin useita toistoja ja tulosten jatkuvaa validointia sopivien parametrien löytämiseksi. Tulokset kuitenkin osoittavat koneoppimisen hyödyntämispotentiaalin SIEM-järjestelmien tiedonlouhinnassa.fi
dc.description.abstractDuring last few years, System Information and Event Management systems have become the backbone solution for organizations’ cyber situational awareness monitoring. SIEM system collects and stores event or log information from organization’s IT infrastructure to meet not only legal requirements of log manage-ment, but giving a tool to monitor the IT infrastructure, and to detect possible signs of cyber threats, as most of the techniques and tactics commonly used by adversaries leaves traces in the system logs. However, a common defect in SIEM systems is the massive amount of log data generated in every minute, making it very challenging to detect the signs of potential threats. This master’s thesis studies potential machine learning applications in order to enhance the SIEM systems’ capabilities, and to make SIEM system more user-friendly. The main research question of this study was ”How could machine learning be utilized in SIEM systems?” In this research, commonly known applications of machine learning were studied, and an example solution based on natural language processing techniques was developed. The function was integrated into Splunk Enterprise SIEM system for log mining from the Linux servers, following the design science research methodology (DSRM) for IT systems research process. The results show that there are multiple possible solutions to utilize machine learning in SIEM systems. By using the solution proposed in the study, an extensive amount of log data could be divided into own groups and the potentially interesting log data could be separated and categorized for further analysis. Utilizing machine learning in a system like Splunk is relatively uncomplicated, as all the add-on modules are downloadable for all users. On the other hand, developing and optimizing a machine learning model is a long process, requiring multiple iterations and validations to find optimal parameters for the model. The results, however, point out the potential of machine learning, especially for data mining in the SIEM systems.en
dc.format.extent52
dc.format.mimetypeapplication/pdf
dc.language.isofi
dc.rightsIn Copyrighten
dc.subject.otherSIEM-järjestelmä
dc.subject.otherlokienhallinta
dc.subject.otherkyberuhka
dc.titleKoneoppimisen hyödyntämismahdollisuudet SIEM-järjestelmissä
dc.typemaster thesis
dc.identifier.urnURN:NBN:fi:jyu-202212085498
dc.type.ontasotPro gradu -tutkielmafi
dc.type.ontasotMaster’s thesisen
dc.contributor.tiedekuntaInformaatioteknologian tiedekuntafi
dc.contributor.tiedekuntaFaculty of Information Technologyen
dc.contributor.laitosInformaatioteknologiafi
dc.contributor.laitosInformation Technologyen
dc.contributor.yliopistoJyväskylän yliopistofi
dc.contributor.yliopistoUniversity of Jyväskyläen
dc.contributor.oppiaineKyberturvallisuusfi
dc.contributor.oppiaineKyberturvallisuusen
dc.type.coarhttp://purl.org/coar/resource_type/c_bdcc
dc.type.publicationmasterThesis
dc.contributor.oppiainekoodi601
dc.subject.ysokyberturvallisuus
dc.subject.ysolokit
dc.subject.ysokoneoppiminen
dc.format.contentfulltext
dc.rights.urlhttps://rightsstatements.org/page/InC/1.0/
dc.type.okmG2


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record

In Copyright
Except where otherwise noted, this item's license is described as In Copyright