Darknet-liikenteen analysointi koneoppimisalgoritmeilla
Tekijät
Päivämäärä
2023Tekijänoikeudet
© The Author(s)
Tämä pro gradu -tutkielma käsittelee Darknet 2020 -nimisen datasetin testaamista random forest-, gradient boosting- ja logistic regression-algoritmeilla. Tutkimus toteutettiin konstruktiivisena tutkimuksena. Tutkimuksen aineisto koostuu New Brunswick yliopiston tutkijoiden Habibi Lashkarin, Kaurin ja Rahalin tekemästä artikkelista DIDarknet: A Contemporary Approach to Detect and Characterize the Darknet Traffic using Deep Image Learning sekä heidän tuottamastaan Darknet 2020 -datasetistä. Tutkimuksen tarkoituksena oli selvittää, miten koneoppimisen algoritmit selviytyvät datasetissä olevan darknet-tietoliikennettä imitoivan datan luokitellusta sekä verrata saatuja tuloksia tutkijoiden esittelemään syväoppimisen malliin nimeltä DIDarknet.
Tutkimuksen lopputuloksena voidaan nähdä useamman eri koneoppimisalgoritmin tarkkudet luokitella datasetin tietoliikenne Label-ominaisuuden perusteella. Random forest -algoritmi suoriutui luokittelutehtävästä huomattavasti kahta muuta algoritmia paremmin. Tutkimuksen perusteella voidaan nähdä, että DIDarknet on suoriutunut darknet-liikenteen luokittelusta ylivoimaisesti paremmin kuin tutkielmassa esiintyvät ML-algoritmit.
...
This master's thesis deals with testing the Darknet 2020 dataset with random forest, gradient boosting and logistic regression algorithms. The study was carried out as a constructive study. The material of the study consists of the article \emph{DIDarknet: A Contemporary Approach to Detect and Characterize the Darknet Traffic using Deep Image Learning} by researchers Habibi Lashkari, Kaur and Rahali of the University of New Brunswick and the Darknet 2020 dataset produced by them. The purpose of the study was to find out how the machine learning algorithms cope with the classification of the data simulating darknet communication in the dataset, and to compare the obtained results with the deep learning model presented by the researchers called DIDarknet.
The final result of the research is the accuracy of several different machine learning algorithms to classify data traffic based on the Label feature. The random forest algorithm performed the classification task significantly better than the other two algorithms. On the basis of the research, it can be concluded that DIDarknet has performed by far better than the ML algorithms appearing in the thesis in the classification of darknet traffic.
...
Asiasanat
Metadata
Näytä kaikki kuvailutiedotKokoelmat
- Pro gradu -tutkielmat [29739]
Lisenssi
Samankaltainen aineisto
Näytetään aineistoja, joilla on samankaltainen nimeke tai asiasanat.
-
Comparing the forecasting performance of logistic regression and random forest models in criminal recidivism
Aaltonen, Olli-Pekka (2016)Rikosseuraamusalalla on viime vuosina kehitetty uusintarikollisuutta ennustavia malleja (Tyni, 2015), jotka perustuvat tyypillisesti rekisteripohjaisiin mittareihin, jotka mittaavat mm. tuomitun sukupuolta, ikää, rikostaustaa ... -
Tutkasensorin ja syväoppimisen hyödyntäminen liikkeen tunnistuksessa
Hellman, Leena (2023)Ihmisten liikkeiden tunnistusta käytetään erilaisissa valvontaan ja älykoteihin liittyvissä ratkaisuissa. Liikkeen tunnistukseen voidaan käyttää erilaisia sensoreita. Viime aikoina erityisesti tutkasensorilla tapahtuva ... -
DL_Track : Automated analysis of muscle architecture from B-mode ultrasonography images using deep learning
Ritsche, Paul; Faude, Oliver; Franchi, Martino; Finni, Taija; Seynnes, Olivier; Cronin, Neil (Bern Open Publishing, 2023) -
Do Randomized Algorithms Improve the Efficiency of Minimal Learning Machine?
Linja, Joakim; Hämäläinen, Joonas; Nieminen, Paavo; Kärkkäinen, Tommi (MDPI AG, 2020)Minimal Learning Machine (MLM) is a recently popularized supervised learning method, which is composed of distance-regression and multilateration steps. The computational complexity of MLM is dominated by the solution of ... -
Estimating the distribution of anthropogenic asbestos using random forest algorithm
Hietaranta, Mikko (2020)Tässä tutkimuksessa selvitettiin koneoppimisella tapahtuvan datakäsittelyn käyttökelpoisuutta ja sen tuottamia tuloksia asbestin alueellisesta jakautumisesta Suomessa. Analysoitava data perustui rakennusten valmistumisvuoteen, ...
Ellei toisin mainittu, julkisesti saatavilla olevia JYX-metatietoja (poislukien tiivistelmät) saa vapaasti uudelleenkäyttää CC0-lisenssillä.