Kuinka suuret kielimallit oppivat ymmärtämään ja tuottamaan kieltä?
Tekoälyn ja koneoppimisen, erityisesti transformer-pohjaisten kielimallien, kehitys on mullistanut kieltenkäsittelyn. Tässä tutkielmassa tarkastelemme näiden mallien kykyä tuottaa ja ymmärtää kieltä, keskittyen niiden oppimisprosesseihin ja kielen rakenteiden sisäistämiseen. Tutkimme kuinka transformer-mallien 'self-attention-mekanismi' edistää tekstin syvällistä ymmärrystä ja kuinka nämä mallit kehittävät kykyä ennustaa tulevia sanoja ja lauseita, mikä auttaa hahmottamaan kieliopillisia ja semanttisia rakenteita paremmin.
Tutkielmassa käsitellään myös, missä määrin näiden mallien kielen ymmärtäminen on aitoa ja missä määrin se perustuu vaikutelman luomiseen. Vaikka mallit ovat kehittyneitä, niiden kyky ymmärtää kieltä ei ole yhtä syvällinen kuin ihmisen kyky ymmärtää kieltä. Tutkielmassa korostetaan, että näiden mallien todellinen ymmärryskyky jää rajoitetuksi, vaikka ne ovatkin kehittyneet tuottamaan tekstiä, joka vaikuttaa ymmärtävän kieltä. The development of artificial intelligence and machine learning, especially transformer-based language models, has revolutionized language processing. In this study, we examine the ability of these models to generate and understand language, focusing on their learning processes and the internalization of language structures. We explore how the 'self-attention mechanism' of transformer models contributes to a deep understanding of text and how these models develop the ability to predict future words and sentences, which helps in grasping grammatical and semantic structures better.
The study also addresses the extent to which the language understanding of these models is genuine and the extent to which it is based on creating an impression. Although the models are advanced, their ability to understand language is not as profound as the human ability to understand language. The study emphasizes that the real comprehension capability of these models remains limited, even though they have developed to produce text that appears to understand language.
...
Metadata
Näytä kaikki kuvailutiedotKokoelmat
- Kandidaatintutkielmat [5362]
Lisenssi
Samankaltainen aineisto
Näytetään aineistoja, joilla on samankaltainen nimeke tai asiasanat.
-
ChatGPT for STEM Education : A Working Framework
Zeeshan, Khaula; Hämäläinen, Timo; Neittaanmäki, Pekka (EJournal Publishing, 2024)This paper sheds light on the possible use of most recent technology, ChatGPT in STEM (Science, Technology, Engineering, and Mathematics) education. Here we used the ChatGPT tool and explored how it can help teachers in ... -
Lisää sanoja koneesta : tekoäly ja tiedejulkaiseminen
Haapanen, Lauri; Rydenfelt, Henrik (Media- ja viestintätieteellinen seura MEVI ry, 2024)Generatiivista tekoälyä käytetään tehostamaan tutkimuksen eri vaiheita, mikä on johtanut keskusteluun tekoälyn käytön merkitsemisestä erilaisissa julkaisuissa. Media & viestintä -lehden toimitus on toistaiseksi katsonut, ... -
Anonymization as homeomorphic data space transformation for privacy-preserving deep learning
Girka, Anastasiia; Terziyan, Vagan; Gavriushenko, Mariia; Gontarenko, Andrii (Elsevier, 2021)Industry 4.0 is largely data-driven nowadays. Owners of the data, on the one hand, want to get added value from the data by using remote artificial intelligence tools as services, on the other hand, they concern on privacy ... -
Predicting aircraft arrival times with machine learning
Kiesiläinen, Jarno (2020)Tässä Pro Gradu -tutkielmassa tutkitaan lentokoneiden matka- ajan ennustamista lentodatan, lentosuunnitelmien, säädatan ja koneoppimisen avulla. -
Konvolutionaalisten neuroverkkojen hyödyntäminen automatisoitujen ajoneuvojen kehittämisessä
Hiekkavirta, Jenna (2021)Tekoäly on tällä hetkellä ja tulevaisuudessa merkittävä teknologia, jota pystytään hyödyntämään autonomisessa ajamisessa eri teknologioiden avulla. Tässä kandidaatin tutkielmassa selvitetään sitä, miten konvolutionaalisia ...
Ellei toisin mainittu, julkisesti saatavilla olevia JYX-metatietoja (poislukien tiivistelmät) saa vapaasti uudelleenkäyttää CC0-lisenssillä.