Název: Využití duplicitních otázek na Stackoverflow pro učení reprezentace významu vět
Další názvy: Learning of sentence encoding by using duplicate questions from Stackoverflow.
Autoři: Pašek, Jan
Vedoucí práce/školitel: Konopík Miloslav, Ing. Ph.D.
Oponent: Pražák Ondřej, Ing.
Datum vydání: 2020
Nakladatel: Západočeská univerzita v Plzni
Typ dokumentu: bakalářská práce
URI: http://hdl.handle.net/11025/41785
Klíčová slova: strojové učení;zpracování přirozeného jazyka;sémantická podobnost;stackoverflow;neuronové sítě
Klíčová slova v dalším jazyce: machine learning;natural language processing;semantic similarity;stackoverflow;neural networks
Abstrakt: Tato bakalářská práce se zabývá vývojem neuronové sítě pro porozumění textu v odborném jazyce. Výstupy této práce mohou zlepšit výsledky úloh jako je získávání informací či generování zdrojového kódu. Pro vyřešení této úlohy představujeme novou architekturu neuronové sítě založenou na využití enkodéru kódu společně s textovým enkodérem. Architektura dále využívá nepříliš známou f1 loss, která významně zlepšuje dosažené výsledky. Důležitým výstupem této práce je vektorová reprezentace vět, která se nalézá ve skrytých vrstvách neuronové sítě. Navržený přístup je demonstrován na využití duplicitních otázek ze stránky Stackoverflow, ze kterých jsme připravili nový dataset použitelný nad rámec této práce. Pomocí navržené architektury bylo na datasetu dosaženo f1 score 74.1 %, což představuje zlepšení o 5.1 % v porovnání s výchozí architekturou založenou na sčítání reprezentací slov.
Abstrakt v dalším jazyce: This bachelor thesis aims to create a neural network for natural language understanding in expert domains. Our outcome can significantly improve tasks such as information retrieval or code generation. The work proposes a neural network architecture utilizing a code encoder in parallel with a commonly used text encoder. Furthermore, the architecture uses a not widely known f1 loss, significantly improving results. An important outcome of this work is a vector representation of text stored in hidden layers of the network. We demonstrate our approach on Stackoverflow data utilizing duplicate questions to create a novel dataset, usable beyond the scope of this work. Our architecture achieved f1 score of 74.1%, which is a 5.1% improvement compared to a baseline model based on word embedding summation.
Práva: Plný text práce je přístupný bez omezení.
Vyskytuje se v kolekcích:Bakalářské práce / Bachelor´s works (KIV)

Soubory připojené k záznamu:
Soubor Popis VelikostFormát 
BP_jan_pasek.pdfPlný text práce2,56 MBAdobe PDFZobrazit/otevřít
A17B0318P_Posudek.pdfPosudek oponenta práce248,63 kBAdobe PDFZobrazit/otevřít
A17B0318P_Hodnoceni.pdfPosudek vedoucího práce104,97 kBAdobe PDFZobrazit/otevřít
A17B0318P_Obhajoba.pdfPrůběh obhajoby práce59,28 kBAdobe PDFZobrazit/otevřít


Použijte tento identifikátor k citaci nebo jako odkaz na tento záznam: http://hdl.handle.net/11025/41785

Všechny záznamy v DSpace jsou chráněny autorskými právy, všechna práva vyhrazena.