Využití duplicitních otázek na Stackoverflow pro učení reprezentace významu vět

Pašek, Jan

Title:	Využití duplicitních otázek na Stackoverflow pro učení reprezentace významu vět
Other Titles:	Learning of sentence encoding by using duplicate questions from Stackoverflow.
Authors:	Pašek, Jan
Advisor:	Konopík Miloslav, Ing. Ph.D.
Referee:	Pražák Ondřej, Ing.
Issue Date:	2020
Publisher:	Západočeská univerzita v Plzni
Document type:	bakalářská práce
URI:	http://hdl.handle.net/11025/41785
Keywords:	strojové učení;zpracování přirozeného jazyka;sémantická podobnost;stackoverflow;neuronové sítě
Keywords in different language:	machine learning;natural language processing;semantic similarity;stackoverflow;neural networks
Abstract:	Tato bakalářská práce se zabývá vývojem neuronové sítě pro porozumění textu v odborném jazyce. Výstupy této práce mohou zlepšit výsledky úloh jako je získávání informací či generování zdrojového kódu. Pro vyřešení této úlohy představujeme novou architekturu neuronové sítě založenou na využití enkodéru kódu společně s textovým enkodérem. Architektura dále využívá nepříliš známou f1 loss, která významně zlepšuje dosažené výsledky. Důležitým výstupem této práce je vektorová reprezentace vět, která se nalézá ve skrytých vrstvách neuronové sítě. Navržený přístup je demonstrován na využití duplicitních otázek ze stránky Stackoverflow, ze kterých jsme připravili nový dataset použitelný nad rámec této práce. Pomocí navržené architektury bylo na datasetu dosaženo f1 score 74.1 %, což představuje zlepšení o 5.1 % v porovnání s výchozí architekturou založenou na sčítání reprezentací slov.
Abstract in different language:	This bachelor thesis aims to create a neural network for natural language understanding in expert domains. Our outcome can significantly improve tasks such as information retrieval or code generation. The work proposes a neural network architecture utilizing a code encoder in parallel with a commonly used text encoder. Furthermore, the architecture uses a not widely known f1 loss, significantly improving results. An important outcome of this work is a vector representation of text stored in hidden layers of the network. We demonstrate our approach on Stackoverflow data utilizing duplicate questions to create a novel dataset, usable beyond the scope of this work. Our architecture achieved f1 score of 74.1%, which is a 5.1% improvement compared to a baseline model based on word embedding summation.
Rights:	Plný text práce je přístupný bez omezení.
Appears in Collections:	Bakalářské práce / Bachelor´s works (KIV)

Files in This Item:

File	Description	Size	Format
BP_jan_pasek.pdf	Plný text práce	2,56 MB	Adobe PDF	View/Open
A17B0318P_Posudek.pdf	Posudek oponenta práce	248,63 kB	Adobe PDF	View/Open
A17B0318P_Hodnoceni.pdf	Posudek vedoucího práce	104,97 kB	Adobe PDF	View/Open
A17B0318P_Obhajoba.pdf	Průběh obhajoby práce	59,28 kB	Adobe PDF	View/Open

Show full item record

Please use this identifier to cite or link to this item: http://hdl.handle.net/11025/41785

search

navigation