Využití duplicitních otázek na Stackoverflow pro učení reprezentace významu vět

Pašek, Jan

Full metadata record

DC pole	Hodnota	Jazyk
dc.contributor.advisor	Konopík Miloslav, Ing. Ph.D.
dc.contributor.author	Pašek, Jan
dc.contributor.referee	Pražák Ondřej, Ing.
dc.date.accepted	2020-6-16
dc.date.accessioned	2020-11-10T00:38:57Z	-
dc.date.available	2019-10-7
dc.date.available	2020-11-10T00:38:57Z	-
dc.date.issued	2020
dc.date.submitted	2020-5-7
dc.identifier	82897
dc.identifier.uri	http://hdl.handle.net/11025/41785
dc.description.abstract	Tato bakalářská práce se zabývá vývojem neuronové sítě pro porozumění textu v odborném jazyce. Výstupy této práce mohou zlepšit výsledky úloh jako je získávání informací či generování zdrojového kódu. Pro vyřešení této úlohy představujeme novou architekturu neuronové sítě založenou na využití enkodéru kódu společně s textovým enkodérem. Architektura dále využívá nepříliš známou f1 loss, která významně zlepšuje dosažené výsledky. Důležitým výstupem této práce je vektorová reprezentace vět, která se nalézá ve skrytých vrstvách neuronové sítě. Navržený přístup je demonstrován na využití duplicitních otázek ze stránky Stackoverflow, ze kterých jsme připravili nový dataset použitelný nad rámec této práce. Pomocí navržené architektury bylo na datasetu dosaženo f1 score 74.1 %, což představuje zlepšení o 5.1 % v porovnání s výchozí architekturou založenou na sčítání reprezentací slov.	cs
dc.format	81 s. (87 600 znaků)	cs
dc.format.mimetype	application/pdf
dc.language.iso	en	en
dc.publisher	Západočeská univerzita v Plzni	cs
dc.rights	Plný text práce je přístupný bez omezení.	cs
dc.subject	strojové učení	cs
dc.subject	zpracování přirozeného jazyka	cs
dc.subject	sémantická podobnost	cs
dc.subject	stackoverflow	cs
dc.subject	neuronové sítě	cs
dc.title	Využití duplicitních otázek na Stackoverflow pro učení reprezentace významu vět	cs
dc.title.alternative	Learning of sentence encoding by using duplicate questions from Stackoverflow.	en
dc.type	bakalářská práce	cs
dc.thesis.degree-name	Bc.	cs
dc.thesis.degree-level	Bakalářský	cs
dc.thesis.degree-grantor	Západočeská univerzita v Plzni. Fakulta aplikovaných věd	cs
dc.thesis.degree-program	Inženýrská informatika	cs
dc.description.result	Obhájeno	cs
dc.rights.access	openAccess	en
dc.description.abstract-translated	This bachelor thesis aims to create a neural network for natural language understanding in expert domains. Our outcome can significantly improve tasks such as information retrieval or code generation. The work proposes a neural network architecture utilizing a code encoder in parallel with a commonly used text encoder. Furthermore, the architecture uses a not widely known f1 loss, significantly improving results. An important outcome of this work is a vector representation of text stored in hidden layers of the network. We demonstrate our approach on Stackoverflow data utilizing duplicate questions to create a novel dataset, usable beyond the scope of this work. Our architecture achieved f1 score of 74.1%, which is a 5.1% improvement compared to a baseline model based on word embedding summation.	en
dc.subject.translated	machine learning	en
dc.subject.translated	natural language processing	en
dc.subject.translated	semantic similarity	en
dc.subject.translated	stackoverflow	en
dc.subject.translated	neural networks	en
Vyskytuje se v kolekcích:	Bakalářské práce / Bachelor´s works (KIV)

Soubory připojené k záznamu:

Soubor	Popis	Velikost	Formát
BP_jan_pasek.pdf	Plný text práce	2,56 MB	Adobe PDF	Zobrazit/otevřít
A17B0318P_Posudek.pdf	Posudek oponenta práce	248,63 kB	Adobe PDF	Zobrazit/otevřít
A17B0318P_Hodnoceni.pdf	Posudek vedoucího práce	104,97 kB	Adobe PDF	Zobrazit/otevřít
A17B0318P_Obhajoba.pdf	Průběh obhajoby práce	59,28 kB	Adobe PDF	Zobrazit/otevřít

Zobrazit minimální záznam Zobrazit statistiky

Použijte tento identifikátor k citaci nebo jako odkaz na tento záznam: http://hdl.handle.net/11025/41785

Všechny záznamy v DSpace jsou chráněny autorskými právy, všechna práva vyhrazena.

hledání

navigace