Full metadata record
DC pole | Hodnota | Jazyk |
---|---|---|
dc.contributor.advisor | Konopík Miloslav, Ing. Ph.D. | |
dc.contributor.author | Pašek, Jan | |
dc.contributor.referee | Pražák Ondřej, Ing. | |
dc.date.accepted | 2020-6-16 | |
dc.date.accessioned | 2020-11-10T00:38:57Z | - |
dc.date.available | 2019-10-7 | |
dc.date.available | 2020-11-10T00:38:57Z | - |
dc.date.issued | 2020 | |
dc.date.submitted | 2020-5-7 | |
dc.identifier | 82897 | |
dc.identifier.uri | http://hdl.handle.net/11025/41785 | |
dc.description.abstract | Tato bakalářská práce se zabývá vývojem neuronové sítě pro porozumění textu v odborném jazyce. Výstupy této práce mohou zlepšit výsledky úloh jako je získávání informací či generování zdrojového kódu. Pro vyřešení této úlohy představujeme novou architekturu neuronové sítě založenou na využití enkodéru kódu společně s textovým enkodérem. Architektura dále využívá nepříliš známou f1 loss, která významně zlepšuje dosažené výsledky. Důležitým výstupem této práce je vektorová reprezentace vět, která se nalézá ve skrytých vrstvách neuronové sítě. Navržený přístup je demonstrován na využití duplicitních otázek ze stránky Stackoverflow, ze kterých jsme připravili nový dataset použitelný nad rámec této práce. Pomocí navržené architektury bylo na datasetu dosaženo f1 score 74.1 %, což představuje zlepšení o 5.1 % v porovnání s výchozí architekturou založenou na sčítání reprezentací slov. | cs |
dc.format | 81 s. (87 600 znaků) | cs |
dc.format.mimetype | application/pdf | |
dc.language.iso | en | en |
dc.publisher | Západočeská univerzita v Plzni | cs |
dc.rights | Plný text práce je přístupný bez omezení. | cs |
dc.subject | strojové učení | cs |
dc.subject | zpracování přirozeného jazyka | cs |
dc.subject | sémantická podobnost | cs |
dc.subject | stackoverflow | cs |
dc.subject | neuronové sítě | cs |
dc.title | Využití duplicitních otázek na Stackoverflow pro učení reprezentace významu vět | cs |
dc.title.alternative | Learning of sentence encoding by using duplicate questions from Stackoverflow. | en |
dc.type | bakalářská práce | cs |
dc.thesis.degree-name | Bc. | cs |
dc.thesis.degree-level | Bakalářský | cs |
dc.thesis.degree-grantor | Západočeská univerzita v Plzni. Fakulta aplikovaných věd | cs |
dc.thesis.degree-program | Inženýrská informatika | cs |
dc.description.result | Obhájeno | cs |
dc.rights.access | openAccess | en |
dc.description.abstract-translated | This bachelor thesis aims to create a neural network for natural language understanding in expert domains. Our outcome can significantly improve tasks such as information retrieval or code generation. The work proposes a neural network architecture utilizing a code encoder in parallel with a commonly used text encoder. Furthermore, the architecture uses a not widely known f1 loss, significantly improving results. An important outcome of this work is a vector representation of text stored in hidden layers of the network. We demonstrate our approach on Stackoverflow data utilizing duplicate questions to create a novel dataset, usable beyond the scope of this work. Our architecture achieved f1 score of 74.1%, which is a 5.1% improvement compared to a baseline model based on word embedding summation. | en |
dc.subject.translated | machine learning | en |
dc.subject.translated | natural language processing | en |
dc.subject.translated | semantic similarity | en |
dc.subject.translated | stackoverflow | en |
dc.subject.translated | neural networks | en |
Vyskytuje se v kolekcích: | Bakalářské práce / Bachelor´s works (KIV) |
Soubory připojené k záznamu:
Soubor | Popis | Velikost | Formát | |
---|---|---|---|---|
BP_jan_pasek.pdf | Plný text práce | 2,56 MB | Adobe PDF | Zobrazit/otevřít |
A17B0318P_Posudek.pdf | Posudek oponenta práce | 248,63 kB | Adobe PDF | Zobrazit/otevřít |
A17B0318P_Hodnoceni.pdf | Posudek vedoucího práce | 104,97 kB | Adobe PDF | Zobrazit/otevřít |
A17B0318P_Obhajoba.pdf | Průběh obhajoby práce | 59,28 kB | Adobe PDF | Zobrazit/otevřít |
Použijte tento identifikátor k citaci nebo jako odkaz na tento záznam:
http://hdl.handle.net/11025/41785
Všechny záznamy v DSpace jsou chráněny autorskými právy, všechna práva vyhrazena.