Distribuční sémantika s využitím neuronových sítí

Svoboda, Lukáš

Full metadata record

DC Field	Value	Language
dc.contributor.author	Svoboda, Lukáš
dc.date.accepted	2020-2-11
dc.date.accessioned	2020-11-10T00:38:52Z	-
dc.date.available	2018-11-19
dc.date.available	2020-11-10T00:38:52Z	-
dc.date.issued	2020
dc.date.submitted	2019-10-9
dc.identifier	81082
dc.identifier.uri	http://hdl.handle.net/11025/41777
dc.description.abstract	V posledních letech vykazují metody založené na neuronových sítích zásadní zlepšení v zachycení sémantiky a syntaxe slov nebo vět. Mnoho bylo vyzkoumáno o vnoření anglických slov a frází, ale jen malá pozornost byla věnována jiným jazykům. Na úrovni slov zkoumáme chování nejmodernějších metod pro tvorbu vnořených slov na češtině a chorvatštině, což jsou zástupci slovanských jazyků charakterizovaných bohatou morfologií slov. Tvoříme první korpusy pro testování kvality číselné reprezentace (vnoření) slov na podobnost a tzv. úlohu slovních analogií českého a chorvatského jazyka. Pro pochopení významu vět ukážeme, jak s těmito jazyky pracovat při řešení aktuálně jedněch z nejdiskutovanějších úloh jako je sémantická textová analýza a analýza sentimentu založená na aspektech. Většina prací komunity v počítačovém zpracování přirozeného jazyka věnující se těmto úlohám se také zaměřuje výlučně na anglický jazyk. Nejen volný slovosled českého a~chorvatského jazyka komplikuje učení současných nejmodernějších metod. Představíme první korpusy a modely, které dokáží pochopit sémantiku vět k~řešení těchto úloh pro flektivní jazyky. Na závěr představíme nový přístup k učení číselné reprezentace slov obohacený o globální informace získané z Wikipedie. Pro náš nový přístup vycházíme z modelů Continuous Bag-of-Words a Skip-gram vylepšených o globální kontextové informace. Provedeme analýzu chování výsledného modelu na flektivním jazyku a porovnáváme je s výsledky v angličtině. Výsledky tohoto modelu ukazují, že náš přístup může pomoci vytvořit číselné preprezentace slov, které lépe fungují s menšími korpusy a zlepšují výkonnost ve vysoce flektivních jazycích. Náš výzkum pomáhá komunitě pokračovat ve zdokonalování nejmodernějších metod s důrazem na flektivní jazyky. Práce se také zaměřuje na využití neuronových sítí mezi úlohami v počítačovém zpracování přirozeného jazyka. Jsou popsány základní algoritmy strojového učení a jejich použití při zpracování přírozeného jazyka a nejčastěji využívané algoritmy pro extrakci číselné reprezentace slov. Je uveden stručný přehled metod distribuční sémantiky.	cs
dc.format	116 s.	cs
dc.format.mimetype	application/pdf
dc.language.iso	en	en
dc.publisher	Západočeská univerzita v Plzni	cs
dc.rights	Plný text práce je přístupný bez omezení.	cs
dc.subject	distribuční sémantika	cs
dc.subject	vylepšení	cs
dc.subject	vnořená slova	cs
dc.subject	word2vec	cs
dc.subject	word embeddings	cs
dc.subject	sentiment	cs
dc.subject	analýza	cs
dc.subject	globální informace	cs
dc.subject	neuronové sítě	cs
dc.subject	čeština	cs
dc.subject	chorvatština	cs
dc.subject	flektivní jazyk	cs
dc.subject	nlp	cs
dc.subject	zpracování přirozeného jazyka	cs
dc.subject	podobnost vět	cs
dc.subject	pochopení textu	cs
dc.subject	extrakce reprezentace slov	cs
dc.subject	slovní analogie	cs
dc.title	Distribuční sémantika s využitím neuronových sítí	cs
dc.title.alternative	Distributional Semantics Using Neural Networks	en
dc.type	disertační práce	cs
dc.thesis.degree-name	Ph.D.	cs
dc.thesis.degree-level	Doktorský	cs
dc.thesis.degree-grantor	Západočeská univerzita v Plzni. Fakulta aplikovaných věd	cs
dc.thesis.degree-program	Inženýrská informatika	cs
dc.description.result	Obhájeno	cs
dc.rights.access	openAccess	en
dc.description.abstract-translated	During recent years, neural network-based methods are showing crucial improvements in catching semantic and syntactical properties of words or sentences. Much has been investigated about word embeddings of English words and phrases, but little attention has been dedicated to other languages. At the level of words, we explore the behavior of state-of-the-art word embedding methods on Czech and Croatian, which are representatives of Slavic languages characterized by rich word morphology. We build the first corpora for testing word embedding accuracy on similarity and analogy tasks of Czech and Croatian language. For understanding semantics on the sentence level, we show how to deal with these languages on some of the currently most discused tasks such as aspect-based sentiment analysis (ABSA) and semantic textual similarity (STS). Most of the community work here is also dedicated to English language. Free word order of Czech and Croatian complicates learning of current state-of-the-art methods. We build first corpora and state-of-the-art models for understanding sentence semantics adapted on highly inflectional language for dealing with STS and ABSA task. Finally, we develop a new approach for learning word embeddings enriched with global information extracted from Wikipedia. We evaluate our new approach based on the Continuous Bag-of-Words and Skip-gram models enriched with global context information on highly inflectional language and compare it with English. The results of the model shows, that our approach can help to create word embeddings that perform better with smaller corpora and improve performance on highly inflected languages. Our research helps the community to continue with improving the state-of-the-art methods with focus on highly inflectioned languages. The thesis also focuses on further use of neural networks (NN) in Natural Language Processing (NLP) tasks. Basic machine learning algorithms for NLP are described as well as the commonly used algorithms for extracting word embeddings. A brief overview of distributional semantics methods is presented. We emphasize the analysis of models' behaviour in the highly inflected language environment.	en
dc.subject.translated	distributional semantics	en
dc.subject.translated	models	en
dc.subject.translated	improving	en
dc.subject.translated	word embeddings	en
dc.subject.translated	word2vec	en
dc.subject.translated	sentiment analysis	en
dc.subject.translated	czech	en
dc.subject.translated	croatian	en
dc.subject.translated	inflectional languages	en
dc.subject.translated	global information	en
dc.subject.translated	neural networks	en
dc.subject.translated	natural language processing	en
dc.subject.translated	semantic textual similarity	en
dc.subject.translated	text understanding	en
dc.subject.translated	word analogy	en
Appears in Collections:	Disertační práce / Dissertations (KIV)

Files in This Item:

File	Description	Size	Format
lukas-PhDThesis.pdf	Plný text práce	1,23 MB	Adobe PDF	View/Open
posudky-odp-svoboda.pdf	Posudek oponenta práce	578,82 kB	Adobe PDF	View/Open
protokol-odp-svoboda.pdf	Průběh obhajoby práce	579,2 kB	Adobe PDF	View/Open

Show simple item record

Please use this identifier to cite or link to this item: http://hdl.handle.net/11025/41777

search

navigation