Full metadata record
DC FieldValueLanguage
dc.contributor.authorSvoboda, Lukáš
dc.date.accepted2020-2-11
dc.date.accessioned2020-11-10T00:38:52Z-
dc.date.available2018-11-19
dc.date.available2020-11-10T00:38:52Z-
dc.date.issued2020
dc.date.submitted2019-10-9
dc.identifier81082
dc.identifier.urihttp://hdl.handle.net/11025/41777
dc.description.abstractV posledních letech vykazují metody založené na neuronových sítích zásadní zlepšení v zachycení sémantiky a syntaxe slov nebo vět. Mnoho bylo vyzkoumáno o vnoření anglických slov a frází, ale jen malá pozornost byla věnována jiným jazykům. Na úrovni slov zkoumáme chování nejmodernějších metod pro tvorbu vnořených slov na češtině a chorvatštině, což jsou zástupci slovanských jazyků charakterizovaných bohatou morfologií slov. Tvoříme první korpusy pro testování kvality číselné reprezentace (vnoření) slov na podobnost a tzv. úlohu slovních analogií českého a chorvatského jazyka. Pro pochopení významu vět ukážeme, jak s těmito jazyky pracovat při řešení aktuálně jedněch z nejdiskutovanějších úloh jako je sémantická textová analýza a analýza sentimentu založená na aspektech. Většina prací komunity v počítačovém zpracování přirozeného jazyka věnující se těmto úlohám se také zaměřuje výlučně na anglický jazyk. Nejen volný slovosled českého a~chorvatského jazyka komplikuje učení současných nejmodernějších metod. Představíme první korpusy a modely, které dokáží pochopit sémantiku vět k~řešení těchto úloh pro flektivní jazyky. Na závěr představíme nový přístup k učení číselné reprezentace slov obohacený o globální informace získané z Wikipedie. Pro náš nový přístup vycházíme z modelů Continuous Bag-of-Words a Skip-gram vylepšených o globální kontextové informace. Provedeme analýzu chování výsledného modelu na flektivním jazyku a porovnáváme je s výsledky v angličtině. Výsledky tohoto modelu ukazují, že náš přístup může pomoci vytvořit číselné preprezentace slov, které lépe fungují s menšími korpusy a zlepšují výkonnost ve vysoce flektivních jazycích. Náš výzkum pomáhá komunitě pokračovat ve zdokonalování nejmodernějších metod s důrazem na flektivní jazyky. Práce se také zaměřuje na využití neuronových sítí mezi úlohami v počítačovém zpracování přirozeného jazyka. Jsou popsány základní algoritmy strojového učení a jejich použití při zpracování přírozeného jazyka a nejčastěji využívané algoritmy pro extrakci číselné reprezentace slov. Je uveden stručný přehled metod distribuční sémantiky.cs
dc.format116 s.cs
dc.format.mimetypeapplication/pdf
dc.language.isoenen
dc.publisherZápadočeská univerzita v Plznics
dc.rightsPlný text práce je přístupný bez omezení.cs
dc.subjectdistribuční sémantikacs
dc.subjectvylepšenícs
dc.subjectvnořená slovacs
dc.subjectword2veccs
dc.subjectword embeddingscs
dc.subjectsentimentcs
dc.subjectanalýzacs
dc.subjectglobální informacecs
dc.subjectneuronové sítěcs
dc.subjectčeštinacs
dc.subjectchorvatštinacs
dc.subjectflektivní jazykcs
dc.subjectnlpcs
dc.subjectzpracování přirozeného jazykacs
dc.subjectpodobnost větcs
dc.subjectpochopení textucs
dc.subjectextrakce reprezentace slovcs
dc.subjectslovní analogiecs
dc.titleDistribuční sémantika s využitím neuronových sítícs
dc.title.alternativeDistributional Semantics Using Neural Networksen
dc.typedisertační prácecs
dc.thesis.degree-namePh.D.cs
dc.thesis.degree-levelDoktorskýcs
dc.thesis.degree-grantorZápadočeská univerzita v Plzni. Fakulta aplikovaných vědcs
dc.thesis.degree-programInženýrská informatikacs
dc.description.resultObhájenocs
dc.rights.accessopenAccessen
dc.description.abstract-translatedDuring recent years, neural network-based methods are showing crucial improvements in catching semantic and syntactical properties of words or sentences. Much has been investigated about word embeddings of English words and phrases, but little attention has been dedicated to other languages. At the level of words, we explore the behavior of state-of-the-art word embedding methods on Czech and Croatian, which are representatives of Slavic languages characterized by rich word morphology. We build the first corpora for testing word embedding accuracy on similarity and analogy tasks of Czech and Croatian language. For understanding semantics on the sentence level, we show how to deal with these languages on some of the currently most discused tasks such as aspect-based sentiment analysis (ABSA) and semantic textual similarity (STS). Most of the community work here is also dedicated to English language. Free word order of Czech and Croatian complicates learning of current state-of-the-art methods. We build first corpora and state-of-the-art models for understanding sentence semantics adapted on highly inflectional language for dealing with STS and ABSA task. Finally, we develop a new approach for learning word embeddings enriched with global information extracted from Wikipedia. We evaluate our new approach based on the Continuous Bag-of-Words and Skip-gram models enriched with global context information on highly inflectional language and compare it with English. The results of the model shows, that our approach can help to create word embeddings that perform better with smaller corpora and improve performance on highly inflected languages. Our research helps the community to continue with improving the state-of-the-art methods with focus on highly inflectioned languages. The thesis also focuses on further use of neural networks (NN) in Natural Language Processing (NLP) tasks. Basic machine learning algorithms for NLP are described as well as the commonly used algorithms for extracting word embeddings. A brief overview of distributional semantics methods is presented. We emphasize the analysis of models' behaviour in the highly inflected language environment.en
dc.subject.translateddistributional semanticsen
dc.subject.translatedmodelsen
dc.subject.translatedimprovingen
dc.subject.translatedword embeddingsen
dc.subject.translatedword2vecen
dc.subject.translatedsentiment analysisen
dc.subject.translatedczechen
dc.subject.translatedcroatianen
dc.subject.translatedinflectional languagesen
dc.subject.translatedglobal informationen
dc.subject.translatedneural networksen
dc.subject.translatednatural language processingen
dc.subject.translatedsemantic textual similarityen
dc.subject.translatedtext understandingen
dc.subject.translatedword analogyen
Appears in Collections:Disertační práce / Dissertations (KIV)

Files in This Item:
File Description SizeFormat 
lukas-PhDThesis.pdfPlný text práce1,23 MBAdobe PDFView/Open
posudky-odp-svoboda.pdfPosudek oponenta práce578,82 kBAdobe PDFView/Open
protokol-odp-svoboda.pdfPrůběh obhajoby práce579,2 kBAdobe PDFView/Open


Please use this identifier to cite or link to this item: http://hdl.handle.net/11025/41777

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.