Název: | Explicitní sémantická analýza |
Další názvy: | Explicit semantic analysis |
Autoři: | Tušl, Michal |
Vedoucí práce/školitel: | Brychcín Tomáš, Ing. Ph.D. |
Oponent: | Svoboda Lukáš, Ing. |
Datum vydání: | 2017 |
Nakladatel: | Západočeská univerzita v Plzni |
Typ dokumentu: | bakalářská práce |
URI: | http://hdl.handle.net/11025/27718 |
Klíčová slova: | zpracování přirozeného jazyka;distribuční sémantika;sémantická podobnost;vektorové sémantické prostory;explicitní sémantická analýza;latentní sémantická analýza;singulární rozklad |
Klíčová slova v dalším jazyce: | nlp;distributional semantics;semantic similarity;vector space model;explicit semantic analysis;latent semantic analysis;singular value decomposition |
Abstrakt: | Tato práce je zaměřena na sémantickou analýzu textů. Konkrétně na metody Explicitní sémantická analýza a Latentní sémantická analýza. Tyto metody jsou založené na trénování bez učitele a jako trénovací data využívají Wikipedii. Na výsledek metod je aplikován singulární rozklad matic, který redukuje paměťové nároky a zároveň vylepšuje výsledky metod. Testování výsledků je prováděno na standardních datasetech pro anglický a český jazyk. Tyto datasety obsahují páry slov a manuálně definovanou sémantickou podobnost. Kvalita sémantické reprezentace je měrena pomocí Pearsonovy a Spearmanovy korelace. Všechny testované metody dosahují na obou jazycích velmi dobrých výsledků. |
Abstrakt v dalším jazyce: | This bachelor thesis investigates semantic analysis of texts in natural language. It focuses on Explicit Semantic Analysis and Latent Semantic Analysis methods. These methods are based on unsupervised machine learning and use Wikipedia as a training data. Singular Value Decomposition is used to reduce the memory requirements and also to improve the results. Standard English and Czech datasets are used for testing purposes. These datasets contain word pairs and manually annotated semantic similarity. The quality of semantic representation is evaluated by Pearson and Spearman correlation. All tested methods provide very promising results on both languages. |
Práva: | Plný text práce je přístupný bez omezení. |
Vyskytuje se v kolekcích: | Bakalářské práce / Bachelor´s works (KIV) |
Soubory připojené k záznamu:
Soubor | Popis | Velikost | Formát | |
---|---|---|---|---|
BP_Tusl_A14B0453P.pdf | Plný text práce | 516,22 kB | Adobe PDF | Zobrazit/otevřít |
A14B0453P-hodnoceni.pdf | Posudek vedoucího práce | 235,16 kB | Adobe PDF | Zobrazit/otevřít |
A14B0453P-posudek.pdf | Posudek oponenta práce | 412,13 kB | Adobe PDF | Zobrazit/otevřít |
A14B0453P-obhajoba.pdf | Průběh obhajoby práce | 185,69 kB | Adobe PDF | Zobrazit/otevřít |
Použijte tento identifikátor k citaci nebo jako odkaz na tento záznam:
http://hdl.handle.net/11025/27718
Všechny záznamy v DSpace jsou chráněny autorskými právy, všechna práva vyhrazena.