Název: | Mezi-jazyčné transformace sémantických prostorů |
Další názvy: | Cross-lingual transformations between semantic spaces |
Autoři: | Mištera, Adam |
Vedoucí práce/školitel: | Brychcín Tomáš, Ing. Ph.D. |
Oponent: | Král Pavel, Doc. Ing. Ph.D. |
Datum vydání: | 2021 |
Nakladatel: | Západočeská univerzita v Plzni |
Typ dokumentu: | diplomová práce |
URI: | http://hdl.handle.net/11025/44775 |
Klíčová slova: | zpracování přirozeného jazyka;sémantická reprezentace;metoda nejmenších čtverců;ortogonální transformace;kanonická korelační analýza;nelineární transformace;neuronové sítě;shlukování;word2vec;fasttext;semeval |
Klíčová slova v dalším jazyce: | natural language processing;semantic representation;linear transformation;orthogonal transformation;canonical correlation analysis;non-linear transformation;neural networks;clustering;word2vec;fasttext;semeval |
Abstrakt: | Mezi-jazyčná reprezentace významu je aktuální téma v oblasti zpracování přirozeného jazyka. Sémantické prostory z různých jazyků jsou transformovány do jednoho sdíleného univerzálního prostoru. Tento fakt umožňuje přenést znalosti z jazyků, které jsou velmi bohaté na zdroje, do jazyků, jež jsou na zdroje omezené. Cílem této diplomové práce bylo analyzovat, porovnat a implementovat dostupné metody pro jazykově nezávislou sémantickou reprezentaci. Většina souvisejících prací se zaměřuje na lineární transformace, jelikož vykazují velmi dobrý výkon. V této práci se však soustřeďujeme na zvolené nelineární transformace založené na umělých neuronových sítích a shlukování. Kvalita lineárních i nelineárních metod je následně vyhodnocena na různých úlohách, například datových sadách slovních podobností, slovních analogií a strojovém překladu. Nově implementované nelineární transformace v mnoha ohledech překonaly lineární transformace ve všech sledovaných kategoriích na rozdílných jazycích z odlišných jazykových rodin. |
Abstrakt v dalším jazyce: | Cross-lingual meaning representation is a current topic in the field of Natural Language Processing. Semantic spaces of various languages are transformed into a shared universal space. It allows to transfer knowledge between languages, especially between resource-rich and resource-poor languages. This Master Thesis aims to analyze, compare and implement available methods of language independent semantic representation. Most of related works focus on linear projections as they showed a very good performance. In this thesis, however, we study non-linear methods based on artificial neural networks and clustering. Both linear and non-linear methods were subsequently evaluated on different tasks such as datasets containing word similarities, word analogies and machine translation. The newly implemented non-linear transformations consistently outperformed state-of-the-art linear transformations in all evaluation criteria and on several languages within different language families. |
Práva: | Plný text práce je přístupný bez omezení. |
Vyskytuje se v kolekcích: | Diplomové práce / Theses (KIV) |
Soubory připojené k záznamu:
Soubor | Popis | Velikost | Formát | |
---|---|---|---|---|
DP_Mistera_A19N0038P.pdf | Plný text práce | 753,72 kB | Adobe PDF | Zobrazit/otevřít |
A19N0038Phodnoceni-ved.PDF | Posudek vedoucího práce | 894,68 kB | Adobe PDF | Zobrazit/otevřít |
A19N0038Pposudek_op.pdf | Posudek oponenta práce | 41,94 kB | Adobe PDF | Zobrazit/otevřít |
A19N0038Pobhajoba.PDF | Průběh obhajoby práce | 212,63 kB | Adobe PDF | Zobrazit/otevřít |
Použijte tento identifikátor k citaci nebo jako odkaz na tento záznam:
http://hdl.handle.net/11025/44775
Všechny záznamy v DSpace jsou chráněny autorskými právy, všechna práva vyhrazena.