Title: | Mezi-jazyčné transformace sémantických prostorů |
Other Titles: | Cross-lingual transformations between semantic spaces |
Authors: | Mištera, Adam |
Advisor: | Brychcín Tomáš, Ing. Ph.D. |
Referee: | Král Pavel, Doc. Ing. Ph.D. |
Issue Date: | 2021 |
Publisher: | Západočeská univerzita v Plzni |
Document type: | diplomová práce |
URI: | http://hdl.handle.net/11025/44775 |
Keywords: | zpracování přirozeného jazyka;sémantická reprezentace;metoda nejmenších čtverců;ortogonální transformace;kanonická korelační analýza;nelineární transformace;neuronové sítě;shlukování;word2vec;fasttext;semeval |
Keywords in different language: | natural language processing;semantic representation;linear transformation;orthogonal transformation;canonical correlation analysis;non-linear transformation;neural networks;clustering;word2vec;fasttext;semeval |
Abstract: | Mezi-jazyčná reprezentace významu je aktuální téma v oblasti zpracování přirozeného jazyka. Sémantické prostory z různých jazyků jsou transformovány do jednoho sdíleného univerzálního prostoru. Tento fakt umožňuje přenést znalosti z jazyků, které jsou velmi bohaté na zdroje, do jazyků, jež jsou na zdroje omezené. Cílem této diplomové práce bylo analyzovat, porovnat a implementovat dostupné metody pro jazykově nezávislou sémantickou reprezentaci. Většina souvisejících prací se zaměřuje na lineární transformace, jelikož vykazují velmi dobrý výkon. V této práci se však soustřeďujeme na zvolené nelineární transformace založené na umělých neuronových sítích a shlukování. Kvalita lineárních i nelineárních metod je následně vyhodnocena na různých úlohách, například datových sadách slovních podobností, slovních analogií a strojovém překladu. Nově implementované nelineární transformace v mnoha ohledech překonaly lineární transformace ve všech sledovaných kategoriích na rozdílných jazycích z odlišných jazykových rodin. |
Abstract in different language: | Cross-lingual meaning representation is a current topic in the field of Natural Language Processing. Semantic spaces of various languages are transformed into a shared universal space. It allows to transfer knowledge between languages, especially between resource-rich and resource-poor languages. This Master Thesis aims to analyze, compare and implement available methods of language independent semantic representation. Most of related works focus on linear projections as they showed a very good performance. In this thesis, however, we study non-linear methods based on artificial neural networks and clustering. Both linear and non-linear methods were subsequently evaluated on different tasks such as datasets containing word similarities, word analogies and machine translation. The newly implemented non-linear transformations consistently outperformed state-of-the-art linear transformations in all evaluation criteria and on several languages within different language families. |
Rights: | Plný text práce je přístupný bez omezení. |
Appears in Collections: | Diplomové práce / Theses (KIV) |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
DP_Mistera_A19N0038P.pdf | Plný text práce | 753,72 kB | Adobe PDF | View/Open |
A19N0038Phodnoceni-ved.PDF | Posudek vedoucího práce | 894,68 kB | Adobe PDF | View/Open |
A19N0038Pposudek_op.pdf | Posudek oponenta práce | 41,94 kB | Adobe PDF | View/Open |
A19N0038Pobhajoba.PDF | Průběh obhajoby práce | 212,63 kB | Adobe PDF | View/Open |
Please use this identifier to cite or link to this item:
http://hdl.handle.net/11025/44775
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.