Název: | Propojení témat zpravodajských článků mezi jazyky |
Další názvy: | Linking similar news across languages |
Autoři: | Kopal, Petr |
Vedoucí práce/školitel: | Steinberger Josef, Doc. Ing. Ph.D. |
Oponent: | Přibáň Pavel, Ing. |
Datum vydání: | 2019 |
Nakladatel: | Západočeská univerzita v Plzni |
Typ dokumentu: | diplomová práce |
URI: | http://hdl.handle.net/11025/39194 |
Klíčová slova: | vícejazyčná podobnost dokumentů;propojování článků;cl-lsa;cl-esa;k-means;entity;eurovoc;word embeddings;distribuční sémantické modely;wikipedia korpus |
Klíčová slova v dalším jazyce: | cross-lingual document similarity;news linking;cl-lsa;cl-esa;k-means;entity;eurovoc;word embeddings;wikipedia corpus |
Abstrakt: | Cílem této diplomové práce bylo prozkoumat možnosti metod pro výpočet podobnosti textů napříč jazyky. Následně na základě těchto poznatků navrhnout systém, který bude schopen propojit tematicky podobné zpravodajské články v různých jazycích. Pro získání příznakových vektorů byly kromě společných entit a Eurovoc deskriptorů použity sémantické distribuční modely natrénované na srovnatelném korpusu Wikipedie. Konkrétně šlo o metody CL-ESA, K-means a CL-LSA. Výsledné shluky byly vyhodnoceny evaluačními metrikami (zejména pak F-mírou a purity) a zdokumentovány v samostatné kapitole. Nejlepších výsledků bylo dosaženo metodou CL-LSA v kombinaci se společnými entitami. |
Abstrakt v dalším jazyce: | The goal of this master thesis was to research cross-lingual document similarity methods, which were used then to design a system for linking of similar news topics across languages. Except of the common entities and Eurovoc descriptors, word embeddings models (CL-ESA, K-means, CL-LSA) were used as the main source of feature vectors. All these word embeddings models were trained on the Wikipedia comparable corpus. The clustering results were evaluated using various metrics (notably F-measure and purity) and documented in a separate chapter. The best results were achieved using the CL-LSA method in combination with common entities features. |
Práva: | Plný text práce je přístupný bez omezení. |
Vyskytuje se v kolekcích: | Diplomové práce / Theses (KIV) |
Soubory připojené k záznamu:
Soubor | Popis | Velikost | Formát | |
---|---|---|---|---|
Diplomka.pdf | Plný text práce | 1,1 MB | Adobe PDF | Zobrazit/otevřít |
A16N0044Pposudek-op.pdf | Posudek oponenta práce | 218,46 kB | Adobe PDF | Zobrazit/otevřít |
A16N0044Phodnoceni-ved.PDF | Posudek vedoucího práce | 343,01 kB | Adobe PDF | Zobrazit/otevřít |
A16N0044Pobhajoba.PDF | Průběh obhajoby práce | 269,95 kB | Adobe PDF | Zobrazit/otevřít |
Použijte tento identifikátor k citaci nebo jako odkaz na tento záznam:
http://hdl.handle.net/11025/39194
Všechny záznamy v DSpace jsou chráněny autorskými právy, všechna práva vyhrazena.