Title: Linear transformations for cross-lingual semantic textual similarity
Other Titles: Lineární transformace pro kroslinguální sémantickou podobnost textů
Authors: Brychcín, Tomáš
Citation: BRYCHCÍN, T. . Linear transformations for cross-lingual semantic textual similarity. Knowledge-Based Systems, 2020, roč. 187, č. 1, s. 1-9. ISSN 0950-7051.
Issue Date: 2020
Publisher: Elsevier
Document type: článek
article
URI: 2-s2.0-85068031029
http://hdl.handle.net/11025/36955
ISSN: 0950-7051
Keywords: Sémantická podobnost textů;Sémantické prostory;Lineární transformace;Slovní reprezentace;Kroslinguální sémantické prostory
Keywords in different language: Semantic spaces;Linear transformations;Word embeddings;Cross-lingual semantic spaces Semantic textual similarity
Abstract: Cross-lingual semantic textual similarity systems estimate the degree of the meaning similarity between two sentences, each in a different language. State-of-the-art algorithms usually employ machine translation and combine vast amount of features, making the approach strongly supervised, resource rich, and difficult to use for poorly-resourced languages. In this paper, we study linear transformations, which project monolingual semantic spaces into a shared space using bilingual dictionaries. We propose a novel transformation, which builds on the best ideas from prior works. We experiment with unsupervised techniques for sentence similarity based only on semantic spaces and we show they can be significantly improved by the word weighting. Our transformation outperforms other methods and together with word weighting leads to very promising results on several datasets in different languages.
Systémy pro kroslinguální sémantickou podobnost textů odhadují stupeň podobnosti významů mezi dvěma větami v různých jazycích. Nejnovější algoritmy obvykle používají strojový překlad a kombinují obrovské množství nejrůznějších nástrojů. To způsobuje, že tento přístup je silně supervizovaný, náročný na zdroje, a obtížný pro použití na okrajových jazycích. V tomto článku studujeme lineární transformace, které převádí monolinguální sémantické prostory do sdíleného prostoru pomocí bilinguálních slovníků. Představujeme novou transformaci, která je založena na nejlepších publikovaných přístupech. Experimentujeme s nesupervizovanými technikami pro podobnost vět založených výhradně na sémantických prostorech a ukazujeme, že tento přístup může být dále vylepšen pomocí vážení slov. Naše transformace překonává ostatní metody a společně s vážením slov vede k velmi slibným výsledkům na několika datasetech v různých jazycích.
Rights: Plný text není přístupný.
© Elsevier
Appears in Collections:Články / Articles (KIV)
OBD

Files in This Item:
File SizeFormat 
Brychcín KBS.pdf480,98 kBAdobe PDFView/Open    Request a copy


Please use this identifier to cite or link to this item: http://hdl.handle.net/11025/36955

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

search
navigation
  1. DSpace at University of West Bohemia
  2. Publikační činnost / Publications
  3. OBD