Název: Czert – Czech BERT-like Model for Language Representation
Další názvy: Czert – Český BERT-like model pro reprezentaci jazyka
Autoři: Sido, Jakub
Pražák, Ondřej
Přibáň, Pavel
Pašek, Jan
Seják, Michal
Konopík, Miloslav
Citace zdrojového dokumentu: SIDO, J. PRAŽÁK, O. PŘIBÁŇ, P. PAŠEK, J. SEJÁK, M. KONOPÍK, M. Czert – Czech BERT-like Model for Language Representation. In Deep Learning for Natural Language Processing Methods and Applications. Shoumen: INCOMA, Ltd., 2021. s. 1326-1338. ISBN: 978-954-452-072-4 , ISSN: 1313-8502
Datum vydání: 2021
Nakladatel: INCOMA, Ltd.
Typ dokumentu: konferenční příspěvek
ConferenceObject
URI: 2-s2.0-85123595825
http://hdl.handle.net/11025/47190
ISBN: 978-954-452-072-4
ISSN: 1313-8502
Klíčová slova: BERT;jazykový mode;předtrénovaný model;český jazyk
Klíčová slova v dalším jazyce: BERT;language modeling;pre-trained model;Czech language
Abstrakt: Tento článek popisuje proces trénování prvních českých monolinguálních modelů pro reprezentaci jazyka založených na architekturách BERT a ALBERT. Naše modely trénujeme na více než 340 tisících vět, což je 50krát více než u vícejazyčných modelů, které obsahují česká data. Vícejazyčné modely překonáváme na 9 z 11 datových sad. Kromě toho jsme na devíti datasetech dosáhli nových state-of-the-art výsledků. Na závěr porovnáváme výsledky jednojazyčných a vícejazyčných modelů. Všechny předtrénované modely jsou volně dostupné pro další výzkum.
Abstrakt v dalším jazyce: This paper describes the training process of the first Czech monolingual language representation models based on BERT and ALBERT architectures. We pre-train our models on more than 340K of sentences, which is 50 times more than multilingual models that include Czech data. We outperform the multilingual models on 9 out of 11 datasets. In addition, we establish the new state-of-the-art results on nine datasets. At the end, we discuss properties of monolingual and multilingual models based upon our results. We publish all the pre-trained and fine-tuned models freely for the research community.
Práva: © Incoma Ltd.
Vyskytuje se v kolekcích:Konferenční příspěvky / Conference Papers (KIV)
OBD

Soubory připojené k záznamu:
Soubor VelikostFormát 
Přibáň-RANLP-2021-czert.pdf351,92 kBAdobe PDFZobrazit/otevřít


Použijte tento identifikátor k citaci nebo jako odkaz na tento záznam: http://hdl.handle.net/11025/47190

Všechny záznamy v DSpace jsou chráněny autorskými právy, všechna práva vyhrazena.

hledání
navigace
  1. DSpace at University of West Bohemia
  2. Publikační činnost / Publications
  3. OBD