Full metadata record
DC pole | Hodnota | Jazyk |
---|---|---|
dc.contributor.author | Hubková, Helena | - |
dc.contributor.author | Král, Pavel | - |
dc.contributor.author | Pettersson, Eva | - |
dc.date.accessioned | 2021-03-29T10:00:20Z | - |
dc.date.available | 2021-03-29T10:00:20Z | - |
dc.date.issued | 2020 | - |
dc.identifier.citation | HUBKOVÁ, H. KRÁL, P. PETTERSSON, E. Czech Historical Named Entity Corpus v 1.0. In: Proceedings of the 12th Language Resources and Evaluation Conference. Paris: European Language Resources Association (ELRA), 2020. s. 4458-4465. ISBN 979-10-95546-34-4. | cs |
dc.identifier.isbn | 979-10-95546-34-4 | - |
dc.identifier.uri | 2-s2.0-85096550154 | - |
dc.identifier.uri | http://hdl.handle.net/11025/43136 | - |
dc.description.abstract | Vzhledem k tomu, že počet digitalizovaných archivních dokumentů roste velmi rychle, rozpoznávání pojmenovaných entit (NER) v historických dokumentech se stalo velmi důležitým pro extrakci informací a dolování dat. K této úloze je zapotřebí anotovaný korpus, který pro češtinu dosud chyběl. V tomto článku představujeme novou anotovanou datovou kolekci pro historické NER, která složena z českých historických periodik. Tato sada je volně k dispozici pro výzkumné účely na adrese http://chnec.kiv.zcu.cz/. Definovali jsme relevantní typy pojmenovaných entit a vytvořili anotační příručku. Dále jsme provedli několik experimentů s využitím rekurentních neuronových sítí, abychom ukázali základní výsledky na této datové sadě. Experimentovali jsme s náhodně inicializovanými a statickými i dynamickými fastText slovními vektory. Dosáhli jsme F1 skóre 0,73 s obousměrným LSTM modelem a statickými fastText slovními vektory. | cs |
dc.format | 8 s. | cs |
dc.format.mimetype | application/pdf | - |
dc.language.iso | en | en |
dc.publisher | European Language Resources Association (ELRA) | en |
dc.relation.ispartofseries | Proceedings of the 12th Language Resources and Evaluation Conference | en |
dc.rights | Plný text je přístupný v rámci univerzity přihlášeným uživatelům. | cs |
dc.rights | © ELRA | en |
dc.subject | historická čeština | cs |
dc.subject | historický korpus pojmenovaných enti | cs |
dc.subject | LSTM | cs |
dc.subject | rozpoznávání pojmenovaných entit | cs |
dc.subject | neuronové sítě | cs |
dc.title | Czech Historical Named Entity Corpus v 1.0 | en |
dc.title.alternative | Český historický korpus pojmenovaných entit v 1.0 | cs |
dc.type | konferenční příspěvek | cs |
dc.type | conferenceObject | en |
dc.rights.access | restrictedAccess | en |
dc.type.version | publishedVersion | en |
dc.description.abstract-translated | As the number of digitized archival documents increases very rapidly, named entity recognition (NER) in historical documents has become very important for information extraction and data mining. For this task an annotated corpus is needed, which has up to now been missing for Czech. In this paper we present a new annotated data collection for historical NER, composed of Czech historical newspapers. This corpus is freely available for research purposes at http://chnec.kiv.zcu.cz/. For this corpus, we have defined relevant domain-specific named entity types and created an annotation manual for corpus labelling. We further conducted some experiments on this corpus using recurrent neural networks in order to show baseline results on this dataset. We experimented with randomly initialized embeddings and static and dynamic fastText word embeddings. We achieved 0.73 F1 score with a bidirectional LSTM model using static fastText embeddings. | en |
dc.subject.translated | Historical Czech | en |
dc.subject.translated | Historical Named Entity Corpus | en |
dc.subject.translated | LSTM | en |
dc.subject.translated | Named Entity Recognition | en |
dc.subject.translated | Neural Networks | en |
dc.type.status | Peer-reviewed | en |
dc.identifier.obd | 43932402 | - |
Vyskytuje se v kolekcích: | Konferenční příspěvky / Conference Papers (KIV) OBD |
Soubory připojené k záznamu:
Soubor | Velikost | Formát | |
---|---|---|---|
Hubková 2020.lrec-1.549.pdf | 476,55 kB | Adobe PDF | Zobrazit/otevřít Vyžádat kopii |
Použijte tento identifikátor k citaci nebo jako odkaz na tento záznam:
http://hdl.handle.net/11025/43136
Všechny záznamy v DSpace jsou chráněny autorskými právy, všechna práva vyhrazena.