Název: | Identifikace rodného jazyka pisatelů na základě anglicky psaných esejů |
Autoři: | Brada, Robert |
Citace zdrojového dokumentu: | RENDL, Jan ed. Studentská vědecká konference: bakalářské studijní programy, sborník rozšířených abstraktů, květen 2019, Plzeň. Plzeň: Západočeská univerzita v Plzni, 2018, s. 31-32. ISBN 978-80-261-0789-7. |
Datum vydání: | 2018 |
Nakladatel: | Západočeská univerzita v Plzni |
Typ dokumentu: | konferenční příspěvek conferenceObject |
URI: | http://hdl.handle.net/11025/29858 svk.fav.zcu.cz/download/sbornik_svkb_2018.pdf |
ISBN: | 978-80-261-0789-7 |
Klíčová slova: | počítačové zpracování textu;identifikace rodného jazyka;strojové učení |
Klíčová slova v dalším jazyce: | computer text processing;native language identification;machine learning |
Abstrakt: | Cílem práce bylo najít systém, který bude mít co nejlepší přesnost klasifikace. Z dosažených výsledů je zřejmé, že takovým systémem je ten využívající Bag Of Words model, který měl o 13,3% lepší přesnost klasifikace než výchozí model. Tento model využíval jako příznaky trigramy slov a 11-gramy znaků. Výchozí model využíval jako příznaky jednotlivá slova. Přesnost klasifikace ovšem není jediným meřítkem, podle kterého se řídit, pokud chceme systém využít v praxi. Může docházet například k přetrénování, dále potřebujeme nějak interpretovat důležitost příznaků, podle kterých se klasifikátor rozhoduje a podobně. Tyto aspekty jsou rozebrány v originální práci. Závěrem je, že klasifikátor s nejlepší přesností je výrazně přetrénován a i systém využívající doc2vec model poskytuje i přes horší přesnost klasifikace velmi užitečné informace. |
Práva: | © Západočeská univerzita v Plzni |
Vyskytuje se v kolekcích: | Studentská vědecká konference 2018-bakalářské studijní programy Studentská vědecká konference 2018-bakalářské studijní programy Studentská vědecká konference 2018-bakalářské studijní programy |
Soubory připojené k záznamu:
Soubor | Popis | Velikost | Formát | |
---|---|---|---|---|
Brada.pdf | Plný text | 575,65 kB | Adobe PDF | Zobrazit/otevřít |
Použijte tento identifikátor k citaci nebo jako odkaz na tento záznam:
http://hdl.handle.net/11025/29858
Všechny záznamy v DSpace jsou chráněny autorskými právy, všechna práva vyhrazena.