Title: | Identifikace rodného jazyka pisatelů na základě anglicky psaných esejů |
Authors: | Brada, Robert |
Citation: | RENDL, Jan ed. Studentská vědecká konference: bakalářské studijní programy, sborník rozšířených abstraktů, květen 2019, Plzeň. Plzeň: Západočeská univerzita v Plzni, 2018, s. 31-32. ISBN 978-80-261-0789-7. |
Issue Date: | 2018 |
Publisher: | Západočeská univerzita v Plzni |
Document type: | konferenční příspěvek conferenceObject |
URI: | http://hdl.handle.net/11025/29858 svk.fav.zcu.cz/download/sbornik_svkb_2018.pdf |
ISBN: | 978-80-261-0789-7 |
Keywords: | počítačové zpracování textu;identifikace rodného jazyka;strojové učení |
Keywords in different language: | computer text processing;native language identification;machine learning |
Abstract: | Cílem práce bylo najít systém, který bude mít co nejlepší přesnost klasifikace. Z dosažených výsledů je zřejmé, že takovým systémem je ten využívající Bag Of Words model, který měl o 13,3% lepší přesnost klasifikace než výchozí model. Tento model využíval jako příznaky trigramy slov a 11-gramy znaků. Výchozí model využíval jako příznaky jednotlivá slova. Přesnost klasifikace ovšem není jediným meřítkem, podle kterého se řídit, pokud chceme systém využít v praxi. Může docházet například k přetrénování, dále potřebujeme nějak interpretovat důležitost příznaků, podle kterých se klasifikátor rozhoduje a podobně. Tyto aspekty jsou rozebrány v originální práci. Závěrem je, že klasifikátor s nejlepší přesností je výrazně přetrénován a i systém využívající doc2vec model poskytuje i přes horší přesnost klasifikace velmi užitečné informace. |
Rights: | © Západočeská univerzita v Plzni |
Appears in Collections: | Studentská vědecká konference 2018-bakalářské studijní programy Studentská vědecká konference 2018-bakalářské studijní programy Studentská vědecká konference 2018-bakalářské studijní programy |
Please use this identifier to cite or link to this item:
http://hdl.handle.net/11025/29858
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.