Title: Rozpoznávání pojmenovaných entit
Other Titles: Named Entity Recognition
Authors: Konkol, Michal
Advisor: Mouček, Roman
Issue Date: 2016
Publisher: Západočeská univerzita v Plzni
Document type: disertační práce
URI: http://hdl.handle.net/11025/23711
Keywords: rozpoznávání pojmenovaných entit;strojové učení;sémantická analýza
Keywords in different language: named entity recognition;machine learning;semantic analysis
Abstract: Automatická extrakce důležitých informací z textových dokumentů má kořeny už v počátcích oboru zpracování textu v přirozeném jazyce. Její důležitost rychle roste s rozvojem webu, novin v elektronické podobě, sociálních médií, blogování apod. Množství dostupných informací je obrovské a jejich automatické zpracování začíná být velmi důležité. Rozpoznávání pojmenovaných entit je základní podúlohou extrakce informací. Jejím cílem je rozpoznání a třídění slovních spojení se speciálním významem, např. jména osob, organizací a míst, datumů atd. V mnoha případech tato slovní spojení skrývají klíčové informace celého dokumentu. Získané informace je možné využít mnoha způsoby. Můžeme je použít k lepší organizaci dokumentů, k filtrování dokumentů nebo jednoduše jako obohacení vstupu jiných úloh zpracování přirozeného jazyka, např. strojového překladu, zodpovídání otázek nebo sumarizace. Podle našeho názoru trpí současné systémy pro rozpoznávání pojmenovaných entit dvěma hlavními problémy. Prvním problémem je nutnost systém opakovaně ladit pro každou novou doménu nebo jazyk. Pokud použijeme systém vytvořený pro jednu doménu na jiné doméně, dochází k výraznému zhoršení kvality výstupu. Přechod od jednoho jazyka k jinému je většinou ještě problematičtější. Druhým problémem je nepochopení významu textu a nedostatek externích znalostí, které jsou pro lidi při rozpoznávání jmen v textech velmi důležité a to především v neformálních textech jako jsou příspěvky na sociálních mediích. V této práci se snažíme oba problémy řešit pomocí strojového učení, sémantických příznaků a zaměřením se na vícejazyčnost. Naše experimenty ukazují, že tato kombinace dosahuje velmi dobrých výsledků a zlepšuje adaptabilitu i kvalitu výstupu systému.
Abstract in different language: The idea of automatic extraction of important information from text documents comes from the time of first steps in the natural language processing. Its importance rapidly grows with the rise of the digital news, social media, blogging, etc. The amount of information is overwhelming and information extraction can help to manage it. Named entity recognition is a critical subtask of information extraction. It tries to recognize and classify multiword expressions with special meaning, e.g. persons, organizations, locations, dates, etc. In many cases, these expressions hold the key information of the document. This information has many uses. It can be used for better organization of documents, filtering of important documents, or simply as an input for other natural language processing tasks such as machine translation, question answering, or summarization. We believe that the there are two main problems of the current named entity recognition systems. The first problem is the necessity to fine-tune the system for every new domain or language. There is a big drop in the quality of the output, when a system designed for one domain is used for another one. The transition from one language to another is even more problematic. The second problem is the lack of semantic and external knowledge, which is crucial for people to recognize names in texts, especially in informal texts such as internet forum posts. In this thesis, we address these problems by exploiting machine learning, semantic features, and by focusing on multilinguality. We show that this combination provides very good results and improves the adaptability and performance of the system.
Rights: Plný text práce je přístupný bez omezení.
Appears in Collections:Disertační práce / Dissertations (KIV)

Files in This Item:
File Description SizeFormat 
Konkol-PhDThesis.pdfPlný text práce831,62 kBAdobe PDFView/Open
posudky-odp-konkol.pdfPosudek oponenta práce6,9 MBAdobe PDFView/Open
protokol-odp-konkol.pdfPrůběh obhajoby práce883,4 kBAdobe PDFView/Open


Please use this identifier to cite or link to this item: http://hdl.handle.net/11025/23711

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.