Rozpoznávání pojmenovaných entit

Konkol, Michal

Název:	Rozpoznávání pojmenovaných entit
Další názvy:	Named Entity Recognition
Autoři:	Konkol, Michal
Vedoucí práce/školitel:	Mouček, Roman
Datum vydání:	2016
Nakladatel:	Západočeská univerzita v Plzni
Typ dokumentu:	disertační práce
URI:	http://hdl.handle.net/11025/23711
Klíčová slova:	rozpoznávání pojmenovaných entit;strojové učení;sémantická analýza
Klíčová slova v dalším jazyce:	named entity recognition;machine learning;semantic analysis
Abstrakt:	Automatická extrakce důležitých informací z textových dokumentů má kořeny už v počátcích oboru zpracování textu v přirozeném jazyce. Její důležitost rychle roste s rozvojem webu, novin v elektronické podobě, sociálních médií, blogování apod. Množství dostupných informací je obrovské a jejich automatické zpracování začíná být velmi důležité. Rozpoznávání pojmenovaných entit je základní podúlohou extrakce informací. Jejím cílem je rozpoznání a třídění slovních spojení se speciálním významem, např. jména osob, organizací a míst, datumů atd. V mnoha případech tato slovní spojení skrývají klíčové informace celého dokumentu. Získané informace je možné využít mnoha způsoby. Můžeme je použít k lepší organizaci dokumentů, k filtrování dokumentů nebo jednoduše jako obohacení vstupu jiných úloh zpracování přirozeného jazyka, např. strojového překladu, zodpovídání otázek nebo sumarizace. Podle našeho názoru trpí současné systémy pro rozpoznávání pojmenovaných entit dvěma hlavními problémy. Prvním problémem je nutnost systém opakovaně ladit pro každou novou doménu nebo jazyk. Pokud použijeme systém vytvořený pro jednu doménu na jiné doméně, dochází k výraznému zhoršení kvality výstupu. Přechod od jednoho jazyka k jinému je většinou ještě problematičtější. Druhým problémem je nepochopení významu textu a nedostatek externích znalostí, které jsou pro lidi při rozpoznávání jmen v textech velmi důležité a to především v neformálních textech jako jsou příspěvky na sociálních mediích. V této práci se snažíme oba problémy řešit pomocí strojového učení, sémantických příznaků a zaměřením se na vícejazyčnost. Naše experimenty ukazují, že tato kombinace dosahuje velmi dobrých výsledků a zlepšuje adaptabilitu i kvalitu výstupu systému.
Abstrakt v dalším jazyce:	The idea of automatic extraction of important information from text documents comes from the time of first steps in the natural language processing. Its importance rapidly grows with the rise of the digital news, social media, blogging, etc. The amount of information is overwhelming and information extraction can help to manage it. Named entity recognition is a critical subtask of information extraction. It tries to recognize and classify multiword expressions with special meaning, e.g. persons, organizations, locations, dates, etc. In many cases, these expressions hold the key information of the document. This information has many uses. It can be used for better organization of documents, filtering of important documents, or simply as an input for other natural language processing tasks such as machine translation, question answering, or summarization. We believe that the there are two main problems of the current named entity recognition systems. The first problem is the necessity to fine-tune the system for every new domain or language. There is a big drop in the quality of the output, when a system designed for one domain is used for another one. The transition from one language to another is even more problematic. The second problem is the lack of semantic and external knowledge, which is crucial for people to recognize names in texts, especially in informal texts such as internet forum posts. In this thesis, we address these problems by exploiting machine learning, semantic features, and by focusing on multilinguality. We show that this combination provides very good results and improves the adaptability and performance of the system.
Práva:	Plný text práce je přístupný bez omezení.
Vyskytuje se v kolekcích:	Disertační práce / Dissertations (KIV)

Soubory připojené k záznamu:

Soubor	Popis	Velikost	Formát
Konkol-PhDThesis.pdf	Plný text práce	831,62 kB	Adobe PDF	Zobrazit/otevřít
posudky-odp-konkol.pdf	Posudek oponenta práce	6,9 MB	Adobe PDF	Zobrazit/otevřít
protokol-odp-konkol.pdf	Průběh obhajoby práce	883,4 kB	Adobe PDF	Zobrazit/otevřít

Zobrazit celý záznam Zobrazit statistiky

Použijte tento identifikátor k citaci nebo jako odkaz na tento záznam: http://hdl.handle.net/11025/23711

Všechny záznamy v DSpace jsou chráněny autorskými právy, všechna práva vyhrazena.

hledání

navigace