Inteligentní vyhledávání dokumentů

Martínek, Jiří

Full metadata record

DC pole	Hodnota	Jazyk
dc.contributor.advisor	Král Pavel, Doc. Ing. Ph.D.
dc.contributor.author	Martínek, Jiří
dc.contributor.referee	Lenc Ladislav, Ing. Ph.D.
dc.date.accepted	2017-6-20
dc.date.accessioned	2018-01-15T15:02:17Z	-
dc.date.available	2016-9-1
dc.date.available	2018-01-15T15:02:17Z	-
dc.date.issued	2017
dc.date.submitted	2017-5-17
dc.identifier	71475
dc.identifier.uri	http://hdl.handle.net/11025/27148
dc.description.abstract	Tato diplomová práce se zabývá problematikou vyhledávání informací v množině naskenovaných dokumentů v podobě rastrových obrázků. Nejdříve je proto proveden převod rastrového obrázku do textové podoby pomocí metod optického rozpoznávání znaků (OCR). V rámci převodu bohužel dochází k chybám, proto se další část práce zabývá samotnou opravou chyb. V práci je navrženo několik metod oprav chyb, které jsou zkombinovány pro dosažení co nejlepšího výsledku. Dále jsou opravené dokumenty zaindexovány do fulltextové databáze Apache Solr. Výsledná aplikace umožňuje efektivně najít požadovaný dokument dle fulltextového dotazu. Oprava chyb OCR převodu přispívá ke zvýšení přesnosti fulltextového vyhledávání. Přesnost systému byla experimentálně ověřena na dodaných datech z reálného prostředí.	cs
dc.format	66 s.	cs
dc.format.mimetype	application/pdf
dc.language.iso	cs	cs
dc.publisher	Západočeská univerzita v Plzni	cs
dc.rights	Plný text práce je přístupný bez omezení.	cs
dc.subject	ocr	cs
dc.subject	tesseract	cs
dc.subject	vyhledávání informací	cs
dc.subject	fulltextové vyhledávání	cs
dc.subject	apache lucene	cs
dc.subject	apache solr	cs
dc.subject	strojové učení	cs
dc.subject	zpracování přirozeného jazyka	cs
dc.subject	jazykové modely	cs
dc.subject	oprava chyb	cs
dc.title	Inteligentní vyhledávání dokumentů	cs
dc.title.alternative	Intelligent document searching	en
dc.type	diplomová práce	cs
dc.thesis.degree-name	Ing.	cs
dc.thesis.degree-level	Navazující	cs
dc.thesis.degree-grantor	Západočeská univerzita v Plzni. Fakulta aplikovaných věd	cs
dc.thesis.degree-program	Inženýrská informatika	cs
dc.description.result	Obhájeno	cs
dc.rights.access	openAccess	en
dc.description.abstract-translated	This diploma thesis deals with information retrieval in a set of scanned documents in form of raster images. First, the images are converted into the text form using optical character recognition (OCR) methods. Unfortunately, there are errors in conversion,therefore another part of the work deals with error correction. This thesis propose several error correction methods that are combined to achieve the best possible results. Then, the corrected documents are indexed into the full-text Apache Solr database. The resulting application allows to efficiently find the requested document according to a full-text query. Error correction of the OCR output helps to increase the accuracy of full-text search. The accuracy of the system was experimentally verified on the real data.	en
dc.subject.translated	ocr	en
dc.subject.translated	tesseract	en
dc.subject.translated	information retrieval	en
dc.subject.translated	fulltext searching	en
dc.subject.translated	apache lucene	en
dc.subject.translated	apache solr	en
dc.subject.translated	machine learning	en
dc.subject.translated	natural language processing	en
dc.subject.translated	language models	en
dc.subject.translated	error correction	en
Vyskytuje se v kolekcích:	Diplomové práce / Theses (KIV)

Soubory připojené k záznamu:

Soubor	Popis	Velikost	Formát
diplomova_prace__martinek.pdf	Plný text práce	14,98 MB	Adobe PDF	Zobrazit/otevřít
A15N0070Phodnoceni-ved.PDF	Posudek vedoucího práce	479,22 kB	Adobe PDF	Zobrazit/otevřít
A15N0070Pposudek-op.PDF	Posudek oponenta práce	387,14 kB	Adobe PDF	Zobrazit/otevřít
A15N0070Pobhajoba.PDF	Průběh obhajoby práce	225,71 kB	Adobe PDF	Zobrazit/otevřít

Zobrazit minimální záznam Zobrazit statistiky

Použijte tento identifikátor k citaci nebo jako odkaz na tento záznam: http://hdl.handle.net/11025/27148

Všechny záznamy v DSpace jsou chráněny autorskými právy, všechna práva vyhrazena.

hledání

navigace