Full metadata record
DC poleHodnotaJazyk
dc.contributor.advisorKrál Pavel, Doc. Ing. Ph.D.
dc.contributor.authorMartínek, Jiří
dc.contributor.refereeLenc Ladislav, Ing. Ph.D.
dc.date.accepted2017-6-20
dc.date.accessioned2018-01-15T15:02:17Z-
dc.date.available2016-9-1
dc.date.available2018-01-15T15:02:17Z-
dc.date.issued2017
dc.date.submitted2017-5-17
dc.identifier71475
dc.identifier.urihttp://hdl.handle.net/11025/27148
dc.description.abstractTato diplomová práce se zabývá problematikou vyhledávání informací v množině naskenovaných dokumentů v podobě rastrových obrázků. Nejdříve je proto proveden převod rastrového obrázku do textové podoby pomocí metod optického rozpoznávání znaků (OCR). V rámci převodu bohužel dochází k chybám, proto se další část práce zabývá samotnou opravou chyb. V práci je navrženo několik metod oprav chyb, které jsou zkombinovány pro dosažení co nejlepšího výsledku. Dále jsou opravené dokumenty zaindexovány do fulltextové databáze Apache Solr. Výsledná aplikace umožňuje efektivně najít požadovaný dokument dle fulltextového dotazu. Oprava chyb OCR převodu přispívá ke zvýšení přesnosti fulltextového vyhledávání. Přesnost systému byla experimentálně ověřena na dodaných datech z reálného prostředí.cs
dc.format66 s.cs
dc.format.mimetypeapplication/pdf
dc.language.isocscs
dc.publisherZápadočeská univerzita v Plznics
dc.rightsPlný text práce je přístupný bez omezení.cs
dc.subjectocrcs
dc.subjecttesseractcs
dc.subjectvyhledávání informacícs
dc.subjectfulltextové vyhledávánícs
dc.subjectapache lucenecs
dc.subjectapache solrcs
dc.subjectstrojové učenícs
dc.subjectzpracování přirozeného jazykacs
dc.subjectjazykové modelycs
dc.subjectoprava chybcs
dc.titleInteligentní vyhledávání dokumentůcs
dc.title.alternativeIntelligent document searchingen
dc.typediplomová prácecs
dc.thesis.degree-nameIng.cs
dc.thesis.degree-levelNavazujícícs
dc.thesis.degree-grantorZápadočeská univerzita v Plzni. Fakulta aplikovaných vědcs
dc.thesis.degree-programInženýrská informatikacs
dc.description.resultObhájenocs
dc.rights.accessopenAccessen
dc.description.abstract-translatedThis diploma thesis deals with information retrieval in a set of scanned documents in form of raster images. First, the images are converted into the text form using optical character recognition (OCR) methods. Unfortunately, there are errors in conversion,therefore another part of the work deals with error correction. This thesis propose several error correction methods that are combined to achieve the best possible results. Then, the corrected documents are indexed into the full-text Apache Solr database. The resulting application allows to efficiently find the requested document according to a full-text query. Error correction of the OCR output helps to increase the accuracy of full-text search. The accuracy of the system was experimentally verified on the real data.en
dc.subject.translatedocren
dc.subject.translatedtesseracten
dc.subject.translatedinformation retrievalen
dc.subject.translatedfulltext searchingen
dc.subject.translatedapache luceneen
dc.subject.translatedapache solren
dc.subject.translatedmachine learningen
dc.subject.translatednatural language processingen
dc.subject.translatedlanguage modelsen
dc.subject.translatederror correctionen
Vyskytuje se v kolekcích:Diplomové práce / Theses (KIV)

Soubory připojené k záznamu:
Soubor Popis VelikostFormát 
diplomova_prace__martinek.pdfPlný text práce14,98 MBAdobe PDFZobrazit/otevřít
A15N0070Phodnoceni-ved.PDFPosudek vedoucího práce479,22 kBAdobe PDFZobrazit/otevřít
A15N0070Pposudek-op.PDFPosudek oponenta práce387,14 kBAdobe PDFZobrazit/otevřít
A15N0070Pobhajoba.PDFPrůběh obhajoby práce225,71 kBAdobe PDFZobrazit/otevřít


Použijte tento identifikátor k citaci nebo jako odkaz na tento záznam: http://hdl.handle.net/11025/27148

Všechny záznamy v DSpace jsou chráněny autorskými právy, všechna práva vyhrazena.