Title: Automatická identifikace revizí textových dokumentů
Other Titles: Automated Identification of Revisions of Text Documents
Authors: Kupilík, Filip
Advisor: Konopík Miloslav, Ing. Ph.D.
Referee: Král Pavel, Doc. Ing. Ph.D.
Issue Date: 2017
Publisher: Západočeská univerzita v Plzni
Document type: bakalářská práce
URI: http://hdl.handle.net/11025/27699
Keywords: revize;duplikáty;apache lucene;vyhledávání informací;vektorový model;kullback-leiblerova divergence;rozpoznávání pojmenovaných entit
Keywords in different language: revision;duplicates;apache lucene;information retrieval;vector space model;kullback-leibler divergence;named-entity recognition
Abstract: Cílem této práce je navrhnout, vytvořit a otestovat algoritmus pro identifi- kaci revizí v množině textových dokumentů. V první části práce jsou zmapo- vány současné přístupy ve vyhledávání dokumentů a popsány stávající algo- ritmy pro identifikaci podobných dokumentů. Druhá část se zabývá návrhem a implementací algoritmu zaměřeného na detekci revizí, jehož úspěšnost je ověřena na vytvořené kolekci testovacích dokumentů. Výsledky získané z provedených experimentů jsou porovnány s výsledky vybraných stávajících algoritmů.
Abstract in different language: The goal of the thesis is to design, create and test an algorithm which iden- tifies the revisions of test documents. The first part of the thesis is focused on analysing current approaches to document searching and a identification of highly similar documents (near-duplicates). The second part deals with a design and an implementation of a new algorithm. The efficiency of the algorithm is verified on a set of test documents. The tests results are com- pared with the results of the experiments which were done with the selected existing algorithms.
Rights: Plný text práce je přístupný bez omezení.
Appears in Collections:Bakalářské práce / Bachelor´s works (KIV)

Files in This Item:
File Description SizeFormat 
bakalarka.pdfPlný text práce532,26 kBAdobe PDFView/Open
A14B0296P-hodnoceni.pdfPosudek vedoucího práce620,39 kBAdobe PDFView/Open
A14B0296P-posudek.pdfPosudek oponenta práce435,01 kBAdobe PDFView/Open
A14B0296P-obhajoba.pdfPrůběh obhajoby práce200,48 kBAdobe PDFView/Open


Please use this identifier to cite or link to this item: http://hdl.handle.net/11025/27699

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.