Full metadata record
DC FieldValueLanguage
dc.contributor.authorMartínek, Jiří
dc.contributor.authorLenc, Ladislav
dc.contributor.authorKrál, Pavel
dc.date.accessioned2021-03-08T11:00:21Z-
dc.date.available2021-03-08T11:00:21Z-
dc.date.issued2020
dc.identifier.citationMARTÍNEK, J. LENC, L. KRÁL, P. Building an efficient OCR system for historical documents with little training data. Neural Computing and Applications, 2020, roč. 32, č. 23, s. 17209-17227. ISSN 1433-3058.cs
dc.identifier.issn1433-3058
dc.identifier.uri2-s2.0-85084519412
dc.identifier.urihttp://hdl.handle.net/11025/42814
dc.description.abstractS rychlým nárůstem počtu digitalizovaných historických dokumentů vzniká potřeba umožnit efektivní vyhledávání informací a extrakci znalostí, aby bylo možné tato data zpřístupnit. Tyto úlohy jsou závislé na optickém rozpoznání znaků (OCR), které umožní převod dokumentů do textové podoby. Článek představuje sadu metod, které umožňují provedení OCR na historických dokumentech s minimálními nároky na množství reálných, manuálně anotovaných, dat. Prezentovaný OCR systém zahrnuje analýzu rozložení stránky spolu s detekcí textových bloků a segmentací řádek textu a také samotný OCR modul. Segmentační metody jsou založeny na plně konvolučních neuronových sítích a OCR modul využívá rekurentní sítě. Je ukázáno, že jak segmentace tak i OCR jsou možné s malým množstvím anotovaných dat. Cílem experimentů bylo nalézt efektivní postup pro dosažení dobrých výsledků s použitím malého množství trénovacích dat. Výsledky ukazují, že je možné dosáhnout srovnatelných, nebo i lepších výsledků, než poskytují nejlepší současné OCR systémy.cs
dc.format19 s.cs
dc.format.mimetypeapplication/pdf
dc.language.isoenen
dc.publisherSpringeren
dc.relation.ispartofseriesProceedings of the International Spring Seminar on Electronics Technology, ISSE 2020en
dc.rights© Springeren
dc.subjectCNNcs
dc.subjectFCNcs
dc.subjecthistorické dokumentycs
dc.subjectLSTMcs
dc.subjectneuronová síťcs
dc.subjectOCRcs
dc.subjectPorta fontiumcs
dc.subjectsyntetická datacs
dc.titleBuilding an efficient OCR system for historical documents with little training dataen
dc.title.alternativeVytvoření efektivního OCR systému pro historické dokumenty s malým množstvím trénovacích datcs
dc.typečlánekcs
dc.typearticleen
dc.rights.accessopenAccessen
dc.type.versionpublishedVersionen
dc.description.abstract-translatedAs the number of digitized historical documents has increased rapidly it is necessary to provide efficient methods of information retrieval and knowledge extraction to make the data accessible. Such methods are dependent on optical character recognition (OCR) which converts the document images into textual representations. This paper introduces a set of methods that allows performing an OCR on historical document images using only a small amount of real, manually annotated training data. The presented OCR system includes two main tasks: page layout analysis including text block and line segmentation and OCR. Our seg-mentation methods are based on fully convolutional networks, and the OCR approach utilizes recurrent neural networks. We show that both the segmentation and OCR tasks are feasible with only a few annotated real data samples. The experiments aim at determining the best way how to achieve good performance with the given small set of data. We also demonstrate that obtained scores are comparable or even better than the scores of several state-of-the-art systems.en
dc.subject.translatedCNNen
dc.subject.translatedFCNen
dc.subject.translatedHistorical documentsen
dc.subject.translatedLSTMen
dc.subject.translatedNeural networken
dc.subject.translatedOCRen
dc.subject.translatedPorta fontiumen
dc.subject.translatedSynthetic dataen
dc.identifier.doi10.1007/s00521-020-04910-x
dc.type.statusPeer-revieweden
dc.identifier.document-number531222300001
dc.identifier.obd43929970
Appears in Collections:Články / Articles (NTIS)
Články / Articles (KIV)
OBD

Files in This Item:
File SizeFormat 
Martínek2020_Article_BuildingAnEfficientOCRSystemFo.pdf4,63 MBAdobe PDFView/Open


Please use this identifier to cite or link to this item: http://hdl.handle.net/11025/42814

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

search
navigation
  1. DSpace at University of West Bohemia
  2. Publikační činnost / Publications
  3. OBD