Název: OCR Improvements for Images of Multi-page Historical Documents
Autoři: Gruber, Ivan
Hrúz, Marek
Ircing, Pavel
Neduchal, Petr
Zítka, Tomáš
Hlaváč, Miroslav
Zajíc, Zbyněk
Švec, Jan
Bulín, Martin
Citace zdrojového dokumentu: GRUBER, I. HRÚZ, M. IRCING, P. NEDUCHAL, P. ZÍTKA, T. HLAVÁČ, M. ZAJÍC, Z. ŠVEC, J. BULÍN, M. OCR Improvements for Images of Multi-page Historical Documents. In 23rd International Conference, SPECOM 2021, St. Petersburg, Russia, September 27–30, 2021, Proceedings. Cham: Springer, 2021. s. 226-237. ISBN: 978-3-030-87801-6 , ISSN: 0302-9743
Datum vydání: 2021
Nakladatel: Springer
Typ dokumentu: konferenční příspěvek
ConferenceObject
URI: 2-s2.0-85116373386
http://hdl.handle.net/11025/47184
ISBN: 978-3-030-87801-6
ISSN: 0302-9743
Klíčová slova v dalším jazyce: document digitization;document layout analysis;optical character recognition;image preprocessing
Abstrakt v dalším jazyce: This work presents a pipeline for processing digitally scanned documents, reading their textual content, and storing it in a dataset for the purpose of information retrieval. The pipeline is able to handle images of various quality, whether they were obtained by a digital scanner or camera. The image can contain multiple pages in any layout, but an approximate upright orientation is assumed. The pipeline uses Faster R-CNN to detect individual pages. These are then processed by a deskew algorithm to correct the orientation, and finally read by the Tesseract OCR system that has been retrained on a large set of synthetic images and a small set of annotated real-world documents. By applying the pipeline, we were able to increase the word recall to 60.56% which is an absolute gain of 19.19% from the baseline solution that uses only Tesseract OCR. A demo of the proposed pipeline can be found at https://archivkgb.zcu.cz/.
Práva: Plný text je přístupný v rámci univerzity přihlášeným uživatelům.
© Springer Nature Switzerland AG
Vyskytuje se v kolekcích:Články / Articles (NTIS)
Konferenční příspěvky / Conference Papers (KKY)
OBD

Soubory připojené k záznamu:
Soubor VelikostFormát 
Gruber2021_Chapter_OCRImprovementsForImagesOfMult.pdf2,27 MBAdobe PDFZobrazit/otevřít  Vyžádat kopii


Použijte tento identifikátor k citaci nebo jako odkaz na tento záznam: http://hdl.handle.net/11025/47184

Všechny záznamy v DSpace jsou chráněny autorskými právy, všechna práva vyhrazena.

hledání
navigace
  1. DSpace at University of West Bohemia
  2. Publikační činnost / Publications
  3. OBD