Název: | OCR Improvements for Images of Multi-page Historical Documents |
Autoři: | Gruber, Ivan Hrúz, Marek Ircing, Pavel Neduchal, Petr Zítka, Tomáš Hlaváč, Miroslav Zajíc, Zbyněk Švec, Jan Bulín, Martin |
Citace zdrojového dokumentu: | GRUBER, I. HRÚZ, M. IRCING, P. NEDUCHAL, P. ZÍTKA, T. HLAVÁČ, M. ZAJÍC, Z. ŠVEC, J. BULÍN, M. OCR Improvements for Images of Multi-page Historical Documents. In 23rd International Conference, SPECOM 2021, St. Petersburg, Russia, September 27–30, 2021, Proceedings. Cham: Springer, 2021. s. 226-237. ISBN: 978-3-030-87801-6 , ISSN: 0302-9743 |
Datum vydání: | 2021 |
Nakladatel: | Springer |
Typ dokumentu: | konferenční příspěvek ConferenceObject |
URI: | 2-s2.0-85116373386 http://hdl.handle.net/11025/47184 |
ISBN: | 978-3-030-87801-6 |
ISSN: | 0302-9743 |
Klíčová slova v dalším jazyce: | document digitization;document layout analysis;optical character recognition;image preprocessing |
Abstrakt v dalším jazyce: | This work presents a pipeline for processing digitally scanned documents, reading their textual content, and storing it in a dataset for the purpose of information retrieval. The pipeline is able to handle images of various quality, whether they were obtained by a digital scanner or camera. The image can contain multiple pages in any layout, but an approximate upright orientation is assumed. The pipeline uses Faster R-CNN to detect individual pages. These are then processed by a deskew algorithm to correct the orientation, and finally read by the Tesseract OCR system that has been retrained on a large set of synthetic images and a small set of annotated real-world documents. By applying the pipeline, we were able to increase the word recall to 60.56% which is an absolute gain of 19.19% from the baseline solution that uses only Tesseract OCR. A demo of the proposed pipeline can be found at https://archivkgb.zcu.cz/. |
Práva: | Plný text je přístupný v rámci univerzity přihlášeným uživatelům. © Springer Nature Switzerland AG |
Vyskytuje se v kolekcích: | Články / Articles (NTIS) Konferenční příspěvky / Conference Papers (KKY) OBD |
Soubory připojené k záznamu:
Soubor | Velikost | Formát | |
---|---|---|---|
Gruber2021_Chapter_OCRImprovementsForImagesOfMult.pdf | 2,27 MB | Adobe PDF | Zobrazit/otevřít Vyžádat kopii |
Použijte tento identifikátor k citaci nebo jako odkaz na tento záznam:
http://hdl.handle.net/11025/47184
Všechny záznamy v DSpace jsou chráněny autorskými právy, všechna práva vyhrazena.