Multi-modální zpracování dokumentů

Honzík, Václav

Title:	Multi-modální zpracování dokumentů
Other Titles:	Multi-modal document processing
Authors:	Honzík, Václav
Advisor:	Král Pavel, Doc. Ing. Ph.D.
Referee:	Lenc Ladislav, Ing. Ph.D.
Issue Date:	2023
Publisher:	Západočeská univerzita v Plzni
Document type:	diplomová práce
URI:	http://hdl.handle.net/11025/54138
Keywords:	multi-modální;zpracování dokumentů;layoutlmv3;transformer;vit;swin transformer v2;yolov8;strojové učení;zpracování přirozeného jazyka;computer vision;neural networks
Keywords in different language:	multi-modal;document processing;layoutlmv3;transformer;vit;swin transformer v2;yolov8;machine learning;natural language processing;computer vision;neural networks
Abstract:	Multimodální zpracování dokumentů je oblast informatiky, která se zaměřuje na analýzu, porozumění a získávání cenných informací z dokumentů, které obsahují více typů dat. V této práci je naším hlavním cílem provést analýzu rozložení dokumentů pomocí obrazu i textu. Náš přístup zahrnuje použití modelů pro segmentaci instancí, jako jsou Mask R-CNN, YOLOv8 nebo Cascade R-CNN s páteří LayoutLMv3. Výstupy segmentačních modelů využíváme v multimodálních Transformerech, jako je LayoutLMv3 nebo ve fúzním modelu, který kombinuje německy předtrénovaného BERTa s Vision Transformerem nebo modelem Swin Transformer V2. Dalším přínosem této práce je také nově vytvořená historická datová sada "Heimatkunde", která se skládá z 4 600 anotací na 329 obrázcích a je použitelná pro multimodální analýzu rozložení dokumentů i pro klasifikaci. Naše modely trénujeme na této datové sadě a jsme schopni dosáhnout výborných výsledků. Tyto modely budou proto reálně využity v historickém portálu Porta Fontium.
Abstract in different language:	Multi-modal document processing is an area of computer science that focuses on analyzing, understanding, and extracting valuable information from documents that contain multiple types of data. In this work, our main objective is to perform document layout analysis using both visual and textual modalities. Our approach involves the use of instance segmentation models such as Mask R-CNN, YOLOv8, or Cascade R-CNN with a LayoutLMv3 backbone. We employ the outputs of the segmentation models with multi-modal Transformers such as LayoutLMv3 or a fusion model combining German pre-trained BERT with either Vision Transformer or Swin Transformer~V2. Another contribution of this work is a newly created historical "Heimatkunde" dataset, which consists of 4,600 annotations across 329 images and is applicable for multi-modal document layout analysis as well as classification. We train our models on this dataset and are able to achieve excellent results. Therefore, we plan to integrate these models into the Porta Fontium portal.
Rights:	Plný text práce je přístupný bez omezení
Appears in Collections:	Diplomové práce / Theses (KIV)

Files in This Item:

File	Description	Size	Format
MastersThesis.pdf	Plný text práce	9,89 MB	Adobe PDF	View/Open
A21N0045Pposudek-op.pdf	Posudek oponenta práce	420,88 kB	Adobe PDF	View/Open
A21N0045Phodnoceni-ved.pdf	Posudek vedoucího práce	53,28 kB	Adobe PDF	View/Open
A21N0045Pobhajoba.pdf	Průběh obhajoby práce	187 kB	Adobe PDF	View/Open

Show full item record

Please use this identifier to cite or link to this item: http://hdl.handle.net/11025/54138

search

navigation