Rozpoznávání typů scén zpravodajských pořadů z obrazových dat

Vyskočil, Jiří

Full metadata record

DC pole	Hodnota	Jazyk
dc.contributor.advisor	Hrúz Marek, Ing. Ph.D.
dc.contributor.author	Vyskočil, Jiří
dc.contributor.referee	Gruber Ivan, Ing. Ph.D.
dc.date.accepted	2020-6-18
dc.date.accessioned	2020-11-10T00:37:22Z	-
dc.date.available	2019-10-1
dc.date.available	2020-11-10T00:37:22Z	-
dc.date.issued	2020
dc.date.submitted	2020-5-25
dc.identifier	82411
dc.identifier.uri	http://hdl.handle.net/11025/41542
dc.description.abstract	Výzkumnými pracovníky Katedry kybernetiky Západočeské univerzity v Plzni byl ve spolupráci s firmou SpeechTech s.r.o. vyvinut pro Českou televizi systém, který je schopen automaticky titulkovat přenosy z živého vysílání. S cílem rozvinout systém na pořad Události ČT vznikla tato diplomová práce, která se zabývá rozpoznáváním scén s použitím obrazových dat, aby následně dle typu scény mohl být aplikován příslušný zvukový filtr, který má schopnosti potlačení šumu pozadí a zvyšuje přesnost převodu řeči na text. Pro vývoj systému schopného rozpoznávat scény televizních událostí byly analyzovány různé architektury neuronových sítí. Pro vyhodnocení výkonu sítě byl vytvořen nástroj, který je schopen vygenerovat matici zmatení (confusion matrix) a pro každý vstupní obrázek mapu pozornosti (attention map) a predikci modelu včetně názvu třídy správné klasifikace. Experiment porovnávající různé architektury neuronových sítí ukázal, že InceptionResNetV2 dosahuje nejlepších výsledků během učení v porovnání s ostatními sítěmi. Tudíž tahle síť byla následně analyzována společně s kompaktní architekturou MobileNetV2. Následné analýzy, kromě různých konfigurací sítí, prozkoumávaly i možnosti zpracování časově distribuovaných obrazových dat. Během testování se však ukázalo, že MobileNetV2 sítě jsou schopny přesněji klasifikovat než InceptionResNetV2 a že modely zpracovávající časové sekvence obrázků dosahují ve většině případů nižších přesností, než sítě, které provádí klasifikaci na základě jednoho vstupního obrazu. Z těchto výsledků lze jednoznačně konstatovat, že pro praktické využití je síť MobileNetV2 vhodnější i vzhledem k značně nižšímu celkovému počtu parametrů a s přesností klasifikace přibližně 94 %, což je příznivý výsledek. Zdrojové soubory pro účely této práce jsou dostupné na stránkách: https://github.com/vyskocj/TV-News-Scene-Recognition	cs
dc.format	7 s.,81 s.	cs
dc.format.mimetype	application/pdf
dc.language.iso	en	en
dc.publisher	Západočeská univerzita v Plzni	cs
dc.relation.isreferencedby	https://portal.zcu.cz/StagPortletsJSR168/CleanUrl?urlid=prohlizeni-prace-detail&praceIdno=82411	-
dc.rights	Plný text práce je přístupný bez omezení.	cs
dc.subject	počítačové vidění	cs
dc.subject	zpracování digitalizovaného obrazu	cs
dc.subject	umělá inteligence	cs
dc.subject	rozpoznávání scén	cs
dc.subject	televizní zprávy	cs
dc.subject	neuronové sítě	cs
dc.subject	lstm	cs
dc.title	Rozpoznávání typů scén zpravodajských pořadů z obrazových dat	cs
dc.title.alternative	Scene type recognition of TV News broadcasts using visual data	en
dc.type	diplomová práce	cs
dc.thesis.degree-name	Ing.	cs
dc.thesis.degree-level	Navazující	cs
dc.thesis.degree-grantor	Západočeská univerzita v Plzni. Fakulta aplikovaných věd	cs
dc.thesis.degree-program	Inženýrská informatika	cs
dc.description.result	Obhájeno	cs
dc.rights.access	openAccess	en
dc.description.abstract-translated	Researchers of the Department of Cybernetics at the University of West Bohemia in Pilsen in cooperation with SpeechTech s.r.o. have developed a system, which automatically subtitles live broadcasts for Czech Television. The aim of this thesis is to extend the system for the "Události ČT" programme, with a scene recognizer using image data, appropriate sound filter aware of the scene type could be applied. Different neural network architectures were analyzed to develop a system capable of recognizing television news scenes. For evaluation of a network performance, a tool has been created, which generates an attention map, a model prediction including the correct class name for each input image and a confusion matrix. By comparing an InceptionResNetV2 network to other backbone architectures, the results have shown, that the InceptionResNetV2 has the best performance during the learning phase. Thus, this network was further analyzed along with a compact MobileNetV2 network. The analyses explore, in addition to the different configurations of the models, the possibility of processing time-distributed image data. However, the testing phase has shown that the MobileNetV2 networks have more accurately classified the input images into correct classes, than the InceptionResNetV2 networks and that models, which process time-sequences of images, have lower recognition accuracy in most cases than networks, which perform classification based on a single input image. Besides these results, it can be unambiguously stated that the MobileNetV2 network is opening the possibility for practical usage, since it has considerably fewer parameters and the accuracy for classifying 9 classes was around 94 %, which is a very promising result. Source files created for the purposes of this thesis are available on the website: https://github.com/vyskocj/TV-News-Scene-Recognition	en
dc.subject.translated	počítačové vidění	en
dc.subject.translated	zpracování digitalizovaného obrazu	en
dc.subject.translated	umělá inteligence	en
dc.subject.translated	rozpoznávání scén	en
dc.subject.translated	televizní zprávy	en
dc.subject.translated	neuronové sítě	en
dc.subject.translated	lstm	en
Vyskytuje se v kolekcích:	Diplomové práce / Theses (KKY)

Soubory připojené k záznamu:

Soubor	Popis	Velikost	Formát
vyskocj_diplomova_prace.pdf	Plný text práce	13,76 MB	Adobe PDF	Zobrazit/otevřít
vyskocil-v.pdf	Posudek vedoucího práce	610,72 kB	Adobe PDF	Zobrazit/otevřít
vyskocil-o.pdf	Posudek oponenta práce	691,55 kB	Adobe PDF	Zobrazit/otevřít
vyskocil-p.pdf	Průběh obhajoby práce	399,77 kB	Adobe PDF	Zobrazit/otevřít

Zobrazit minimální záznam Zobrazit statistiky

Použijte tento identifikátor k citaci nebo jako odkaz na tento záznam: http://hdl.handle.net/11025/41542

Všechny záznamy v DSpace jsou chráněny autorskými právy, všechna práva vyhrazena.

hledání

navigace