Počítačové vidění s hlasovou interakcí na Raspberry Pi

Adamec, Martin

Title:	Počítačové vidění s hlasovou interakcí na Raspberry Pi
Other Titles:	Voice-interactive computer vision on Raspberry Pi
Authors:	Adamec, Martin
Advisor:	Bulín Martin, Ing. M.Sc.
Referee:	Neduchal Petr, Ing. Ph.D.
Issue Date:	2023
Publisher:	Západočeská univerzita v Plzni
Document type:	bakalářská práce
URI:	http://hdl.handle.net/11025/55042
Keywords:	počítačové vidění;hlasová interakce;rapsberry pi;human-in-the-loop dialog
Keywords in different language:	computer vision;voice interaction;rapsberry pi;human-in-the-loop dialog
Abstract:	Umělé neuronové sítě dnes v oblasti počítačového vidění výrazně překonávají "klasické" přístupy, ale mají své vlastní problémy. Trénování umělé neuronové sítě je úkol značně náročný na zdroje (jak z hlediska potřebného hardwaru a výpočetního času, tak i z hlediska potřebných trénovacích dat), po kterém je síť schopna na základě trénovacích dat rozpoznat pouze omezený počet tříd. Vznikne-li požadavek na začlenění nové třídy do rozpoznávacích schopností neuronové sítě, je nutné síť přetrénovat, a to buď od začátku, čímž se dříve vypočtené váhy a prahy stanou irelevantními, nebo pomocí takzvaného "transfer learningu", což je přístup založený na využití vah a prahů získaných z nějakého předchozího trénování sítě, čímž se výrazně zredukuje čas a zdroje potřebné k dosažení požadované přesnosti modelu. V této bakalářské práci je takový koncept využit při implementaci hlasového dialogového systému pro přetrénovávání modelů počítačového vidění, který umožňuje uživateli interaktivně učit systém rozpoznávat nové tváře a objekty. Přesnost hlasového dialogového systému je vyhodnocena prostřednictvím několika experimentů, které prokazují jeho potenciál pro zlepšení přesnosti a adaptability modelů počítačového vidění.
Abstract in different language:	Artificial neural networks nowadays outperform the "classical" approaches in the area of computer vision by a significant margin, but they come with their own set of problems. Training an artificial neural network is an extremely time-consuming and resource-intensive task (both in terms of necessary hardware and training data), after which the network is able to recognize only a limited collection of classes based on the training data. If a requirement to incorporate a new class into a neural network's recognition capabilities arises, it is necessary to retrain the network, either from scratch, rendering the previously computed weights and biases obsolete, or by using the so-called "transfer learning", an approach based on utilizing the weights and biases obtained from some previous training process, significantly reducing the time and resources needed to achieve the required accuracy of the model. In this bachelor thesis, such concept is utilized in an implementation of a voice dialog system for retraining computer vision models, allowing the user to interactively teach the system to recognize new faces and objects. The effectiveness of the voice dialog system is evaluated through multiple experiments, demonstrating its potential to improve the accuracy and adaptability of computer vision models.
Rights:	Plný text práce je přístupný bez omezení
Appears in Collections:	Bakalářské práce / Bachelor´s works (KKY)

Files in This Item:

File	Description	Size	Format
adamecm_one_of_the_bachelor_theses_ever_made.pdf	Plný text práce	6,69 MB	Adobe PDF	View/Open
PosudekVedoucihoSTAG.pdf	Posudek vedoucího práce	60,82 kB	Adobe PDF	View/Open
PosudekOponentaSTAG.pdf	Posudek oponenta práce	61,22 kB	Adobe PDF	View/Open
Prubeh obhajoby Adamec.pdf	Průběh obhajoby práce	52,11 kB	Adobe PDF	View/Open

Show full item record

Please use this identifier to cite or link to this item: http://hdl.handle.net/11025/55042

search

navigation