Title: | Počítačové vidění s hlasovou interakcí na Raspberry Pi |
Other Titles: | Voice-interactive computer vision on Raspberry Pi |
Authors: | Adamec, Martin |
Advisor: | Bulín Martin, Ing. M.Sc. |
Referee: | Neduchal Petr, Ing. Ph.D. |
Issue Date: | 2023 |
Publisher: | Západočeská univerzita v Plzni |
Document type: | bakalářská práce |
URI: | http://hdl.handle.net/11025/55042 |
Keywords: | počítačové vidění;hlasová interakce;rapsberry pi;human-in-the-loop dialog |
Keywords in different language: | computer vision;voice interaction;rapsberry pi;human-in-the-loop dialog |
Abstract: | Umělé neuronové sítě dnes v oblasti počítačového vidění výrazně překonávají "klasické" přístupy, ale mají své vlastní problémy. Trénování umělé neuronové sítě je úkol značně náročný na zdroje (jak z hlediska potřebného hardwaru a výpočetního času, tak i z hlediska potřebných trénovacích dat), po kterém je síť schopna na základě trénovacích dat rozpoznat pouze omezený počet tříd. Vznikne-li požadavek na začlenění nové třídy do rozpoznávacích schopností neuronové sítě, je nutné síť přetrénovat, a to buď od začátku, čímž se dříve vypočtené váhy a prahy stanou irelevantními, nebo pomocí takzvaného "transfer learningu", což je přístup založený na využití vah a prahů získaných z nějakého předchozího trénování sítě, čímž se výrazně zredukuje čas a zdroje potřebné k dosažení požadované přesnosti modelu. V této bakalářské práci je takový koncept využit při implementaci hlasového dialogového systému pro přetrénovávání modelů počítačového vidění, který umožňuje uživateli interaktivně učit systém rozpoznávat nové tváře a objekty. Přesnost hlasového dialogového systému je vyhodnocena prostřednictvím několika experimentů, které prokazují jeho potenciál pro zlepšení přesnosti a adaptability modelů počítačového vidění. |
Abstract in different language: | Artificial neural networks nowadays outperform the "classical" approaches in the area of computer vision by a significant margin, but they come with their own set of problems. Training an artificial neural network is an extremely time-consuming and resource-intensive task (both in terms of necessary hardware and training data), after which the network is able to recognize only a limited collection of classes based on the training data. If a requirement to incorporate a new class into a neural network's recognition capabilities arises, it is necessary to retrain the network, either from scratch, rendering the previously computed weights and biases obsolete, or by using the so-called "transfer learning", an approach based on utilizing the weights and biases obtained from some previous training process, significantly reducing the time and resources needed to achieve the required accuracy of the model. In this bachelor thesis, such concept is utilized in an implementation of a voice dialog system for retraining computer vision models, allowing the user to interactively teach the system to recognize new faces and objects. The effectiveness of the voice dialog system is evaluated through multiple experiments, demonstrating its potential to improve the accuracy and adaptability of computer vision models. |
Rights: | Plný text práce je přístupný bez omezení |
Appears in Collections: | Bakalářské práce / Bachelor´s works (KKY) |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
adamecm_one_of_the_bachelor_theses_ever_made.pdf | Plný text práce | 6,69 MB | Adobe PDF | View/Open |
PosudekVedoucihoSTAG.pdf | Posudek vedoucího práce | 60,82 kB | Adobe PDF | View/Open |
PosudekOponentaSTAG.pdf | Posudek oponenta práce | 61,22 kB | Adobe PDF | View/Open |
Prubeh obhajoby Adamec.pdf | Průběh obhajoby práce | 52,11 kB | Adobe PDF | View/Open |
Please use this identifier to cite or link to this item:
http://hdl.handle.net/11025/55042
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.