Název: Počítačové vidění s hlasovou interakcí na Raspberry Pi
Další názvy: Voice-interactive computer vision on Raspberry Pi
Autoři: Adamec, Martin
Vedoucí práce/školitel: Bulín Martin, Ing. M.Sc.
Oponent: Neduchal Petr, Ing. Ph.D.
Datum vydání: 2023
Nakladatel: Západočeská univerzita v Plzni
Typ dokumentu: bakalářská práce
URI: http://hdl.handle.net/11025/55042
Klíčová slova: počítačové vidění;hlasová interakce;rapsberry pi;human-in-the-loop dialog
Klíčová slova v dalším jazyce: computer vision;voice interaction;rapsberry pi;human-in-the-loop dialog
Abstrakt: Umělé neuronové sítě dnes v oblasti počítačového vidění výrazně překonávají "klasické" přístupy, ale mají své vlastní problémy. Trénování umělé neuronové sítě je úkol značně náročný na zdroje (jak z hlediska potřebného hardwaru a výpočetního času, tak i z hlediska potřebných trénovacích dat), po kterém je síť schopna na základě trénovacích dat rozpoznat pouze omezený počet tříd. Vznikne-li požadavek na začlenění nové třídy do rozpoznávacích schopností neuronové sítě, je nutné síť přetrénovat, a to buď od začátku, čímž se dříve vypočtené váhy a prahy stanou irelevantními, nebo pomocí takzvaného "transfer learningu", což je přístup založený na využití vah a prahů získaných z nějakého předchozího trénování sítě, čímž se výrazně zredukuje čas a zdroje potřebné k dosažení požadované přesnosti modelu. V této bakalářské práci je takový koncept využit při implementaci hlasového dialogového systému pro přetrénovávání modelů počítačového vidění, který umožňuje uživateli interaktivně učit systém rozpoznávat nové tváře a objekty. Přesnost hlasového dialogového systému je vyhodnocena prostřednictvím několika experimentů, které prokazují jeho potenciál pro zlepšení přesnosti a adaptability modelů počítačového vidění.
Abstrakt v dalším jazyce: Artificial neural networks nowadays outperform the "classical" approaches in the area of computer vision by a significant margin, but they come with their own set of problems. Training an artificial neural network is an extremely time-consuming and resource-intensive task (both in terms of necessary hardware and training data), after which the network is able to recognize only a limited collection of classes based on the training data. If a requirement to incorporate a new class into a neural network's recognition capabilities arises, it is necessary to retrain the network, either from scratch, rendering the previously computed weights and biases obsolete, or by using the so-called "transfer learning", an approach based on utilizing the weights and biases obtained from some previous training process, significantly reducing the time and resources needed to achieve the required accuracy of the model. In this bachelor thesis, such concept is utilized in an implementation of a voice dialog system for retraining computer vision models, allowing the user to interactively teach the system to recognize new faces and objects. The effectiveness of the voice dialog system is evaluated through multiple experiments, demonstrating its potential to improve the accuracy and adaptability of computer vision models.
Práva: Plný text práce je přístupný bez omezení
Vyskytuje se v kolekcích:Bakalářské práce / Bachelor´s works (KKY)

Soubory připojené k záznamu:
Soubor Popis VelikostFormát 
adamecm_one_of_the_bachelor_theses_ever_made.pdfPlný text práce6,69 MBAdobe PDFZobrazit/otevřít
PosudekVedoucihoSTAG.pdfPosudek vedoucího práce60,82 kBAdobe PDFZobrazit/otevřít
PosudekOponentaSTAG.pdfPosudek oponenta práce61,22 kBAdobe PDFZobrazit/otevřít
Prubeh obhajoby Adamec.pdfPrůběh obhajoby práce52,11 kBAdobe PDFZobrazit/otevřít


Použijte tento identifikátor k citaci nebo jako odkaz na tento záznam: http://hdl.handle.net/11025/55042

Všechny záznamy v DSpace jsou chráněny autorskými právy, všechna práva vyhrazena.