Analýza velikosti dat pro neurální syntézu řeči

Vladař, Lukáš

Full metadata record

DC pole	Hodnota	Jazyk
dc.contributor.advisor	Matoušek Jindřich, Doc. Ing. Ph.D.
dc.contributor.author	Vladař, Lukáš
dc.contributor.referee	Tihelka Daniel, Ing. Ph.D.
dc.date.accepted	2023-9-7
dc.date.accessioned	2024-01-15T23:11:23Z	-
dc.date.available	2022-10-1
dc.date.available	2024-01-15T23:11:23Z	-
dc.date.issued	2023
dc.date.submitted	2023-8-24
dc.identifier	93171
dc.identifier.uri	http://hdl.handle.net/11025/55133	-
dc.description.abstract	Hlavním cílem této práce je popsat, jaký vliv má množství použitých trénovacích dat na kvalitu syntetické řeči generované natrénovaným neurálním syntetizérem a jak lze kvalitu výsledné řeči ovlivnit použitím předtrénovaných neurálních modelů. Teoretická část práce popisuje základní přístupy použitelné pro umělé generování řeči, zvláštní pozornost je věnována především moderním metodám neurální syntézy řeči. Zmíněny jsou také možnosti hodnocení syntetické řeči. V praktické části jsou pak popsány experimenty, které byly provedeny s neurálním modelem VITS. V rámci těchto experimentů byly s využitím poslechových testů a objektivní míry MCD porovnávány modely, které se lišily jednak množstvím dat použitých k jejich natrénování, ale také způsobem inicializace parametrů při trénování.	cs
dc.format	65
dc.language.iso	cs
dc.publisher	Západočeská univerzita v Plzni
dc.rights	Plný text práce je přístupný bez omezení
dc.subject	syntéza řeči	cs
dc.subject	tts	cs
dc.subject	vits	cs
dc.subject	trénovací data	cs
dc.subject	transfer learning	cs
dc.subject	poslechové testy	cs
dc.title	Analýza velikosti dat pro neurální syntézu řeči	cs
dc.title.alternative	Data Size Analysis for Neural Speech Synthesis	en
dc.type	diplomová práce
dc.thesis.degree-name	Ing.
dc.thesis.degree-level	Navazující
dc.thesis.degree-grantor	Západočeská univerzita v Plzni. Fakulta aplikovaných věd
dc.thesis.degree-program	Aplikované vědy a informatika
dc.description.result	Obhájeno
dc.description.abstract-translated	The aim of this thesis is to describe the impact of the amount of used training data on the quality of the speech generated by a neural synthesizer. Another goal is to answer how the use of pretrained neural models can affect the quality of the final speech. The theoretical part of the thesis covers basic approaches applicable to artificial speech production, the main attention is given especially to modern methods of neural speech synthesis. Furthermore, some options of the synthetic speech evaluation are mentioned. The practical part describes experiments performed on the VITS neural model. During these experiments models trained using different amounts of data and different methods of parameter initialization were compared using listening tests and the MCD objective measure.	en
dc.subject.translated	speech synthesis	en
dc.subject.translated	tts	en
dc.subject.translated	vits	en
dc.subject.translated	training data	en
dc.subject.translated	transfer learning	en
dc.subject.translated	listening tests	en
Vyskytuje se v kolekcích:	Diplomové práce / Theses (KKY)

Soubory připojené k záznamu:

Soubor	Popis	Velikost	Formát
DP_Vladar_Lukas.pdf	Plný text práce	10,45 MB	Adobe PDF	Zobrazit/otevřít
PosudekOponentaSTAG.pdf	Posudek oponenta práce	63,46 kB	Adobe PDF	Zobrazit/otevřít
PosudekVedoucihoSTAG.pdf	Posudek vedoucího práce	63,25 kB	Adobe PDF	Zobrazit/otevřít
Prubeh obhajoby Vladar.pdf	Průběh obhajoby práce	83,3 kB	Adobe PDF	Zobrazit/otevřít

Zobrazit minimální záznam Zobrazit statistiky

Použijte tento identifikátor k citaci nebo jako odkaz na tento záznam: http://hdl.handle.net/11025/55133

Všechny záznamy v DSpace jsou chráněny autorskými právy, všechna práva vyhrazena.

hledání

navigace