Full metadata record
DC pole | Hodnota | Jazyk |
---|---|---|
dc.contributor.advisor | Matoušek Jindřich, Doc. Ing. Ph.D. | |
dc.contributor.author | Vladař, Lukáš | |
dc.contributor.referee | Tihelka Daniel, Ing. Ph.D. | |
dc.date.accepted | 2023-9-7 | |
dc.date.accessioned | 2024-01-15T23:11:23Z | - |
dc.date.available | 2022-10-1 | |
dc.date.available | 2024-01-15T23:11:23Z | - |
dc.date.issued | 2023 | |
dc.date.submitted | 2023-8-24 | |
dc.identifier | 93171 | |
dc.identifier.uri | http://hdl.handle.net/11025/55133 | - |
dc.description.abstract | Hlavním cílem této práce je popsat, jaký vliv má množství použitých trénovacích dat na kvalitu syntetické řeči generované natrénovaným neurálním syntetizérem a jak lze kvalitu výsledné řeči ovlivnit použitím předtrénovaných neurálních modelů. Teoretická část práce popisuje základní přístupy použitelné pro umělé generování řeči, zvláštní pozornost je věnována především moderním metodám neurální syntézy řeči. Zmíněny jsou také možnosti hodnocení syntetické řeči. V praktické části jsou pak popsány experimenty, které byly provedeny s neurálním modelem VITS. V rámci těchto experimentů byly s využitím poslechových testů a objektivní míry MCD porovnávány modely, které se lišily jednak množstvím dat použitých k jejich natrénování, ale také způsobem inicializace parametrů při trénování. | cs |
dc.format | 65 | |
dc.language.iso | cs | |
dc.publisher | Západočeská univerzita v Plzni | |
dc.rights | Plný text práce je přístupný bez omezení | |
dc.subject | syntéza řeči | cs |
dc.subject | tts | cs |
dc.subject | vits | cs |
dc.subject | trénovací data | cs |
dc.subject | transfer learning | cs |
dc.subject | poslechové testy | cs |
dc.title | Analýza velikosti dat pro neurální syntézu řeči | cs |
dc.title.alternative | Data Size Analysis for Neural Speech Synthesis | en |
dc.type | diplomová práce | |
dc.thesis.degree-name | Ing. | |
dc.thesis.degree-level | Navazující | |
dc.thesis.degree-grantor | Západočeská univerzita v Plzni. Fakulta aplikovaných věd | |
dc.thesis.degree-program | Aplikované vědy a informatika | |
dc.description.result | Obhájeno | |
dc.description.abstract-translated | The aim of this thesis is to describe the impact of the amount of used training data on the quality of the speech generated by a neural synthesizer. Another goal is to answer how the use of pretrained neural models can affect the quality of the final speech. The theoretical part of the thesis covers basic approaches applicable to artificial speech production, the main attention is given especially to modern methods of neural speech synthesis. Furthermore, some options of the synthetic speech evaluation are mentioned. The practical part describes experiments performed on the VITS neural model. During these experiments models trained using different amounts of data and different methods of parameter initialization were compared using listening tests and the MCD objective measure. | en |
dc.subject.translated | speech synthesis | en |
dc.subject.translated | tts | en |
dc.subject.translated | vits | en |
dc.subject.translated | training data | en |
dc.subject.translated | transfer learning | en |
dc.subject.translated | listening tests | en |
Vyskytuje se v kolekcích: | Diplomové práce / Theses (KKY) |
Soubory připojené k záznamu:
Soubor | Popis | Velikost | Formát | |
---|---|---|---|---|
DP_Vladar_Lukas.pdf | Plný text práce | 10,45 MB | Adobe PDF | Zobrazit/otevřít |
PosudekOponentaSTAG.pdf | Posudek oponenta práce | 63,46 kB | Adobe PDF | Zobrazit/otevřít |
PosudekVedoucihoSTAG.pdf | Posudek vedoucího práce | 63,25 kB | Adobe PDF | Zobrazit/otevřít |
Prubeh obhajoby Vladar.pdf | Průběh obhajoby práce | 83,3 kB | Adobe PDF | Zobrazit/otevřít |
Použijte tento identifikátor k citaci nebo jako odkaz na tento záznam:
http://hdl.handle.net/11025/55133
Všechny záznamy v DSpace jsou chráněny autorskými právy, všechna práva vyhrazena.