Full metadata record
DC poleHodnotaJazyk
dc.contributor.authorMatoušek, Jindřich
dc.contributor.authorTihelka, Daniel
dc.date.accessioned2023-01-16T11:00:16Z-
dc.date.available2023-01-16T11:00:16Z-
dc.date.issued2022
dc.identifier.citationMATOUŠEK, J. TIHELKA, D. On Comparison of Phonetic Representations for Czech Neural Speech Synthesis. In Text, Speech, and Dialogue 25th International Conference, TSD 2022, Brno, Czech Republic, September 6–9, 2022, Proceedings. Cham: Springer International Publishing, 2022. s. 410-422. ISBN: 978-3-031-16269-5 , ISSN: 0302-9743cs
dc.identifier.isbn978-3-031-16269-5
dc.identifier.issn0302-9743
dc.identifier.uri2-s2.0-85139064069
dc.identifier.urihttp://hdl.handle.net/11025/50927
dc.format13 s.cs
dc.format.mimetypeapplication/pdf
dc.language.isoenen
dc.publisherSpringer International Publishingen
dc.relation.ispartofseriesText, Speech, and Dialogue 25th International Conference, TSD 2022, Brno, Czech Republic, September 6–9, 2022, Proceedingsen
dc.rightsPlný text je přístupný v rámci univerzity přihlášeným uživatelům.cs
dc.rights© Springer Nature Switzerland AGen
dc.titleOn Comparison of Phonetic Representations for Czech Neural Speech Synthesisen
dc.typekonferenční příspěvekcs
dc.typeConferenceObjecten
dc.rights.accessrestrictedAccessen
dc.type.versionpublishedVersionen
dc.description.abstract-translatedIn this paper, we investigate two research questions related to the phonetic representation of input text in Czech neural speech synthesis: 1) whether we can afford to reduce the phonetic alphabet, and 2) whether we can remove pauses from phonetic transcription and let the speech synthesis model predict the pause positions itself. In our experiments, three different modern speech synthesis models (FastSpeech 2 + Multi-band MelGAN, Glow-TTS + UnivNet, and VITS) were employed. We have found that the reduced phonetic alphabet outperforms the traditionally used full phonetic alphabet. On the other hand, removing pauses does not help. The presence of pauses (predicted by an external pause prediction tool) in phonetic transcription leads to a slightly better quality of synthetic speech.en
dc.subject.translatedneural speech synthesisen
dc.subject.translatedphonetic representationen
dc.subject.translatedphonetic reductionsen
dc.subject.translatedpause modelingen
dc.subject.translatedczech languageen
dc.identifier.doi10.1007/978-3-031-16270-1_34
dc.type.statusPeer-revieweden
dc.identifier.obd43936699
dc.project.ID90140/Velká výzkumná infrastruktura_(J) - e-INFRA CZcs
dc.project.IDTL05000546/Využití multimediálního výkladového slovníku pro moderní výuku češtinycs
Vyskytuje se v kolekcích:Konferenční příspěvky / Conference papers (NTIS)
Konferenční příspěvky / Conference Papers (KKY)
OBD

Soubory připojené k záznamu:
Soubor VelikostFormát 
Matousek_Tihelka-On_Compariso_of_Phonetic_Representations_TSD_2022.pdf271,71 kBAdobe PDFZobrazit/otevřít  Vyžádat kopii


Použijte tento identifikátor k citaci nebo jako odkaz na tento záznam: http://hdl.handle.net/11025/50927

Všechny záznamy v DSpace jsou chráněny autorskými právy, všechna práva vyhrazena.

hledání
navigace
  1. DSpace at University of West Bohemia
  2. Publikační činnost / Publications
  3. OBD