Audio-visual speech asynchrony modeling in a talking head

Karpov, Alexey; Tsirulnik, Liliya; Krňoul, Zdeněk; Ronzhin, Andrey; Lobanov, Boris; Železný, Miloš

Název:	Audio-visual speech asynchrony modeling in a talking head
Další názvy:	Modelování asynchnie v systému mluvící hlavy
Autoři:	Karpov, Alexey Tsirulnik, Liliya Krňoul, Zdeněk Ronzhin, Andrey Lobanov, Boris Železný, Miloš
Citace zdrojového dokumentu:	KARPOV, Alexey; TSIRULNIK, Liliya; KRŇOUL, Zdeněk; RONZHIN, Andrey; LOBANOV, Boris; ŽELEZNÝ, Miloš. Audio-visual speech asynchrony modeling in a talking head. In: Proceedings of ICSPL 2009: 10th Annual Conference of the International Speech Communication Association 2009, 6-10 September 2009, Brighton, UK. [Baixas]: ISCA, 2009, p. 2911-2914. ISSN 1990-9772.
Datum vydání:	2009
Nakladatel:	ISCA
Typ dokumentu:	článek article
URI:	http://www.kky.zcu.cz/cs/publications/AlexeyKarpov_2009_Audio-VisualSpeech http://hdl.handle.net/11025/17205
ISSN:	1990-9772
Klíčová slova:	automatické rozpoznávání řeči;syntéza řeči;multimodální vjem řeči;kognitivní studie
Klíčová slova v dalším jazyce:	audio-visual speech processing;speech synthesis;multimodal speech perception;cognitive study
Abstrakt:	V tomto článku je navržen systém audiovizuální syntézy řeči obsahující modelování asynchronie mezi zvukovou a vizuální modalitou řeči. Studie reálných nahrávek obsažených v řečových databázích nám poskytují požadované údaje k pochopení problému modalit asynchronie, která je částečně způsobena koartikulací. Byl vypracován soubor kontextově závislých pravidel časování a doporučení zajišťující synchronizaci zvukové a vizuální řeči tak, že animace mluvící hlavy je více přirozená. Kognitivní ohodnocení systému mluvící hlavy, který je nastaven pro Ruštinu a implementující původní model asynchronie, ukazuje vysokou srozumitelnost a přirozenost syntetizované audiovizuální řeči.
Abstrakt v dalším jazyce:	An audio-visual speech synthesis system with modeling of asynchrony between auditory and visual speech modalities is proposed in the paper. Corpus-based study of real recordings gave us the required data for understanding the problem of modalities asynchrony that is partially caused by the coarticulationphenomena. A set of context-dependent timing rules and recommendations was elaborated in order to make a synchronization of auditory and visual speech cues of the animated talking head similar to a natural humanlike way. The cognitive evaluation of the model-based talking head for Russian with implementation of the original asynchrony model has shown high intelligibility and naturalness of audio-visual synthesized speech.
Práva:	© ISCA
Vyskytuje se v kolekcích:	Články / Articles (NTIS)

Soubory připojené k záznamu:

Soubor	Popis	Velikost	Formát
AlexeyKarpov_2009_Audio-VisualSpeech.pdf	Plný text	254,9 kB	Adobe PDF	Zobrazit/otevřít

Zobrazit celý záznam Zobrazit statistiky

Použijte tento identifikátor k citaci nebo jako odkaz na tento záznam: http://hdl.handle.net/11025/17205

Všechny záznamy v DSpace jsou chráněny autorskými právy, všechna práva vyhrazena.

hledání

navigace