Increasing the Accuracy of the ASR System by Prolonging Voiceless Phonemes in the Speech of Patients Using the Electrolarynx

Stanislav, Petr; Psutka, Josef; Psutka, Josef

Full metadata record

DC pole	Hodnota	Jazyk
dc.contributor.author	Stanislav, Petr
dc.contributor.author	Psutka, Josef
dc.contributor.author	Psutka, Josef
dc.date.accessioned	2021-02-22T11:00:21Z	-
dc.date.available	2021-02-22T11:00:21Z	-
dc.date.issued	2020
dc.identifier.citation	STANISLAV, P., PSUTKA, J., PSUTKA, J. Increasing the Accuracy of the ASR System by Prolonging Voiceless Phonemes in the Speech of Patients Using the Electrolarynx. In: 22nd International Conference, SPECOM 2020, St. Petersburg, Russia, October 7–9, 2020, Proceedings. Cham: Springer, 2020. s. 562-571. ISBN 978-3-030-60275-8, ISSN 0302-9743.	cs
dc.identifier.isbn	978-3-030-60275-8
dc.identifier.issn	0302-9743
dc.identifier.uri	2-s2.0-85092907563
dc.identifier.uri	http://hdl.handle.net/11025/42725
dc.description.abstract	Pacienti, kteří podstoupili totální laryngektomii a používají k produkci hlasu elektrolarynx, trpí špatnou srozumitelností. V mnoha případech to může vést k obavám z mluvení s cizími lidmi, a to i po telefonu. Systémy automatického rozpoznávání řeči (ASR) by mohly pacientům pomoci tento problém překonat mnoha způsoby. Bohužel ani nejmodernější systémy ASR nemohou poskytnout výsledky srovnatelné s výsledky konvenčních řečníků. Problém je způsoben hlavně podobností mezi znělými a neznělými páry fonémů. V mnoha případech může problém vyřešit jazykový model, ale pouze v případě, že je kontext slova dostatečně dlouhý. Proto je pro zvýšení přesnosti rozpoznávání nezbytná úprava akustických dat a / nebo akustického modelu. V tomto článku navrhujeme prodloužení neznělých fonémů, abychom zlepšili přesnost rozpoznávání a obohatili systém ASR o model, který toto prodloužení zohledňuje. Myšlenka prodloužení je ověřena na souboru experimentů ASR s uměle prodlouženými neznělými fonémy. K obohacení systému ASR je navržen model DNN pro rescoring mřížky na základě trvání fonému. Nový systém je srovnáván se standardním ASR. Je také ověřeno, že systém ASR vytvořený pomocí prodloužených syntetických dat dokáže úspěšně rozpoznat protažená slova vyslovená skutečným mluvčím.	cs
dc.format	10 s.	cs
dc.format.mimetype	application/pdf
dc.language.iso	en	en
dc.publisher	Springer	en
dc.relation.ispartofseries	22nd International Conference, SPECOM 2020, St. Petersburg, Russia, October 7–9, 2020, Proceedings	en
dc.rights	Plný text není přístupný.	cs
dc.rights	© Springer	en
dc.subject	Automatické rozpoznávání řeči	cs
dc.subject	Totální laryngektomie	cs
dc.subject	Délka fonémů	cs
dc.subject	Elektrolarynx	cs
dc.title	Increasing the Accuracy of the ASR System by Prolonging Voiceless Phonemes in the Speech of Patients Using the Electrolarynx	en
dc.title.alternative	Zvýšení přesnosti ASR prodloužením neznělých fonémů v řeči pacientů používajících elektrolarynx	cs
dc.type	konferenční příspěvek	cs
dc.type	conferenceObject	en
dc.rights.access	closedAccess	en
dc.type.version	publishedVersion	en
dc.description.abstract-translated	Patients who have undergone total laryngectomy and use electrolarynx for voice production suffer from poor intelligibility. It may lead in many cases to fear of speaking to strangers, even over the phone. Automatic Speech Recognition (ASR) systems could help patients overcome this problem in many ways. Unfortunately, even state-of-the-art ASR systems cannot provide results comparable to those of conventional speakers. The problem is mainly caused by the similarity between voiced and unvoiced phoneme pairs. In many cases, a language model can help to solve the issue, but only if the word context is sufficiently long. Therefore adjustment of acoustic data and/or acoustic model is necessary to increase recognition accuracy. In this paper, we propose voiceless phonemes elongation to improve recognition accuracy and enrich the ASR system with a model that takes this elongation into account. The idea of elongation is verified on a set of ASR experiments with artificially elongated voiceless phonemes. To enriching the ASR system, the DNN model for rescoring lattices based on phoneme duration is proposed. The new system is compared with a standard ASR. It is also verified that the ASR system created using elongated synthetic data can successfully recognize the actual elongated data pronounced by the real speaker.	en
dc.subject.translated	Automatic speech recognition	en
dc.subject.translated	Total laryngectomy	en
dc.subject.translated	Phoneme duration	en
dc.subject.translated	Electrolarynx	en
dc.identifier.doi	10.1007/978-3-030-60276-5_54
dc.type.status	Peer-reviewed	en
dc.identifier.obd	43930811
dc.project.ID	TN01000024/Národní centrum kompetence - Kybernetika a umělá inteligence	cs
dc.project.ID	SGS-2019-027/Inteligentní metody strojového vnímání a porozumění 4	cs
Vyskytuje se v kolekcích:	Konferenční příspěvky / Conference papers (NTIS) Konferenční příspěvky / Conference Papers (KKY) OBD

Soubory připojené k záznamu:

Soubor	Velikost	Formát
Stanislav2020_Chapter_IncreasingTheAccuracyOfTheASRS.pdf	544,71 kB	Adobe PDF	Zobrazit/otevřít Vyžádat kopii

Zobrazit minimální záznam Zobrazit statistiky

Použijte tento identifikátor k citaci nebo jako odkaz na tento záznam: http://hdl.handle.net/11025/42725

Všechny záznamy v DSpace jsou chráněny autorskými právy, všechna práva vyhrazena.

hledání

navigace