Full metadata record
DC poleHodnotaJazyk
dc.contributor.authorLehečka, Jan
dc.contributor.authorŠvec, Jan
dc.contributor.authorPražák, Aleš
dc.contributor.authorPsutka, Josef
dc.date.accessioned2023-01-30T11:00:27Z-
dc.date.available2023-01-30T11:00:27Z-
dc.date.issued2022
dc.identifier.citationLEHEČKA, J. ŠVEC, J. PRAŽÁK, A. PSUTKA, J. Exploring Capabilities of Monolingual Audio Transformers using Large Datasets in Automatic Speech Recognition of Czech. In Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH. New York: Red Hook, 2022. s. 1831-1835. ISBN: neuvedeno , ISSN: 2308-457Xcs
dc.identifier.isbnneuvedeno
dc.identifier.issn2308-457X
dc.identifier.uri2-s2.0-85139048808
dc.identifier.urihttp://hdl.handle.net/11025/51163
dc.format5 s.cs
dc.format.mimetypeapplication/pdf
dc.language.isoenen
dc.publisherInternational Speech Communication Associationen
dc.relation.ispartofseriesProceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECHen
dc.rightsPlný text není přístupný.cs
dc.rights© 2022 ISCAen
dc.titleExploring Capabilities of Monolingual Audio Transformers using Large Datasets in Automatic Speech Recognition of Czechen
dc.typekonferenční příspěvekcs
dc.typeConferenceObjecten
dc.rights.accessclosedAccessen
dc.type.versionpublishedVersionen
dc.description.abstract-translatedIn this paper, we present our progress in pretraining Czech monolingual audio transformers from a large dataset containing more than 80 thousand hours of unlabeled speech, and subsequently fine-tuning the model on automatic speech recognition tasks using a combination of in-domain data and almost 6 thousand hours of out-of-domain transcribed speech. We are presenting a large palette of experiments with various fine-tuning setups evaluated on two public datasets (CommonVoice and VoxPopuli) and one extremely challenging dataset from the MALACH project. Our results show that monolingual Wav2Vec 2.0 models are robust ASR systems, which can take advantage of large labeled and unlabeled datasets and successfully compete with state-of-the-art LVCSR systems. Moreover, Wav2Vec models proved to be good zero-shot learners when no training data are available for the target ASR task.en
dc.subject.translatedspeech recognition, audio transformers, Wav2Vecen
dc.identifier.doi10.21437/Interspeech.2022-10439
dc.type.statusPeer-revieweden
dc.identifier.obd43936705
dc.project.ID90140/Velká výzkumná infrastruktura_(J) - e-INFRA CZcs
dc.project.IDGA22-27800S/Využití vícemodálních Transformerů pro přirozenější hlasový dialogcs
dc.project.IDEF17_048/0007267/InteCom: VaV inteligentních komponent pokročilých technologií pro plzeňskou metropolitní oblastcs
Vyskytuje se v kolekcích:Články / Articles (NTIS)
Články / Articles (KKY)
OBD

Soubory připojené k záznamu:
Soubor VelikostFormát 
Lehecka_Svec_Prazak_PsutkaJV-Exploring_Capabilties_Interspeech_2022.pdf197,58 kBAdobe PDFZobrazit/otevřít  Vyžádat kopii


Použijte tento identifikátor k citaci nebo jako odkaz na tento záznam: http://hdl.handle.net/11025/51163

Všechny záznamy v DSpace jsou chráněny autorskými právy, všechna práva vyhrazena.

hledání
navigace
  1. DSpace at University of West Bohemia
  2. Publikační činnost / Publications
  3. OBD