Title: | On Using Stateful LSTM Networks for Key-Phrase Detection |
Other Titles: | Použití stavových LSTM sítí pro detekci klíčových frází |
Authors: | Bulín, Martin Šmídl, Luboš Švec, Jan |
Citation: | BULÍN, M.., ŠMÍDL, L.., ŠVEC, J.. On Using Stateful LSTM Networks for Key-Phrase Detection. In: Text, Speech, and Dialogue 22nd International Conference, TSD 2019, Ljubljana,Slovenia, September 11-13, 2019, Proceedings. Cham: Springer, 2019. s. 287-298. ISBN 978-3-030-27946-2 , ISSN 0302-9743. |
Issue Date: | 2019 |
Publisher: | Springer |
Document type: | konferenční příspěvek conferenceObject |
URI: | 2-s2.0-85072856520 http://hdl.handle.net/11025/36625 |
ISBN: | 978-3-030-27946-2 |
ISSN: | 0302-9743 |
Keywords: | LSTM, stavové modelování kontextu, detekce klíčových frází, ASR |
Keywords in different language: | LSTM, Stateful Context modeling, Key-phrase detection, ASR |
Abstract: | V tomto článku se zaměřujeme na sítě LSTM (Long Short-Term Memory) a jejich implementaci v populárním rámci zvaném Keras. Cílem je ukázat, jak využít jejich schopnosti projít kontextem při zachování stavu a objasnit, co vlastně znamená stavová vlastnost LSTM rekurentní neuronové sítě implementované v Kerasu. Hlavním výsledkem práce je pak obecný algoritmus pro balení libovolných dat závislých na kontextu, který je schopen 1 / zabalit data tak, aby odpovídala stavovým modelům; 2 / zefektivnění tréninkového procesu dodáním více rámců dohromady; 3 / on-the-fly (frame-by-fly) predikce trénovaným modelem. Jsou prezentovány dvě metody trénování, přístup založený na okně je porovnán s plně stavovým přístupem. Analýza se provádí na datovém souboru příkazů řeči. Nakonec poskytujeme návod, jak používat stavové LSTM k vytvoření systému detekce klíčových frází. |
Abstract in different language: | In this paper, we focus on LSTM (Long Short-Term Memory) networks and their implementation in a popular framework called Keras. The goal is to show how to take advantage of their ability to pass the context by holding the state and to clear up what the stateful property of LSTM Recurrent Neural Network implemented in Keras actually means. The main outcome of the work is then a general algorithm for packing arbitrary context-dependent data, capable of 1/ packing the data to fit the stateful models; 2/ making the training process efficient by supplying multiple frames together; 3/ on-the-fly (frame-by-frame) prediction by the trained model. Two training methods are presented, a window-based approach is compared with a fully-stateful approach. The analysis is performed on the Speech commands dataset. Finally, we give guidance on how to use stateful LSTMs to create a key-phrase detection system. |
Rights: | Plný text není přístupný. © Springer |
Appears in Collections: | Konferenční příspěvky / Conference Papers (KKY) OBD |
Files in This Item:
File | Size | Format | |
---|---|---|---|
Bulín2019_Chapter_OnUsingStatefulLSTMNetworksFor.pdf | 1,18 MB | Adobe PDF | View/Open Request a copy |
Please use this identifier to cite or link to this item:
http://hdl.handle.net/11025/36625
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.