Title: On Using Stateful LSTM Networks for Key-Phrase Detection
Other Titles: Použití stavových LSTM sítí pro detekci klíčových frází
Authors: Bulín, Martin
Šmídl, Luboš
Švec, Jan
Citation: BULÍN, M.., ŠMÍDL, L.., ŠVEC, J.. On Using Stateful LSTM Networks for Key-Phrase Detection. In: Text, Speech, and Dialogue 22nd International Conference, TSD 2019, Ljubljana,Slovenia, September 11-13, 2019, Proceedings. Cham: Springer, 2019. s. 287-298. ISBN 978-3-030-27946-2 , ISSN 0302-9743.
Issue Date: 2019
Publisher: Springer
Document type: konferenční příspěvek
conferenceObject
URI: 2-s2.0-85072856520
http://hdl.handle.net/11025/36625
ISBN: 978-3-030-27946-2
ISSN: 0302-9743
Keywords: LSTM, stavové modelování kontextu, detekce klíčových frází, ASR
Keywords in different language: LSTM, Stateful Context modeling, Key-phrase detection, ASR
Abstract: V tomto článku se zaměřujeme na sítě LSTM (Long Short-Term Memory) a jejich implementaci v populárním rámci zvaném Keras. Cílem je ukázat, jak využít jejich schopnosti projít kontextem při zachování stavu a objasnit, co vlastně znamená stavová vlastnost LSTM rekurentní neuronové sítě implementované v Kerasu. Hlavním výsledkem práce je pak obecný algoritmus pro balení libovolných dat závislých na kontextu, který je schopen 1 / zabalit data tak, aby odpovídala stavovým modelům; 2 / zefektivnění tréninkového procesu dodáním více rámců dohromady; 3 / on-the-fly (frame-by-fly) predikce trénovaným modelem. Jsou prezentovány dvě metody trénování, přístup založený na okně je porovnán s plně stavovým přístupem. Analýza se provádí na datovém souboru příkazů řeči. Nakonec poskytujeme návod, jak používat stavové LSTM k vytvoření systému detekce klíčových frází.
Abstract in different language: In this paper, we focus on LSTM (Long Short-Term Memory) networks and their implementation in a popular framework called Keras. The goal is to show how to take advantage of their ability to pass the context by holding the state and to clear up what the stateful property of LSTM Recurrent Neural Network implemented in Keras actually means. The main outcome of the work is then a general algorithm for packing arbitrary context-dependent data, capable of 1/ packing the data to fit the stateful models; 2/ making the training process efficient by supplying multiple frames together; 3/ on-the-fly (frame-by-frame) prediction by the trained model. Two training methods are presented, a window-based approach is compared with a fully-stateful approach. The analysis is performed on the Speech commands dataset. Finally, we give guidance on how to use stateful LSTMs to create a key-phrase detection system.
Rights: Plný text není přístupný.
© Springer
Appears in Collections:Konferenční příspěvky / Conference Papers (KKY)
OBD

Files in This Item:
File SizeFormat 
Bulín2019_Chapter_OnUsingStatefulLSTMNetworksFor.pdf1,18 MBAdobe PDFView/Open    Request a copy


Please use this identifier to cite or link to this item: http://hdl.handle.net/11025/36625

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

search
navigation
  1. DSpace at University of West Bohemia
  2. Publikační činnost / Publications
  3. OBD