999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于LSTMP語音識別方法的研究與改進

2019-10-21 08:16:45孫由玉孫寶山盧陽
現代信息科技 2019年11期

孫由玉 孫寶山 盧陽

摘? 要:當前LSTMP是基于LSTM增加了Projection層,并將這個層連接到LSTM的輸入,通過循環連接投影層,對高維度的信息進行降維,減小細胞單元的維度,從而減小相關參數矩陣的參數數目。但LSTMP網絡結構的缺點在于Projection層的輸出需要完成兩個功能,既需要充當歷史信息,又需要作為下一層的輸入。針對以上問題,筆者提出了一種Re-dimension的方法,讓網絡自己選擇一部分參數作為歷史信息,并獲得了一定程度的提升。采用該方法后,能提高語音識別率相對4-5%左右。

關鍵詞:長短時記憶LSTM;降維;語音識別

Abstract:Currently,LSTMP is based on LSTM,which adds a project layer and connects this layer to the input of LSTM. By circularly connecting the projection layer,it reduces the dimension of high-dimensional information,reduces the dimension of cell units,and thus reduces the number of parameters of the related parameter matrix. However,the disadvantage of LSTMP network structure is that the output of the Projection layer needs to complete two functions,which need to act as both historical information and input of the next layer. In view of the above problems,the author proposes a Re-dimension method,which allows the network to select some parameters as historical information,and has achieved a certain degree of improvement. With this method,the speech recognition rate can be improved by about 4-5%.

Keywords:LSTM for long-term and short-term memory;dimensionality reduction;speech recognition

0? 引? 言

隨著移動互聯網的興起,語音識別技術正在走進人們的生活,這給人們的工作、學習和生活提供了一種快捷識別的方式。近年來,基于深度全連接前饋神經網絡的聲學模型已被證明是語音識別的成功范例。最近,將循環神經網絡作為一種強大的模型進行了探索,循環神經網絡在不同的順序數據建模任務中取得了最先進的性能,例如:手寫字符識別,機器翻譯以及語音識別[1]。

基于長短期存儲器(Long Short-Term Memory,LSTM)的存儲器塊通過輸入門[2],輸出門、遺忘門和存儲器單元的集成來運行。通過該LSTM,循環神經網絡可以利用自學習機制用于遠程時間上下文,這有助于改善語音識別中的噪聲魯棒性[3],其中較長窗口內的一部分幀被噪聲掩蔽。已經實施LSTM網絡以在不同的語音識別任務中實現競爭性能,提出了具有各種架構的LSTM網絡的一些擴展以改善語音識別性能。LSTM循環投影作為統一框架引入,通過添加基于LSTM單元輸出的循環信息的前饋層并進一步將信息投影到輸出層。同時,通過LSTM單元細胞之后或之前安排全連接前饋神經網絡來調整LSTM結構。LSTM架構是一種非常特殊的循環神經網絡,用于對語音等順序數據進行建模。它最近被廣泛用于大規模聲學模型估計,并且比許多其他神經網絡表現更好。但是由于LSTM的運行速度很慢,所以有人提出了LSTMP網絡結構。

LSTMP是LSTM with recurrent projection layer的簡稱,是在原有LSTM基礎之上增加了一個Projection層,并將這個層連接到LSTM的輸入,Projection層的加入是為了減少計算量,它的作用和全連接層很像,就是對輸出向量做一下壓縮,從而能把高維度的信息降維,減小細胞單元的維度,以減小相關參數矩陣的參數數目。但是Projection層的輸出需要完成兩個功能,既需要充當歷史信息,又需要作為下一層的輸入。

針對這種情況,本文提出了一種Re-dimension的方法,讓網絡自己選擇一部分參數作為歷史信息,并獲得了一定程度的提升。通過采用改進的LSTMP方法,提高了LSTMP的性能,使語音識別率相對提高了4-5%左右。

1? LSTM網絡

LSTM(Long Short-Term Memory)長短期記憶網絡,是一種時間遞歸神經網絡(RNN)[4],主要是為了解決長序列訓練過程中的梯度消失和梯度爆炸問題。簡單來說,就是相比普通的RNN,LSTM能夠在更長的序列中有更好的表現。所有RNN都具有一種重復神經網絡模塊的鏈式的形式。在標準的RNN中,這個重復的模塊只有一個非常簡單的結構即一個tanh層[5]。如圖1所示。

LSTM與之不同的是其有四個神經網絡層,并且以一種特殊的方式進行交互。其關鍵就是細胞狀態,并且精心設計了“門”結構來控制細胞狀態。其內部主要有三個階段:第一階段是由忘記門來決定丟棄什么樣的信息;第二階段是選擇何種新信息進入細胞狀態,稱為選擇記憶階段;第三階段是決定輸出什么樣的值。四個神經網絡層,如圖2所示。

2? LSTMP網絡基本思想

2.1? LSTMP基本結構

LSTMP結構是在LSTM層之后具有一個單獨的線性投影層,并且該投影層產生循環連接。在實施中,使用暗視距節點選擇半隱藏單元來分配循環連接。LSTM中的Projection layer是為了減少計算量的,它的作用和全連接layer很像,就是對輸出向量做一下壓縮,從而能把高緯度的信息降維,減小cell unit的維度,從而減小相關參數矩陣的參數數目[6]。此時的網絡結構表述如下。

2.2? 改進的LSTMP方法

筆者在改進長短時記憶結構的基礎上,又進行了改進。由于LSTMP網絡結構在Projection層的輸出需要完成兩個功能,既需要充當歷史信息,又需要作為下一層的輸入,對整體架構的實現具有一定的復雜性[7]。因此,本文提出一種Re-dimension的方法,讓網絡

自己選擇一部分參數作為歷史信息。這個過程就是dim range部分,如圖3所示。

3? 實驗設計與結果分析

3.1? 實驗工具

本實驗使用Kaldi語音識別工具包進行實驗[8]。Kaldi是一個免費、開源的非常強大的語音識別工具庫,它提供基于有限狀態變換器(Finite-State Transducer,使用OpenFst)的語音識別系統,以及詳細的文件和腳本用于構建完整的識別系統。Kaldi包含的重要特性有:集成Finite State Transducer(編譯OpenFst工具箱,作為一個庫);擴展的線性代數支持;可擴展設計;開源的license;完整的方法和周密的測試。

3.2? 實驗設計

在本實驗中,此網絡的輸入層大小為39,前后隱藏層各有128個塊,輸出層大小為40(39個音素加空白)。邏輯sigmoid函數在[0,1]范圍內。輸入層完全連接到隱藏層,隱藏層完全連接到自身和輸出層。權重總數為183,080。

此網絡的訓練是通過梯度下降和每個訓練樣本后的權重更新完成的。在所有情況下,學習率為10-4,動量為0.9,權重在[-0.1,0.1]范圍內隨機初始化,并且在訓練期間,將標準差為0.6的高斯噪聲添加到輸入中以改善泛化。對于前綴搜索解碼,使用了0.9999的激活閾值。性能測量為目標標簽序列與系統給出的輸出標簽序列之間的標準化編輯距離(標簽錯誤率LER)。

3.3? 結果分析

本實驗在LSTMP的基礎上增加Re-dimension方法后,讓網絡自己選擇一部分參數作為歷史信息。經過反復的訓練,從表1中可以看出,網絡能更好地學習到歷史信息,同時也獲得一定程度的性能提升,如圖4所示。

4? 結? 論

本文通過深入研究LSTMP結構,提出一種Re-dimension方法,讓網絡自己選擇一部分參數作為歷史信息,采用基于改進的LSTMP方法進行實驗,使語音識別率相對提高了4-5%左右。可見該方法可以使網絡獲得一定的性能提升。

參考文獻:

[1] 戴禮榮,張仕良,黃智穎.基于深度學習的語音識別技術現狀與展望 [J].數據采集與處理,2017,32(2):221-231.

[2] 陳曉宇.基于數據驅動的渦扇發動機故障預測研究 [D].阜新:遼寧工程技術大學,2018.

[3] 李杰.基于深度學習的語音識別聲學模型建模方法研究 [D].北京:中國科學院大學,2016.

[4] 胡鑫,程玉柱,吳祎,等.長短期記憶網絡的林火圖像分割方法 [J].中國農機化學報,2019,40(1):103-107.

[5] 沈旭東.基于深度學習的時間序列算法綜述 [J].信息技術與信息化,2019(1):71-76.

[6] Peddinti V,Wang Y,Povey D,et al. Low Latency Acoustic Modeling Using Temporal Convolution and LSTMs [J].IEEE Signal Processing Letters,2017(99):1.

[7] Chan W,Jaitly N,Le Q,et al. Listen,attend and spell:A neural network for large vocabulary conversational speech recognition [C]// IEEE International Conference on Acoustics,Speech and Signal Processing. IEEE,2016:4960-4964.

[8] R. Prabhavalkar,T. N. Sainath,et al. Minimum Word Error Rate Training for Attention-based Sequence-to-sequence Models [J].IEEE Conference on Acoustics,Speech,and Signal Processing(ICASSP),2018.

作者簡介:孫由玉(1995-),女,漢族,山東濱州人,碩士研究生,研究方向:自然語言處理;孫寶山(1978-),男,漢族,天津人,副教授,工學博士,研究方向:自然語言處理;盧陽(1992-),女,漢族,天津人,碩士研究生,研究方向:自然語言處理。

主站蜘蛛池模板: 91精品啪在线观看国产91| 国产亚洲欧美日韩在线一区| 欧美精品亚洲精品日韩专区| 中文字幕在线免费看| 五月天在线网站| 精品视频一区二区观看| 亚洲an第二区国产精品| 亚洲五月激情网| 亚洲色图欧美| 美女内射视频WWW网站午夜| 国产杨幂丝袜av在线播放| 国产美女丝袜高潮| 欧美另类第一页| 无码啪啪精品天堂浪潮av | 国产成人在线无码免费视频| 亚洲欧美在线综合图区| 国内精品免费| 青青草原国产精品啪啪视频| 波多野结衣视频一区二区| 亚洲人成在线免费观看| 美女国产在线| 精品福利网| 国产日韩欧美在线播放| 国产99在线| 国产精品熟女亚洲AV麻豆| 久久久久九九精品影院| 青青国产在线| 国产日韩久久久久无码精品 | 欧洲欧美人成免费全部视频| 精品成人免费自拍视频| 亚洲国产中文精品va在线播放| 国产黄色免费看| 国产一区二区免费播放| 国产精品久久精品| 中文字幕无线码一区| 亚洲欧美极品| 国产亚洲欧美在线专区| 久久中文字幕2021精品| 中文字幕不卡免费高清视频| a级毛片视频免费观看| 国产精选小视频在线观看| 欧美中文字幕在线二区| 尤物成AV人片在线观看| 美女扒开下面流白浆在线试听| 国产精品美人久久久久久AV| 亚洲国产av无码综合原创国产| 国产精品护士| 国产精品流白浆在线观看| 91丝袜在线观看| A级全黄试看30分钟小视频| 日韩 欧美 国产 精品 综合| 国内黄色精品| 国产乱人伦偷精品视频AAA| 91国内在线观看| 潮喷在线无码白浆| 国产H片无码不卡在线视频| 中文字幕永久视频| 久久不卡国产精品无码| 成人国产小视频| 香蕉久久国产精品免| 狠狠色狠狠色综合久久第一次| 波多野结衣一区二区三区四区| 日本欧美成人免费| 午夜丁香婷婷| 99在线视频免费| 亚洲视频色图| 91无码网站| 日韩毛片基地| 一级毛片不卡片免费观看| 狠狠色丁香婷婷| 波多野结衣在线se| 成人午夜精品一级毛片| 伊人久久精品无码麻豆精品 | 99热这里都是国产精品| 黄色网页在线观看| 国产成在线观看免费视频| 免费欧美一级| 亚洲第一成年人网站| 91精品专区国产盗摄| 性色在线视频精品| 国产在线一区二区视频| 992tv国产人成在线观看|