999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Deep Speech的語音識別系統的實現與改進?

2017-09-12 08:49:45李燦孫浩李開
計算機與數字工程 2017年8期
關鍵詞:模型

李燦孫浩李開

基于Deep Speech的語音識別系統的實現與改進?

李燦1孫浩2李開2

(1.昆明長水國際機場動力能源部昆明650211)(2.華中科技大學計算機科學與技術學院武漢430074)

Deep Speech是一個端到端的語音識別系統,該系統使用深度學習的方法取代了傳統的特征提取方法,直接從根據波形文件產生的頻譜圖中提取特征生成對應的文字信息。該系統使用門限循環單元構建的循環神經網絡能夠對具有時間序列相關性的語音信息進行學習,還使用了CTC進行輸入到輸出的映射以及網絡模型參數的更新。將這種方法與語言模型相結合之后,對單詞的拼寫錯誤進行修正,能夠得到更好的識別效果,使用方法也更加簡單。

語音識別;深度學習;循環神經網絡;CTC;門限循環單元;隨機梯度下降;語言模型

Class NumberTP391

1引言

單向的神經網絡聲學模型在20多年前被探索,循環神經網絡和卷積神經網絡也在同一時間用于語音識別[1]。最近DNN已經成為ASR中的一個重要部分,幾乎所有最先進的語音工作都包含某種形式的深層神經網絡[2]。卷積網絡也被發現有益于聲學模型[3~4]。循環神經網絡,尤其是LSTM[5],一開始只是應用在經典的語音識別器上,并與卷積層的特征提取相結合取得不錯的效果[6]。

端對端語音識別是一個很活躍的研究領域,在對DNN-HMM的結果進行處理之后能夠得到很好的識別效果[7~8]。目前有兩種方法將可變長度音頻序列直接映射到可變長度的文字序列。

第一種是RNN編碼器解碼器,首先編碼器將輸入序列映射到固定長度向量,然后解碼器將固定長度向量擴展為輸出預測序列。解碼器使用的注意機制極大地提高了系統的性能,特別是對于很長輸入或輸出序列。在語音識別任務中,帶有注意力機制的編碼器解碼器RNN在預測音素和字素兩個方面都有不錯的效果[9~10]。

另一種常用的將可變長度的音頻輸入映射到可變長度輸出的技術是使用CTC損失函數對RNN模型的時序信息進行處理。CTC-RNN模型在端到端語音識別中預測字母輸出時表現良好。CTC-RNN模型也已被證明能夠有效預測音素,但是在這種情況下仍然需要詞典進行處理[11]。此外,使用從GMM-HMM進行逐幀對齊的DNN交叉熵網絡對CTC-RNN網絡進行預訓練是非常必要的。在本文中,Deep Speech提出了一種從零開始訓練CTC-RNN網絡的方法,不需要用于預訓練的幀對齊。

2系統實現及改進

2.1數據預處理

深度神經網絡能否有良好的學習效果的決定性因素之一就是訓練集的大小。如果訓練集的規模太小,達不到網絡模型參數的要求,那么神經網絡將難以從訓練集中提取足夠的特征進行學習,在實際應用時也達不到很好的效果[12~13]。在訓練Deep Speech時,論文使用了LibriSpeech語料庫,該語料庫包含了不同時間長度的閱讀語音的波形文件和對應的文本信息,其中最短的語音有2s,最長的語音達20s,兩萬六千多條不同的語音總共時間有960小時[14]。

為了便于神經網絡的處理,論文將波形文件轉換成對應的頻譜圖輸入到神經網絡中。首先將20ms長度的hanning窗口作為一幀,每一幀內使用快速傅里葉變換計算各個頻率的能量值,多個能量值疊加即可獲得該幀所對應的頻譜圖。然后以10ms為步長滑動hanning窗口,分別產生每個窗口的頻譜圖。最后多個頻譜圖按時間順序拼接起來就可生成一段語音對應的頻譜圖[8]。

圖1 語音頻譜生成過程圖

2.2 GRU

門限循環單元(Gated Recurrent Unit,GRU)可以看成是LSTM的變種,GRU使用Update Gate來替代LSTM中的Forget Gate和Input Gate[15~16]。把Cell State和隱狀態ht進行合并,在計算當前時刻新信息的方法和LSTM有所不同。下圖是GRU更新ht的過程:

圖2 GRU更新ht圖

GRU具體更新過程如下[17]:

首先GRU中控制數據流方向的兩個門,分別是rt(Reset Gate)和zt(Update Gate),計算方法和LSTM中門的計算方法一致:

最后zt控制需要從前一時刻的隱藏層ht-1中遺忘多少信息,需要加入多少當前時刻的隱藏層信息h~t,最后得到ht,直接得到最后輸出的隱藏層信息,這里與LSTM的區別是GRU中沒有OutputGate:

如果Reset Gate接近0,那么之前的隱藏層信息就會丟棄,允許模型丟棄一些和未來無關的信息;Update Gate控制當前時刻的隱藏層輸出ht需要保留多少之前的隱藏層信息,若zt接近1相當于把之前的隱藏層信息拷貝到當前時刻,可以學習長距離依賴。一般來說那些具有短距離依賴的單元Reset Gate比較活躍,如果rt為1,而zt為0那么相當于變成了一個標準的RNN,能處理短距離依賴,具有長距離依賴的單元Update Gate比較活躍。

2.3 CTC

許多現實世界的序列學習任務是從有噪聲的、未分段的輸入數據中預測其標簽序列。例如,在語音識別領域,聲學信號被轉錄為單詞或字單位。遞歸神經網絡(RNN)是非常適合這樣的任務的具有很強的學習能力的神經網絡。然而,由于RNN需要預分段的訓練數據,并且要做后處理將其輸出轉換成標簽序列,其適用性一直受到限制。CTC(Connectionist Temporal Classification)提出了一個用于訓練RNN來直接標記未分段的輸入序列的方法,從而解決以上兩個問題。

一個CTC網絡具有SoftMax輸出層,該層比la?bel集合L多出一個unit。對于||L個units的觸發被解釋為在特定的時刻觀察到對應的label的概率,對于多余的unit的觸發被看作是觀察到空格或者no label的概率。總的來說,這些輸出定義了將label序列對齊到輸入序列的全部可能方法的概率。任何一個label序列的總概率,可以看作是它的不同對齊形式對應的全部概率累加。

對于一個給定的輸入序列x,長度為T,定義一個RNN網絡,m個輸入,n個輸出,權重向量w作為一種映射關系NW:(Rm)T→(Rn)T。設y= Nw(x)為網絡的輸出序列,ytk表示神經單元k在t時刻的輸出值,其含義是在t時刻觀察到labelk的概率,這個輸出值表示長度為T的序列集合L′T在字母集合L′T=L∪{blank}上的概率分布:

現在,把L′T中的元素看作路徑paths并且用π表示。公式的假設是,給定網絡的中間狀態(inter?nalstate),在不同時刻的網絡輸出是條件獨立的。這保證了輸出層不存在到它自身或者網絡的反饋鏈接。

下一步是定義一個多對一的映射β:L′T→L≤T,其中后者是可能的label序列的集合。可以簡單通過刪除全部的blank和重復路徑path中的label來實現,例如β(a-ab-)=β(-aa--ab b)=abb。直觀來說,這等價于輸出一個新的label,從預測no label變為預測a label,或者從預測a label到預測另外一個label。

最終,用映射β來定義一個給定的label序列l∈L≤T的條件概率作為與它對應的全部paths的概率和:

得到多個label序列的概率之后使用一個分類器選擇出對于輸入序列x最可能的label序列h(x):

在CTC中使用了最大似然的方法來更新神經網絡模型的參數:

其中Align(x,y)表示輸入x通過CTC得到的輸出y的所有可能性的集合。

2.4系統結構

基于Deep Speech的語音識別的系統網絡結構如圖3所示。

圖3 基于Deep Speech的語音識別的系統網絡結構圖

首先將語音的波形文件轉換成頻譜圖,然后使用一個一維卷積層進行語音信號的領域濾波;接下來的三層隱含層由GRU構成,每層包含1000個GRU單元;然后使用全連接層進行全連接操作;將全連接的輸出值作為CTC的輸入,經由CTC計算得到預測的文字信息。由于整個網絡是以音素為預測單位,即通過語音某一幀預測其對應的字母,所以預測結果并不能保證其單詞詞法上的準確性,為了提高最終結果的準確性,在Deep Speech的基礎上加上Spell Corrector對預測的文本進行單詞拼寫糾正。

3實驗過程及結果

3.1數據集

訓練該神經網絡模型的數據集來自LibriSp?eech Corpus,數據集內容為文章閱讀錄音,語言為英語,語音的時間長度范圍是從0s~20s,采樣頻率為16kHz,聲道數為單聲道。我們將該數據集分為三個部分:訓練集、驗證集、測試集。訓練集中的數據由大約28000條錄音片段構成,總共時長大約800小時;驗證集中的數據由2800多條錄音片段構成,總共時長大約90小時;測試集中的數據由2700多條錄音片段構成,總共時長大約90小時。

3.2 實驗過程

實驗過程中使用的是百度研究所的Deep Speech開源代碼,該代碼使用的深度學習框架是Keras框架,編程語言為python。

在進行一維卷積操作時,卷積核大小為11,移動步長為2,激活函數使用的是ReLu。在每一個隱含層設置不同的神經單元個數進行了多次試驗,設置不同的學習率來加快網絡收斂的速度。每一次訓練的Batch Size大小為16,迭代次數為1780,epoch為20。

利用該神經網絡做出了一個C/S模式的小應用。在客戶端有兩種提交數據的方式:錄音提交和選擇音頻文件提交。服務器端將客戶端提交來的音頻文件輸入到Deep Speech中進行處理并產生預測的文本信息返回給客戶端,客戶端接收信息后顯示在界面上。為了對比識別效果,音頻文件同時會提交給百度語音識別API并返回結果然后顯示。

3.3實驗結果

每一個epoch耗時大約1.5個小時,整個訓練過程耗時30小時。由于受到數據集規模的限制,訓練出來的模型在實際測試中的效果并不好。但是通過調整學習率、神經元個數、加單詞拼寫修正等方法,識別準確性有一定的提高。

表1 測試準確率

從表1中可以看出,神經單元個數相同時,學習率較小的網絡有更好的準確性,這是因為在相同的epoch下,學習率大的網絡收斂速度更快,預測值與實際值的差距更小,從而能得到更好的模型參數。在學習率系統的情況下,神經元個數多的網絡模型準確率反而更小,可能是數據集太小的緣故,數據集的規模達不到網絡模型參數的規模,神經網絡不能從數據集中學習到足夠的特征來更新網絡模型參數。

4結語

本文通過對Deep Speech的實現和改進,結果表明深度學習的特征提取方法比傳統的手工特征提取方法更加簡單,效果也更好,但是深度學習方法對數據集的依賴性太大。只有數據集的規模達到神經網絡模型的參數的規模才能提取足夠多的特征供神經網絡學習。在處理具有時間序列上相關性的數據時可以使用由GRU或者LSTM構成的循環神經網絡,循環神經網絡能夠很好的保持長期依賴。例如在語音識別任務中,“I”后面接“am”的概率要遠大于接“was”的概率,這樣就可以通過循環神經網絡來維持“Iam”這種依賴關系。

[1]LeCun,Yann,YoshuaBengio,and Geoffrey Hinton.Deep?learning[J].Nature,2015,521(7553):436-444.

[2]Szegedy,C.,Liu,W.,Jia,Y.,Sermanet,et.A.Going deeper with convolutions[J].CoRR,2014,abs/1409.4842.

[3]Simonyan,K.,&Zisserman,A.Very deep convolutional networks for large-scale image recognition[J].CoRR,2014,abs/1409.1556.

[4]Jonathan Long,Evan Shelhamer,etal.Fully Convolutional Networks for Semantic Segmentation[J].IEEE Int.Conf. Comput.Vis.Pattern Recognit.,2015:3431-3440.

[5]Lin T,Horne B G,etal.How embedded memory in recur?rentneural network architectures helps learning long-term temporal dependencies[J].Neural Networks,1998,11(5):861-868.

[6]Hochreiter,S.,Schmidhuber,J.Long short-term memory[J].Neuralcomputation,1997,9(8):1735-1780.

[7]Amodei,Dario,et al.Deep speech 2:End-to-end speech recognition in english and mandarin[J].arXiv preprint arXiv:1512.02595(2015).

[8]K.Yao,B.Peng,etal.Recurrentconditional random field for language understanding[J].in IEEE Int.Conf.Speech and Signal Processing,2014.

[9]Cho,K.,van Merrienboer,B,et al.Learning phrase rep?resentations using RNN encoder-decoder for statistical machine translation[J].In Proc.Empiricial Methods in NaturalLanguage Processing,2014.

[10]Razavian A,AzizpourH,et al.CNN features off-the-shelf:an astounding baseline for recognition[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops,2014:806-813.

[11]Graves,Alex,et al.Connectionist temporal classifica?tion:labellingunsegmented sequence data with recurrent neuralnetworks[C]//Proceedings ofthe 23rd internation?alconference on Machine learning.ACM,2006.

[12]L.Deng,D.Yu.Deep Learning:Methods and Applica?tions[J].Foundations and Trends in Signal Processing,2013,7(3):198-199.

[13]Hori,Takaaki,Atsushi Nakamura.Speech recognition al?gorithms using weighted finite-state transducers,Synthe?sis Lectures on Speech and Audio Processing[J],2013,9(1):1-162.

[14]Panayotov,Vassil,et al.Librispeech:an ASR corpus based on public domain audio books[C]//IEEE Interna?tional Conference on Acoustics,Speech and Signal Pro?cessing(ICASSP),IEEE,2015.

[15]Chung,Junyoung,etal.Empiricalevaluation ofgated re?current neural networks on sequence modeling[J].arXiv preprintarXiv:1412.3555(2014).

[16]Hannun,Awni,et al.Deep speech:Scaling up end-to-end speech recognition[J].arXiv preprintarXiv:1412.5567(2014).

[17]Schuster,Mike,and Kuldip K.Paliwal.Bidirectional re?current neuralnetworks[J].IEEE Transactions on Signal Processing,1997,5(11):2673-2681.

Implementation and Improvement of Speech Recognition System Based on Deep Speech

LI Can1SUN Hao2LI Kai2
(1.Power and Energy Department,Kunming ChangshuiInternational Airport,Kunming 650211)
(2.SchoolofComputerof Science and Technology,Huazhong University of Science and Technology,Wuhan 430074)

Deep Speech is an end-to-end speech recognition system that uses adepth-of-learning method instead of a tradi?tional feature extraction method to generate the corresponding textual information directly from the spectral map generated from the waveform file.The cyclic neural network constructed by the threshold cycle unit can be used to study the speech information with time series correlation.It also uses the CTC to perform the input to output mapping and the updating of the network model parame?ters.Combining this method with the language model,itcan correct the misspelling of the word and get a better recognition result,and the method is more simple.

speech recognition,deep learning,recurrent neural network,CTC,gated recurrent unit,random gradient de?scent,language model

TP391

10.3969/j.issn.1672-9722.2017.08.034

2017年2月8日,

2017年3月25日

李燦,男,碩士研究生,研究方向:機場相關動力能源、節能減排、弱電及信息系統管理開發。

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 精品夜恋影院亚洲欧洲| 国产精品亚洲专区一区| 欧美国产三级| 无码专区在线观看| 在线国产毛片| 在线视频97| 一区二区三区精品视频在线观看| 久久精品免费看一| 欧洲在线免费视频| 一区二区午夜| 国产成人精品日本亚洲77美色| 日韩黄色在线| 夜夜操国产| 久久99精品久久久久久不卡| 亚洲码在线中文在线观看| 欧美视频二区| av色爱 天堂网| 女人18毛片水真多国产| 小说 亚洲 无码 精品| 亚洲娇小与黑人巨大交| 韩国福利一区| 色视频国产| 亚洲A∨无码精品午夜在线观看| 国产在线一二三区| 亚洲欧洲AV一区二区三区| 夜夜高潮夜夜爽国产伦精品| 中文字幕永久在线看| 国产视频大全| 亚洲综合中文字幕国产精品欧美| 手机看片1024久久精品你懂的| 激情视频综合网| 日韩乱码免费一区二区三区| 亚洲系列中文字幕一区二区| 亚洲男人天堂网址| 亚洲大学生视频在线播放| 成年av福利永久免费观看| 国产剧情国内精品原创| 黑色丝袜高跟国产在线91| 国产精品亚洲片在线va| 91娇喘视频| 国产九九精品视频| 曰韩免费无码AV一区二区| 国产一区二区三区日韩精品 | 日本国产在线| 成人久久精品一区二区三区| 91一级片| 丝袜国产一区| 国内精品久久人妻无码大片高| 午夜啪啪网| 美女无遮挡免费视频网站| 国产微拍一区| 一本久道久综合久久鬼色| 四虎成人精品在永久免费| 99视频在线观看免费| 免费AV在线播放观看18禁强制| 国产精品一区二区在线播放| 波多野结衣AV无码久久一区| 中文字幕佐山爱一区二区免费| 中文无码日韩精品| 美女啪啪无遮挡| 成年看免费观看视频拍拍| 日韩视频免费| 国产精品思思热在线| 国产精品va| 午夜视频www| 超碰91免费人妻| 久久国产精品电影| 91色爱欧美精品www| 青青久视频| 精品少妇人妻无码久久| 国产精品13页| 久热这里只有精品6| 国产欧美在线| 奇米影视狠狠精品7777| 亚洲手机在线| 亚洲美女高潮久久久久久久| 欧日韩在线不卡视频| 中日韩一区二区三区中文免费视频| 搞黄网站免费观看| 国产精品片在线观看手机版| 欧美亚洲中文精品三区| 中文国产成人精品久久|