999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于GRU-CTC 混合模型的語音識別方法研究

2019-10-31 08:14:22董家仁劉廣聰
現代計算機 2019年26期
關鍵詞:信號結構信息

董家仁,劉廣聰

(廣東工業大學計算機學院,廣州510006)

0 引言

語音識別技術在各領域中的作用與日俱增,例如智能音箱、語音助手等應用,都是通過識別人們口頭表達的語音來執行操作。因為語音的采集不僅受環境噪聲的影響,還受每個語音表達者的語速、語言種類、口音等的影響,這就對模型的魯棒性和識別度要求比較高,這都是語音識別技術需要克服的一些問題。

過去,在語音識別領域應用較為廣泛的是混合高斯-隱馬爾科夫模型(GMM-HMM),這種模型發展得比較成熟,具有較為良好的處理時間序列的能力,實現起來也方便,但隨著數據量的增大,處理效率越來越無法滿足人們需求,而神經網絡在并行處理和分類的問題上表現出了極大的優勢。神經網絡具有較強的自適應性、容錯性,將隱馬爾科夫模型和神經網絡結合能將兩者的優缺點互補。對于時間序列來說,上下文的關聯性是提高識別效率的關鍵,因此循環神經網絡RNN 作為一種時序處理能力非常好的網絡,非常適用于語音識別領域,而LSTM(Long Short-Term Memory)網絡是RNN 比較常見的一種變形結構,通過輸入門、遺忘門、輸出門這三個門單元來更好地處理上下文的關聯性,而GRU 是LSTM 的一種變形結構,把三個門單元合成了兩個門單元,結構變得更加簡單,處理效率也更高,是一種不錯的變形結構,將它與CTC 結合,正確率和效率能取得不小的提升。

1 基于門控循環單元的神經網絡

1.1 長短期記憶網絡LSTM

循環神經網絡的特點在于其輸入不僅僅只有當前的語音數據的特征信息,還包括單元之間內部狀態的反饋和前饋,也就是將過去已經被處理過的時間序列中的信息進行編碼,在當前時刻再對其進行判斷處理,這樣就可以學習和處理一定時間范圍內序列間的相關性,也就是具有了一定的記憶能力。

傳統的循環神經網絡的記憶能力已經無法滿足更復雜、更大量的輸入,在處理許多不同類別的輸入序列時無法更充分有效地利用歷史信息,并且BPTT 算法會帶來梯度消失的問題。而由Hochreiter 等人[1]在1997提出的長短期記憶網絡LSTM 的引入,能在一定程度上彌補傳統循環神經網絡的不足,在循環神經網絡中引入了時序的反饋機制,并用CEC(Constant Error Carrousel)單元解決BPTT 的梯度消失問題。

LSTM 網絡相較于傳統的循環神經網絡,在結構中增加了三個門控制單元(輸入門、遺忘門、輸出門),輸入門負責決定當前時刻的輸入保留多少用于當前時刻的學習;遺忘門負責決定上一時刻學習到的信息保留多少到當前時刻;輸出門負責決定輸出多少當前時刻學習到的信息。這三種門能提高取舍上下文有效信息的效率。LSTM 在t 時刻的計算原理如下:

1.2 門控循環單元GRU

GRU(Gate Recurrent Unit)是Cho 等人在2014 年提出的一種基于LSTM 網絡的變形結構[3]。傳統的RNN 隨著神經網絡層數的增加,容易陷入局部極小值,梯度逐漸趨近于0,發生梯度消失的問題,GRU 將LSTM 的三個門結構整合為兩個門結構,不僅和LSTM一樣,解決了梯度消失的問題,并在原有的基礎上,提升了模型的性能,簡化了LSTM 的結構,同時提升了速度。GRU 在LSTM 原有的記憶功能基礎上,結構變得更加簡單,將輸入門、遺忘門、輸出門變為兩個門:更新門和重置門。更新門的作用是控制前一處理時刻的狀態信息與當前處理狀態的關聯程度,更新門的值越大說明前一處理時刻的狀態信息與當前的關聯程度越大。重置門的作用是控制遺忘前一處理時刻的狀態信息的程度,重置門的值越小說明遺忘得越多。一個GRU 單元結構如圖1。

圖1 GRU單元結構

通過t-1 時刻傳輸下來的狀態ht-1和當前單元在t時刻的輸入xt來得到更新門和重置門的狀態信息,兩個門的狀態信息獲取計算過程如下,其中zt為更新門,rt為更新門,σ 為Sigmoid 函數,W 為權重:

獲得兩個門的狀態信息后,先使用重置門rt來得到重置后的ht-1*rt,再與輸入xt連接,通過tanh 激活函數得到,然后選擇性地把它添加到當前的狀態中,這一過程就是記憶和遺忘的過程,更新門zt的值域為0~1,值越接近于1,表示記憶下來的信息越多,值越接近于0,表示遺忘的信息越多,最后得出當前單元的狀態信息ht:

GRU 的優勢就體現在一個門運算過程里同時進行了記憶和遺忘的過程,而LSTM 需要多個門運算過程來完成,因此GRU 在結構的簡化程度和效率上相較于LSTM,都有不小的提升。

2 基于GRU-CTC的混合模型

2.1 連接時序分類CTC

連接時序分類CTC(Connectionist Temporal Classification)是由Graves 等人2006 年提出來的一種時序分類算法[5]。與一些傳統模型常用的交叉熵損失函數(Cross Entropy Loss)方法不同,交叉熵損失函數要求在處理語音序列數據之前訓練數據的標簽做到幀級別上的對齊,對齊操作需要耗費一定的工作量,而且模型需要知道每一幀對應的標簽才能進行訓練,因此降低了工作效率,而CTC 不需要標簽在幀級別對齊就可以進行訓練,對輸入數據的任意時刻做出的預測不關心,而是重點關注整體上的輸出是否與標簽一致。CTC 可以讓模型自己去學習對齊操作,從而節省時間,提高效率,CTC 可以根據一個輸入序列和輸出序列就進行訓練,并且直接輸出預測序列的概率。

CTC 最為突出的特點就在于引入了一個blank 節點,主要是為了對靜音、停頓等沒有有效信息的部分進行建模,來表示網絡對不確定信息預測時的輸出狀態,CTC 中還有一個F 變換,若網絡的一個輸出序列能通過F 變換映射到正確標注序列,那么該輸出序列就為一條CTC 路徑,F 變換的過程為:先去除序列中相鄰的blank 節點之間重復的標注,然后去除blank 節點,例如如下變化方式,其中?為blank 節點:

F(?XY ??YY ?ZZ)=XYYZ

2.2 預處理

首先,需要對語音信號進行預處理,這是為了消除語音信號中噪聲的干擾,得到更好的樣本,提高識別率。然后,將語音信號的模擬信號數字化,轉化成數字信號。根據人發聲的特征,語音信號在經過嘴唇發出來后,高頻信號會不斷減弱,而往往高頻信號的信息量比較大,所以還需要對語音信號預加重,通過傳遞函數為H(z)=1-αz-1的高通數字濾波器來實現預加重,其中α 為預加重系數。接下來,要對語音信號分幀加窗,窗函數中比較常用的有矩形窗和漢明窗,本文采用漢明窗作為窗函數,因為漢明窗的時域波形圖呈鐘型,能更好地表現語音信號的時域特征,漢明窗的表達式為:

其中N 表示窗的寬度。然后,要對語音信號進行起點和終點的判斷,去除無用的聲音部分,因此還需要對信號進行端點檢測,本文采用的是雙門限法。

預處理結束后,要對語音信號進行特征提取,提取出能有效區分信號的特征,由于語音信號在時域上變化非常快,所以常常將信號從時域轉換到頻域上來分析,這就可以用到Mel 頻率倒譜。常用的語音特征系數有基音頻率、線性預測系數(LPC)、線性預測倒譜系數(LPCC)、Mel 頻率倒譜系數(MFCC),本文選用Mel頻率倒譜系數(MFCC)。MFCC 是一種比較貼合真實的人耳聽覺特征提出來的參數,能更好地模擬出人對聲音信息的反應。獲取Mel 頻率倒譜系數的過程為:對每一幀信號進行快速傅里葉變換,得到頻域值和功率譜,將功率譜通過Mel 濾波器,得到Mel 頻譜,對Mel頻譜進行倒譜運算,得到MFCC,計算過程為:

z 表示該訓練語音對應的音素信息,x 為每一小段做MFCC 后得到的結果。

3 實驗及結果分析

本節將在Linux 操作系統下使用Kaldi 來進行數據集測試的實驗,Kaldi 是一個開源的基于C++編寫的用于語音識別的工具箱,整合了HTK 的基本功能,是深度學習語音識別領域一款非常實用的開發平臺。

測試數據集選擇TIMIT 語音數據集,是由麻省理工大學建立的一組語音樣本集,包含6000 多個詞匯,由630 人每人念10 句話,共6300 條句子。本實驗的對比組是將GRU-CTC、LSTM-CTC、GMM-HMM 進行對比,以此來測試GRU-CTC 這種結合模型在模型訓練和解碼部分與其他模型的優缺點和準確率。

提取MFCC 特征時,語音信號的預加重參數設置0.97,幀移設置為341,每一幀設置512 個采樣點,窗函數使用漢明窗。提取13 階MFCC 參數,并計算一階差分和二階差分,得到39 維。分別將GRU-CTC、LSTMCTC、GMM-HMM 聲學模型進行訓練,每個模型進行5次實驗,取其平均值作為每個模型的結果。

圖2 聲音信號轉化過程

圖3 GRU-CTC、LSTM-CTC、GMM-HMM正確率迭代次數變化圖

表1 實驗模型的單詞句子正確率實驗結果

從表1 可以得出,與傳統的混合高斯-隱馬爾科夫模型GMM-HMM 相比,基于神經網絡的兩種聲學建模方法顯然效率更高,正確率更高。從單詞的正確率可以看出,LSTM-CTC 比GMM-HMM 提升了8.1%,而LSTM 的變形結構GRU-CTC 模型比LSTM-CTC 又提升了8.8%。從句子的正確率看,LSTM-CTC 比GMMHMM 提升了7.7%,而GRU-CTC 模型比LSTM-CTC又提升了6.9%。

4 結語

本文通過對比三種不同的模型性能分析,采用神經網絡和CTC 結合的模型效率和正確率比傳統的GMM-HMM 模型有了明顯的提高,而通過對比GRUCTC 和LSTM-CTC 兩種結構的性能,可以得出,GRU作為LSTM 的一種改進變形結構,在性能上確實有了不小的提升。

猜你喜歡
信號結構信息
《形而上學》△卷的結構和位置
哲學評論(2021年2期)2021-08-22 01:53:34
信號
鴨綠江(2021年35期)2021-04-19 12:24:18
完形填空二則
論結構
中華詩詞(2019年7期)2019-11-25 01:43:04
基于FPGA的多功能信號發生器的設計
電子制作(2018年11期)2018-08-04 03:25:42
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
論《日出》的結構
基于LabVIEW的力加載信號采集與PID控制
創新治理結構促進中小企業持續成長
現代企業(2015年9期)2015-02-28 18:56:50
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
主站蜘蛛池模板: 国产精品永久久久久| 国产麻豆精品久久一二三| 麻豆a级片| 国产自在自线午夜精品视频| 国产精品亚洲专区一区| 99ri精品视频在线观看播放| 91小视频在线观看免费版高清| 国产男人的天堂| 成人国产精品2021| 国产精品综合色区在线观看| 97超爽成人免费视频在线播放| 国产一区二区丝袜高跟鞋| 一级香蕉人体视频| 麻豆国产原创视频在线播放| 亚洲Va中文字幕久久一区| 久久精品人人做人人综合试看| 女人18毛片久久| 激情爆乳一区二区| 欧美日韩在线第一页| 久久精品人人做人人爽| 亚洲人成网站18禁动漫无码| 亚洲性视频网站| 国产一级无码不卡视频| 成人午夜精品一级毛片 | 中文字幕免费在线视频| 国产后式a一视频| 欧美国产日韩在线观看| 在线色国产| 欧美日韩激情| 波多野结衣久久精品| 免费一级毛片| 青青热久麻豆精品视频在线观看| 99伊人精品| 国产99久久亚洲综合精品西瓜tv| 精品91在线| 国产精品美女自慰喷水| 亚洲成人高清在线观看| 秘书高跟黑色丝袜国产91在线| 亚洲成人黄色网址| 乱人伦中文视频在线观看免费| 欧美日韩中文国产va另类| 蜜芽国产尤物av尤物在线看| 成年人国产网站| 久久91精品牛牛| 456亚洲人成高清在线| 国产成人一级| 青青草原国产av福利网站| 超碰免费91| 99激情网| 67194亚洲无码| 国产一级二级在线观看| 国产资源免费观看| 国产精品私拍在线爆乳| 全部免费毛片免费播放| 国产乱人伦精品一区二区| 99久久精品国产精品亚洲| 欧美区一区| 亚洲第一av网站| 国产视频欧美| 一本一道波多野结衣一区二区| 日本日韩欧美| 18禁高潮出水呻吟娇喘蜜芽| 日韩福利视频导航| 欧美成人国产| 人妻一本久道久久综合久久鬼色| 国产午夜人做人免费视频中文| 91青青视频| 99re精彩视频| 国产精品毛片在线直播完整版| 亚洲国产理论片在线播放| 国产视频一二三区| 九九这里只有精品视频| 日本一区二区不卡视频| 久久精品嫩草研究院| 日韩欧美亚洲国产成人综合| 成人小视频网| 日日噜噜夜夜狠狠视频| 亚洲制服丝袜第一页| 色成人综合| www.精品国产| 国产成人精品男人的天堂下载 | 欧美一级专区免费大片|