999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多尺度殘差深度卷積神經網絡的語音識別

2020-11-12 10:39:34袁三男
計算機應用與軟件 2020年11期
關鍵詞:模型

劉 虹 袁三男

(上海電力大學電子與信息工程學院 上海 200090)

0 引 言

自動語音識別(Automatic Speech Recognition,ASR)技術是一種將人類語音轉換成文字的技術,語音識別的任務主要有聲紋識別、關鍵詞識別、語言辨識、連續語音識別[1]。語音識別屬于模式識別,主要通過模型算法識別聲音向量,即語音的特征參數,最終給出識別結果,而語音識別的最終目標是能夠在不同環境下,依舊能準確地識別出說話人說的內容[2]。早期語音識別的聲學模型主要是混合高斯隱馬爾可夫模型(Gaussian Mixture Model-Hidden Markov Model,GMM-HMM),但是該模型在嘈雜環境下的識別效果較差,無法滿足現代自動語音識別的要求[3]。從2009年開始,深度學習的發展使得大詞匯量的語音識別成為可能。基于深度神經網絡(Deep Neural Network,DNN)的系統取代了GMM-HMM模型成為了主流語音識別的模型[4],但由于模型本身的缺陷,語音識別的識別率難以繼續得到提高。由于語音是上下文相關的,因此長短時記憶神經網絡(LSTM)的出現大大提高了語音識別的準確度,LSTM有著強大的序列建模能力[5]。同時,Graves等[6]將聯結時序分類技術引入到循環神經網絡的訓練中,完成了序列的輸入和輸出自動對齊的任務。目前識別率較好的語音識別的模型主要將CNN和LSTM結合到一起,CNN用來提取特征,LSTM對序列建模,但是CNN的層數一般是兩到三層,表達能力有限,提取上下文的相關性主要還是依靠LSTM網絡。但是LSTM的記憶模塊較小,神經網絡的訓練速度很慢,且實時性較差。

本文提出一種基于多尺度殘差深度卷積神經網絡的語音識別模型,由于卷積神經早期用在語音識別中主要是提取特征,卷積層數也較少,限制了卷積神經網絡對語音識別的表達能力。因此,本文結合多尺度分析和深度殘差網絡,提取語音特征圖中不同尺度的特征,將這些特征進行融合,最后結合聯結時序分類算法構建端到端的中文語音識別模型,擺脫序列建模對LSTM的依賴。

1 多尺度殘差深度卷積網絡

隨著激活函數、批量歸一化和殘差機制等各類算法的出現,卷積神經網絡向著更深層次的方向發展,圖像識別的準確率得到了進一步的提升[7]。但在語音識別中,目前主流神經網絡框架中的卷積層的層數只有幾層,序列建模仍然依賴LSTM網絡,限制了卷積神經網絡在語音識別領域中的發展。

1.1 卷積神經網絡

CNN主要由卷積層、池化層、全連接層、激活函數組成,卷積層用來提取特征參數,池化層對特征圖進行壓縮,而全連接層充當分類器的作用[8]。池化層又分為最大池化和平均池化,最大池化采用特征圖的局部最大值達到特征降維的目的,在有噪聲的語音中,相鄰幀的時頻圖的局部最大值通常為語音,局部最小值為噪聲,最大池化層會對含噪語音的時頻圖進行篩選,提高語音的分辨率,降低噪聲,因此本文采用最大池化層[9]。CNN的激活函數一般使用線性整流函數(Rectifiler Linear Unit,ReLU)。批量歸一化(Batch Normalization,BN)技術的出現有效地解決了神經網絡內部協變量轉移的問題,大大加快了神經網絡的訓練速度[10]。隨機失活層(Dropout)使網絡的泛化性能得到提高,隨機響應網絡的節點,保證了網絡的稀疏性[11],本文同時引入空洞卷積,在相同的卷積核大小的情況下,空洞卷積通過改變空洞率的大小來改變感受野的大小,網絡的參數量不變的同時,又獲得更多的上下文信息,空洞卷積實際的卷積核大小計算公式如下:

K=k+(k-1)(r-1)

(1)

式中:k為原始卷積核的大小;r為擴張率;K為空洞卷積的實際感受野大小。

1.2 殘差學習機制

批量歸一化和Dropout層的出現加深了CNN的深度,通常網絡越深,訓練精度越高。但是隨著網絡層數的增加,網絡參數變得難以優化[12],訓練精度反而會下降。深度殘差網絡是2015年提出的深度卷積網絡,其特點是簡單高效,并能有效地解決網絡深度變深以后的網絡性能退化的問題[13]。殘差網絡通過學習輸入到輸出的目標函數與原輸入的殘差量,將殘差量與原始輸入量相加,得到最終的目標映射函數,若輸入變量為x,目標輸出的實際映射為H(xl),則殘差映射F(xl,Wl)可以定義為:

F(xl,Wl)=H(xl)-xl

(2)

式中:xl為l層的輸入量;Wl為l層的權重矩陣。通過“捷徑連接”的方式,直接把輸入xl傳到輸出作為初始結果,輸出結果為H(xl)=F(xl,Wl)+xl,當F(xl,Wl)=0時,H(xl)=xl。

1.3 多尺度特征

語音當前的狀態,與前后的狀態都有關,網絡層數越多,丟失的細節信息越多,因此本文引入多尺度特征。圖1為一段純凈語音的時頻圖,圖2為加了噪聲的語音時頻圖,兩幅圖所表示的語音內容相同,橫向為時間軸,縱向為頻率軸,該段語音有16 s,時頻圖的時間軸較長。時頻圖反映了語音的信號強度在不同頻段內隨時間的變化情況。不同頻率中顏色深的地方隨著時間的推移,延長成聲紋,由圖1可以看出,語音信號的能量大多集中在低頻,高頻能量較少,但高頻能量中包含很多語音的細節部分,這些細節部分也會影響語音識別的結果。由圖2可知,在噪聲背景下,語音時頻圖的紋理受到了干擾,但是高低頻段某些紋理特征和輪廓信息依舊存在,因此模型既要能提取到細節信息,又要提取整體的輪廓信息。本文采用不同大小的卷積核以及不同空洞率的空洞卷積獲取語音信號的細節信息和上下文相關性,卷積核越大,感受野越大,并對語音的時間維度和頻率維度建模。圖3中的scale1和scale2為兩個多尺度子空間,scale1的卷積核大小為3,scale2的卷積核大小為5,scale1和scale2各包含兩個殘差網絡,Conv表示卷積層,Max_pool表示最大池化層,箭頭所示即為殘差結構,殘差網絡采用“捷徑連接”的方式,相同的特征圖在兩個不同尺度空間下會有不同的表達形式,達到信息互補的目的。因此將這兩個尺度空間融合,得到具有較好語義能力特征參數,從低層往高層逐層提取特征,得到全局信息,既可以得到相鄰幀之間的相關性,也可以獲取不相鄰幀之間的相關性。若scale1網絡的輸出為fs1(x),scale2網絡的輸出為fs2(x),則融合后網絡輸出為fs1(x)+fs2(x)。

圖1 語音信號的時頻圖

圖2 含噪語音的時頻圖

圖3 多尺度殘差深度神經網絡的語音識別模型

2 連接時序CTC的應用

CTC通常和LSTM以及RNN一起建模,目前主流的語音識別模型都含有LSTM或者RNN,但LSTM和RNN的訓練受到計算機計算能力和內存的限制,訓練周期較長,不利于參數調整和優化,CNN可借助其強大的并行運算能力大大縮短訓練周期。語音識別中常用HMM進行幀對齊,將每一幀數據對齊到HMM狀態下[14],這種強制對齊的方法并不合理,因為語音中靜音狀態并沒有對應的標簽,而CTC不需要預先將輸入和輸出強制對齊。

在給定輸入序列下X,經過Softmax層輸出之后,網絡的輸出為P(qt|X),qt為t時刻的輸出,則標簽序列l為所有路徑概率總和為:

(3)

式中:Γ(qt)為標簽序列的多對一的映射。因為同一個標簽序列可能有多條路徑與其對應,所以需要去掉路徑中的重復的標簽和空白標簽。qt∈A,t=1,2,…,T,A為加了空白標簽“—”的標簽集合,輸出序列中概率最大的標注序列為:

(4)

CTC的損失函數是所有標簽的負對數概率之和,可以通過反向傳播訓練CTC網絡:

H(x)=-logP(l|X)

(5)

本文所用到的模型框架如圖3所示,輸入為語音的時頻特征(500×250),分別輸入scale1和scale2兩個尺度空間,提取不同尺度的特征,兩個尺度空間融合后,將融合后的特征參數輸入全連接層。全連接層共2層,第一層有256個網絡節點,第二層網絡節點的個數為2 667個,加上了一個空白字符。通過Softmax層連接CTC模型,學習率為0.001,batchsize為8,所有卷積層和池化層后都添加了dropout層。CTC在海量訓練數據的條件下不再需要語言模型,因此本文的模型直接以漢字為建模單元,構建端到端的語音識別模型。

3 實 驗

3.1 實驗環境和數據

本文基于THCHS30進行實驗,THCHS30數據庫是由清華大學發布的中文語音庫,有35小時的語音數據,數據庫內容大部分來自新聞語料,全部為中文普通話,每個音頻16 s左右。將該數據集中10 000句作為訓練集,893句作為驗證集,2 495句作為測試集。該數據集還提供了含有噪聲的語音數據,噪聲環境主要是咖啡館、汽車內噪聲和白噪聲,可用于模型在不同噪聲環境下的性能測試。實驗采用的操作系統是Ubuntu 16.04,GPU為Rtx2080ti,實驗平臺為Tensorflow 3,Python 3.6。

3.2 實驗結果及分析

(1) 不同模型的對比。將本文模型與BLSTM-CTC模型、DCNN模型、CNN-LSTM模型進行對比。DCNN模型即scale1和scale2。

BLSTM-CTC模型的輸入特征為600×39維的二階差分MFCC特征參數,其中BLSTM聲學模型包含3層隱藏層,第一層和第二層包含共256個前向和后向的LSTM單元,第三層為512個前向和后向的LSTM單元。解碼單元CTC模型,batch size設置為8,學習率為0.001。

DCNN1模型的結構采用scale1尺度空間的結構,卷積核大小為3,經過兩個殘差網絡和最后一層池化層后,輸入三層全連接層,第一層全連接層有256個網絡節點,第二層有512個神經網絡單元,第三層有2 667個網絡節點,batch size為8,學習率為0.001。DCNN2模型采用scale2尺度空間的結構,卷積核大小為5,全連層結構與DCNN1結構一致。

CNN-LSTM模型結構由三層卷積、三層池化層、兩層BLSTM隱藏層、一層全連接層組成。輸入特征為600×39的二階差分MFCC特征參數。卷積核大小為3,池化層選擇1×3,只對頻率維度進行池化。第一層隱藏層有256個網絡節點,第二層有512個神經網絡單元,全連接層有2 667個節點。batch size為8,學習率為0.001。

本文提出的語音識別模型的識別率比單一尺度空間、BLSTM網絡和CNN-LSTM網絡的都高,相對于BLSTM模型,驗證集和測試集的識別率都提高9%左右,相對于DCNN1和DCNN2模型,識別率分別提高5%和10%左右,相對于CNN-LSTM網絡,識別率提高3%左右。不同模型下的語音識別率如表1所示,只含CNN的語音識別模型每輪的訓練時間比BLSTM模型縮短6倍左右,比CNN-LSTM模型縮短4倍左右。

表1 不同模型下的語音識別率

(2) 不同模型的抗噪聲性能對比。本文同時還驗證不同模型的抗噪聲性能,數據集中包含咖啡館噪聲(cafe),汽車噪聲(car)和白噪聲(white),信噪比為0 dB。將這些噪聲加入待識別的語音中,實驗結果如表2所示,CNN有一定的抗噪聲性能,而本文提出的multi-scale DCNN 模型的抗噪聲性能比BLSTM網絡、DCNN網絡和CNN-LSTM模型都要好,更具有實用性。

表2 不同噪聲類型下的語音識別率 %

(3) 低信噪比下的識別率變化。本文還對比不同噪聲在低信噪比下的BLSTM、DCNN1、CNN-LSTM模型和本文模型的誤碼率。由圖4-圖6可知,在低信噪比下,本文提出的多尺度殘差深度神經網絡比BLSTM網絡的抗噪聲性能更加穩定,噪聲越強,BLSTM網絡的識別率較差并且識別率下降更快,不利于實際生活中的應用。而DCNN網絡和CNN-LSTM網絡的抗噪聲性能比BLSTM網絡好,在cafe和car噪聲下,變化相對平緩,但是在白噪聲下,識別率也下降較快。因此,本文模型具有更好的魯棒性。

圖4 不同信噪比下不同模型的誤碼率(cafe)

圖5 不同信噪比下不同模型的誤碼率(car)

圖6 不同信噪比下不同模型的誤碼率(white)

4 結 語

本文針對傳統語音識別模型訓練時間較長以及抗噪聲性能較差的問題,提出多尺度殘差深度神經網絡的端到端語音識別模型。該模型不僅加快網絡的訓練速度,而且提高語音識別的識別率和抗噪聲性能。為了提取更多的上下文信息,還引入空洞卷積和多尺度特征,增大感受野,提升網絡的泛化性能,降低過擬合的概率。實驗證明,該模型相對于傳統的語音識別的模型,有更好的穩定性和實用性。

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: A级毛片高清免费视频就| 亚洲va在线∨a天堂va欧美va| 欧美一道本| 一本无码在线观看| 激情网址在线观看| 久久国产黑丝袜视频| 成年午夜精品久久精品| 亚洲黄网在线| 亚洲无码高清一区二区| 五月天丁香婷婷综合久久| 久久国产精品夜色| 九色在线观看视频| 精品一区二区三区无码视频无码| 精品综合久久久久久97超人| 日韩黄色精品| 无码日韩视频| 四虎永久在线精品影院| 国产制服丝袜91在线| 91精品aⅴ无码中文字字幕蜜桃| 国产成年女人特黄特色大片免费| 日韩在线欧美在线| 男女男精品视频| 亚洲中文字幕97久久精品少妇| 久久人人97超碰人人澡爱香蕉 | 国产欧美日本在线观看| 无码一区二区波多野结衣播放搜索| 伊人中文网| 丁香婷婷激情网| 亚洲男人的天堂久久香蕉网| www亚洲精品| 欧美一区二区三区国产精品| 精品三级在线| 激情综合五月网| 青草视频久久| 久久动漫精品| 午夜啪啪网| 无码AV高清毛片中国一级毛片| 四虎成人免费毛片| 三级欧美在线| 97色伦色在线综合视频| a毛片在线| 国产成人亚洲无码淙合青草| 欧美日韩国产一级| 看看一级毛片| 自拍偷拍一区| 日韩精品一区二区三区视频免费看| 国产第一页亚洲| 国产精品视频猛进猛出| 成人午夜在线播放| 无码高潮喷水专区久久| 婷婷亚洲最大| 狠狠亚洲五月天| 国产精品无码一区二区桃花视频| 亚洲激情99| 欧美成人午夜视频免看| 色婷婷成人| h网址在线观看| 91最新精品视频发布页| 欧美黄网在线| 天堂成人在线| 精品1区2区3区| 亚洲最大综合网| 国产精品极品美女自在线网站| 丁香五月亚洲综合在线 | AV熟女乱| 白浆视频在线观看| 伊人久久久大香线蕉综合直播| 久久99国产综合精品女同| 欧美综合激情| 在线中文字幕网| 国产精品乱偷免费视频| 欧美一级99在线观看国产| 在线观看精品自拍视频| 超清无码熟妇人妻AV在线绿巨人| 亚洲黄色高清| 污网站在线观看视频| 亚洲综合片| 最新日韩AV网址在线观看| 国产在线精品99一区不卡| 国产老女人精品免费视频| 夜夜操国产| 久久a级片|