999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于改進的CNN語音識別研究

2022-01-28 03:00:48徐龍飛郁進明
計算機應用與軟件 2022年1期
關鍵詞:特征模型

徐龍飛 張 磊 郁進明

(東華大學信息科學與技術學院 上海 201620)

0 引 言

隨著科技的進步,語音識別借助深度學習的相關技術實現了快速的發展[1]。在語音識別中,常見的深度學習技術包括卷積神經網絡(CNN)、長短時記憶網絡(LSTM)和基于CTC的神經網絡等[2]。神經網絡中的卷積核用于提取數據的特征,對特征的提取效果會直接影響到模型的性能。常見的神經網絡中卷積核的大小一般保持不變,這可能會導致網絡在訓練的過程中,對數據特征重復提取或提取不足,從而影響模型的計算速度和識別率,因此需要對神經網絡進行改進,提高模型的性能。

朱錫祥等[3]根據語音信號的時變性,構建一維CNN網絡模型,在時間軸上移動卷積核,提取到信號的局部特征,保留了頻帶的相關性和完整性,提高了模型的識別性能。文獻[4]在密度采樣時,通過分析誤差頻率改進卷積方法,將權值與其他方法進行比較,降低了模型的重構誤差。文獻[5]利用sobel核來計算橫向梯度和縱向梯度矩陣,并結合模糊邏輯系統提升模型的識別性能。文獻[6]為了獲取數據的多個維度的特征,設置了多個不同大小的卷積核,在處理不同大小的輸入數據時提高了模型對特征的提取性能。文獻[7]在不同的卷積層中根據網絡訓練情況調整卷積核大小,使用了5×5和11×11等大小的卷積核,加強對特征的提取效果。文獻[8]對AlexNet結構進行改進并對卷積核進行可視化,使用卷積核學習模型的特征,進一步提升模型性能,但卷積核的大小需要手動設置,消耗人力和時間。

本文根據以上的研究,利用卷積核學習模型的參數,改進CNN的損失函數和卷積核大小,提出最大相似損失MSLoss函數,結合CNN反向更新時的參數和閔氏距離(Minkowski Distance),提出自適應卷積核算法ACKS,將其運用到CNN中,文中使用MSLoss和ACKS的CNN分別稱為MSLoss-CNN和ACKS-CNN。

1 MSLoss

1.1 MSLoss流程

MSLoss的計算流程如圖1所示。在CNN的全連接層得到預測值,計算預測值與真實值的最大子序列(Longest Common Subsequence,LCS),根據最大子序列計算MSLoss,然后與閾值比較來決定網絡是否繼續更新,若繼續更新則會在下一輪迭代中計算新的MSLoss,若停止更新則迭代結束。

圖1 MSLoss計算流程

1.2 最大子序列

設有兩條相同長度的序列,序列1:ABCTHUJKLM和序列2:BTAHBKATEL。序列1有TH、CUL等子序列,序列2有AB、KTE等子序列,序列1與序列2有一個相同的子序列BTHKL,元素個數為5,而兩個序列里沒有元素相同且個數大于5的子序列,那么該子序列稱為最大子序列[9]。最大子序列可以使用動態規劃[10]來求解。動態規劃是將復雜問題分解成數個子問題,依次求解子問題,根據解的規律和聯系得出原復雜問題的解。使用動態規劃可以減少復雜問題的計算量。

假設兩個字符串分別為s和t,s[i]和t[j]分別表示其第i和第j個字符,字符的下標值從0開始,若有以s[i]和t[j]為結尾的子串,計算這些子串的長度,L[i,j]表示其中的最大值,可以得出L[i,j]和L[i+1,j+1]之間的關系,因為兩者只差s[i+1]和t[j+1]這一對字符,若s[i+1]和t[j+1]不同,則L[i+1,j+1]為0,而如果s[i+1]和t[j+1]相同,則求解出s[i]和t[j]的LCS,在該LCS后加上s[i+1]或t[j+1]。合并上述兩種情況,得到L[i+1,j+1]=(s[i]==t[j]?L[i,j]+1:0)這樣的關系,公式如式(1)所示。

(1)

圖2為求解LCS的過程。在求解出LCS的長度之后使用回溯法可以求出LCS的具體字符。圖2中回溯到t[9]時,由于t[9]≠s[9],所以L[9,9]的值由L[8,9]和L[9,8]中最大的一個決定,即由L[8,9]決定,繼續回溯,由于s[8]=t[9],則L[8,9]由L[7,8]決定,所以L[7,8]=4,根據以上過程不斷回溯,經過的路徑如圖2中的箭頭所示。LCS中包含的字符為路徑經過的字符BTHKL。

圖2 回溯法計算LCS

1.3 MSLoss推導

從LCS算法的推導過程中可以得到值L[i,j]和具體字符w,可以利用這兩個值計算真實值與預測值的誤差,從而改善判斷模型性能。MSLoss把二維平面上兩點的閔氏距離和LCS中的字符長度以及具體字符相結合來評估模型的擬合情況。歐氏距離如式(2)所示。

(2)

將歐氏距離中的變量進行替換,得到MSLoss,如式(3)所示。

(3)

式中:LCS為最大子序列的具體字符;w為實際的輸入序列;L為LCS的長度;N為輸入和預測序列的總長度。輸入與預測序列相似度越高,L-N越小。因為LCS和w為具體的字符元素,所以使用“異或”來表示兩者的相似度,若兩個操作數不同則為1,相同則為0,所以LCS⊕w越小,LCS和w相似程度越大。若L-N和LCS⊕w越小,表示輸入序列和預測序列的長度和字符元素越相似,則MSLoss越小,輸入序列和預測序列的相關程度越高。

2 ACKS算法

2.1 算法基本原則

ACKS算法的基本原則如下:

(1)若CNN的卷積層有多個不同大小的卷積核,網絡更新一次后計算參數的梯度,若某個參數的梯度接近參數的均值,則當前大小的卷積核已經提取到了足夠的數據特征。這時若保持該大小不變,可能會導致重復提取相同的數據特征,造成計算資源的浪費,增加運算時間影響模型識別效果,此時應減小卷積核的大小,提高特征的提取效率和模型的識別率。

(2)若網絡更新一次后某個參數的梯度接近與參數的均值差值較大,則當前大小的卷積核未能提取到足夠的數據特征。這時若保持該大小不變,可能會造成數據特征提取不足,導致識別率較低產生欠擬合,此時應增加卷積核的大小,提取更多數據特征,提高模型的識別率。

ACKS算法可以讓卷積核根據網絡更新情況改變大小,保持動態平衡,提升數據特征的提取效率以改善模型的識別性能。

2.2 算法推導

首先進行CNN網絡的初始化,每個卷積核規模初始值為kcl,i,假設在CNN網絡中的每一個卷積層有三個不同的卷積核k1、k2和k3,系數分別設置為kcl,i=nl,i·nl,i,i=1,2,3,也就是對應卷積核的大小。卷積層的狀態z和參數W還有b的關系如式(4)所示。

zl=al-1×Wl+b

(4)

可以求得卷積層參數W的梯度如式(5)所示。

(5)

(6)

(7)

(8)

更新后的卷積核大小如式(9)所示。

(9)

把式(5)和式(7)代入式(9)中,可得ACKS算法中卷積核大小改變后的大小如式(10)所示。

(10)

從式(10)可知,ACKS算法利用網絡更新時參數的梯度與對應的閔氏距離來動態改變卷積核的大小,從而可以自適應地改變卷積核對特征的提取能力。ACKS的計算過程如下:

Step1通過卷積核計算特征圖;

Step2計算閔氏距離dl,i;

Step3在全連接層后計算損失函數;

Step7改變卷積核大小后繼續迭代。

算法流程如圖3所示。

圖3 ACKS算法的流程

圖4 ACKS-CNN網絡更新過程

3 實驗流程與結果分析

3.1 實驗流程

使用TensorFlow和Librosa框架進行實驗分析。加速顯卡為NVIDIA MX150,處理器為Intel i5-8250u,8 GB DDR4內存,內存頻率為1 600 MHz。本次實驗使用ST American English語音數據集。將數據集按照7 ∶3的比例分為訓練集和驗證集,使用Librosa對數據進行低頻采樣、預加重、分幀加窗,使用端點檢測進行背景噪聲的去噪處理,采樣頻率為8 kHz,使用MFCC提取語音數據的特征[13]。選取數據集的部分數據,波形圖和時頻圖如圖5所示。

(a)語音信號波形圖

語音數據預處理之后進行模型的構建,使用TensorFlow進行MSLoss-CNN、ACKS-CNN、CNN等模型的代碼編寫[14]。模型參數使用隨機化的方法來產生初始值,模型都使用2個卷積層和2個全連接層,迭代次數設置為1 000次,比較模型在200、400、600、800和1 000次時的具體數據。LSTM、CNN和ACKS-CNN在卷積層和池化層使用ReLU作為激活函數,MSLoss-CNN使用MSLoss作為損失函數。多個模型均使用隨機梯度下降SGD來優化參數,池化層使用平均池化,全連接層使用ReLU作為激活函數,使用Dropout作為全連接層的降低過擬合的方法[15]。然后進行模型訓練和模型性能的比較,使用MX150 GPU加速模計算。

3.2 MSLoss-CNN結構設計

MSLoss-CNN網絡結構如圖6所示。

圖6 MSLoss-CNN網絡結構

MSLoss-CNN的損失函數為MSLoss。有兩個卷積層和兩個全連接層,激活函數為ReLU,池化方法為平均池化[16],在全連接層中使用Dropout方法減少過擬合。

設當MSLoss-CNN達到穩定狀態時,MSLoss更新前后的差值變化小于等于1%,如式(11)所示,當MSLoss的差值變化符合式(11)時停止網絡更新,MSLoss-CNN達到穩定狀態。

(11)

3.3 ACKS-CNN結構設計與性能分析

ACKS-CNN的網絡結構如圖7所示。

圖7 ACKS-CNN網絡結構

ACKS-CNN包含兩個卷積層以及兩個全連接層,激活函數為ReLU,池化方法為平均池化,在全連接層中使用Dropout方法減少過擬合。在進行一次網絡迭代后需要計算閔氏距離和網絡參數及其梯度,并根據ACKS算法來更新卷積核的大小,進入下一次迭代,在卷積核的動態變化中改善網絡提取特征的能力。通常使用詞錯誤率WER和句錯誤率SER來評價語音識別模型識別性能。計算方法如式(12)所示。

(12)

式中:N為單詞的總個數,Subs、Dels和Insers分別為替換、刪除和插入的單詞個數。句錯誤率SER代表只要出現一個錯誤的詞,則整句話識別錯誤,并求出錯誤句子占總數的比例[17],如式(13)所示。

(13)

實驗中使用CNN、CTC-CNN以及ACKS-CNN三個模型作為比較的對象,三個模型的誤識別率曲線分別如圖8和9所示。

圖8 WER對比

CNN、CTC-CNN、ACKS-CNN的運行時間和誤識別率數據如表1所示。

表1 運行時間和誤識別率對比

從圖8和圖9可知,CNN、CTC-CNN和ACKS-CNN模型在迭代次數為700次左右時達到穩定狀態,并在之后的迭代中趨于收斂,在1 000次時結束迭代。結合表1可知,ACKS-CNN在數據集上的WER和SER均低于CNN和CTC-CNN[18]。CNN中加入ACKS算法后,在誤識別率曲線變化幅度較小的階段,模型的卷積核未能有效提取數據特征,使得誤識別率沒有出現明顯的降低,所以ACKS算法會根據網絡更新的情況自適應改變卷積核的大小,提升對數據特征的提取效率,降低模型的誤識別率,所以ACKS-CNN的誤識別率低于其他模型。在網絡迭代過程中,ACKS-CNN的曲線波動較大,不如其他模型穩定,這是因為雖然ACKS-CNN卷積核的大小會隨著網絡的更新動態地改變,但是在改變的過程中參數的梯度距離參數的均值較遠,卷積核大小為了彌補對數據特征的提取能力而發生較為劇烈的變化,從而使模型在迭代的過程中發生了不穩定的情況,可以對ACKS-CNN卷積核的大小變化設定閾值,防止卷積核大小出現劇烈的變化,從而減少識別率曲線出現震蕩的情況。

圖9 SER對比

3.4 混合模型網絡結構設計與性能分析

結合MSLoss可以減少迭代次數的特點,在ACKS-CNN中使用MSLoss作為損失函數來減少計算時間,產生的混合模型網絡結構如圖10所示。

圖10 混合模型的網絡結構

從圖10可知,混合模型在ACKS-CNN的基礎上使用MSLoss作為損失函數。混合模型與MSLoss-CNN的運行情況如表2所示。結合表1和表2可知,MSLoss-CNN可以利用輸入序列和預測序列的相似度計算MSLoss,以提升模型的運算速度,所以MSLoss-CNN相比其他模型有著最低的運行時間,但因為沒有使用ACKS算法,誤識別率并沒有明顯的優勢。而在ACKS-CNN中加入MSLoss后形成的混合模型,可以結合ACKS和MSLoss兩者的優點,使用輸入序列和預測序列的相似度減少運行時間,并根據網絡更新的情況自適應提升對數據特征的提取效率,所以混合模型比ACKS-CNN運行時間減少約2%,誤識別率比MSLoss-CNN低約3%。實驗說明混合模型可以在減少計算量的同時提供較高的準確率。

表2 運行時間和誤識別率對比

4 結 語

本文根據語音信號的時序特性,使用序列的最大子序列理論,尋找語音數據間的聯系,提出了MSLoss損失函數。同時結合閔氏距離和神經網絡更新時參數的梯度提出ACKS算法,把MSLoss-CNN、ACKS-CNN、CNN和CTC-CNN進行性能比較。在語音數據集上的實驗表明,MSLoss-CNN可以減少模型達到穩定狀態時所需的時間,ACKS-CNN的識別錯誤率最低,融合了ACKS和MSLoss的混合模型可以減少2%的運行時間,同時降低3%的誤識別率。所以該混合模型是進行語音識別的一個可行的方法,但使用ACKS算法的模型穩定性不高,所以如何在使用ACKS算法的同時保持模型的穩定是今后研究的方向。

猜你喜歡
特征模型
一半模型
抓住特征巧觀察
重要模型『一線三等角』
新型冠狀病毒及其流行病學特征認識
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 无码 在线 在线| 91在线一9|永久视频在线| 久久九九热视频| 四虎影视永久在线精品| 青青草91视频| 国产成人一区| 亚洲美女视频一区| 亚洲看片网| 一本大道香蕉久中文在线播放 | 欧美人与动牲交a欧美精品| 国产农村1级毛片| 国产精品污视频| 久久精品波多野结衣| 欧美日韩亚洲国产| 婷婷丁香在线观看| 韩国自拍偷自拍亚洲精品| a毛片基地免费大全| 国产在线观看成人91| 国产网站黄| 国产中文一区a级毛片视频| 最新亚洲av女人的天堂| 亚洲欧美成人影院| 国产电话自拍伊人| 免费高清毛片| 免费国产高清视频| 日本91视频| 免费啪啪网址| 国产91精品久久| 97国产在线视频| 在线国产毛片手机小视频| 日韩精品欧美国产在线| 国产真实自在自线免费精品| 国产精品lululu在线观看| 国产乱人乱偷精品视频a人人澡| 亚洲国产成人精品无码区性色| 高清国产在线| 成人免费一区二区三区| 午夜高清国产拍精品| 久久久久国产一区二区| 伊人成人在线视频| 国模极品一区二区三区| 狠狠五月天中文字幕| 欧美日韩成人在线观看 | 2021天堂在线亚洲精品专区| 久久久精品无码一二三区| 综合色区亚洲熟妇在线| 久久视精品| 成人中文字幕在线| 尤物成AV人片在线观看| 久久黄色免费电影| 91精品国产自产在线观看| 亚洲人人视频| 熟妇人妻无乱码中文字幕真矢织江| 在线观看国产网址你懂的| 色吊丝av中文字幕| 国产免费福利网站| 香蕉久久国产精品免| 国产丝袜无码一区二区视频| 国产精品一区二区不卡的视频| 国产精品人莉莉成在线播放| 日韩成人在线网站| 亚洲成aⅴ人在线观看| 国产无遮挡裸体免费视频| 毛片久久网站小视频| 免费国产小视频在线观看| 日本亚洲国产一区二区三区| 午夜日韩久久影院| 自拍偷拍欧美| 一级毛片在线免费视频| 国产在线97| 毛片国产精品完整版| 亚洲av片在线免费观看| 亚洲二区视频| 怡春院欧美一区二区三区免费| 亚洲an第二区国产精品| 久久网综合| 欧美日韩激情| 欧美一区二区精品久久久| 亚洲一区无码在线| 91视频青青草| 国产成人亚洲毛片| 欧美福利在线观看|