999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于2DPCA 特征降維的CNN 說話人識別

2022-02-25 06:44:26張學祥雷菊陽
軟件導刊 2022年1期
關鍵詞:特征模型

張學祥,雷菊陽

(上海工程技術大學機械與汽車工程學院,上海 201620)

0 引言

在信息時代下,智能化產品的市場需求強勁[1]。語音識別技術通過讓機器學習人類語言搭建起人機交互的橋梁。其中,說話人識別技術在人機交互領域更是發揮著舉足輕重的作用。其通過挖掘說話人語音中特有的聲紋信息實現對說話人身份的判別,是一種重要的身份認證手段。說話人識別需要從語音中提取說話人的聲學特征,并建立話者模型以獲得識別結果[2]。目前說話人識別建模方法包括混合高斯模型[3]、隱馬爾科夫模型[4]、神經網絡等。近年來,隨著計算能力的提高與大數據的出現,深度神經網絡被廣泛應用于說話人識別領域[5-6]。值得注意的是,深層網絡模型的識別性能很大程度取決于大批量訓練數據[7]。如果直接使用這些數據進行模型訓練,不僅時間成本較高,而且會導致信息冗余,不利于說話人身份鑒別。為減少模型的訓練時間成本,同時提高說話人識別系統性能,有必要對訓練數據進行后續處理。

1 相關研究

原始語音信號經過預處理后再進行特征提取,才能作為匹配模型的訓練數據。LPCC 特征(Linear Prediction Cepstrum Coefficient,LPCC)是常見的聲學特征之一,其通過模擬人的發聲機理分析與預測語音基本參數特征,對濁音具有較好的識別效果,但對鼻音及清音的識別效果較差[8];MFCC 特 征(Mel Frequency Cepstral Coefficients,MFCC)采用一組梅爾頻率濾波器組描述人耳對頻率的感知特性,因而具有更好的判別效果[9]。然而,在MFCC 特征提取過程中的DCT 降維操作會導致一些有效信息損失。為此,本文在特征提取過程中放棄了DCT 操作,而直接采用語音信號的梅爾頻率能量系數特征(MFEC 特征)。全連接深度神經網絡(DNN)具有強大的數據分層學習能力,可提取更為抽象、穩定的數據特征。文獻[10]提出的d-vector 說話人識別系統使用預先訓練的DNN 作為特征提取器,選取網絡最后一層隱層的輸出激活值作為d-vector 特征,利用后驗分類模型實現說話人識別,但基于DNN 的話者模型無法有效對語音特征中的局部時間及頻譜相關性進行建模;文獻[11]中采用CNN 取代DNN 網絡建立話者模型,利用余弦距離進行說話人識別,取得了更好的實驗效果。盡管采用話語級特征作為CNN 網絡的訓練樣本,經過多次訓練即可獲得良好的識別效果,但語音之間存在時長差異,若要獲得同等大小的特征,需要進行裁剪或補零,因而導致數據失真,影響識別效果。采用幀級特征用于模型訓練雖然可避免輸入大小不一的情況出現,但語音幀之間的相關性會導致幀級特征信息冗余,不僅影響神經網絡識別性能,而且使網絡訓練難度增大,收斂速度慢。

根據以上研究背景,本文提出基于2DPCA 特征降維[12]的CNN 說話人識別方法。該方法采用幀級特征矩陣作為卷積神經網絡訓練數據,利用2DPCA 對幀級特征矩陣進行特征降維,舍去幀級特征矩陣中的冗余信息,同時保留特征參數中的有用信息,使得說話人的個性特征分布更為集中,從而提高說話人識別性能及收斂速度。

2 降維分析

2.1 幀級特征提取

MFEC 特征可作為幀級語音信號的數據表示。相比于MFCC 特征,MFEC 特征具有更高維度,同時特征之間的相關性也較強,在頻譜上表現更為平滑,通過CNN 網絡的自適應特征學習可很好地利用這種相關性。

MFEC 特征提取過程如圖1 所示。首先對說話人語音樣本進行分幀操作獲得幀級數據,然后對幀級數據提取幀級特征,取相同數量的幀級特征即可組合成同等大小的特征矩陣。由于每段語音時長各不相同,因此每段語音獲得的特征矩陣數量也不相同。本文中幀長為20ms,幀移為10ms,對每個幀級語音信號提取40 個MFEC 特征參數,取連續60 個幀級信號對應的MFEC 特征參數疊加組合成60×40 的MFEC 特 征 圖。

2.2 2DPCA 降維

采用60×40 的MFEC 特征矩陣作為CNN 訓練數據,訓練強度大,訓練時間長,同時特征信息冗余,不利于提高系統識別性能。本文采用2DPCA 對MFEC 特征矩陣進行降維處理,2DPCA 在PCA 基礎上進行了改進,可直接利用原始圖像矩陣構建協方差矩陣[12-13]。相比于PCA 降維,使用2DPCA 更容易評估協方差矩陣,同時由于構建的協方差矩陣維數變小,計算特征向量的復雜度將降低[14]。2DPCA 通過式(1)將特征圖像矩陣A∈Rm×n投影到空間X∈Rn×d上,得到圖像矩陣A的投影特征向量Y∈Rm×d,完成特征降維。

Fig.1 MFEC feature extraction圖1 MFEC 特征提取

2DPCA 降維首先利用投影樣本的總體散布矩陣求解變換矩陣X,投影樣本的總體散布矩陣可用特征向量Y協方差矩陣的跡表示:

其中,Sx表示特征向量Y的協方差矩陣,具體如下:

故協方差矩陣的跡為:

則圖像的協方差矩陣可表示為:

投影樣本的總體散度矩陣與圖像協方差矩陣關系如下:

約束準則公式如式(7)所示,根據該公式選取一組最優的投影軸X1,X2,…,Xd,使得投影樣本的總體散度最大化,即選取Gt前d個最大特征值對應的特征向量,則圖像A經過變換矩陣X= [X1,X2,…,Xd]轉換后的特征圖像Y最優。

假設一個樣本集中包含N個不同話語的語音特征圖,特征圖大小為m×n,則圖像的總體散布矩陣為:

其中,為訓練樣本均值。

首先求Gt的特征值并選取最大的d個特征值,將與之對應的標準正交特征向量組成投影矩陣X,則圖像Ai通過式(1)投影到空間X上即可得到一組投影特征向量Y1,Y2,…,Yd;然后將這些投影特征向量組合成一個m×d的矩陣,也即圖像Ai的特征圖像矩陣Bi={Y1,Y2,…,Yd} ;最后將樣本集中所有圖像通過2DPCA 降維得到的特征圖像集B= [B1,B2,…BN]作為CNN 網絡學習數據。

3 基于2DPCA 特征降維的CNN 說話人識別方法

本文提出的基于2DPCA 特征降維的CNN 說話人識別方法主要在傳統CNN 說話人識別方法基礎上進行了改進,其輸入采用說話人語音的幀級特征形式,同時利用2DPCA對提取到的MFEC 特征矩陣進行降維處理,從而獲得更有效的特征矩陣作為CNN 的輸入數據,并通過CNN 的自適應特征學習創建說話人模型。該方法不僅可有效利用特征之間的相關性,而且可提高CNN 模型收斂速度。

3.1 卷積神經網絡

CNN 在傳統多層神經網絡基礎上增加了局部連接的卷積層與池化層,通過多層卷積操作可提取不同層級特征,池化層對輸入特征圖的子抽樣操作可有效降低特征維度[15-16]。相比于傳統神經網絡,CNN 能夠直接對圖片數據進行特征提取,而不需要經過數據重構。通過模擬具有局部感受野特性的人類視覺細胞進行特征提取,可進一步提高特征檢測效果。在說話人識別任務中,卷積運算由于具有平移不變性,可提高系統泛化能力,因而在處理多樣性語音信號時更具優勢。其卷積過程可表示為:

其中,表示第l- 1 層的第i個特征圖;是卷積核,*是卷積操作,是與卷積層第j個特征圖建立關系的前一層特征圖集合,b是偏置項,f是非線性激活函數。引入非線性激活函數的目的是利用非線性激活函數對特征的變換,增加網絡處理非線性復雜問題的能力。與傳統CNN 不同,本文使用PReLU 激活函數替代ReLU 函數。PReLU 函數是在ReLU 函數基礎上發展而來的,當其為負值時則導數不再為0,從而避免了網絡陷入“ReLU 死區”[17]。其函數表達式如下:

池化層對卷積特征圖進行子抽樣操作后,特征圖數量保持不變,但圖片維度會降低,因此可防止過擬合。采樣過程可表示為:

式中,down()代表下采樣函數,用于計算上一層特征圖中相鄰區域的最大值。

3.2 網絡結構設計

本文采用經典的AlexNet 體系結構[18]進行實驗,網絡包括1 個輸出層、3 個連續的卷積池化結構、2 個單獨的卷積層、2 個全連接層及1 個Softmax 層。網絡結構參數設計如表1 所示。模型輸入為60×40 的MFEC 特征矩陣,經2DPCA 降維后輸入大小為60×20。網絡采用自適應初始化器對卷積核權值參數進行初始化,損失函數采用交叉熵損失函數,并利用Adam 優化器進行參數優化。初始學習率為0.001,總迭代次數為200 次。前100 次迭代以后,每迭代10 次學習率降低10%[19]。為防止過擬合,設定前兩個全連接層為丟棄層,丟棄率為50%,同時將PReLU 激活函數應用于卷積層與前兩個全連接層來訓練該模型,最后一個Softmax 層用于說話人預測分類[20]。

Table 1 AlexNet network structure design表1 AlexNet 網絡結構設計

3.3 算法流程

本文提出的說話人識別算法步驟如下:

方法:基于2DPCA 特征降維的CNN 說話人識別方法

輸入:說話人語音數據集

Step 1:預處理。對短語音信號進行分幀處理,提取幀級信號的40 維MFEC 特征,將連續60 幀幀信號提取到的MFEC 特征組合成60×40 語音特征圖。

Step 2:使用2DPCA 將每張60×40 的MFEC 特征圖降維成60×d的特征矩陣。①根據式(8)定義圖像的總體散布矩陣Gt;②求最優投影軸X1,X1,…,Xd,即選取Gt前d個最大特征值對應的特征向量;③利用式(1)對圖像A作投影特征變換,獲得一組投影特征向量Y1,Y2,…,Yd;④將投影特征向量組合特征矩陣B= [Y1,Y2,…,Yd]作為CNN 網絡的輸入。

Step 3:選取70%的訓練數據作為訓練集,其余為測試集。

Step 4:CNN 網絡參數初始化,包括CNN 結構、卷積核參數、學習率、批大小N和迭代次數。

Step 5:CNN 網絡訓練

for i= 1:迭代次數

for j=1:批數量

在訓練數據集中抽取N個訓練數據輸入到CNN,前向傳輸計算在當前網絡權值與輸入下的網絡輸出;

反向傳播調整權值;

更新權值;

end for

end for

Step 6:CNN 網絡測試,將預測結果與樣本標簽進行比較,獲得預測準確度。

4 實驗結果與分析

4.1 實驗數據集

實驗數據集采用Primewords Chinese Corpus Set 1 語料庫進行模型訓練與測試。Primewords Chinese Corpus Set 1數據集是由上海元語信息科技有限公司推出的漢語普通話語料庫,包含100h 的語音數據,由296 名來自中國不同區域的說話人錄制而成。該數據庫中的音頻文件多為安靜環境下錄制,采樣頻率為16kHz。本研究從中隨機挑選出男性、女性各60 人,每人50 條語句(每條語句時長約為6s)。其中,100 人語料集用于背景模型訓練,其余20 人語料集用于系統測試。系統測試時,選擇每個人前70%的數據用于模型訓練,剩下30%的數據用于系統測試。

4.2 實驗結果分析

4.2.1 批大小選擇

為節省模型訓練開支,需要選擇合適的批大小。一般來說,批大小越小,網絡收斂速度越快,但會導致訓練時間變長,并且當批大小過小時,網絡可能無法收斂。增大批大小可使網絡處理相同數據量的時間縮短,但收斂速度會下降,收斂時所需的迭代次數也將增多。根據3.2 節介紹的模型參數設置,改變批大小并進行多次重復實驗得到的損失值曲線如圖2 所示。

Fig.2 Loss value curve during model training圖2 模型訓練過程中的損失值曲線

從圖2 可以看出,當批大小為50 時,網絡收斂速度最快,但是訓練震蕩較大;當批大小為85 時,收斂速度稍微減慢,訓練震蕩也有所減小,損失值穩定狀態位置基本保持不變;當批大小繼續增大時,收斂速度變得更加緩慢,同時訓練損失的穩定值也變大。綜上考慮,本文選擇批大小為85。另一方面,從圖中可發現,訓練損失值在第150 次迭代后基本趨于穩定,因此為了不浪費訓練時間,設置迭代次數為150 次。

4.2.2 特征維數影響

從表2 可以看出,剛開始隨著特征維數的增大,說話人識別系統的識別率也逐漸提高,并且在維數較小的情況下,識別率提高的速度快。維數越大,識別率提高的速度越慢。當特征維數為20 時,系統識別率達到最大值。繼續增加特征維數,系統識別率反而有所下降,但是逐步趨于穩定。這是因為特征維數過大而造成的信息冗余抑制了說話人個性信息,導致識別率降低。因此,本文選擇特征維數d= 20,此時有效信息的損失最小,在不影響識別性能的情況下,訓練數據得到了有效壓縮。

Table 2 Effect of feature dimension on speaker recognition performance表2 特征維數對說話人識別性能的影響

4.2.3 與其他說話人識別方法比較

為測試基于2DPCA 特征降維的CNN 說話人識別方法的優越性,作為對比,在相同數據集的條件下,選取CNN(話語級特征)話者模型和CNN(幀級特征)話者模型作為本文的基線實驗。其中,話語級特征選擇語譜圖特征形式,實驗結果如圖3 所示。3 種算法識別性能比較如表3 所示。

Fig.3 Recognition rate change of different algorithms圖3 不同算法識別率變化

Table 3 Comparison of recognition performance of three algorithms表3 3 種算法識別性能比較

從表3 可以看出,本文提出的2DPCA 特征降維的CNN說話人識別方法明顯比其他兩種方法運行速度快,相比于CNN(話語級特征)方法與CNN(幀級特征)方法,運行時間分別減少了57%和36%,同時識別率也有所提高,說明使用2DPCA 技術對幀級特征進行降維處理可有效減少冗余信息,在保證系統識別性能的同時,大幅縮短了網絡運行時間。

5 結語

本文提出一種基于2DPCA 特征降維的CNN 說話人識別方法,該方法通過2DPCA 對幀級特征進行特征降維處理,將降維后的特征矩陣用于CNN 網絡訓練與測試,在保證識別率的同時,大幅降低了CNN 網絡的運行時間成本。實驗數據表明,該方法運行速度明顯優于傳統的CNN 網絡說話人識別方法,同時系統識別率也有所提高。該方法對于說話人識別的理論研究具有重要的參考價值,在接下來的研究中,將考慮使用不同結構的網絡模型進一步發掘該說話人識別方法的潛能。

猜你喜歡
特征模型
一半模型
抓住特征巧觀察
重要模型『一線三等角』
新型冠狀病毒及其流行病學特征認識
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 久久久久九九精品影院| 五月天久久综合| 91精品啪在线观看国产60岁| 亚洲精品中文字幕午夜| 亚洲精品爱草草视频在线| 国产美女人喷水在线观看| 国产日本视频91| 69国产精品视频免费| 在线欧美日韩| 久久这里只精品国产99热8| 美女无遮挡被啪啪到高潮免费| av在线手机播放| 亚洲首页在线观看| 国产精品白浆在线播放| 亚洲最新地址| 国产一区二区三区精品久久呦| 好吊妞欧美视频免费| 久久婷婷国产综合尤物精品| 黄色网页在线播放| 九九精品在线观看| 久久永久精品免费视频| 一本综合久久| 农村乱人伦一区二区| h视频在线播放| 午夜精品久久久久久久2023| 久青草免费在线视频| 香蕉久久永久视频| 日本91在线| 伊人久久大线影院首页| 国产手机在线小视频免费观看| 久久毛片基地| 久久久亚洲色| 国产欧美日韩资源在线观看| 亚洲三级视频在线观看| 好紧好深好大乳无码中文字幕| 992tv国产人成在线观看| 91久久青青草原精品国产| 亚洲福利网址| 国产美女自慰在线观看| 亚洲福利视频一区二区| 亚洲a级毛片| 在线看免费无码av天堂的| 青青草国产免费国产| 久久精品66| 精品福利视频导航| 午夜色综合| 91热爆在线| 国产精品成人不卡在线观看| 中文字幕有乳无码| 婷婷综合在线观看丁香| 国产日本欧美在线观看| 先锋资源久久| 伊人福利视频| 亚洲精品图区| 国产另类视频| av色爱 天堂网| 91年精品国产福利线观看久久| 国产午夜一级毛片| 一个色综合久久| 嫩草国产在线| 特级精品毛片免费观看| 国产精品毛片在线直播完整版 | 成年人久久黄色网站| 久久久久国产精品嫩草影院| 日韩中文精品亚洲第三区| 人妻无码中文字幕一区二区三区| 亚洲精品国产综合99久久夜夜嗨| AV天堂资源福利在线观看| 国产十八禁在线观看免费| 国产婬乱a一级毛片多女| 日本黄色a视频| 久久永久免费人妻精品| 国产小视频免费观看| 99精品福利视频| 国产乱子伦一区二区=| 亚洲bt欧美bt精品| 亚洲精品免费网站| 亚洲水蜜桃久久综合网站 | 国产精品浪潮Av| 国产a v无码专区亚洲av| 精品国产99久久| 在线色综合|