999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于改進CFCC 特征提取的語種識別算法研究

2023-01-27 09:08:50龍華黃張衡邵玉斌杜慶治蘇樹盟
通信學報 2022年12期
關鍵詞:特征信號

龍華,黃張衡,邵玉斌,杜慶治,蘇樹盟

(昆明理工大學信息工程與自動化學院,云南 昆明 650500)

0 引言

語種識別(LID,language identification)作為語音信號處理的前端系統(tǒng),根據(jù)語音序列所表征的不同特征信息識別出所屬的語言類別,廣泛應用于語種識別系統(tǒng)、智能系統(tǒng)等[1]。傳統(tǒng)的語種識別系統(tǒng)通常基于不同語音所具有的音素層特征與聲學層特征,音素層特征采用了每個語種之間的音節(jié)和音素的出現(xiàn)頻率與組合方式的差異作為分類依據(jù)來進行語種識別[2]。聲學特征則通過對語音信號進行一系列的變換提取出能夠表征整個語音信號的局部特征來進行分類識別。隨著科技的進步以及研究者之間的密切聯(lián)系合作,對語種識別技術的精確度要求也越來越高,特別是在噪聲環(huán)境下能夠有效提取具有穩(wěn)定性與穩(wěn)健性的聲學特征尤為關鍵。

常用的聲學特征包括基于梅爾濾波器的梅爾頻率倒譜系數(shù)(MFCC,Melfrequency cepstral coefficient)[3-4]、伽瑪通頻率倒譜系數(shù)[5](GFCC,Gammatone frequency cepstral coefficient)以及耳蝸濾波器倒譜系數(shù)[6](CFCC,cochlear filter cepstral coefficient)。文獻[7]首次提出使用小波變換作為耳蝸濾波器的沖激響應函數(shù)來模擬人耳聽覺過程提取傳統(tǒng)CFCC 特征并應用于語音識別,取得了一定的識別效果。但由于小波變換主要在時域?qū)π盘栠M行分析,在分數(shù)域并不能很好地對信號進行有效處理,且在低信噪比下傳統(tǒng)CFCC 的抗噪性能并不理想[8]。

為了提升CFCC 在低信噪比下的抗噪穩(wěn)健性,李晶皎等[9]利用信號相位匹配方法消除語音信號噪聲,再將Teager 能量算子融合CFCC 特征組成新的特征參數(shù),相較單一特征,融合特征提升了語種識別準確率。文獻[10]將語音相位特征與CFCC 特征相融合應用于說話人識別系統(tǒng)來提高系統(tǒng)的識別準確率和穩(wěn)健性。雖然融合特征的識別準確率以及抗噪性有所提升,但是其僅單純地進行特征融合,語音信號時域信息的固有不足以及信號時頻域、分數(shù)域信息未能被有效地表征[11],需要考慮信號的時頻域以及分數(shù)域信息。Patel 等[11]提出基于對數(shù)非線性函數(shù)和瞬時頻率來提取CFCC 特征參數(shù)進行語音信號的檢測,其提取的特征具有較高的抗噪性,且彌補了傳統(tǒng)CFCC 特征不能有效提取信號中時頻域信息的缺陷,但其未能有效分析信號分數(shù)域中的信息[8]。為了進一步提升低信噪比下語音識別性能,文獻[12]在特征提取前端引入語音增強技術,通過譜減法與特征提取相融合,提取更具穩(wěn)健性的特征。其在特征提取前端進行降噪處理,在特征提取的過程中進行了非線性信號壓縮,但也忽略了特征中的分數(shù)域信息。

上述方法提取CFCC 特征參數(shù)并未有效考慮噪聲環(huán)境下語音信號的時頻域、分數(shù)域信號信息以及語音信號中所含有的聲壓強度對特征參數(shù)的影響。本文首先在特征提取前端引入自適應濾波[13]對語音信號進行增強處理。然后采用新型分數(shù)階小波變換代替小波變換作為小波基函數(shù)來模擬信號在耳蝸基底膜上的傳播過程,以彌補小波變換不能有效在分數(shù)域表征特征的缺陷,且能夠在時頻域以及分數(shù)域?qū)π盘栠M行多辨分析。另外,基于小波變換以及分數(shù)階小波變換的耳蝸濾波函數(shù)都未能表現(xiàn)出基底膜濾波器的非對稱性與聲壓強度[14],因此,在分數(shù)階小波變換濾波函數(shù)中引入能夠反映聲音強度的啁啾參數(shù)[15]以更有效地反映語音信號在耳蝸中的聲壓強度,使提取到的特征更具區(qū)分性。再利用非線性冪函數(shù)對信號進行壓縮處理,將其由能量值變?yōu)楦兄懚龋玫交谧赃m應濾波的新型分數(shù)階耳蝸濾波器倒譜特征(NFCFCCAF,new fractional cochlear filter cepstral coefficient based on adaptive filtering)。該特征突破了傳統(tǒng)CFCC 特征基于小波變換與立方根線性函數(shù)局限于時頻域分析信號的缺點,在能夠繼承多分辨分析優(yōu)點的同時還可以對噪聲信號在時頻域和分數(shù)域進行多辨分析[14]。最后,將提取到的特征語譜圖輸入分類網(wǎng)絡FcaNet-MobileNetV2 中進行分類識別。

1 CFCC 提取

CFCC 是基于聽覺感知模擬人耳的聽覺過程提取的,傳統(tǒng)的CFCC 特征采用聽覺正變換模擬聲音從外界傳入人耳經(jīng)過鼓膜放大聲波振動能量,再通過鐙骨底板的活塞運動傳入內(nèi)耳耳蝸引起耳蝸基底膜上的振動。文獻[6]采用小波基函數(shù)作為耳蝸濾波函數(shù)通過小波變換來模擬信號在耳蝸基底膜上的運動,使信號通過耳蝸濾波器組、毛細胞窗口、非線性響度變換以及離散余弦變換(DCT,discrete cosine transform)來實現(xiàn)CFCC 特征提取。

小波變換能夠突破時頻域的局限,更好地處理分析非線性信號,設原始時域語音信號x(t),經(jīng)聽覺變換輸出T(a,b) 定義為

其中,耳蝸基底膜上的沖擊響應函數(shù)ψa,b(t)定義為

其中,α> 0,β> 0,α和β決定了ψa,b(t)的時頻域形狀和寬度,一般情況下,α=3 且β=0.2 時降噪效果較佳。a為尺度因子,0<a≤1,由耳蝸濾波器組的最低中心頻率fL與中心頻率fC的比值決定,即;b為位移因子,為隨時間可變的實數(shù);θ為控制沖激響應角度的初始相位;u(t) 為單位階躍函數(shù),是單位沖激函數(shù)的積分。

毛細胞函數(shù)用來模擬人耳耳蝸基底膜上由大量毛細胞構成的螺旋器(柯蒂氏器),通過螺旋器毛細胞的換能作用把聲波的機械振動能量轉(zhuǎn)變?yōu)樯镫娔茏罱K轉(zhuǎn)化為大腦可分析的電信號。其模擬過程為

當前濾波器中心頻率響應相關神經(jīng)穗就可以用每個波段的毛細胞輸出S(i,j) 來表示,即

最后,將非線性響度變換輸出經(jīng)DCT 進行去相關得到傳統(tǒng)CFCC。

2 改進特征提取

2.1 基于VMD 的自適應濾波降噪

本節(jié)主要研究低信噪比環(huán)境下的語種識別,定義采樣后帶噪聲的語音信號為

其中,x(n)為原時域語音信號x(t)采樣后的信號,g(n) 為零均值高斯白噪聲,其平均信噪比定義為

為了進一步提高帶噪語音信號的識別性能,可以在特征提取前端對語音信號進行濾噪處理。由于本文實驗采用添加零均值高斯白噪聲后的語音信號,高斯白噪聲屬于平穩(wěn)噪聲,而常用的頻域濾波法可以對帶噪信號進行處理,但對于帶內(nèi)噪聲其降噪效果并不佳[13]。對于平穩(wěn)噪聲,自適應濾波卻能夠不完全依賴噪聲信號的先驗統(tǒng)計特性而根據(jù)算法自適應調(diào)整參數(shù),使輸出信號達到最優(yōu),且對帶內(nèi)噪聲有更好的處理效果[16-17]。本文實驗對帶噪語音信號進行變模態(tài)分解(VMD,variational mode decomposition)處理,然后通過基于歸一化最小均方(NLMS,normalization least mean square)自適應濾波器降噪,該方法對平穩(wěn)噪聲有較好的處理效果。基于VMD 的自適應濾波系統(tǒng)如圖1 所示,其中,s(n) 為帶噪語音信號,y(n) 為自適應濾波器的輸出,W為濾波器的權值系數(shù)向量,e(n) 為誤差信號,對輸入帶噪語音信號進行端點檢測后,取出語音信號中的所有無話幀并求取均值作為信號的參考噪聲n(n),因此參考信號為

圖1 基于VMD 的自適應濾波系統(tǒng)

當均方誤差達最小時,濾波器的系數(shù)向量為最佳權值,濾波器的濾波效果最佳。對于M階濾波器,輸出y(n) 可表示為

其中,wm(n)為權值系數(shù),則自適應濾波的權值系數(shù)向量為

濾波器的輸入信號向量為

則輸出信號為

誤差信號e(n) 可表示為

則誤差平方的數(shù)學期望為

其中,μ為收斂系數(shù),主要控制算法的收斂速度與穩(wěn)定誤差;γ取0.001。

為了測試自適應濾波法在低信噪比下的降噪效果,設計實驗在 -10~0 dB 噪聲下對帶噪語音信號進行降噪處理。本文實驗引入占空比來描述自適應濾波的降噪效果,占空比定義為一段帶噪語音信號中純噪聲時間與語音信號時間的比值,主要反映了純噪聲時間的長短對自適應濾波降噪的影響。首先采用 -10~0 dB 信噪比的帶噪語音信號各1 000 條,在每一信噪比下分別對帶噪語音信號進行端點檢測,求出其占空比,實驗發(fā)現(xiàn)語音信號的占空比在20%~40%之間。因此將每一信噪比下語音信號以5%占空比為刻度分為5 類,并對每一類占空比下語音信號進行降噪濾波后求取改善信噪比均值。其在不同信噪比、不同占空比下的改善信噪比和均方根誤差分別如圖2 和圖3 所示。

圖2 不同信噪比、不同占空比下的改善信噪比

圖3 不同信噪比、不同占空比下的均方根誤差

從圖2 和圖3 中可以看出,自適應濾波在低信噪比下對不同占空比的帶噪語音信號降噪效果相對穩(wěn)定,當占空比為30%時,其濾噪后改善信噪比較其他占空比要高,且整體相對穩(wěn)定。

在信噪比為-5 dB、不同占空比下自適應降噪過程中的收斂情況如圖4 所示,分析不同占空比下前10 000 個采樣點、100 次重復實驗時的平均均方根誤差。從圖4 中可以看出,隨著迭代次數(shù)的增加,不同占空比下的曲線很快便收斂,其中當占空比為20%時,收斂速度最快,在迭代2 000 次時便收斂,其濾噪效果較佳。在不同信噪比、不同占空比下的實驗結果表明,采用自適應濾波降噪在不同占空比下均有較快的收斂速度,且降噪效果比較穩(wěn)定。

圖4 不同占空比下收斂曲線

2.2 基于新型分數(shù)階小波變換的NFCFCCAF 特征提取

傳統(tǒng)的小波變換雖然能夠突破時頻域限制對噪聲信號進行有效處理,但小波變換主要是基于時頻域信號,不具有分數(shù)傅里葉變換分數(shù)域表征的缺陷[18],其在分數(shù)域中并不能有效表征信號局部特征。而分數(shù)階小波變換不僅可以在時頻域與分數(shù)域分析信號,而且在繼承多分辨分析優(yōu)點的同時還可以對信號在時頻域與分數(shù)域進行多辨分析,更具抗噪性。

設帶噪語音信號s(n)經(jīng)自適應濾波降噪后的連續(xù)語音信號為s(t),采用分數(shù)階母小波函數(shù)ψp,a,b(t)作為耳蝸基底膜上的耳蝸濾波函數(shù),則語音信號經(jīng)聽覺變換輸出FRWT(p,a,b)為

設時間函數(shù)為h(t),在分數(shù)傅里葉變換下,分數(shù)階卷積定義為

其中,Θp為分數(shù)階卷積算子,S p(u)與H(ucscω)分別為s(t)與h(t)的p階分數(shù)傅里葉形式。則分數(shù)階小波變換分數(shù)域形式表示為

其中,ψ*(aucscω)為ψ(t)的FT(變換元進行了尺度cscω伸縮),核函數(shù)Γp(u,b)定義為

其中,u為分數(shù)頻率。因此,式(17)可以改寫為

由于特征提取中耳蝸濾波函數(shù)的幅頻響應曲線關于中心頻率對稱,其并未有效體現(xiàn)人耳基底膜曲線的非對稱性,且其幅頻響應曲線也與強度無關,這與基底膜的強度相關特性并不相符[15]。因此,為了更有效地體現(xiàn)出人耳基底膜曲線的非對稱性且符合人耳基底膜的強度相關特性,使函數(shù)能夠?qū)φZ音信號進行有效處理,在耳蝸濾波器函數(shù)中引入一個能夠反映聲音強度的啁啾參數(shù)為對時間的對數(shù),啁啾因子ξ隨著聲壓強度sP(單位為dB)的變化而變化[15]。

其中,P0=2×10-5Pa 為參考聲壓,Pe為有效聲壓。

其中,N為所取的采樣點數(shù),xn為對語音信號x(t)的采樣點。語音信號的聲壓級曲線如圖5 所示。

圖5 語音信號的聲壓級曲線

聲壓作為聲擾動而產(chǎn)生的逾量壓強,是空間位置和時間的函數(shù),可以定量描述聲波,聲壓強度級能夠隨著聲音的不同而變化,更好地反映了人耳對聲音強弱的變化。因此,在耳蝸濾波函數(shù)中加入反映聲壓強度的啁啾參數(shù)的新型耳蝸濾波器函數(shù)定義為

圖6 新型耳蝸濾波器組函數(shù)的頻率響應

則語音信號經(jīng)聽覺變換輸出NFRWT(p,a,b)由式(22)改為

毛細胞滑動窗口函數(shù)定義為

傳統(tǒng)CFCC 特征提取過程中響度函數(shù)采用式(5)立方根形式,其可以有效地模擬信號,還可以為非線性冪函數(shù)或?qū)?shù)形式。通過實驗對比可知,在噪聲環(huán)境下立方根函數(shù)與對數(shù)函數(shù)較非線性冪函數(shù)的識別效果并不理想[12],因此本文實驗采用非線性冪函數(shù)來模擬人耳聽覺特性。由于非線性冪函數(shù)更符合人耳聽覺神經(jīng)的壓縮感知,通過非線性冪函數(shù)來對毛細胞輸出信號進行非線性響度變換,使其由能量值變?yōu)楦兄懚萚12]。實驗中通過對比調(diào)整不同冪函數(shù),當冪函數(shù)的指數(shù)取0.25 時識別性能最佳,因此,實驗中模擬過程為

將非線性響度變換輸出經(jīng)離散余弦變換進行去相關,即

其中,n為特征變換后每幀特征的維數(shù),M為耳蝸濾波器個數(shù),0<n<N,0 ≤m≤M。

由于人耳在不同頻率聲波之間的聽覺敏感度存在差異,頻率較低的聲音在人耳的耳蝸基底膜上行波傳遞的距離遠大于頻率較高的聲音。因此,通過升半正弦倒譜提升來減少低維中分量的占比,進而可提升高維分量的作用,升半正弦倒譜窗函數(shù)定義為

倒譜提升后的CFCC 為

最后得到新的特征參數(shù)NFCFCCAF,其提取過程如圖7 所示。

圖7 NFCFCCAF 提取過程

2.3 動態(tài)特征提取

采用新型分數(shù)階小波基函數(shù)作為耳蝸基底膜上的耳蝸濾波函數(shù),模擬人耳聽覺過程提取的特征參數(shù)反映了語音信號的靜態(tài)特性,而人耳聽覺過程具有動態(tài)特性,為了更好地模擬聽覺過程,本文實驗提取了能夠表征語言信號動態(tài)特性的一階差分ΔNFCFCCAF 特征,再將其與NFCFCCAF 特征進行融合構成融合特征NFCFCCAF-DS,以提升語種識別準確率。最后將融合特征與NFCFCCAF 特征作為不同分類網(wǎng)絡的輸入進行語種識別比較,以驗證本文算法提取特征的穩(wěn)健性與有效性。

3 FcaNet-MobileNetV2 識別模型

目前,ResNet 廣泛應用于語種識別且能夠表現(xiàn)出高競爭力的識別性能,但其在小樣本數(shù)據(jù)集中網(wǎng)絡的寬度和深度容易出現(xiàn)過擬合現(xiàn)象,降低整個網(wǎng)絡的泛化能力[19]。因此實驗采用基于倒殘差結構的MobileNetV2網(wǎng)絡來進行準確率測試,以對小樣本數(shù)據(jù)集進行有效處理,提取特征中更多的高維信息[20]。且所提取NFCFCCAF 特征中包含了大量的頻域信息[8],因此通過在網(wǎng)絡模型中引入頻域注意力機制使網(wǎng)絡模型能夠捕捉更多的頻域信息,提升網(wǎng)絡的區(qū)分性。

本文將輕量化卷積神經(jīng)網(wǎng)絡MobileNetV2[20]作為識別模型的主干網(wǎng)絡,在其17 個瓶頸結構中添加了注意力機制模塊FcaNet[21]構成FcaNet-Mobile-NetV2 分類識別模型。其中,F(xiàn)caNet 作為頻域通道注意力機制,是對SENet[22]的改進,由于SENet 的全局平均池化(GAP,global average pooling)為二維離散余弦變換的低頻部分,而特征圖中大量的中高頻信息被舍棄了。因此,文獻[21]提出了多譜注意力模塊FcaNet,將通道注意力機制的壓縮擴展到了頻域,進而引入更多的頻率分量信息以達到識別度提升的目的。MobileNetV2 屬于輕量級識別網(wǎng)絡,其是在MobileNetV1 網(wǎng)絡的基礎上改進反向殘差塊與線性瓶頸而來的,在保留了MobileNetV1 網(wǎng)絡中深度可分離卷積加速網(wǎng)絡思想的同時能夠更好地提取關鍵信息提升識別準確率[23]。因此,為了更好地提取出特征語譜圖中的關鍵頻域信息且有效地分類識別,本文在MobileNetV2 主干網(wǎng)絡瓶頸中加入頻域通道注意力機制模塊以輔助其有效地提取特征語譜圖中的特征信息,組成FcaNet-MobileNetV2 識別模型,如圖8 所示。

圖8 FcaNet-MobileNetV2 識別模型

4 實驗結果及分析

4.1 數(shù)據(jù)準備及參數(shù)設置

1) 數(shù)據(jù)準備

本文實驗采用公共數(shù)據(jù)集語料庫LibriVox 中的單通道wav 音頻信號文件,其中包括英語、法語、德語、意大利語、西班牙語這5 個語種。語音的采樣率fs=16 000 Hz,每條語音信號時長為3 s,總共有10 000 條實驗語音,每個語種分別有1 400 條訓練集與600條測試集語音文件。實驗以NoiseX-92[24]公共噪聲庫中的白噪聲為噪聲源,構建了信噪比分別為 5-dB、0 dB、5 dB、10 dB、15 dB 情況下的訓練測試語料并且在每個數(shù)據(jù)集所對應的語種分別打上標簽,如表1 和表2 所示。

表1 不同語種實驗訓練集

表2 不同語種實驗測試集

本文實驗采用融合了頻域通道注意力機制的輕量化卷積神經(jīng)網(wǎng)絡FcaNet-MobileNetV2 作為分類網(wǎng)絡對特征語譜圖進行分類識別。其中,分類網(wǎng)絡的訓練圈數(shù)epoch 參數(shù)設置為50,batchsize 為50,worker數(shù)為4,模型的學習率設置為0.000 1;將提取出的二維特征輸入分類網(wǎng)絡中訓練10 次,將每次神經(jīng)網(wǎng)絡最后一次循環(huán)的輸出節(jié)點作為語種的識別模型來對語種測試集進行識別,取10 次結果的平均值作為語種識別結果。性能評價指標采用美國國家標準與技術研究院語種評測規(guī)則,表示為

其中,EL為英語的正確識別個數(shù),F(xiàn)L為法語的正確識別個數(shù),GL為德語的正確識別個數(shù),IL為意大利語的正確識別個數(shù),SL為西班牙語的正確識別個數(shù),TL為測試集總數(shù),為語種識別準確率。

4.2 實驗

1) 實驗1

為了驗證本文提出的非線性冪函數(shù)對信號進行壓縮模擬過程提取的耳蝸濾波器倒譜系數(shù)(FCFCC,function of cochlear filter cepstral coefficient)與基于立方根函數(shù)、非線性函數(shù)提取的CFCC的語種識別效果,實驗提取了傳統(tǒng)CFCC 特征,采用本文所提非線性冪函數(shù)式(32)提取的FCFCC 特征,文獻[11]中基于對數(shù)非線性函數(shù)的耳蝸濾波器倒譜系數(shù)(LCFCC,logarithm of cochlear filter cepstral coefficient)以及文獻[12]、文獻[25]所提基于非線性冪函數(shù)的CFCC0、CFCC1 特征。上述特征在基于傳統(tǒng)CFCC 特征提取基礎上,僅改變了提取過程中的非線性冪函數(shù),最后將其輸入分類網(wǎng)絡FcaNet-MobileNetV2 中進行分類識別,不同聽覺特性函數(shù)識別準確率如表3 所示。

表3 不同聽覺特性函數(shù)識別準確率

通過分析發(fā)現(xiàn),在 5-~15 dB 信噪比下,本文所提非線性冪函數(shù)提取的FCFCC 特征參數(shù)語種識別準確率較文獻[12]、文獻[25]所提CFCC0、CFCC1以及傳統(tǒng)CFCC 有一定的提升。與采用對數(shù)非線性函數(shù)來模擬聽覺特性函數(shù)提取的LCFCC特征相比,其平均識別準確率提升了4.79%。實驗說明了采用本文所提非線性冪函數(shù)模擬人耳聽覺特性函數(shù)提取的FCFCC 特征參數(shù)在噪聲環(huán)境下具有一定的抗噪性和有效性。

2) 實驗2

為了驗證本文提出的新型分數(shù)階小波變換作為耳蝸基底膜上的耳蝸濾波函數(shù)所提取的NFCFCC 特征參數(shù)的穩(wěn)健性,分別提取不同信噪比下CFCC 特征、MFCC 特征、GFCC 特征以及Fbank 特征,將其輸入分類網(wǎng)絡FcaNet-MobileNetV2 中進行分類識別比較,不同特征參數(shù)識別準確率如表4 所示。

從表4 可知,本文利用新型分數(shù)階小波基函數(shù)來模擬信號在人耳基底膜上的運動過程,且引入能夠反映聲音強度的啁啾參數(shù)所提取的NFCFCC 特征較其他特征語種識別準確率有顯著提升,與MFCC 特征相比其平均識別準確率提升了4.77%,與 CFCC 特征相比其平均識別準確率提升了6.58%。因此,采用引入啁啾參數(shù)的新型分數(shù)階小波變換來模擬耳蝸濾波器能夠有效地突破小波變換對信號進行時頻域分析的缺陷,從而能夠在時頻域分析且在繼承多分辨分析優(yōu)點的同時對信號在時頻與分數(shù)域進行多辨分析,進一步提升了特征參數(shù)的有效性與穩(wěn)健性。

表4 不同特征參數(shù)識別準確率

3) 實驗3

為了進一步提升改進特征參數(shù)的穩(wěn)健性,在實驗2 提取NFCFCC 特征算法的基礎上,在特征提取前端引入自適應濾波對信號進行增強去噪,提取更具抗噪性的NFCFCCAF 和文獻[12]所提基于譜減法與非線性冪函數(shù)的FFPSS 特征參數(shù),分別在不同信噪比下采用分類網(wǎng)絡FcaNet-MobileNetV2 進行語種識別準確率比較,不同特征識別準確率如表5所示,各語種在不同信噪比下的識別準確率如表6所示。

從表5 可知,在特征提取前端引入自適應濾波對噪聲信號進行語音增強處理,再利用實驗2提取NFCFCCAF 特征與文獻[12]提取的FFPSS特征,分別在 -5~15 dB 信噪比下分別進行語種識別比較,NFCFCCAF 特征參數(shù)的語種識別準確率有顯著提升。在低信噪比下,NFCFCCAF 特征較FFPSS 特征其平均識別準確率提升了2.47%,說明本文算法具有一定的抗噪性與可行性。對比表4 與表5 中NFCFCC 特征與NFCFCCAF 特征的語種識別準確率可知,引入自適應濾波降噪較未采用自適應濾波降噪所提取的特征顯著提升了語種識別準確率,平均識別準確率提升了3.7%,且較傳統(tǒng)CFCC 特征,其平均識別準確率提升了10.28%,提升了系統(tǒng)的穩(wěn)健性。

表5 不同特征識別準確率

從表6 可知,5-~15dB 信噪比下各語種的識別效果較好,且識別準確率整體呈上升趨勢。說明了采用本文算法對語音信號提取NFCFCCAF 特征再利用FcaNet-MobileNetV2 網(wǎng)絡進行分類識別能夠更好地提取語種之間的相關信息并且達到了較好的區(qū)分度。在低信噪比下,相較于其他語種,法語的語種識別準確率較低,平均識別準確率達80%,而英語的識別準確率最高,平均識別準確率達88%。這說明法語提取的文本特征區(qū)分性較其他語種并不高,而英語提取到的文本特征參數(shù)區(qū)分性最高。

表6 各語種在不同信噪比下的識別準確率

4) 實驗4

由于NFCFCCAF 特征參數(shù)所表征的為語音信號的靜態(tài)特征,并不能較好地表現(xiàn)出語音的實際動態(tài)特性。為測試本文所提NFCFCCAF 的語種識別有效性,求取NFCFCCAF 特征參數(shù)的一階差分系數(shù)[24]、再與NFCFCCAF 特征進行融合處理得到融合特征NFCFCCAF-DS。

為了驗證本文所提分類網(wǎng)絡FcaNet-MobileNetV2 的識別性能,采用不同的分類網(wǎng)絡 FcaNet-MobileNetV2、MobileNetV2 以及ResNet[24]對特征參數(shù)進行分類識別。其識別結果如表7 所示。

從表7 可知,在-5~15 dB 信噪比下,不同特征在不同分類網(wǎng)絡中都表現(xiàn)出較好的識別效果。在FcaNet-MobileNetV2 分類網(wǎng)絡中,2 種特征平均識別準確率達83.05%和85.65%;在MobileNetV2 分類網(wǎng)絡中,2 種特征平均識別準確率達81.04%與83.6%。在這2 種特征下FcaNet-MobileNetV2 網(wǎng)絡較MobileNetV2 網(wǎng)絡平均識別準確率提升了2.01%與2.05%。這說明經(jīng)過引入頻域注意力機制使整個網(wǎng)絡模型能夠集中捕捉特征中的頻域信息,加強了特征判別的指向性,提升了網(wǎng)絡的識別性能。

表7 不同特征在不同分類網(wǎng)絡中的語種識別準確率

在ResNet 分類網(wǎng)絡中,2 種特征平均識別準確率達81.30%和82.27%,F(xiàn)caNet-MobileNetV2 網(wǎng)絡較ResNet 平均識別準確率提升了1.75%和3.38%。說明基于倒殘差結構FcaNet-MobileNetV2 網(wǎng)絡能夠有效處理小樣本,且提取到特征中更多的高維信息以及頻域信息,避免了特征信息損失,彌補了基于殘差結構的ResNet 對于小樣本中不能有效提取整體特征足夠多的信息缺陷,驗證了FcaNet-MobileNetV2 網(wǎng)絡的可行性與識別優(yōu)越性。同時通過不同的分類網(wǎng)絡也驗證了本文算法所提取特征參數(shù)的有效性。

另外,從本文所提NFCFCCAF 特征參數(shù)與加上反映其動態(tài)特性的NFCFCCAF-DS 特征參數(shù)在不同信噪比下的語種識別準確率可知,在3 種分類網(wǎng)絡下,NFCFCCAF-DS 動態(tài)特征參數(shù)的識別準確率都要高于靜態(tài)特征NFCFCCAF 的識別準確率。且在FcaNet-MobileNetV2 分類網(wǎng)絡下動態(tài)特征較靜態(tài)特征平均識別準確率提升了2.6%,特別在-5 dB 信噪比下語種識別準確率提升了5.7%。這說明NFCFCCAF-DS 特征參數(shù)在低信噪比下能夠有效反映出語音信號局部特征動態(tài)特性,同時有效表征語音信號的完整特性,具有較好的穩(wěn)健性。

5 結束語

針對低信噪比下語種識別準確率低與穩(wěn)健性差的問題,提出了一種結合自適應濾波與分數(shù)階小波變換的耳蝸倒譜系數(shù)提取算法。實驗采用自適應濾波對語音信號進行噪聲濾除,再將新型分數(shù)階小波變換作為小波基函數(shù)來模擬信號在耳蝸基底膜上的運動,然后通過模擬人耳聽覺過程提取出NFCFCCAF 特征參數(shù),最后將提取出的特征參數(shù)作為FcaNet-MobileNetV2 網(wǎng)絡的輸入進行分類識別。實驗對比了傳統(tǒng)CFCC 特征以及近幾年經(jīng)典的Fbank 等特征,本文算法的識別準確率都有顯著提升,相較于傳統(tǒng) CFCC 語種識別性能提升了10.28%,有效改善了傳統(tǒng)特征在低信噪比下識別準確率低的問題,具有較強穩(wěn)健性,且更具抗噪性,提高了語種識別準確率。由于本文實驗只針對特征提取進行改進,因此在未來的研究中,需要加強對語種識別的模型研究,以進一步提升語種識別性能及穩(wěn)健性。

猜你喜歡
特征信號
抓住特征巧觀察
信號
鴨綠江(2021年35期)2021-04-19 12:24:18
完形填空二則
新型冠狀病毒及其流行病學特征認識
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
孩子停止長個的信號
抓住特征巧觀察
基于LabVIEW的力加載信號采集與PID控制
一種基于極大似然估計的信號盲抽取算法
主站蜘蛛池模板: 亚洲精品日产精品乱码不卡| 精品无码国产一区二区三区AV| 久久久精品国产亚洲AV日韩| 无码AV动漫| 狠狠色综合久久狠狠色综合| 97国产在线视频| 中文字幕资源站| 国产男人天堂| 九色视频线上播放| 全部免费毛片免费播放| 欧美一级高清免费a| 免费观看男人免费桶女人视频| 午夜精品久久久久久久无码软件| 免费看美女毛片| 午夜a视频| 日韩精品亚洲一区中文字幕| 中文字幕久久波多野结衣| 成人福利在线视频免费观看| 国产精品.com| 欧美精品亚洲二区| 国产一级毛片网站| 色综合婷婷| 亚洲性视频网站| 思思热在线视频精品| 一级毛片免费播放视频| 色悠久久综合| 免费看av在线网站网址| 亚洲视屏在线观看| 日韩精品一区二区深田咏美| 国内丰满少妇猛烈精品播| 无码精品一区二区久久久| 日韩乱码免费一区二区三区| 国产日韩欧美中文| 日韩精品欧美国产在线| 国产成人8x视频一区二区| 亚洲视频在线观看免费视频| 精品一区二区三区波多野结衣| AV片亚洲国产男人的天堂| 亚洲无码高清视频在线观看| 免费国产小视频在线观看| 99国产精品国产高清一区二区| 久久精品国产91久久综合麻豆自制| 澳门av无码| 欧美日韩亚洲国产| 亚洲视频免费在线看| 69国产精品视频免费| swag国产精品| 天天躁夜夜躁狠狠躁图片| 无码高潮喷水在线观看| 国产制服丝袜无码视频| 亚洲乱伦视频| 国产一区在线视频观看| 色吊丝av中文字幕| www.91在线播放| 国产精品观看视频免费完整版| 色香蕉影院| 五月天丁香婷婷综合久久| 亚洲综合狠狠| 亚洲精品自产拍在线观看APP| 在线视频一区二区三区不卡| 一级一毛片a级毛片| 色爽网免费视频| 国产欧美日韩免费| 91亚洲视频下载| 中文字幕首页系列人妻| 91精品啪在线观看国产60岁| 国产va在线观看| 九九久久99精品| 成人免费午夜视频| 精品無碼一區在線觀看 | 亚洲av无码成人专区| 91欧美亚洲国产五月天| 亚洲av无码成人专区| 久久福利网| 一区二区三区四区日韩| 91在线无码精品秘九色APP| 亚洲首页在线观看| 亚洲综合九九| 欧美中文字幕无线码视频| 欧美日韩va| 国产精品天干天干在线观看| 亚洲国产精品久久久久秋霞影院|