面向戰場環境下的語種識別

2023-08-08 14:56:08華英杰劉晶邵玉斌朵琳

兵工學報 2023年7期

華英杰, 劉晶, 邵玉斌, 朵琳

(昆明理工大學信息工程與自動化學院, 云南昆明 650500)

0 引言

語種識別(LID)是將一段未知的語音音頻文件輸入到語種系統端,提取其中的語種信息特征與訓練好的語種模型進行判別,輸出語種類型[1]。隨著各國頻繁的進行聯合演習,各國軍隊之間的通信也成為一大關鍵問題。軍隊通信往往伴隨著軍用設備噪聲源,導致各國軍隊無法很好地進行軍事聯合作戰,也影響海陸空多兵種之間的配合。目前,語種識別技術在高信噪比和平穩噪聲環境下已經取得了不錯的進展。然而軍用設備噪聲具有非平穩性和噪聲大的特點,導致識別性能不佳。

傳統的語種識別主要基于聲學層特征和音素層特征?；诼晫W層特征是通過對語音進行預處理再提取聲學層特征,采用多分類模型或統計模型。目前主流的聲學特征包括梅爾頻率倒譜系數[2](MFCC)、滑動差分倒譜[3]、感知線性預測系數[4]、伽瑪通頻率倒譜系數[5](GFCC)。主流的識別模型包括支持向量機[6]和混合高斯模型-全局背景模型[7]等?；谝羲貙犹卣髦饕紤]的是不同語種有不同的音素集合[8]。主流模型包括并行音素識別器后接語言模型[9]等。

近年來,深度神經網絡[10](DNNs)模型在語種識別領域得到快速發展。Jiang等[11]考慮到DNNs強大的特征抽取能力,提取了深度瓶頸特征。隨著圖像識別被引入到語種識別領域,Montavon等[12]提取線性灰度語譜圖特征(LGSS),將語種識別轉為圖像識別,取得了很大進展。Lopez等[13]將特征提取、特征變換和分類器融于一個神經網絡模型,后續在此基礎上又研發出不同的神經網絡,包括延時神經網絡[14]、殘差神經網絡[15](ResNet)等。Wang等[16]將注意力機制模型結合長短時記憶循環神經網絡搭建的端到端系統也取得了不錯的效果。Jin等[17]從網絡中間層中提取LID-senone特征。同年Cai等[18]提出了一種基于可學習的字典編碼層的端對端系統,從底層聲學特征直接學習語種類別的信息,摒棄了聲學模型,也取得了較優的識別性能。Deshwal等[19]提出了一種基于混合特征提取技術和前饋反向傳播神經網絡分類器的語言識別方法。Li等[20]提出了基于多特征和多任務模型的深度聯合學習策略的識別方法。Bhanja等[21]提出了基于自動聲調和非聲調預分類的語種識別方法。

目前,針對戰場環境下進行語種識別研究鮮見報道。本文基于國內外語種識別技術和圖像處理技術進行研究,提出了一種基于語譜圖灰度變換的戰場環境下的語種識別方法。本文的主要貢獻有3個方面:

1)根據語音和噪聲信息在頻率上分布的規律,提出一種帶通濾波的處理方法,在盡可能減少信息丟失的情況下,一定程度上抑制高頻段噪聲的影響。

2)提出模擬人耳聽覺特性的對數灰度語譜圖特征,增強了特征的抗干擾能力。

3)目前語音學的方法對復雜噪聲信號的抑制不理想,導致低信噪比環境下的語種識別率不高。本文提出了一種基于語譜圖灰度變換的噪聲抑制方法,通過自動色階算法對對數灰度語譜圖的語音信息部分進行增強,對噪聲部分進行抑制。實驗結果表明,本文方法對于戰場環境下的語種識別效果良好。

1 模型構建

本文搭建了主流的圖像識別網絡作為語種識別系統:基于ResNet的語種識別系統,是一種卷積神經網絡,由微軟亞洲研究院He等[15]提出。以美國俄亥俄州立大學Nonspeech公開噪聲庫中的噪聲來構建不同噪聲源下不同信噪比的語料庫。

1.1 ResNet模型

普通的卷積網絡是非線性的,即每層卷積連乘。而ResNet向前過程是線性的,即原始輸入加上這層殘差結果作為下一層的輸入。ResNet的最大特點就是解決了梯度爆炸和梯度消失問題,而且與普通卷積網絡相比誤差更小,在圖像識別領域的誤差只有3.57%,比人眼誤差小1.53%。

1.2 帶噪語音生成模型

本文研究戰場環境下的語種識別問題,采用Nonspeech公開噪聲庫中的9種不同噪聲源:白噪聲(WN),驅逐艦作戰室背景噪聲(DORBN),軍用車輛噪聲(MVN),高頻信道噪聲(HFCN),粉紅噪聲(PN),車內噪聲(VN),F16座艙噪聲(F16CN),掠奪者戰斗機駕駛艙噪聲(BFCN),機槍噪聲(MGN),構建信噪比SNR為-10～25 dB的語料。平均信噪比定義如下:

(1)

2 語種特征提取

本文提出的基于語譜圖灰度變換的特征提取處理方法流程如圖1所示。首先將語音信號進行帶通濾波,得到中低頻段的語音;之后提取中低頻段語音的對數灰度語譜圖;最后將對數灰度語譜圖通過自動色階算法進行圖像增強處理,得到噪聲抑制后的對數灰度語譜圖。

圖1 特征提取流程

2.1 語種信息和干擾信息的分布特性

語音學研究表明,語音中低頻信息能量高、高頻部分能量較少,而且人耳對高頻信息分辨率不高[22]。圖2包括Nonspeech公開噪聲庫中9種不同噪聲和一段4 min、采樣率為fs=8 000 Hz、單通道的wav格式的語音信息和噪聲信息功率密度隨頻率的分布圖。

圖2 語音信息和噪聲信息功率密度隨頻率分布圖

由圖2可知,語音信息集中在中低頻部分,有6種噪聲的能量在高頻部分超過語音信息,有8種噪聲能量在極低頻部分高于語音信息。因此采用帶通濾波器濾掉高頻部分和極低頻部分。濾波只會使得語音略顯低沉,稍微降低語言的清晰度,但是保留了大部分語種信息,濾除大量噪聲信息,間接提升了信噪比。本文采用的是巴特沃斯帶通濾波器,實驗結果表明通帶帶寬B的范圍為1 000～1 500 Hz,濾波器階數為4階時效果較好。

下面以高斯白噪聲為例,因為WN均勻分布在各個頻率段上,濾波后噪聲損失的能量大于語音損失的能量,所以濾波后信噪比計算公式為

(2)

(3)

2.2 基于聽覺感知的灰度語譜圖

語音的時域分析和頻域分析是語音分析的兩種重要方式,時域分析目前有共振峰、短時平均能量等,頻域分析有MFCC、GFCC等[23]。兩種單獨分析方式都有一定局限性,時域分析沒有對頻域進行直觀了解,而頻域分析又沒有分析語音信號隨時間的變換關系[24]。因此本文引入一種既包含頻譜圖的特點也包含時域波形圖的特點的三維頻譜圖,即語譜圖。語譜圖具有語音頻譜隨時間變化的信息,還包含了大量與語種相關的信息。由于耳蝸的構造決定了頻率的空間分布不是線性的,而是接近對數的,采用對數灰度語譜圖可以更好地模擬人耳的聽覺特性,增強語譜圖可辨識度[25]。語譜圖是采用二維平面表達三維信息,橫軸為時間,縱軸為頻率,任意給定頻率成分在給定時刻的強弱用相應點的灰度來表示。

對數灰度語譜圖生成步驟包括分幀加窗、離散傅里葉變換、計算能量密度譜,并生成對數灰度語譜圖。具體流程如下:

1)分幀:對帶通濾波的語音信號x(n)分幀,實驗取幀長256,幀移128,分幀后的第i幀信號為xi(n)。

2)加窗:對第i幀信號xi(n)進行加窗處理,實驗使用的是漢明窗,加窗后的第i幀信號為si(n)。

3)離散傅里葉變換:將第i幀信號si(n)進行短時傅里葉變換,定義如下:

(4)

式中:Si(k)為信號si(n)的短時傅里葉變換,k為頻譜系數;N為采樣點數。

4)能量密度譜:是一個二維的非負數實值的函數,定義如下:

Pi(ω)=|Si,t(k)|2

(5)

式中:Pi(ω)為第i幀能量;Si,t(k)為信號在t時刻和頻率k處的復數振幅。

5)能量密度譜對數化:將能量譜分貝化,

(6)

6)頻率對數化:將頻率對數化,從而模擬人耳聽覺構造,公式如下:

ω1=log2(ω)

(7)

式中:ω1為頻率的對數化。

圖3 線性灰度語譜圖和對數灰度語譜圖

2.3 基于語譜圖灰度變換的噪聲抑制算法

為了在傳統的噪聲抑制信號處理中取得好的效果,需要確保所做的假設符合該場景,而且濾波采用的統計量也要估計正確,但這些假設在真實的噪聲環境下很難準確做到。目前,研究人員采用深度學習算法進行噪聲抑制,然而該類方法需要大量的訓練數據集,不然魯棒性極差,可能在某個環境下性能良好,換個環境則性能急劇下降。而且深度學習方法的性能和優化指標很有關系。針對上述問題,本文提出了一種基于語譜圖灰度變換的噪聲抑制方法。采用圖像處理方法進行戰場環境下噪聲信號的抑制。對數灰度語譜圖上噪聲信息的像素值和大部分語音信息的像素值相差明顯,因此采用自動色階算法進行圖像增強,以降低噪聲的影響、增強語種信息。

自動色階算法[26]主要利用直方圖統計各個像素值,將像素值高于高閾值的像素點設為255,低于低閾值的像素點設為0,最后將像素值經過線性量化重新分配像素值,這樣既可以使其他部分噪聲像素值變小,也增強了圖像的可辨識度。算法流程圖如圖4所示。

圖4 自動色階算法流程

閾值定義如下:

Tmin=max (u1),u1(n)=u0(n),1≤n≤K×α

(8)

Tmax=max(u2),u2(n)=u0(n),1≤n≤K×(1-β)

(9)

式中:Tmin為低閾值;Tmax為高閾值;u0為直方圖統計的總像素值從小到大的向量;u1為低于低閾值的向量;u2為低于高閾值的向量;α、β為可控的色階因子;K為像素點的總個數。

本文采用線性量化方式得到最終增強的圖像,將像素值在高低閾值之間的像素值通過線性量化重新分配像素值,量化公式如下:

(10)

式中:R為量化后的像素值;Rs為高低像素閾值之間的像素值;s為每個通道得到的最小值;l為每個通道的最大值。

在9種不同噪聲源下,5 dB語音原始圖像和經過自動色階算法增強的圖像如圖5所示。從圖5中可以看到,經過自動色階處理的圖像相對于原始圖像更加清晰,噪聲掩蔽信息的效果也減小,使得語種信息更加凸顯,圖像更具辨識性。

圖5 不同噪聲源下5 dB原始語譜圖(左)和增強語譜圖(右)

3 語種識別實驗

3.1 實驗設置

1)訓練集:語料庫采用中國各大廣播電臺的廣播音頻,共包含5個語種:漢語、藏語、維吾爾語(簡稱維語)、英語、哈薩克斯坦語(簡稱哈語)。每個語種包含600條、采樣率fs=8 000 Hz、單通道的wav格式、時長10 s的音頻文件。采用Nonspeech公開噪聲庫中的WN作為背景噪聲,每個語種包含信噪比等級SNR=[5 dB,10 dB,15 dB,20 dB,25 dB]的語音各100條,以及未加噪的語音100條。

2)測試集:語料庫采用區別于訓練集的其他廣播電臺的廣播音頻。每個語種171條,分別與Nonspeech公開噪聲庫中的9種噪聲源,構建9種不同噪聲源的語料庫,每種語料庫包含信噪比等級SNR=[-10 dB,-5 dB,0 dB,5 dB,10 dB]的音頻,從而構成45個測試數據庫。

(11)

式中:Ap、Az、Aw、Ay、Ah分別為不同語種的識別正確個數;A為總識別個數。

F1分數定義如下:

(12)

(13)

式中:V為語種個數;F1n為每個語種的F1分數,

(14)

Precisionn和Recalln為每個語種的精確率和召回率,

(15)

(16)

TP表示預測為正確的正樣本,FP表示預測為錯誤的正樣本,FN表示預測為錯誤的負樣本。

3.2 實驗結果與分析

3.2.1 可控色階因子參數選取

表1給出了可控色階因子α、β不同數值在測試和訓練都是WN環境下的識別率。由于WN相對更加平穩,在所有類型噪聲中相當于中間值,當調節好WN信號所適合的色階因子后,其他非平穩噪聲信號就可以在這個基礎上得到相對較好的噪聲抑制效果。從表1中可以發現,當α=0.45、β=0.35時效果最佳。

表1 α、β不同數值時的識別率平均值

3.2.2 語種模型構建與參數選取

本文構建的Resnet模型主要由多個殘差模塊堆疊實現,圖6為ResNet的語種模型基本結構單元。

圖6 ResNet模型的基本結構單元

在基本結構單元中,s為輸入,relu為激活函數,σ如下:

(17)

F(s)為結構單元在第2層激活函數之前的輸出。最后殘差單元的輸出是經過relu激活后得到的激活值σ(F(s)+s)。非線性映射過程F(s)為

F(s)=λ2σ(λ1s)

(18)

式中:λ1和λ2分別為第1層和第2層卷積的權重。

本文搭建的網絡主要由一個卷積層、一個最大池化層、8個殘差模塊、一個平均池化層和一個全連接層組成。采用交叉熵作為損失函數、Adam作為優化器,未采用預訓練模型。針對本文搭建的語種模型,調整模型的層數、學習率及迭代次數。根據實驗過程中的識別正確率及損失函數值,最終本文采用的模型層數為18層,學習率為0.000 1,迭代次數為30次。

3.2.3 戰場環境下的語種識別實驗

為驗證9種戰場噪聲環境下本文方法的有效性及魯棒性,并分析其優劣的原因,設計了8組實驗。

實驗1:提取文獻[27]中64維的梅爾尺度濾波器能量(Fbank)作為語種特征。

實驗2:提取文獻[12]中的LGSS作為語種特征。

實驗3:提取文獻[11]中的DBF特征作為語種特征。

實驗4:提取文獻[28]中的FRSCIRT特征作為語種特征。

實驗5:提取對數灰度語譜圖(TGSS)作為特征訓練識別,驗證對數灰度語譜圖的有效性。

實驗6:提取濾波對數灰度語譜圖(FTGSS)作為語種特征,驗證濾波可以消除部分噪聲的影響。

實驗7:提取圖像增強的濾波對數灰度語譜圖(FTGSSE),驗證本文最終方法的有效性及魯棒性。

由實驗1～實驗5可知,在WN環境及5種信噪比等級下,TGSS特征均優于Fbank特征和LGSS特征。由于TGSS更好地模擬了人耳的聽覺效應,抗干擾能力更強。在較高信噪比下相對于DBF特征有所不足,DBF特征經過多層神經網絡減少了說話人信息的干擾,但是信噪比較低時DBF特征不能通過網絡層數濾除噪聲信息,導致識別性能不佳。與FRSCIRT特征相比,TGSS特征識別性能不佳,盡管FRSCIRT特征很好地解決了說話人信息的干擾,又融合了抗干擾能力強的特征,但是在低信噪比下,識別性能依然不佳。

對比實驗5、實驗6可知,FTGSS特征相對于TGSS特征,識別性能有了些許提高,由于FTGSS特征引入了帶通濾波,將高頻和極低頻部分的大量噪聲濾除,從而間接提高了信噪比。

對比實驗4、實驗6、實驗7可知,FTGSSE特征相對于FTGSS特征在識別性能上有了大幅度提升。由于FTGSSE特征對FTGSS特征進行了圖像噪聲抑制,間接增強語種信息,使得語種之間的特征區分度更高。相對于FRSCIRF特征,在5種信噪比下,分別提升了23.5%、15.8%、6.5%、4.3%和2.2%。由于FRSCIRF特征沒有從根本上對噪聲進行抑制,導致低信噪比下識別性能不佳。在較高信噪比下,FTGSSE提升不明顯,是由于一部分語種信息被抑制了。

根據表2所示其他8種噪聲環境下的實驗結果可知,在訓練集背景噪聲為WN的情況下,對不同背景噪聲的測試集進行測試,本文提出的FTGSSE特征在大部分場景下具有明顯的優勢,而且保持較高的識別性能和高魯棒性。在VN源和MGN源環境極低信噪比下,識別性能不如FTGSS特征,是由于噪聲集中在低頻部分,導致采用圖像處理方法不能很好地抑制掉噪聲,反而語種信息被抑制掉一部分。從表2中可知,本文提出的TGSS特征在所有場景下都優于LGSS特征,是由于TGSS特征模擬了人耳的聽覺特性,從而具有更好的抗噪性能。FTGSS特征相對于TGSS特征在所有場景下識別性能也取得了一定的提升,由于FTGSS特征濾除了高頻和極低頻部分,間接地提升了整段語音的信噪比,識別性能有所提升。

表2 不同噪聲源和不同信噪比下的語種識別正確率

根據表3所示實驗所得的F1分數可知,本文提出的FTGSSE相對于LGSS,在保持較高識別正確率的前提下,依然具有較高的召回率和精確率,表明本文提出方法的魯棒性高。圖7為不同噪聲源在信噪

表3 不同噪聲源和不同信噪比下的語種識別F1分數

圖7 不同噪聲源0 dB下FTGSSE方法的混淆矩陣圖

比為0 dB環境下的語種識別混淆矩陣圖,從中可知,除了漢語外,其他4種語言在4種噪聲環境下都保持較高的識別精度。

圖8為9種噪聲環境下,采用FTGSSE特征和LGSS特征的平均識別正確率。從圖8中可知,在9種噪聲環境下,FTGSSE特征平均識別正確率都高于LGSS特征,分別提升了31.5%、39.2%、25.3%、32.0%、19.8%、10.1%、29.6%、31.8%和2.8%。而且在訓練集為WN的情況下,測試其他噪聲依然保持較高的識別正確率。由理論和實驗結果可知,本文提出的FTGSSE特征具有較高的魯棒性和識別性能。平均識別正確率的定義如下:

圖8 不同噪聲環境下的平均識別正確率

(19)

4 總結

本文針對戰場環境下噪聲類型復雜多樣性,導致目前語種識別方法很難在戰場環境下很好地應用,提出了FTGSSE特征解決戰場環境下的語種識別問題。在訓練集背景噪聲為WN、測試集為9種噪聲環境下,FTGSSE特征依然保持較高的識別性能和高魯棒性。后續考慮對模型進行改進,引入注意力機制及多任務學習機制,實現對不同噪聲環境下采用不同的噪聲抑制方法。