基于雙模態融合特征的模糊語音識別研究

2022-01-25 10:25:48馮曉靜白靜薛珮蕓戎如意

電子設計工程 2022年2期

馮曉靜，白靜，薛珮蕓，戎如意

（太原理工大學信息與計算機學院，山西晉中 030600）

語音作為信息交互最直接、最便捷的載體，在人機交互中發揮著重大作用。語音識別作為一種人機交互的關鍵技術，發展到如今已經取得飛躍性的進步。但是在某些特定詞匯的識別中，其性能就變得差強人意。如模糊語音，即那些具有相近發音機理，在聽覺上易混淆，容易被系統誤識的語音。這些語音的存在是影響語音識別的主要因素，是漢語普通話語音識別錯誤的主要來源。

對于模糊語音的研究，單靠音頻信息一種模態是遠遠不夠的，而語音是一種多模態的通訊方式，包括視覺、聽覺、發音器官運動等多種自然模態和大腦活動等非自然模態[1]，可以選擇多種器官協同工作的“多模態”機理[2]來進行研究。近年來，多模態融合的研究方式逐漸增多，例如黃立鶴[3]的《語料庫4.0:多模態語料庫建設及其應用》、基于決策融合的雙模態語音情感識別[4]以及特征融合的雙模態[5]識別研究。

基于此，文中從數據庫出發,選擇了5 位男生和5位女生共計10 位被試者，利用電磁發音儀（Electromagnetic Articulograph，EMA）和筆記本電腦同步采集被試者說話時發音器官的運動數據與音頻數據，經過濾波、篩選、加噪，建立雙模態模糊語音數據庫。然后從特征域出發，選擇聲學特征與發音器官運動特征。為了研究不同信噪比下模糊語音的魯棒性與抗噪性，設計了以支持向量機(SVM)為模型的語音識別實驗進行分類，并且對單模態特征與雙模態融合特征進行了對比研究。

1 特征提取

為了進一步提高惡劣環境中語音識別的正確識別率，分別提取不同信噪比下模糊語音的聲學特征與運動學特征[6]，對不同的特征進行特征層融合驗證，得到不同的雙模態融合特征組合。

1.1 運動學特征

語音的產生過程是一個十分復雜的過程。由大腦、呼吸系統、聲帶以及舌部、唇部、齒等發音器官的相互配合最終形成人們所需要的語音。通過研究發音器官的生理特性，以鼻梁和雙耳為參考點減小頭部轉動帶來的誤差，采集舌、唇、頜部的運動數據，根據發音器官的軌跡數據計算唇、舌尖、舌中的位移、速度、發音運動起始時間等作為發音動作特征[7]（Articulatory Movement Features，AMF）。

發音運動特征的數據由EMA 采集，每個傳感器都是一個獨立的信息通道，并且所有傳感器都在同一個三維坐標空間中，前后方向為X軸，左右方向為Y軸，垂直方向為Z軸。通過軟件Visartico 來觀察發音器官的運動軌跡并提取運動學特征。實驗結果表明，舌部和下頜的運動軌跡幅度要大于唇部的運動幅度，X軸和Y軸的運動幅度也比Z軸的運動幅度大，可以更加清晰地表征語音的信息,所以最后選擇舌部和下頜的Z軸和Y軸來提取發音運動特征。音素/an/和/ang/的發音軌跡對比如圖1 所示，所選數據是舌尖和下頜在Y軸和Z軸方向的運動軌跡，由圖中可以看出這兩個音素的發音軌跡有明顯的區別，相較于下頜，舌尖的運動軌跡區別尤為明顯。

圖1 /an/和/ang/的發音軌跡對比

從運動軌跡提取速度與位移特征，位移指相對于初始位置傳感器的移動距離；速度指發音器官在每一時刻的位移變化量，是位移對時間的一階導數，計算公式如式（1）所示：

式中，Sx表示X軸最大位移，x(t)表示t時刻傳感器的X軸坐標值，x(0)表示初始時刻傳感器的X軸坐標值，Z軸同理。

如圖2所示，是/an/的發音器官舌尖和舌根的運動軌跡與其對應的語音波形圖。可以看出發音器官從開始發音到發音結束是一個完整的信號[8]，并且運動軌跡波形先于發音波形，因此選擇發音運動的起始時間（Articulator Onset Time,AOT)作為另一種運動特征。

圖2 /an/的發音器官運動軌跡及語音波形圖

最終選擇舌尖、舌根以及下頜3 個傳感器上X軸與Z軸的AOT、速度和位移數理統計值的最大值、最小值、標準差作為最終的運動學特征，共計42 維。

1.2 聲學特征

除了對運動數據提取發音運動學特征之外，還需要對音頻數據提取聲學特征，而文中所選的聲學特征包括韻律特征、伽瑪通濾波倒譜系數[9-10]（GFCC）、梅爾濾波倒譜系數（MFCC）以及耳蝸濾波倒譜系數[11](CFCC)特征。

韻律特征指的是語音中除音質特征之外的高音、音長和音強方面的變化，是語音研究中的重要特征。文中選擇語速（一維）、平均過零率（一維）、振幅及振幅變化率的統計值（6 維）、基頻及基頻變換率的統計值（6 維）、短時能量及其變換率的統計值（6 維）中前3 個共振峰的統計值及一階差分（24 維），共計44 維的韻律特征。

MFCC[12]是現如今語音識別領域使用最經典的聲學特征之一，基于人耳聽覺特性，采用梅爾濾波器。在梅爾刻度下，人耳對聲音頻率的感知呈線性關系，具體如式（2）所示，其中f為語音頻率。

文中選擇離散余弦變換后的前12 維特征進行數理統計，選其最大值、最小值、平均值、中位數和標準差共計60 維。

GFCC 與MFCC 的不同之處在于用伽瑪通濾波器代替了梅爾三角濾波器，在一定程度上減小了噪聲對特征提取的影響。每個濾波器的帶寬與人耳的臨界頻帶有關，如式（3）所示：

CFCC[13]是2011 年開始提出的一種使用聽覺變換提取的特征參數。將耳蝸濾波函數作為一種新的小波基函數,運用小波變換實現濾波過程,代替快速傅里葉變換模擬人耳聽覺機理。

首先定義了一個耳蝸濾波函數ψ(t)，并且滿足以下條件：

假設f(t)為經預處理后的語音信號，經過聽覺變換后在某一頻帶范圍內的輸出為：

具體的耳蝸濾波函數如式（6）所示，u(t)為單位階躍函數，b為可變實數，為尺度變量，α和β是大于0 的實數，取經驗值3 和0.2。

經過聽覺變換的信號還要通過耳蝸內的毛細胞去極化才能轉變為人腦可分析的電信號。其中毛細胞函數用式（7）來模擬：

然后對毛細胞函數的輸出結果進行非線性變換，將能量值轉換為感知響度。傳統的CFCC 進行立方根變換如式（8）所示：

最后進行離散余弦變換，減去貢獻量很小的特征向量，降低特征向量間的相關性，減小特征向量的冗余度，得到耳蝸濾波倒普系數CFCC1。

根據MFCC 的提取過程，改進非線性變換函數，可以對毛細胞輸出結果進行對數變換，如式（9）所示：

語音信號的每一幀對于識別結果的貢獻是不同的，并且特征參數的階數越高越不易受噪聲影響，可以有很好的抗噪性與魯棒性。因此選擇半升正弦函數進行倒譜提升，對特征參數進行改進，降低易受噪聲干擾的低階向量。所選用的倒譜提升窗函數為式（10）所示，第一個1/2 的作用是保證倒譜分量的完整性，第二個1/2 是對低階分量進行加權計算。

最終經過提升對數變換和半升正弦函數倒譜，改進后得到新的特征CFCC2。計算公式如式（11）所示：

1.3 特征層雙模態融合

目前多種信息融合的方法主要有兩種，分別是特征層早融合和決策層晚融合[14]。特征層融合的優勢是可以同時得到更多的模態信息，更好地捕捉各模態間的關聯。

首先進行運動特征間各傳感器的特征融合，將各傳感器的特征向量首尾相連組成一個新的特征向量。

然后進行運動學和聲學雙模態間的特征融合。假設x,y是兩個模態的特征向量，則復合向量z=x+iy（i 是虛數單位）為x,y的融合特征向量。如果維度不一致，則對低維補0。

最后通過核主成分分析（KPCA）對融合特征降維。KPCA 是對主成分分析（PCA）的非線性擴展，能夠挖掘到數據集中蘊含的非線性信息，在保持原數據信息量的基礎上達到降維的目的。文中選擇高斯徑向基核函數(RBF)來完成降維工作，如式（12）所示：

通過非線性函數映射到高維后對其進行主成分分析，在高維空間進行降維，通過KPCA 降維后的數據如式（13）所示：

其中，Q是在高維降維后的降維矩陣。

2 語音識別模型選擇

支持向量機（Support Vector Machine，SVM）根據統計學知識和結構風險最小化來構建分類器和回歸器，結合了感知機和logistic 分類回歸思想。對于線性不可分的樣本，通過核函數把原來的樣本空間映射到高維空間上來尋求最優分類的超平面，即最大間隔分離超平面，從而將非線性分類問題轉換為線性分類問題。SVM 超平面分類示意圖如圖3 所示。

圖3 SVM超平面分類示意圖

文中選用的是RBF 核函數，采用六折交叉驗證進行分類實驗。利用平均分類精度（MCA）得出6 個識別結果，再取6 個結果的平均值為最終的評價指標。假設有N個數據，隨機分成6 份，每一份都循環作為測試集，其他5 份作為訓練集。MCA的定義如式（14）所示：

其中，Ni表示預測類別標簽與真實類別標簽相同的個數。

3 實驗數據

該文主要研究了雙模態模糊語音在不同信噪比下的抗噪性與魯棒性，所選實驗數據應該包含多種模態信息。伴隨著發音器官數據采集技術的改進，從X-ray 到實時磁共振技術（rMRI）再到EMA 和電聲門圖儀（EGG），采集難度降低的同時對人體傷害也減小。目前，國外包含發音器官運動的多模態語音數據庫有USC-TIMIT 語料庫[15]，是MRI 唯一公開的大型MRI 數據集；EMA-IEEE 數據集[16]包括4 名男性與4 名女性以正常速度和快速讀720 條語音平衡的IEEE 句子。但是很難找到漢語普通話含發音器官運動數據的多模態語音庫，所以文中選擇自建雙模態模糊語音數據庫。

選擇10 位（5 男5 女）被試者，要求每個被試者的水平都在普通話二級乙等以上，并且都不曾進行過口腔手術。對篩選后的文本信息進行錄制，每個文本錄制3 次。具體篩選后的文本信息如表1 所示，選擇8 對容易混淆的韻母音素，與不同的聲母組成孤立詞。

表1 韻母文本信息表

通過筆記本電腦和EMA 儀器同步錄制音頻數據和發音器官的運動數據。其中音頻數據的采樣率為16 kHz，EMA 的采樣率為400 Hz。一共設置11 個傳感器，其中8 個用于收集有效數據，具體位置[17]是舌部設置3 個傳感器，最佳位置距舌尖19.93 mm，38.2 mm 和80.51 mm；唇部設置4 個傳感器；下齒槽設置一個傳感器，最佳位置距下唇的距離為26.37 mm 處。另外3 個是參考傳感器，目的是消除頭部運動產生的誤差，分別位于鼻梁、左耳后和右耳后。

用Praat 篩選聲學數據，Visartico 軟件篩選運動學數據，經過雙重篩選之后，對音頻數據加入不同信噪比的白噪聲和混合噪聲。篩選后數據庫中語音類型數量如表2所示，共計1 268條運動數據，6 300條含噪語音數據。

表2 篩選后數據庫中語音類型數量

4 實驗結果與分析

為了驗證模糊語音的不同特征在兩種噪聲條件下的識別性能，選擇文中自建的雙模態模糊語音數據庫，分別提取單模態的特征以及雙模態的融合特征，經過語音識別模型后得出確切的識別率。

4.1 單模態特征識別結果

對提取的5 種聲學特征進行特征識別性能驗證，白噪聲條件下的識別率如表3 所示，混合噪聲條件下的識別率如表4 所示。

表3 單模態白噪聲識別率

表4 單模態混合噪聲識別率

從表3 和表4 中可以發現，韻律特征的識別率在5 種聲學特征中最低，CFCC 特征相較于GFCC 和MFCC 有較好的識別率，說明基于聽覺變換濾波的特征相比于梅爾變換濾波和伽瑪通濾波的特征能更好地表征語音的信息。而對數變換的CFCC2 的識別率又優于傳統立方根變換的CFCC1 的識別率，說明對數變換相較于立方根變換能更好地模擬耳蝸聽覺變換。

對比表3 和表4，在低信噪比時，白噪聲下的韻律特征和GFCC 特征的識別率要高于混合噪聲下同類噪聲的識別率，但是總體而言，混合噪聲下的識別率要高于白噪聲下的識別率。

4.2 雙模態融合特征識別結果

選擇單模態中識別率較高的3 種特征：MFCC、CFCC1 和CFCC2，與提取的運動學特征進行雙模態融合，然后分別得到融合1、融合2 和融合3 三種雙模態融合特征，將它們作為輸入樣本進行分類識別，在白噪聲和混合噪聲兩種噪聲背景條件下，具體的分類識別結果如表5 和表6 所示。

表5 雙模態白噪聲識別率

表6 雙模態混合噪聲識別率

對比表3和表5，表4和表6，可以發現3種融合特征都比原單模態的識別率有所提升，說明了雙模態融合特征相較于單模態特征能更完整的表征語音中蘊含的信息，可以對單一信息進行補充，混合噪聲下的識別率依舊高于白噪聲下的識別率。計算不同信噪比下識別率的提升幅度，得出如圖4、圖5 的結果。

觀察圖4 和圖5，在同一信噪比下，不同特征的提升幅度不同，同一種特征在不同信噪比下的提升幅度也不同。但總體而言，低信噪比下的提升幅度要高于較高信噪比下的提升幅度。隨著信噪比的增加提升幅度越來越小，在白噪聲背景下，提升幅度最高為6.53%，混合噪聲下提升幅度最高為6.39%。

圖4 白噪聲下識別率提升幅度

圖5 混合噪聲下識別率提升幅度

5 結論

文中建立了含有發音器官運動數據和語音音頻數據的雙模態模糊語音數據庫，其中包括音素和孤立詞兩種類型的文本，總計有1 268 條運動數據和6 300 條語音數據。然后從特征域入手，對具有相似發音機理、在聽覺上容易混淆且易被智能機器誤識的模糊語音提取聲學特征以及運動學特征，從特征層進行雙模態融合，選擇核主成分分析算法通過降維減小冗余，然后根據支持向量機模型設計語音識別實驗，在白噪聲和混合噪聲的背景條件下對所提出的特征進行測試，研究其抗噪性與抗魯棒性。實驗結果表明，在兩種噪聲條件下對數變換的耳蝸倒譜系數特征CFCC2 始終優于GFCC、MFCC 和立方根變化的CFCC1，可達86.95%。雙模態融合特征可以從多個角度更加完整的表征語音信息，相比于單模態特征識別率有較大提升，在低信噪比情況下的提升幅度要明顯的大于較高信噪比下識別率的提升幅度，最高可提升6.53%。在今后的研究中，可以進一步地擴充雙模態模糊語音數據庫，為模糊語音識別研究提供可靠的語音數據平臺。