基于自適應軟掩模的語音混合特征增強分析

2023-08-22 03:26:41閆澤愿

電子產品世界 2023年8期

閆澤愿

關鍵詞：語音增強；自適應軟掩模；DNN；混合特征

目前，音頻處理技術獲得了眾多學者的關注與研究，相關語音處理技術也得到了開發應用[1-2]。例如，在開展語音增強時，需要根據語音特征來判斷語音信息，各項語音特征對應的語音信息也存在差異，實際性能也具有明顯區別[3]。但根據傳統語音特征進行分析時，濾波器存在較大限制，并不能對人耳聽覺非線性過程達到良好匹配性，這對系統語音增強過程具有明顯阻礙[4]。其中，梅爾濾波器組在高頻率段表現為更加稀疏的特點，由此造成高頻特征丟失的結果，按照人耳耳蝸結構構建的伽馬通濾波器組能夠非常準確體現人耳基底膜結構特征，同時實現優異魯棒性能[5，6]。

根據上述研究結果，本文設計了一種以自適應軟掩模與混合特征共同分析的算法來實現語音增強的效果。以混合特征進行分析時，可以消除單一梅爾域濾波器無法提供高頻特征的缺陷。

1 本文方案

選擇IRM作為學習目標時，可以根據語音能量與噪語音強度比例將其設置于0～1 區間內。采用IRM 建立學習目標時，可以獲得較小失真度的增強語音，同時有效消除背景殘留噪聲。關于上述傳統學習目標控制情況，本文開發了一種以語音相位差實現的自適應軟掩模語音增強方法。上述學習目標綜合考慮了語音幅度與相位差，能夠對問題形成更深刻的理解。

以混合特征組成深度神經網絡輸入，再以融合相位參數的自適應軟掩模來實現語音增強的效果。此算法由訓練與測試2 個過程構成，從圖1 中可以看到包含混合特征與融合相位的系統框圖。

1.1 訓練階段訓練階段

第1 步先對純凈語音、信號噪聲、含噪語音實施預處理，之后利用Gammatone 濾波器對上述音頻信號開展時頻分解，由此獲得耳蝸值。進行反向調優時采用最小均方誤差法進行處理，結果見式（1）：

1.2 測試階段測試階段

先提取獲得語音特征參數，再將其輸入神經網絡模型內，并根據網絡模型確定學習目標。綜合考慮測試集含噪語音特征與時頻掩蔽值確定增強語音特征，最終利用含噪相位完成語音數據的重構。

2 實驗結果與分析

2.1 實驗數據的選取

為了對本文混合特征與自適應軟掩模過程的性能特點進行驗證，從IEEE 語音數據庫內選出90 條獨立語音，信號頻率保持一致。按照同樣信噪比對剩余20 條純凈語音與噪聲后半段進行混合處理形成測試集。

2.2 對比實驗分析

根據表1 給出的對比算法對本文混合與學習目標進行有效性測試。

以對比算法1 進行處理是為了對本文混合特征性能優異性進行驗證，根據對比算法2 與3 可知，本文建立的融合相位自適應軟掩模能夠滿足有效性要求。為實現對本文算法性能的更直觀判斷，將語音置于Factory 噪聲環境中，控制信噪比為5 dB 條件下獲得增強算法時域波形。

為綜合分析本文算法的實際處理性能，設置了PESQ 與STOI 兩個指標對混合特征與自適應軟掩模進行有效性驗證，得到表2～4 中在不同噪聲與信噪比環境中的PESQ 與STOI。根據表2 可知，帶噪語音信噪比為-5dB 的情況下，算法1 與2 顯示，對于各噪聲條件，PESQ 值提升了0.11 的均值水平，STOI 值則獲得了0.02的提升。會與算法2、3 相比，PESQ 值提升了0.21，同時STOI 提升了0.02。

根據表3 可知，帶噪語音信噪比為0dB 的條件下，各噪聲下的PESQ 值都提升達到0.18，STOI 值提升了0.01。與算法2、3 相比，PESQ 值提升了0.16，同時STOI 提升了0.01。

對表4 進行分析可知，設置帶噪語音信噪比5dB 的條件下，各種噪聲下的PESQ 值都提升了近0.12，此時STOI 值提升了0.01。PESQ 值提升0.16，STOI 指標提升0.01。

綜合分析表2～4 中各項參數得到以下結果：

1）對比算法1 與2 結果可知，混合特征增強語音屬于單特征MFCC，在所有信噪比與噪聲環境中，PESQ 值都提升了0.14，同時STOI 提升了0.01。根據算法1 與2 結果可以判斷本文設計的混合特征具備明顯優勢，對提升語音質量發揮著關鍵作用。

2）通過對比算法2 與3 結果可以發現，以本文融合相位差自適應軟掩模可以獲得比IRM 更顯著優勢，對于本文信噪比與噪聲環境，增強語音PESQ 值提升了0.18，同時提升了0.01 的 STOI。算法2 與3 表明采用本文融合相位差自適應軟掩模能夠在獲得更優增強語音質量的條件下改善可懂度。

3）比較算法1 與3 測試結果可知，經過優化處理的語音特征與學習目標構建得到的語音增強算法能夠促進語音質量的明顯提升。增強語音PESQ 值提升0.32，STOI 提升了0.03。表明本文設計的算法具備明顯優勢。

為準確分析實驗結果，將各算法對應的PESQ 與STOI 均值具體見圖2 與圖3。從以上結果中可以推斷本文設計的混合特征與融合相位自適應軟掩模具備明顯優越性。

圖2 給出了各信噪比下以不同算法獲得的增強語音PESQ 均值，結果發現，以自適應軟掩模與混合特征訓練神經網絡處理獲得的各信噪比PESQ 均值都超過其余兩種算法。由此表明采用本文經過改進后的語音特征與目標達到更優的算法性能。

圖3 給出了各信噪比下以不同算法獲得的增強語音STOI 均值，對圖3 進行分析可以發現，選擇自適應軟掩模與混合特征訓練神經網絡進行處理時獲得的各個信噪比下的STOI 值達到了最大。因此采用本文設計的混合特征能夠對語音特性達到更準確評價的效果，并且利用融合相位差的自適應軟掩模能夠對時頻單元掩蔽結果進行準確評估。通過上述兩者的結合后能夠在獲得更優增強語音質量的條件下進一步促進可懂度的提高。

3 結束語

1）選擇融合相位自適應軟掩模方式時，能最大程度去除背景噪聲，滿足有效性要求。

2）經過優化處理的語音特征與學習目標構建得到的語音增強算法能夠促進語音質量提升。

3）以自適應軟掩模與混合特征訓練神經網絡處理獲得的各信噪比PESQ和STOI值都超過其余兩種算法，采用本文經過改進后的語音特征與目標達到更優的算法性能。

電子產品世界2023年8期

電子產品世界的其它文章: 平板導體深層缺陷定量檢測仿真研究; 基于單Wi-Fi模塊的STA+P2P+AP共存方案; 對海康GigE相機以Python程序連接方法的研究; 基于ESP32S3的智能家居控制面板系統設計; 基于RK3588的8K無線投屏系統軟硬件設計; 基于RK3588的云電腦系統設計與實現