基于閾值的英語語音自動識別系統研究

2020-09-02 07:14:46鄧麗君王濤

微型電腦應用 2020年8期

鄧麗君王濤

摘要：

語音識別系統的關鍵在于噪聲的處理，主要包含兩個階段，即基于閾值的噪聲檢測和降噪處理，主要用于英語等語言的自動識別處理。在噪聲檢測階段，系統基于所收集的語音的信噪比（SNR）值自動確定何時提高語音質量;在降噪處理階段，采用獨立分量分析（ICA）和子空間語音增強（SSE）來降低噪聲。通過實驗證明增強語音的SNR值超過接收到的噪聲語音的SNR值約20dB至25dB，降噪程序將語音識別率提高了約15%至25%，因此該系統能夠降低噪聲對多種噪聲環境的影響，提高語音質量，達到英語語音識別的目的。

關鍵詞：

語音識別系統; 噪聲檢測; 降噪處理; 獨立分量分析; 語音增強

中圖分類號： TP 393

文獻標志碼： A

Research on English Speech Automatic Recognition System Based on Threshold

DENG Lijun1， WANG Tao2

（1. School of Aviation Management Department， Xian Aeronautical Polytechnic Institute，Xian， Shanxi 710089， China;

2. Internet Information Center， Xian Aeronautical University，Xian， Shanxi ?710089， China）

Abstract：

The key to speech recognition system lies in the processing of noise. It mainly consists of two stages， namely thresholdbased noise detection and noise reduction processing for automatic recognition processing in English and other languages. During the noise detection phase， the system automatically determines the time to improve speech quality based on the signaltonoise ratio （SNR） value of the collected speech; in the noise reduction processing phase， independent component analysis （ICA） and subspace speech enhancement （SSE） are used to reduce noise. It is proved by experiments that the SNR value of the enhanced speech exceeds the SNR value of the received noise speech by about 20dB to 25dB， and the noise reduction program increases the speech recognition rate by about 15% to 25%， so the system can reduce noise for various noise environments. The impact of improving voice quality achieves the purpose of English speech recognition.

Key words：

speech recognition system; noise detection; noise reduction processing; independent component analysis; speechenhancement

0引言

自動語音識別（Automatic Speech Recognition，ASR）提供了用戶友好的交互方式，有效地將命令或請求傳送到人機界面的設備。這些設備可以自動分析接收到的數據，并采用識別結果一致的方式反饋用戶。近年來，對ASR的研究考慮了許多場景和應用，許多文獻都涉及智能人機交互的ASR[1]，當ASR系統用于真實環境中，特別是噪聲環境時，環境噪聲會嚴重影響語音質量，同時環境噪聲會影響語音的信號分量，并對識別結果產生較大表示。為了解決噪聲問題，學者們已經開發了許多減輕噪聲對ASR發展影響的方法[2]。

為了使ASR系統在嘈雜環境中更加穩健，近年來人工神經網絡（ANN），特別是深度神經網絡（DNN）的方法已廣泛應用于ASR的語音增強。 DNN的目標是實現復雜的非線性數值函數，用于將嘈雜語音的對數似然譜特征直接映射到相應的干凈語音中。在DNN模型訓練中，一些研究開發了混合語音和噪聲數據的多風格訓練策略。盡管基于DNN的方法可以實現ASR的高精度改進，但DNN模型需要更多的訓練數據來進行綜合，訓練數據的數量甚至超過基于HMM的系統[34]。

針對當前業界研究的ASR方法，本文主要考慮兩個方面：第一個是降噪方法，第二個是訓練數據的方式。在降噪方法中，這項工作試圖開發一種基于盲源分離（Blind Source Separation，BSS）的方法來消除環境噪聲。由于環境噪聲在許多環境中是未知的和變化的，因此不需要噪聲信息的降噪方法足以將噪聲與有噪聲的語音分離。為了提高語音質量以進行識別，將另一種語音增強方法與基于BSS的方法相結合。密切調查不同的噪聲情況，當噪聲信號間歇性時，噪聲信號在幾個時間間隔內可能不明顯。在這種情況下，不能使用降噪，因為過濾語音可能導致語音失真并降低語音識別率。為了防止語音過度過濾的情況，本文提出了一種稱為基于閾值的噪聲檢測的預處理方案。所提出的方案可以根據噪聲的大小自動確定何時應該消除噪聲，關于訓練數據，由于訓練數據量和訓練時間的原因，在這項工作中使用基于HMM的訓練系統，使用隱馬爾可夫模型工具包（HTK）實現了基于HMM的訓練系統[5]。

因此本文提出了一種基于HMM的語音識別系統，用于在嘈雜環境中進行人機交互。該系統可分為兩個程序，第一個是基于閾值的噪聲檢測，第二個是組合降噪。該系統具有以下四個屬性：訓練數據僅需要干凈的語音數據，建議的預處理方案以防止過濾語音，降低噪聲而沒有預測的噪聲信息，以及對降低環境噪聲和提高語音質量的有效效果。

1系統設計

本節主要對系統實現過程中所涉及的方案進行詳細介紹，包含噪聲檢測與噪聲處理過程相關的算法。

（1）基于閾值的噪聲檢測

如圖1所示。

圖1顯示了建議的基于閾值的噪聲檢測的過程，采用線性陣列在嘈雜的環境中收集語音信號。在時域中，

觀測信號x1（t）和x2（t）分別建模如公式（1）和（2）中的矩陣和向量，其中y（t）和n（t）分別表示純凈的語音信號和噪聲信號。由于觀測信號x1（t）類似于x2（t），因此在隨后的VAD，噪聲功率計算和SNR確定中將信號x1（t）作為主信號如式（1）、式（2）。

VAD的目的是定位接收信號的語音信號分量，在VAD中執行兩個稱為短時能量和過零率（ZCR）的特征。短時能量表示為公式（3），其中w（n）是選定的窗函數，L是窗的長度，在系統中，默認窗口函數是漢明窗口，其在公式（4）中定義，可以找到具有高振幅的信號并將其視為語音信號，如式（3）、式（4）。

公式（5）表示ZCR，如果觀測信號x1（t）的幅度為正，則z（t）等于1，否則為零。ZCR可用于發現有聲信號，其具有比無聲信號或噪聲更低的ZCR。在VAD中，具有較低短時能量和較高ZCR的非語音信號可被視為噪聲信號并用于噪聲功率計算，如式（5）。

（2）綜合降噪過程

綜合降噪程序依托ICA完成BSS過程。對公式（1）和公式（2）中觀察到的信號使用未知的混合矩陣A表示，入宮時（6）所示，其中語音信號y（t）和噪聲信號n（t）被認為是原始源信號如式（6）。

與公式（6）一致，為了從接收信號x1（t）和x2（t）獲得單獨的源信號，估計去混合矩陣。公式（7）表示去混合矩陣，其中s1（t）和S2（t）是分離的信號，矩陣W是去混合矩陣，分離的信號類似于原始源信號如式（7）。

為了計算解混矩陣，ICA利用高階統計量和信息理論來測量屬性的非高斯特征，可以使用非高斯特性的分析來獲得去混合矩陣。在ICA過程中，兩個源信號必須相互獨立，為了解決相互獨立的情況，在ICA中使用了兩種稱為信號中心和信號白化的方法。這些方法確保源信號可以變得不相關，如公式（8）表示執行信號中心，其中X是接收信號，E[X]是接收信號的平均值如式（8）。

（3）語音識別過程

系統利用HTK作為語音識別中的語音識別器，關于語音語料庫的選擇，該系統采用普通話語音數據庫來訓練聲學模型，在HTK識別器中訓練了許多聲學模型。對于語音的特征提取，HTK使用Mel頻率倒譜系數（MFCC）作為語音識別中的語音特征。在識別過程中，基于HTK的語音識別器分析語音特征并選擇最合適的語音內容作為識別結果。

2實驗分析

為了驗證所提算法的有效性，采用16DOF RobotinnoTM的人形機器人。對于線性陣列，在人形機器人的肩部上放置兩個間隔為0.1m的全向麥克風，測試環境的布局圖，如圖2所示。

實驗室的長度和寬度分別為7米和6米;線性陣列以8 kHz的采樣率收集測試語音信號;從機器人到揚聲器的距離為1.5米，從機器人到噪聲源的距離為2米。SNR閾值ε設置為10。在實驗中，三個測試方向（30°，60°和90°）用于收集語音信號，三個方向（45°，90°和135°）用于記錄噪聲信號。

在測試語音記錄中，系統記錄噪聲語音，SNR值為0 dB，5 dB和10 dB。為了比較增強語音的質量和帶噪聲的語音，從實驗結果估計兩個客觀語音質量測量，SNR和分段SNR。其中公式（9）和（10）分別表示SNR和分段SNR，其中y（t），y0（t），N，M和m分別是帶噪語音，增強語音，語音信號的長度，幀數和幀索引如式（9）、式（10）。

使用所提出的方法比較有噪聲語音和增強語音的平均SNR和分段SNR值，如表1—表3所示。

在實驗中使用具有三個SNR值（0 dB，5 dB和10 dB）和五種類型噪聲的語音。增強語音的平均SNR值超過有噪聲的語音約20 dB至25 dB;增強語音的分段SNR值也優于有

噪聲語音。兩個實驗結果表明，所提出的系統改善了各種嘈雜環境中的語音質量。

有噪聲語音的語音識別率，如圖3所示。

與文獻[67]的研究方法與所提出的基于HMM的系統進行比較。在實驗中檢查了具有0 dB，5 dB和10 dB的有噪聲語音的三個SNR值。結果表明，該方法可以比噪聲語音提高識別率約15%至25%，證明所提出的采用組合噪聲分離和語音增強方法的系統可以有效地去除多種類型的噪聲，提高語音識別過程的語音質量。

3總結

本文開發了一種語音識別系統，可以嵌入交互式機器人的設備中，以識別嘈雜環境中的語音內容。該系統可分為兩個程序：第一個是提議的預處理，稱為基于閾值的噪聲檢測，第二個是組合降噪。所提出的預處理方案可以評估噪聲的大小，以防止在背景噪聲很小時過度過濾語音的情況。實驗結果表明，該系統能夠消除環境噪聲，提高語音識別率。與噪聲語音相比，所提出的方法產生更高的SNR值和語音識別率。

參考文獻

[1]

Mohamad S N A， Jamaludin A A， Isa K. Speech semantic recognition system for an assistive robotic application[C]. IEEE International Conference on Automatic Control & Intelligent Systems. Negeri Sabah Malaysia， 21 October， 2017， IEEE， 2017：9095.

[2]Vu T T， Bigot B， Chng E S. Combining nonnegative matrix factorization and deep neural networks for speech enhancement and automatic speech recognition[C]. 2016 IEEE International Conference on Acoustics， Speech and Signal Processing （ICASSP）. Shanghai， China， 2025 March 2016， IEEE， 2016：499503.

[3]張敏，杜丹陽，李洪海.智能語音控制系統設計[J].工業控制計算機，2019，32（1）：144145.

[4]侯強，侯瑞麗.機器翻譯方法研究與發展綜述[J].計算機工程與應用，2019，55（10）：3035.

[5]程建軍，胡立志.關于深度學習的語音識別應用研究[J].科技經濟導刊，2019，27（12）：189.

[6]Betkowska A， Shinoda K， Furui S. Speech Recognition using FHMMS Robust Against Nonstationary Noise[C]. IEEE International Conference on Acoustics. Hongoluli， HI， USA， 04 June 2007. IEEE， 2007：10291032.

[7]Hong J， Cho K， Hahn M， et al. Multichannel noise reduction with beamforming and maskingbased Wiener filtering for humanrobot interface[C]. The 5th International Conference on Automation， Robotics and Applications， ICARA 2011， Wellington， New Zealand， December 68， 2011. IEEE， 2011：39383941.

（收稿日期： 2019.06.26）

基金項目：

2018陜西教育科學“十三五”規劃課題（SGH18H434）;

2018西安航空職業技術學院教改課題（18XHJG022）

作者簡介：

鄧麗君（1985），女，碩士，講師，研究方向：英語信息化教學和英語語言文學。

王濤（1984），男，碩士，講師，研究方向：圖形圖像處理、單片機和U3D游戲開發，項目管理，網絡、數據庫和大數據。

文章編號：1007757X（2020）08004803