淺談語音增強技術的發展

2011-12-31 00:00:00黎偉勇

大觀周刊 2011年15期

摘要：現實生活中，語音不可避免會受到各種干擾，從而使語音質量下降，通信質量受到很大的影響。其中最主要的一種干擾就是背景噪聲干擾。為能提高語音質量，就產生了各種解決噪聲污染的方法，其中一種有效的方法就是語音增強。它的首要目標就是接收端盡可能從帶噪語音信號中提取出純凈的語音信號，改善其質量。

關鍵詞：語音增強語音信號語音質量

1、前言

語音信號處理的出現是隨著信息技術的迅猛發展而出現的。現在人類逐步步入信息化社會，用現代化的手段研究語音處理技術能更有效地產生、傳輸、存儲、獲取和應用語音信息。語音信號處理是以語音語言學和數字信號處理為基礎而形成的一門涉及面很廣的綜合性學科，與心理、生理學、計算機科學、通信與信息科學以及模式識別和人工智能等學科有很密切的聯系。

2、語音信號處理的目的、研究內容及應用

語音信號處理是研究用數字信號處理技術來對語音信號進行處理的一門學科。語音信號處理的目的有兩個：一是要通過處理得到一些反映語音信號重要特征的語音參數，來高效的傳輸或儲存語音信號信息；二是要通過處理某種運算來達到某種用途的要求，如人工合成出語音、辨識出說話者、識別出講話的內容等等。

語音信號處理的理論核心研究包括緊密結合的兩個方面：一方面是從語音的產生和感知來對其進行研究，該研究與語音、語言學、認知科學、心理、生理學等學科密不可分。另一方面是將語音作為一種信號來進行處理，包括傳統的數字信號處理技術以及一些新的應用于語音信號的處理方法和技術。

語音信號處理的應用有語音編碼、語音合成、語音識別、說話人識別和語種辨識、語音信號中的情感信息處理以及語音增強等。在本文中著重討論的是語音增強。語音增強是一種當語音通信系統的輸入或輸出信號受到噪聲干擾時提高系統性能的技術。其主要目的是從帶噪語音中提取出盡可能純凈的原始語音。

3、語音增強

3.1 噪聲特性及帶噪語音模型

語音在通信過程中會受到各種噪聲干擾。主要的干擾方式可分為在語音源處的干擾，在語音信號傳輸過程中的干擾和接聽端的干擾。而根據噪聲的特性可將噪聲按如下方式劃分。噪聲分為乘性噪聲和加性噪聲，由于乘性噪聲與加性噪聲相比更不容易分析，故常將乘性噪聲轉化為加性噪聲進行處理。加性噪聲可分為周期性噪聲、沖激噪聲、寬帶噪聲和語音干擾。

（1）周期性噪聲

周期性噪聲有很多離散的窄譜峰，來源于發動機等周期性運轉的機械。該噪聲引起的問題可通過功率譜發現，并通過濾波和變換技術去除。

（2）沖激噪聲

沖激噪聲的時域波形中有突然出現的窄脈沖，通常是由放電引起的。可通過將帶噪信號的平均值限定一個閥值，信號幅度超過該閥值時就判為沖激噪聲并將其濾除。

（3）寬帶噪聲

寬帶噪聲和語音信號在時域和頻域上完全重疊，通常認為是高斯白噪聲。消除它是很困難的。它的來源有熱噪聲、氣流噪聲和各種隨機噪聲等，量化噪聲也可視為寬帶噪聲。

（4）語音干擾

人耳有驚人的在兩個以上講話環境中分辨出所需的聲音的能力，該能力來源于人耳的雙耳輸入效應。當多個語音疊合在一起時，會使雙耳信號消失，就產生了語音干擾，無法獲取所需的語音信號。

由上可看出，噪聲破壞了語音信號原有的聲學特征和模型參數，模糊了不同語音之間的差別，使語音質量下降，可懂度降低。強的噪聲還會使人產生聽覺疲勞。不僅如此，強噪聲環境還對講話人產生影響，使講話人改變在安靜環境或低噪音環境中的發聲方式，從而改變了語音的特征參數，對語音識別系統有很大的影響。因此進行語音增強很有必要。

本文研究的是寬帶噪聲干擾，帶噪語音模型為：

y（n）=s(n)+d（n） (3.1.1)

這里s（n）和d（n）分別代表純凈語音和干擾噪聲。圖3.1為其示意圖：

除此之外，還做如下假設：

1．噪聲是局部平穩的。局部平穩是指一段帶噪語音中的噪聲具有和語音段開始前那段噪聲相同的統計特性，且在整個語音段中保持不變。即可以根據語音開始前的那段噪聲來估計語音中所疊加的噪聲統計特性。

2．噪聲與語音統計獨立或不相關。

3．只有帶噪語音可以利用，沒有其他參考信號。

3.2 人耳的感知特性

（1）人耳對聲波頻率高低的感覺與實際頻率的高低不呈線性關系，而是近似為對數關系。

（2）人耳對聲強的感覺很靈敏，且有很大的動態范圍，對頻率的分辨能力也受到聲強的影響，過強或者太弱的聲音都會導致對頻率的分辨力降低。

（3）人耳對語音信號的幅度較為敏感，對相位不敏感。

（4）人耳還有掩蔽效應，就是會產生一個聲音由于另外一個聲音的出現而導致該聲音能被感知的閥值提高的現象。

（5）人耳除了可感受聲音的強度、音調、音色和空間方位外，還可以在兩人以上的講話環境中分辨出所需要的聲音，這種分辨能力是人體內部語音理解機制具有的一種感知能力。人耳的這種分辨語音的能力與人的雙耳輸入效應有關，成為“雞尾酒會效應”。

語音增強的最終效果度量是人耳的主觀感覺，所以在語音增強中可以利用人耳感知特性來減少運算代價。

3.3 語音增強技術的發展

實際語音一般都是帶噪信號，為從帶噪信號中獲取盡可能純凈的語音信號，減少噪聲干擾，就要進行語音增強。而完全除噪是不現實的，故語音增強的目標是減少聽者的疲勞感，改善語音質量，提高語音可懂度；對語音處理系統（識別器、聲碼器、手機）而言是提高系統的識別率和抗干擾能力。

語音增強方法的研究始于20世紀70年代中期。隨著數字信號處理理論的成熟，語音增強發展成為語音信號處理領域的一個重要分支。1978年，Lim和Oppenheim提出了語音增強的維納濾波方法。1979年，Boll提出了譜相減方法來抑制噪聲。1980年，Maulay和Malpass提出了軟判決噪聲抑制方法。1984年，Ephraim和Malah提出了基于MMSE短時譜幅度估計的語音增強方法。1987年，Paliwal把卡爾曼濾波引入到語音增強領域。在近30年的研究中，各種語音增強方法不斷被提出，它奠定了語音增強理論的基礎并使之逐漸走向成熟。近年來隨著VLSI技術的發展和高速DSP芯片的出現，語音增強方法逐漸走向使用，同時出現了新的增強方法。

目前比較流行的語音增強算法主要有以下幾種：

（1）噪聲對消法

該方法是根據在時域或頻域中，直接從帶噪語音中將噪聲分量減去的方法實現的。該方法的最大特點是需要采用背景信號作為參考信號，參考信號準確與否直接決定該方法的性能。在采集背景噪聲時，往往采用自適應濾波技術，以便使參考信號盡可能接近帶噪語音中的噪聲分量。

（2）諧波增強法

由于語音中的濁音具有明顯的周期性，這種周期性反映到頻域中則為一系列分別對應基頻（基音）及其諧波的一個個峰值分量，這些頻率分量占據了語音的大部分能量，可利用這種周期性來進行語音增強，采用梳狀濾波器來提取基音及其諧波分量，抑制其他周期性噪聲和非周期的寬帶噪聲。由于語音是時變的，語音的基音周期也是不斷變化的，能否準確地估計出基音周期以及能否及時跟蹤基音變化，是這種基于諧波增強法的關鍵。

（3）基于語音生成模型的增強算法

語音的發聲過程可以建模為一個線性時變濾波器。對不同類型的語音采用不同的激勵源。在語音的生成模型中，應用最廣泛的是全極點模型。基于語音生成模型可以得到一系列的語音增強算法，比如時變參數維納濾波及卡爾曼濾波方法。維納濾波的背景噪聲白化效果很好，卡爾曼濾波能有效消除有色噪聲。但基于語音生成模型的增強方法運算兩比較大，系統性能也有利于進一步提高。

（4）基于短時譜估計的增強算法

基于語音短時譜估計的增強算法種類很多，如譜相減法、維納濾波法、最小均方誤差法等。該類方法具有適應信噪比范圍大、方法簡單、易于實時處理等優點。盡管該方法研究比較早，但還是有很強的生命力，成為應用最廣泛的語音增強方法。本文主要是討論這一類的增強算法。基于短時譜估計的算法主要是基于短時譜幅度的估計，這是由于人耳對語音的相位的感覺不敏感，故將估計的對象放在短時譜幅度上。

（5）基于小波分解的增強算法

小波分解法是隨著小波分解這一新的數學分析工具的發展而發展起來的，同時它又結合了譜相減法的一些基本原理。

（6）基于聽覺屏蔽的增強算法

聽覺屏蔽法是利用人耳的聽覺特性的一種增強算法。人耳可以在強噪聲的干擾下分辨出需要聆聽的信號，也可以在多個說話者同時發聲時分別將他們提取出來。正是由于以上這些原因，人們對聽覺屏蔽法寄予了厚望，有理由相信，隨著人們對人耳特性了解的加深，聽覺屏蔽法會更深入的發展。

在以上的六種增強算法中，噪聲對消法、諧波增強法、基于語音生成模型的增強算法以及基于短時譜估計的增強算法都有了一段發展歷史了，而這之中，基于短時譜估計的增強算法中的譜相減法及其改進形式是最常用的，這是因為它的運算量較小，容易實時實現，而且增強效果也較好。就近幾年的發展趨勢而言，小波分析法和聽覺屏蔽法是人們的研究熱點。人們對小波分解法的興趣是與小波分解有關的，因為人們對小波的研究還是比較新的，隨著人們對小波分解研究的深入，自然也會導致對小波分解增強算法研究的深入。聽覺屏蔽法是隨著人們對人耳聽覺系統的認識發展而發展起來的。目前人們對它的研究還處于初級階段。另外，人們也在嘗試將人工智能、隱形馬爾科夫模型、神經網絡和粒子濾波器等理論用于語音增強，但目前尚未取得實質性的進展。

4、結束語

由于噪聲的來源眾多，隨應用場合而異，特性各不相同，這就增加了語音增強的復雜性。而且語音增強不僅僅是一個數字信號處理技術方面的問題，還涉及到人的聽覺感知和語音學，所以是一個很復雜的技術。要想一勞永逸地設計出一種算法來解決所有的噪聲是不現實的。可以嘗試從其它領域成功的經驗和思想，來拓寬語音增強的研究思路。

參考文獻：

[1]楊行峻，遲惠生.語音信號數字處理[M].北京:電子工業大學出版社，1995:385-411第一版.

[2]陳亞勇等.MATLAB信號處理詳解[M].北京:人民郵電出版社，2001:245-250第一版.

[3]姚天任，孫洪.現代語音信號處理[M].武漢:華中理工大學出版社，1999:19-44第一版.

[4]趙力.語音信號處理[M].北京.機械工業出版社，2003:271-283第一版.

[5]商敏紅.實環境下的語音增強算法研究[D].東南大學碩士學位論文.分類匯號:TN911.22，UDC:621.38，2006-9-24.

[6]姚峰英.語音增強系統的研究和實現[D].中國科學院博士學位研究生學位論文.分類.號:TN912/TN470，2001-5［2］陳亞勇等.MATLAB信號處理詳解.北京:人民郵電出版社，2001:245-250第一版.

[7]孫晶.語音增強算法研究.吉林大學碩士學位論文[D].論文分類號:R318，2003-9.

[8] S.F.Boll，Suppression of Acoustic Noise in Speech Using Spectral Subtraction，IEEE Trans.Acousics，Speech，and Signal Processing，April 1979，vol.ASSP-27，no.2:113-120.

[9] H.G.Hirsh，Estimation of noise spectrum and its application to SNR estimation and speech enhancement，Technical Report TR-93-012，International Computer Science Institute， Berkeley，USA，1993.

[10]D.Griffin and J.S.Lim，Signal Estimation from Modified Short-Time Fourier Transform，IEEE Trans.Acoustics，Speech，and Signal Processing，April 1984，vol.ASSP-32，no.2:236-243.

注：本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文

大觀周刊2011年15期

大觀周刊的其它文章: 瀝青路面養護技術; 機電安裝管理戰略研究; 如何在物理實驗中培養學生的能力; 創造良好的語言環境培養幼兒的語言能力; “小產權房”法律問題淺析; 淺析列斐伏爾“日常生活”概念