呂亞平,高 戈,陳 怡,張 康
(1.武漢大學計算機學院國家多媒體軟件工程技術研究中心,武漢 430072;2.華中師范大學計算機學院,武漢 430072)
基于高斯混合模型的感知域音頻編碼方法
呂亞平1,高 戈1,陳 怡2,張 康1
(1.武漢大學計算機學院國家多媒體軟件工程技術研究中心,武漢 430072;2.華中師范大學計算機學院,武漢 430072)
傳統感知音頻編碼方案采用心理聲學掩蔽降低編碼碼率,其聲道模型+信號激勵的方式難以同時實現高質量的中低碼率語音和音頻信號編碼。為此,提出一種基于高斯混合模型的感知域音頻編碼方法,利用Gammatone濾波器組模擬人耳聽覺系統,采用多路復用掩蔽模型替換降低包絡脈沖的數量,對結構化模型進行擬合,使用高斯-牛頓算法對聽覺包絡進行高斯混合模型參數的擬合,將高斯混合模型參數替代音頻信號特征。實驗結果表明,與基于稀疏包絡表示重構的音頻編碼方法相比,該方法的主觀測試高0.5分 ~0.8分,客觀測試高5分~10分,解碼得到的語音和大部分音樂信號都能還原到原始音頻信號,可用于實現高質量的中低碼率語音和音頻編碼。
人耳聽覺系統;感知域音頻編碼;高斯混合模型;Gammatone濾波器組;高斯-牛頓算法
DO I:10.3969/j.issn.1000-3428.2015.10.050
隨著移動網絡從第三代移動通信發展到長期演進,移動網絡帶寬越來越大。盡管如此,伴隨著移動視頻增值業務應用的普及,要求盡可能實現高效的中低碼率語音和音頻編解碼器。
傳統音頻編碼方案不是專為中低碼率語音和音樂信號高效編碼而設計的[1]。一方面,通用音頻信號編碼方案,如MPEG4HE-AAC(High Efficiency Advanced Audio Coding)[2],能夠實現高質量的中低
碼率音樂編碼。然而,在該類編碼方案中使用的基于子帶或基于變換的模型無法有效地適用于語音信號。另一方面,線性預測編碼方案,尤其是 CELP(Code Excited Linear Predictive)編碼方案,特別適用于語音信號編碼。當前最好的語音編碼器之一,如3GPP AMR-WB[3],能夠在中低碼率非常有效地重建語音信號,但無法很好地重建一般音頻信號。
文獻[4]提出的基于仿真人聽覺系統的聽覺濾波器的音頻編碼方案[5](即感知域音頻編碼)被認為是用于替代傳統音頻編碼方案的一種很好的選擇,使得中低碼率下的感知域語音和音頻編碼框架成為可能。
本文提出一種基于高斯混合模型[6-7](Gaussian Mixture Model,GMM)的感知域音頻編碼技術。該編碼技術利用GMM對經過Gammatone濾波器組[8]的音頻信號的每個子帶譜包絡進行擬合后,使用GMM參數來表示每個子帶譜包絡,可以使用較少參數表示很長一段譜包絡。
2.1 Gammatone濾波器組
Gammatone濾波器是一個標準的耳蝸聽覺濾波器,其在時域的表達式如下:
gi(t)=AtN-1exp(-2πbit)cos(2πfit+fi)(1)其中,t≥0,1≤i≤N;A為濾波器的增益;N為濾波器的階數;fi是濾波器的中心頻率;φi是相位。為了簡化模型,取φi=0,bi是濾波器的衰減因子,它決定了脈沖響應的衰減速度,并與相應的濾波器的帶寬有關,bi=1.019ERB(fi),ERB(fi)是等效矩形帶寬,可用式(2)進行度量:
ERB(fi)=24.7(4.37 fi/1 000+1) (2)
各濾波器的中心頻率在ERB域上等間距分布,整個濾波器組的頻率范圍為0~8 000 Hz。圖1給出了其頻率響應示意圖。

圖1 Gammatone濾波器組的沖激響應
2.2 高斯混合模型
使用高斯概率密度函數來表征事物的狀態變化過程,將這個事物的狀態變化過程分解為若干個由高斯概率密度函數組成的模型,這個模型稱為高斯混合模型,其原理如圖2所示。

圖2 高斯混合模型
假設現有一個N階,維度為 M的高斯混合模型,則觀察矢量χ在這個模型中的似然度可以寫作:

其中,ρi表示每個M維高斯模型的權重;gi(χ)表示M維的高斯函數;gi(χ)的表達式如下:

其中,ui是均值矢量;Σ是協方差矩陣。因此,整個混合高斯模型GMM可以由權重ρi、均值矢量ui,以及協方差矩陣Σ來表示,如式(5)所示:

高斯模型作為一個概率密度的分布函數,其函數的圖形表示主要由均值u和方差Σ來決定。如果將多個高斯模型按照一定的比例(權重)相加之后,就可以生成一個新的概率密度的分布函數,也就是高斯混合模型。這個新生成的分布函數在每一點上的概率密度大小由GMM的階數N、混合模型中每個高斯的權重 ρ、均值u和方差 Σ決定。對于每個子帶中的幅度譜,在理想情況下,只要使用足夠多的高斯模型進行混合,就能得到與歸一化后的幅度譜包絡相吻合的GMM函數。每個子帶中的幅度譜包絡可以使用混合高斯模型的權重ρ、均值u和方差Σ來表示。在編碼端,只需要傳遞這些GMM函數中的參數即可。
圖3給出了基于GMM的感知域音頻編碼系統示意圖。首先,音頻信號通過Gammatone濾波器,采用包絡檢測提取希爾伯特包絡,然后通過零相移數字濾波器進行平滑濾波,再使用多路復用掩蔽模型替換模塊,一方面通過掩蔽減少脈沖的數量,另一方
面進行模型的替換,得到幅度譜包絡。為了參數化這些包絡,采用高斯-牛頓算法計算得到GMM參數來表示這些包絡,然后利用量化編碼[9]來傳遞GMM參數。

圖3 基于GMM的感知域音頻編解碼系統
3.1 多路復用掩蔽模型替換
3.1.1 多路復用掩蔽模型
如圖4所示,首先基于稀疏脈沖表示重建了音頻信號,然后使用聽覺系統模型分析這個信號。整個多路復用模型工作流程如下:將多聲道的信號(稀疏脈沖聽覺表示)通過單信道的載波處理(得到的重構的音頻信號)發送到接收端,接收端再將這一重構的音頻信號進行分析,又轉換成多聲道的脈沖表示(聽覺內部神經產生的變化)。

圖4 稀疏脈沖編碼的多路復用模型
假如現在已經有了一個原始的音頻脈沖信號,而在這個信號相鄰的頻帶也有一個脈沖信號,而這個脈沖信號的幅度小于這個脈沖信號在相鄰頻帶的幅度影響。此時這2個脈沖在最終的音頻包絡中的影響如圖5所示,圖中顯示了一個脈沖的包絡,這個包絡基本上是一個經過脈沖峰值的平滑曲線。

圖5 掩蔽過程示意圖
這個掩蔽模型一般運用于短時脈沖。在這個較短的時間內,所有的脈沖都將和幅度最大的脈沖相比較并進行評估。幅度最大的脈沖被視為掩蔽脈沖,周圍的其他脈沖與它的包絡比較,如果小于掩蔽脈沖的包絡,則被掩蔽掉,并從整個脈沖序列中刪去。
在剩余的脈沖中,再找出最大的脈沖,并且重復上面的過程,直到所有的脈沖都計算完畢。之后,為了保持并還原原有的音頻信號,需要將被掩蔽掉的能量補償回去,所以會使用一個增益因子,保證在解碼端能夠生成較好的語音質量。
在實驗中,還在掩蔽模型中使用了一個經驗因子,主要用于控制稀疏化的程度。這個因子 rI可以放大或者衰減多路復用模型中的脈沖。通過設置這個因子的大小,控制通過復用模型后保留的脈沖個數,可以允許使用者在最終原始音頻的脈沖表示的數量和在解碼端得到的語音質量之間進行權衡。將復用模型的門限設高,就會減少原始音頻的脈沖表示的數量,但也會影響到解碼端還原的音頻質量,反之亦然。
由于包絡樣本的一般間隔比使用聽覺脈沖表示時的間隔要更大,因此在使用多路復用的掩蔽模型時,時域掩蔽效果帶來的影響被大大減少了。
3.1.2 掩蔽模型替換
音頻信號通過Gammatone濾波器,包絡檢測和平滑濾波后,仍然存在大量的剩余脈沖,不利于編碼。因此,想到使用數學模型對包絡進行擬合,而后使用數學參數來表示子帶包絡的方法,這個方法可以有效減少需要編碼的數據量。但是由于經過多路復用掩蔽之后的子帶脈沖是一系列離散的脈沖序列,并不能找到與之相適應的數學模型進行擬合。為此,我們提出使用掩蔽模型替換子帶包絡。

其中,fmask是掩蔽模型在子帶中的幅值;fori是子帶中原始的譜包絡大小;fevp為通過掩蔽處理替換后的譜包絡大小。在提出這一方法時,進行了大量仿真實驗,分別使用了男聲、女聲以及不同種類的音樂信號進行掩蔽模型的替換實驗。實驗結果表明,使用這
一方法得到的子帶包絡通過合成濾波器后可以重構出高質量的音頻信號,因此,使用該方法是可行的。
下面將詳細說明這一計算過程:
(1)找出混合譜包絡 Eνe的最大值,計算其產生的復用掩蔽矩陣p,p矩陣為n×m,n為子帶數目,m為參與掩蔽計算的樣點數目。
(2)運用式(6),將Gammatone濾波后幅度包絡與復用掩蔽矩陣作比較,如果濾波后的樣本點幅度值更大,則保留幅度值;如果濾波后的幅度點值較小,則將幅度值替換為復用掩蔽矩陣中相應點的值。
(3)將每個子帶的包絡信號都使用多路復用掩蔽模型進行處理,得到替換后的子帶包絡信號。
3.2 GMM參數的計算
為了較好地還原原始的語音信號,要求使用的模型能盡可能擬合每個子帶通道的幅度譜包絡。本文使用高斯-牛頓算法進行實現。
將擬合問題寫成下面這個算式:

其中,F(i)為要擬合的原始數據在點 i處的大?。籪(i)為GMM中點i處的大小。將擬合問題變成求取▽f(X)的極小值問題,這也正好符合高斯-牛頓算法用于解決多變量函數局部極小值的用途。下面將詳細闡述這一算法的實現過程。

設z=f(X)是X的函數,對于k=1,2,…,N,?f(X)/?χk存在。f的梯度,記為▽f(X),可以用下面的向量表示:其中,梯度向量可以表示在局部指向f(X)增加得最快的方向。因此,-▽f(X)就可以表示局部下降最快的方向。從點 P0開始,沿著過 P0,方向為 S0= -▽f(P0)/-▽f(P0)的直線方向搜索,到達點P1。當點X滿足約束X=P0+γS0時,在該點處取得局部極小值。由于偏導數可得,因此,極小值求取可以通過二次近似方法算得。
計算-▽f(P1),并沿著方向S1=-▽f(P1)/‖-▽f(P1)‖搜索,到達點P2。當X滿足約束X= P1+γS1時,該點處取得局部極小值。迭代此計算過程,可以得到點序列{Pk}∞k=0,滿足f(P0)>f(P1)>…>f(PN)>…。如果limk→∞Pk=P,則f(P)是f(X)的局部極小值。
通過以上步驟,可以求出單變量情況下的局部極值點。下面將這一方法推廣到多個變量情況下以適應實驗的要求。使用二次逼近方法生成了一個二階拉格朗日多項式序列。它的隱含假設是,在極小值附近,二次多項式與目標函數y=f(X)的形狀相似,使得所得到的二次多項式的極小值序列收斂到目標函數f的極小值。從初始點P0開始,遞歸地構造一個多變量的二階多項式序列。如果目標函數是良態的,并且初始點在實際的極值點附近,則該二次多項式的極小值序列將收斂到目標函數的極小值。
在計算二階多項式的問題中,使用到了黑森矩陣和二階泰勒多項式的概念,設y=f(X)是X的函數,對于存在。f在X處的黑森矩陣記為H f(X):其中,i,j=1,2,…,N??梢詫⒑瘮档暮谏仃嚳闯墒呛瘮档亩A導數的函數,而且函數的黑森矩陣與函數梯度的雅克比矩陣相同:


設f(X)在中心A處的二階泰勒多項式存在,則可以寫為:

設 y=f(χ1,χ2,…,χN)的一階和二階偏導數存在,并在包含P0的一個區間內連續,并在點 P處有極小值。用P0替換式(11)中的A,得:

它是一個多變量的二階多項式,其中 X=[χ1,χ2,…,χN]。Q(X)的一個極小值在▽Q(X)=0或▽f(P0)+(X-P0)(H f(P0))′處取得。這樣可以解得X的值:

使用P1替代式(13)中的P0,得到:

使用Pk-1替代式(14)中的P0,就可以得到一般規律:

綜上所示,可以得到高斯-牛頓算法的基本方法,在Pk已知的情況下,使用遞推的方式:
(1)計算搜索方向:

(2)在區間[0,b]上對Φ(γ)=f(Pk+γSk)進行單變量極小化。得到 γ=hmin,它是 Φ(γ)的極小值點。關系式Φ(hmin)=f(Pk+hminSk)表明,它是f(X)沿著搜索方向X=Pk+hminSk的一個極小值。
(3)通過同樣的方法,構造下一個極小值點Pk+1=Pk+hminSk。最后在每次迭代之后,進行終止條件的判別,判斷函數f(Pk)與函數f(Pk+1)是否足夠相近。如果到達預設值大小,則表示函數的更新已經對擬合模型幾乎沒有影響,此時結束更新過程,即可得到最終的擬合模型中的各個未知參數值的大小。
本文對提出的基于GMM的感知域音頻編碼器以及文獻[10]提出的基于稀疏包絡表示的感知域音頻編碼器進行了系統仿真實驗。以M atlab7.0為實驗平臺,采用TIM IT語音數據庫以及AVS國家標準所定義的語音音頻測試序列進行編解碼運算。實驗中共使用了12組測試序列,這12組測試序列包含語音3條、單樂器6條、復雜信號3條,采樣率都為16 kHz,量化格式為16 bit PCM。先后對12組測試序列使用2種算法進行編解碼實驗,然后分別通過客觀測試和主觀測試,分別得出了這12組序列在使用2種編解碼算法時的客觀測試結果和主觀測試得分。
4.1 客觀測試
在進行客觀測試時,將使用基于GMM方法重構的音頻信號和相對應的原始信號編為A組,將使用稀疏包絡表示方法重構的音頻信號和相對應的原始信號編為B組,將2組信號分別進行PESQ測試。測試的結果如表1所示。

表1 客觀測試結果
從表1可以看出,使用基于GMM的感知音頻編碼方法得到的客觀測試結果PESQ值比使用稀疏感知音頻編碼方法得到的結果要高0.5~0.8,客觀質量有較大提升。
4.2 主觀測試
測試設備:一臺PC,一副高品質耳機(森海塞爾HD-615)。
在主觀測試方面,采用MUSHRA測試方法。進行主觀測試時,將本文所使用的編碼方案重構的音頻信號定為A組,將使用稀疏包絡表示的感知域音頻編碼方法得到的重構音頻信號定為B組,主觀測試結果如表2所示。從表2可以看出,使用本文中的編碼方法,得到的主觀測試結果比使用稀疏包絡表示的感知域音頻編碼方法得到的結果普遍要高5分~10分,主觀音質有一定提升。

表2 主觀測試結果
本文提出一種基于高斯混合模型的感知域音頻編碼方法,使用高斯混合模型參數表征感知掩蔽后的音頻信號特征,借助Matlab平臺實現了整個編解碼系統,得到了高質量的中低碼率語音和音頻編碼。仿真結果表明,在傳輸碼率為40.213 Kb/s時,解碼得到的語音使用PESQ進行客觀評價評分在3.8以上,高于使用Joachim Thiemann提出的稀疏包絡表示的方法,通過主觀測試使用本文方法得到的重構音頻信號得分同樣也高于Joachim Thiemann提出的使用稀疏方包絡表示的方法。然而,本文編碼方案的碼率仍然較高,需要在未來的研究中找出更加適合的模型擬合音頻譜包絡,在提高解碼語音質量的同時進一步降低編碼碼率。
[1] Spanias A,Painter T.Audio Signal Processing and Coding[M].New York,USA:John Wiley and Sons,2012.
[2] ISO.ISO/IEC 14496-3-2009 Coding of Audio-Visual Objects,Part 3:Audio[S].2009.
[3] 3GPP.3GPP TS 26.171-2002 Adaptive Multi-Rate-Wide-band(AMR-WB)Speech Codec,General Description[S].2002.
[4] Smith E C,Lewicki M S.Efficient Auditory Coding[J]. Nature,2006,439(7079):978-982.
[5] Holters M.Automatic Parameter Optimization for a Perceptual Audio Codec[C]//Proceedings of IEEE International Conference on Acoustics,Speech and Signal Processing.Washington D.C.,USA:IEEE Press,2009:13-16.
[6] 王 鑫.基于高斯混合模型的聚類算法及其在圖像分割中的應用[D].太原:中北大學,2013:24-31.
[7] 顏建平.廣義Gamma混合模型的參數估計研究[D].成都:西南交通大學,2011.
[8] Strahl S.Sparse Gammatone Signal Model Optimized for English Speech Does not Match the Human Auditory Filters[J].Brain Research,2008,1220(2):224-233.
[9] Mathews JH,Fink K K.數值方法(Matlab版)[M]. 4版.北京:電子工業出版社,2010.
[10] Thiemann J.A Sparse Auditory Envelope Representation with Iterative Reconstruction for Audio Coding[D]. Montreal,Canada:McGill University,2011.
編輯 顧逸斐
Perceptual Domain Audio Coding Method Based on Gaussian Mixture Model
LV Yaping1,GAO Ge1,CHEN Yi2,ZHANG Kang1
(1.National Engineering Research Center for Multimedia Software,Computer College,Wuhan University,Wuhan 430072,China;2.Computer College,Central China Normal University,Wuhan 430072,China)
For the traditional perceptual audio encoding scheme using the psychoacoustic mask effect to reduce coding rate,the channel model+signal incentive way is difficult to simultaneously realize high quality in low bit rate speech and audio signal coding.It proposes a perceptual domain audio coding algorithm based on Gaussian Mixture Model(GMM).The algorithm uses Gammatone filter groups to simulate the human auditory system,using multiplexer masking model and replace to reduce the number of pulse envelope and facilitate the use of structural model fitting,using the Gauss-New ton algorithm for the fitting of Gaussian mixture model parameters,using Gaussian mixture model parameter replace audio signal characteristics.The results prove that compared with the audio coding method based on the envelope with sparse reconstruction,subjective test is higher than 0.5 point to 0.8 point,and the objective test is higher than 5 point to 10 point,most of the speech and music signal can be restored to the effect of the original audio signal by decoding,and can be used to achieve high quality speech and audio encoding at low bit rate.
human auditory system;perceptual domain audio coding;Gaussian Mixture Model(GMM);Gammatone filter bank;Gauss-Newton algorithm
呂亞平,高 戈,陳 怡,等.基于高斯混合模型的感知域音頻編碼方法[J].計算機工程,2015,41(10):265-269.
英文引用格式:Lv Yaping,Gao Ge,Chen Yi,et al.Perceptual Domain Audio Coding Method Based on Gaussian Mixture Model[J].Computer Engineering,2015,41(10):265-269.
1000-3428(2015)10-0265-05
A
TN912
國家自然科學基金資助項目(614712710)。
呂亞平(1990-),女,碩士研究生,主研方向:音頻編碼與處理;高 戈、陳 怡,副教授、博士;張 康,碩士研究生。
2014-09-16
2014-10-27E-mail:lvyaping514@sohu.com