基于線性源濾波器的語音頻帶擴展方法研究

2016-12-14 10:42:20林勝義肖政宏

自動化與信息工程 2016年1期

關鍵詞：信號方法模型

林勝義肖政宏

（廣東技術師范學院計算機科學學院）

基于線性源濾波器的語音頻帶擴展方法研究

林勝義肖政宏

（廣東技術師范學院計算機科學學院）

基于線性源濾波器模型的頻帶擴展方法，對矢量量化和隱馬爾可夫模型這兩種譜包絡重建方法進行評測對比。實驗結果表明：基于隱馬爾可夫模型方法所恢復的寬帶語音具有較低的失真度，其聽覺質量要優于矢量量化方法恢復的語音。

頻帶擴展；矢量量化；隱馬爾可夫模型

0 引言

目前，語音通信已成為人們在網絡上進行信息交流的主要方式之一，語音作為數字音頻數據儲存時，其頻帶保留在5 Hz~7 kHz，此類語音信號稱為寬帶語音。然而由于傳輸帶寬和網絡硬件設備等原因，電信網絡中的語音信號以窄帶（300 Hz~3400 Hz）形式[1]進行傳輸。雖然人類語音的主要信息都集中在頻率為300Hz~3400Hz的范圍內，窄帶語音可基本滿足人們正常的對話交流。但在語音通信清晰度要求較高的場合，如藍牙車載免提電話，由于藍牙傳輸帶寬限制，窄帶語音必須轉換為寬帶（300 Hz~7500 Hz）語音，才能滿足清晰度和還原度較好的語音通信需求。這要求在不增加額外傳輸信息的條件下，將窄帶語音中所丟失的高頻信息恢復出來。因此，語音頻帶擴展技術應運而生。

目前常規的頻帶擴展方法大都基于線性源濾波器模型。該方法分為獨立的兩步：寬帶頻譜包絡的重建和寬帶激勵信號的產生。常用的頻帶擴展方法有譜平移結合矢量量化（vector quantization，VQ）和隱馬爾可夫模型（hidden Markov model，HMM），其中譜平移方法用來產生寬帶激勵信號，VQ或HMM方法用來重建寬帶頻譜包絡。

本文在簡述譜平移方法產生寬帶激勵信號和VQ、HMM重建寬帶譜包絡原理機制的基礎上，實現基于線性源濾波器的頻帶擴展，并對VQ擴展所得的寬帶語音與HMM擴展所得的寬帶語音進行比較，以判斷哪種方法更適用于頻帶擴展技術中的譜包絡重建。

1 線性源濾波器模型擴展方法的原理

本文對2種譜包絡重建方法進行了仿真實驗，分別為基于線譜頻率參數（line spectral frequency，LSFs）和VQ的譜包絡重建方法，基于Mel頻率倒譜系數（Mel frequency cepstrum coefficient，MFCCs）和HMM譜包絡重建方法。本文采用的寬帶激勵信號產生方法為譜平移寬帶激勵產生法。基于線性源濾波器模型的擴展方法原理[1]如圖1所示。

1.1 基于VQ的寬帶譜包絡重建

VQ的寬帶譜包絡重建流程：1)將窄帶語音和寬帶語音的特征矢量LSFs綁定進行訓練，建立一個包含窄帶和寬帶譜信息的碼本；2)計算每個輸入的窄帶語音幀的譜包絡特征矢量LSFs，并將其與碼本中的窄帶譜信息進行匹配，找出窄帶部分的最佳碼字；3)利用該碼字的索引找到相對應的寬帶譜包絡信息特征矢量，即找出最佳的寬帶LSFs碼字，進而恢復重建寬帶語音的頻譜包絡。基于LSFs和VQ的寬帶譜包絡重建原理如圖2所示。

VQ方法具有運算復雜度低且易于實現等優點。但該方法在進行碼本訓練時沒有考慮語音信號各頻帶成分之間的統計相關性，因此無法實現最優搜索和分類；并且無法較好地反映語音信號各幀在時間上的動態變化特性，忽略了信號幀間特征矢量和譜包絡的連續性，因此恢復后的寬帶語音信號頻譜存在跳變現象。

圖1 基于線性源濾波器模型頻帶擴展方法的原理示意圖

圖2 基于LSFs和VQ的寬帶譜包絡重建原理示意圖

1.2 基于HMM的寬帶譜包絡重建

基于HMM的寬譜包絡估計重建方法原理[2-4]如圖3所示。將窄帶語音的特征矢量MFCCs和寬帶語音的線性倒譜系數（cepstral coefficients，CCs）綁定進行訓練，假設HMM的狀態矢量為Si（i=1,2,…,Ns；Ns為HMM的狀態數），每一種狀態對應一類語音信號，每種狀態只取決于該類寬帶語音的譜包絡信息yeb（代表譜包絡信息特征矢量CCs）。由于HMM的狀態數有限，因此利用VQ中聚類的思想，譜包絡信息yeb經過VQ后確定HMM的狀態數（即聚類的個數為HMM的狀態數），最后將HMM中的每個狀態Si與寬帶譜包絡yeb訓練所得的矢量碼本C={y1,y2,…,yN}中的某個碼字矢量yi（i為狀態序號，i=1,2,…,Ns）一一對應起來。

在實際應用中，由于僅知道窄帶語音特征矢量x（即MFCCs），因此首先利用窄帶特征矢量x來計算其HMM的狀態概率，估計當前的窄帶語音幀屬于哪一種HMM狀態，即計算已知特征矢量x的條件下HMM狀態為Si的條件后驗概率p（Si|x），再結合貝葉斯條件參數估計方法和最小均方差準則（minimum mean squared error，MMSE）估計當前窄帶語音幀所對應的寬帶譜包絡yeb。關于寬帶譜包絡yeb的MMSE計算式推導以及具體的貝葉斯條件參數估計法的求解過程請參考文獻[2]和文獻[5]。

圖3 HMM寬帝語音譜包絡重建原理圖

HMM方法通過計算窄帶特征矢量和寬帶譜包絡之間的聯合概率密度函數，再結合HMM的狀態轉移函數來擬合語音幀間的時間前后相關性并計算相應的狀態后驗概率，最后通過MMSE準則計算選取對應狀態的譜包絡作為輸出。HMM方法采用統計方式和MMSE準則估計譜包絡時，計算量較大，不適用于實時通信系統中。但是隨著現代集成電路運算能力和存儲能力的快速提升，已出現一系列適用于復雜運算的芯片，為HMM方法的實際應用提供了硬件基礎。

1.3 譜平移產生寬帶激勵信號

譜平移對窄帶激勵信號進行復制并將其副本“搬移”到高頻帶中，形成的高頻帶激勵信號再與原來的窄帶激勵信號合并即可形成完整的寬帶激勵信號。譜平移通常采用時域調制方法實現，即將窄帶激勵信號乘以一個頻率為?M（通常為3400 Hz）的余弦信號。由于窄帶激勵信號與調制信號相乘后會在原窄帶激勵所在的頻域上產生一個鏡像，因此需要將調制后的激勵信號進行高通濾波，保留其高頻帶的激勵信號，隨后與延時（調制后的激勵信號進行高通濾波會存在計算延時）的窄帶激勵信號unb(k)相加即可得到完整的激勵信號其原理如圖4所示。

圖4 譜平移原理圖

綜上所述，寬帶譜包絡信息重建的方法有VQ和HMM 2種，為判定哪種譜包絡重建的方法能更好地恢復寬帶語音，本文采用線性源濾波器模型設計VQ和HMM的對比評測實驗。

2 實驗設計和結果

2.1 實驗設計

本文采用Matlab 7.12作為實驗平臺，實驗所用的寬帶語音庫為卡內基梅隆大學專用于語音合成實驗的CMU ARCTIC數據庫[6]，ARCTIC語料庫主要包含4組采樣頻率為16kHz的錄音（2名男性BDL和RMS，2名女性CLB和SLT）。實驗選取SLT100句英文短句作為訓練語音樣本，選取SLT另外10句英文短句作為測試語音樣本，取10句測試語音的語音評測數值的均值作為最終評測指標。

矢量量化中的窄帶LSFs維數為13，Mel濾波器組個數[7-8]為15，即HMM的窄帶特征矢量為15維的MFCCs。高頻帶CCs設定為13維矢量，相應的HMM

狀態數為13。VQ碼本和HMM的訓練均采用LBG算法，碼書大小為500個碼字。

為測試VQ和HMM方法的性能，實驗對2種方法擴展所得的寬帶語音進行語譜圖的比較分析、倒譜距離測度（cepstral distance measure，CDM）的評測和感知語音質量評估值（perceptual evaluation of speech quality，PESQ）的評測。

2.2 實驗結果

2.2.1 語譜圖

圖5分別為CMU ARCTIC中某一女聲短句的寬帶語音語譜圖（采樣頻率16 kHz）、HMM擴展語音語譜圖和VQ擴展語音語譜圖。

圖5 寬帶語音和2種擴展語音的語譜圖

語譜圖中顏色較深的紋理部分表示該語音在時間和頻譜中的能量分布，色調越深表示能量越高。對上述3幅語譜圖及所畫的橢圓形區域對比分析可得：HMM擴展恢復的寬帶語音中高頻帶能量與原寬帶語音較為接近，HMM擴展語音接近原寬帶語音的音質；VQ擴展恢復的寬帶語音中高頻帶能量分布過密，表明VQ擴展語音的高頻成分能量較高，語音中存在人耳可聞的雜音。

2.2.2CDM測度值

為評測頻帶擴展方法所造成的語音失真度，實驗依據文獻[10]的CDM計算方法，計算VQ和HMM方法恢復10句寬帶語音的CDM平均值，評測所得結果繪制為柱狀圖，如圖6所示。

由圖6可看出：HMM擴展語音的CDM測度值比VQ擴展語音的CDM測度值少1 dB左右，可以判定HMM擴展語音的失真度明顯小于VQ擴展語音。

圖6 寬帶語音與頻帶擴展語音的CDM測度柱狀圖

2.2.3PESQ值

為客觀評價2種頻帶擴展語音的音效質量，依據文獻[11]中PESQ的計算方法，計算2種方法恢復10句寬帶語音的PESQ平均值，評測所得數值轉化為柱狀圖，如圖7所示。

圖7 寬帶語音與頻帶擴展語音的PESQ評測柱狀圖

由圖7的結果可知，HMM擴展語音的客觀評測值高于VQ擴展語音，并且由于VQ擴展語音中引入了人造雜音，導致了語音評測值低于未擴展前的窄帶語音，由此可進一步肯定，采用HMM作為譜包絡重建方法將有利于頻帶擴展語音的聽覺質量并降低頻帶擴展語音的失真度。

3 結語

以線性源濾波器為模型的頻帶擴展方法是應用較廣泛的語音頻帶擴展解決方案。寬帶譜包絡的重建和寬帶激勵信號的恢復產生是該技術方案中的兩大核心內容。本文實現了基于線性源濾波器模型的語音頻帶擴展方法，在此基礎上對矢量量化和隱馬爾可夫模型所恢復的寬帶語音進行評測對比，選出適用于實際頻帶擴展應用的譜包絡重建方法。實驗結果表明，隱馬爾可夫模型方法所重建的寬帶語音失真度小并且聲音質量評測數值高于矢量量化方法所重建的寬帶語音。因此，隱馬爾可夫模型方法優于矢量量化方法，基于隱馬爾可夫模型的頻帶擴展方法可廣泛應用于網絡電話以及語音編解碼系統的接收端，進一步提高電信網中的語音通信質量。

[1]竇庚欣,鮑長春.一種基于矢量量化的語音信號頻帶擴展方法[C]//第十二屆全國信號處理學術年會(CCSP-2005).蘇州:信號處理,2005,21(z1).

[2]張勇,劉軼.窄帶語音帶寬擴展算法研究[J].聲學學報,2014, 39(6):764-773.

[3]張麗燕,鮑長春,劉鑫,等.基于非線性音頻特征分類的頻帶擴展方法[J].通信學報,2013,34(8):120-130,139.

[4]Jax P,Vary P.On artificial bandwidth extension of telephone speech[J].SignalProcessing,2003,83(8):1707-1719.

[5]Nels Rohde,Svend Aage Vedstesen.Artificial bandwidth extensionofnarrowbandSpeech[D].Aalborg:Aalborg University，2007.

[6]Kominek J,Black A W.The CMU Arctic speech databases[J]. ProcofIscaSpeechSynthesisWorkshop,2004, 99(4):223--224.

[7]Liu X,Bao C C.Audio bandwidth extension based on temporal smoothing cepstral coefficients[J].Eurasip Journal on Audio Speech&MusicProcessing,2014,2014(1):1-16.

[8]劉鑫,鮑長春.基于耳蝸濾波器倒譜參數的音頻頻帶擴展方法[J].清華大學學報:自然科學版,2013,53(6):913-916.

[9]何勇軍,韓紀慶.一種語音頻帶擴展的方法及其改進[C].烏魯木齊:第十屆全國人機語音通訊學術會議暨國際語音語言處理研討會論文摘要集,2009:40-41.

[10]Kitawaki N,Nagabuchi H,Itoh K.Objective quality evaluation for low-bit-rate speech coding systems[J].IEEE Journal on Selected Areas in Communications,1988,6(2): 242-248.

[11]ITU-T.ITU-T Recommendation P.862,Perceptual evaluation of speech quality(PESQ),an objective method for end-to-end speech quality assessment of narrowband telephone networks and speech codecs[S].Geneva:ITU-TP.862 Recommendation, 2001.

The Approach of Speech Bandwidth Expansion Based on Linear Source-Filter

Lin ShengyiXiao Zhenghong
(School of Computer Science,Guangdong Polytechnic Normal University)

The wideband speech will become narrowband speech and have worse acoustic quality after transmitted through the communication networks.The bandwidth expansion is an effective way to recover the wideband speech from the narrowband speech.With the linear source-filter based bandwidth expansion implemented in this paper,authors make a comparison between Vector Quantization and Hidden Markov Model.The experiment results show that the wideband speech recovered by the Hidden Markov Model has less audio distortion and higher acoustic quality than the one recovered by Vector Quantization.

Bandwidth Expansion;Vector Quantization;Hidden Markov Model

林勝義，男，1990年生，在讀研究生，主要研究方向：模式識別、智能系統。E-mail:791306016@qq.com

肖政宏（通信作者），男，1965年生，教授，主要研究方向：模式識別、智能系統。E-mail:huasxzh@126.com