DOI:10.13800/j.cnki.xakjdxxb.2017.05
21文章編號: 1672-9315(2017)05-0736-06
摘要:在語音編碼中線譜頻率的量化編碼多依賴于矢量量化技術。文中在分析經典的LBG多級矢量量化算法優缺點的基礎上,結合m進制搜索代替全搜索以及瞬時聯合調整各級碼本的技術并引入自回歸預測模型,實現了自回歸預測多級聯合矢量量化碼本設計。并與窄帶自適應多速率語音編碼器AMR和MELP語音編碼系統中線譜頻率矢量量化進行了對比,效果良好。
關鍵詞:線譜頻率;矢量量化;碼本設計;自回歸預測模型;性能測試中圖分類號:TN 912.32文獻標志碼: A
Technology of multistage vector quantization with
autoregressive prediction for linear spectrum frequency
CHEN Hui,ZHANG Boxia
(College of Communication and Information Engineering,Xi’an University of Science and Technology,Xi’an 710054,China)Abstract:In the speech coding,the quantization coding of the linear spectrum frequency(LSF)is mostly dependent on the vector quantization technique.Based on the analysis of the advantages and disadvantages of the classical LBG multistage vector quantization algorithm,this paper combines the msearch instead of the full search and the instantaneous joint adjustment of the codebook and introduces the autoregressive prediction model to realize the design of autoregressive prediction multistage joint vector quantitative codebook.Compared with the vector quantization of LSF in the narrowband AMR and MELP speech coding systems,the effect is better.Key words:linear spectrum frequency;vector quantization;design of codebook;autoregressive predictive model;performance testing
0引言語音編碼是將模擬的語音信號轉化成數字信號,達到降低傳輸碼率并進行數字傳輸的目的,傳輸碼率越低,合成的語音質量越好,但較低的傳輸碼率則需要較高的算法延遲時間,也使計算復雜度大大提高。根據語音信號產生的數字模型,語音信號可以用一組線性預測系數(Linear Predictive Coding,LPC)和線性預測殘差信號來表示。由于LPC系數能較準確表達語音信號的短時頻譜幅度,將其用于語音編碼,可在很大程度上降低傳輸碼率,但缺點是重構語音自然度低,對環境噪聲敏感,因此,LPC系數量化的準確性對語音編碼質量至關重要。通常LPC系數不宜進行量化編碼,多需轉換成容易編碼的線譜頻率(Line Spectrum Frequency,LSF)。線譜頻率表征譜包絡信息,其量化編碼多依賴于矢量量化技術,并采用多種編碼矢量量化算法的相互補充和系統協調,才能在降低語音編碼速率的同時提高語音質量。在語音編碼技術中,由于相鄰的線譜頻率矢量之間存在著相關性,往往不是直接進行矢量量化,而是首先通過預測模型獲得預測殘差矢量,再進行相應矢量量化,進一步提高線譜頻率矢量的量化性能,因此,模型的選取直接影響著量化性能、算法復雜度和運算時間等性能。目前,國內外常用的預測模型主要有一階或者多階滑動平均(Moving Average,MA)預測模型,幀間幀內預測模型等。文中在充分考慮預測模型復雜度和性能的基礎上,提出了采用自回歸預測模型,結合其他多級矢量量化方法,對線譜頻率進行矢量量化并與語音標準MELP[1-2]中去均值無預測模型矢量量化和AMR[3]中一階MA預測模型矢量量化效果進行測試對比。結果表明,自回歸預測多級矢量量化算法實現起來更加簡單,量化性能也更加優秀。
1
基于LBG的順序多級矢量量化碼本設計
LBG矢量量化算法[4-5]是標量量化LloydMax算法經過從一維標量到多維矢量擴展出的算法。LBG算法原理是使用最鄰近準則,將訓練矢量進行胞腔劃分,再求得每個胞腔的質心作為最佳碼字,運用循環迭代計算直至收斂,最終得到胞腔的最佳劃分和最優碼本。其不足在于:對于初始碼本的選擇要求較高,若初始碼本代表性差,會導致算法收斂慢并易于收斂到局部最優點,碼本性能不是最佳。常用初始碼本選擇算法中,公認的分裂法產生的初始碼本性能要優于隨機法選擇的碼本性能。另外,設計過程中往往需要占據大量的存儲空間,計算復雜度也較高。通常為了達到一定的量化性能要求,碼本存儲量會不斷地增大,碼本設計所需要的時間也會成倍增加,所以多級矢量量化的引入是一種折中的方法,解決了時間復雜度和性能的平衡。文中實現的順序多級矢量量化算法[6]是以分裂法產生的初始碼本為基礎。其碼本設計簡單的框圖如圖1所示。順序多級矢量量化碼本算法的基本步驟是:首先,將輸入的訓練矢量序列送入LBG碼本生成算法,經過循環迭代產生第一級碼本,并將所有輸入的訓練矢量劃分最鄰近的胞腔,胞腔質心作為碼字。其次,計算出每個訓練矢量與所對應的劃分的胞腔質心的殘差矢量,將此殘差矢量序列再次送入LBG碼本生成算法,循環迭代生成第二級碼本。依次類推,直至生成所需要的最后一級碼本。
但實際情況是,對于維度有限的信源輸入矢量,順序多級矢量量化系統會因碼本設計時的順序性,導致量化時搜索碼本中的碼字也往往是一級一級往后順序搜索,相比全搜索方式得到的碼字重構的矢量具有明顯局限性,所以順序多級矢量量化系統生成的碼本性能不是最優的。研究表明:m進制樹搜索算法[7-8]可以相比順序搜索算法更接近于全搜索的性能;瞬時聯合調整算法[9-11]也可以在一定程度上改進碼字順序搜索過程。所以,采用m進制樹搜索算法和瞬時聯合調整算法在很大程度上可以提高碼本性能。
2m進制樹搜索算法相對于受限制的碼本結構,采用全搜索算法可達到最佳效果,但是對于尺寸較大的碼本,采用全搜索算法是非常不現實的,因為全搜索算法具有非常大的算法復雜度。大量的實踐證明:m進制搜索算法的運用,能實現在較低的計算復雜度情況下,其碼本的性能可以近似達到全搜索算法的性能。圖2是4級m進制樹搜索算法原理框圖。顯然,m進制樹搜索算法是介于順序搜索算法和全搜索算法之間折中的一種搜索算法。當m=1時,m進制樹搜索算法就退化為順序搜索算法。當m接近于各級碼本容量值時,m進制樹搜索算法就無限接近于全搜索算法。但是m值越大,算法計算復雜度也就呈指數上升。因此,在采用m進制樹搜索算法時,m的值必須大于或等于8才具有明顯的效果。文中m取值等于8.
3瞬時聯合調整算法順序逐級的訓練優化碼本算法缺點在于優化當前級碼本的時候,未能考慮后面級碼本中的碼字對量化結果的影響,也就是說默認了后面級碼本全為空或者不存在,把當前級作為最后一級來進行優化,這樣就導致了優化后的碼本整體不是最優的,容易陷入局部最優解。瞬時聯合調整算法是基于在每一級循環搜索中,瞬時聯合優化所有級的碼字,所謂瞬時,就是考慮一瞬間的情況下,在優化當前級碼本的時候,假定其他級碼本和每個訓練矢量量化時選擇的其他級碼本中的碼字都保持不變,去優化當前碼本,充分考慮到后面各級碼本中可能存在一個具有代表性的碼字會多次在矢量被重構的時候選取到,所以,瞬時聯合調整算法將各級碼本作為一個整體進行聯合優化,配合m進制搜索算法使得碼本的量化性能有明顯的提高。
4自回歸預測矢量量化模型對于AMR語音編碼系統,預測模型采用的是一階MA預測模型,對得到的預測殘差信號采用分裂矢量量化方法。一階MA預測模型實現起來簡單,計算量也更加小,但是AMR語音編碼系統的一階MA預測模型采用的固定系數的預測器,對于LSF矢量序列的預測效果不佳,會導致得到的預測殘差序列的動態范圍更大,導致后續的矢量量化性能不高。對于MELP語音編碼系統,線譜頻率的矢量量化未采用預測模型,只有簡單的去均值操作,自回歸預測模型的設計就是基于AMR語音編碼系統中的一階MA預測模型和MELP語音編碼系統中的去均值操作二者優點相結合的設計理念。由于LSF系數矢量具有有序性的特性,使得短時內的連續的LSF矢量之間具有幀間幀內相關性[12-14]。自回歸預測模型可以有效的對LSF矢量進行去均值操作,去除LSF矢量之間的相關性,得到分布更加集中的殘差矢量序列,可以提高所設計的碼本的量化性能和語音質量。其基本原理是輸入矢量進行去均值操作后,對殘差矢量進行多級矢量量化,得到重構的殘差矢量再加上當前均值恢復出重構矢量,再利用重構矢量和當前的均值矢量一起計算調整均值矢量用于下一幀的去均值操作。原理上還是預測操作,當前均值矢量可看作預測矢量,可見當前幀的預測矢量不僅與前一幀的預測矢量有關,還有前一幀的重構矢量有關。實際的編解碼器中,使用當前幀重構矢量和當前的均值矢量來更新計算出下一幀的均值矢量。編解碼器中去均值殘差矢量計算式如下
lsf_res(i)=lsf(i)-avg(i),i=1,…,10,(1)
其中lsf_res為去均值殘差矢量;lsf為原始一幀輸入矢量;avg為當前幀的均值矢量。重構矢量rec計算公式如下
rec(i)=lsf_res_rec(i)+avg(i),
(2)
其中,lsf_res_rec為去均值殘差矢量的量化矢量。之后均值矢量的更新公式如下
avgn+1(i)=(1-q)×recn(i)+q×avgn(i),i=1,…,10.
(3)
其中q介于0到1之間,從均值矢量的更新公式(3)可以看出,當q=0時,則均值矢量就等于前一幀的重構矢量,所以預測類型退化為一階差分預測;當q=1時,則均值矢量不會改變,所以相當于沒有預測操作,即簡單的去均值操作,相當于MELP語音系統中對線譜頻率矢量量化前的預操作。所以,選擇合適的q值,可以得到不同的預測性能。經測試,一般取q為0.875為最佳。
圖3,4,5是自回歸預測模型的性能分析結果。對比圖4和圖5,很明顯自回歸預測后得到的LSF殘差矢量比原始LSF矢量去均值后的矢量的分布更加集中,動態范圍更小,自回歸預測后的LSF殘差矢量序列的方差只是LSF原始序列方差的三分之一。由此可見,自回歸預測模型是一種介于一階差分預測和無預測模型的一種折中,既通過預測來減小了待量化矢量的動態范圍,又避免和改進了一階差分或者MA預測器對于LSF矢量序列可能產生的誤差疊加,導致的預測殘差矢量動態范圍不能有效減小,產生一些不利于量化的非特征矢量的問題。
5測試分析自回歸預測多級矢量量化碼本設計是利用自回歸預測矢量量化模型、m進制樹搜索算法、瞬時聯合調整算法的一種預測多級矢量量化算法,運算框圖如圖6所示。自回歸預測系數q取0.875,測試中m進制搜索算法中m值取8.
常用測試LSF矢量量化性能的指標有SD(譜失真)和PESQ(模擬人主觀對語音的評價),在劃分胞腔和尋找碼字時通常采用加權均方誤差最小來作為失真測度[15],雖然加權均方誤差和SD值不是簡單的正比關系,但是通常情況下,加權平方誤差越小,SD值越小。同樣,SD和PESQ也不是簡單的線性關系可以描述的,一般情況下,SD越小,PESQ應該會更高些。為了便于橫向對比自回歸預測多級矢量量化碼本與原始的MELP和AMR系統中LSF矢量量化碼本的性能,所以二者的碼本級數和各級碼字個數必須相同。在與MELP系統對比時,二者碼本均為4級,每級碼本的量化所需的比特數分別為7,6,6,6,共25個比特,失真測度采用PaliwalAtal權值;在與AMR系統對比中,二者碼本均為3級,每級碼本的量化所需的比特數分別為8,8,7,共23個比特,失真測度采用EFR權值。測試語音為標準數據庫中男女生中文英語等多種的通用語音,從碼書設計的語音提取的LSF矢量共60多萬幀,采用6萬多幀的語音作為量化性能的測試語音。分別測試平均譜失真及2~3 db, 3~4 db和大于4 db的譜失真比例,見表1,表2.
結果可見,文中采用的自回歸預測多級矢量量化設計的碼本,與MELP語音系統和AMR系統的LSF矢量量化對比,各等級SD性能都大大低于兩者,同時PESQ也要更高一些,實現起來算法不會比原有更復雜,且量化性能得到了明顯的改善。對于算法運算次數和存儲量方面的對比,因為引入了m進制搜索算法,所以經過算法定點化后,運算時間要稍稍高于MELP系統和AMR系統中的量化運算時間;存儲量方面,因為碼書結構一致,所以需要消耗的存儲量基本差不多。因此,文中實現的自回歸預測多級矢量量化系統,在不明顯提高運算時間和存儲量的前提下,可以有效提高AMR系統和MELP系統的LSF矢量量化語音性能。
6結論
1)對于語音編碼中LSF矢量量化編碼技術,經典的以LBG為基礎的順序多級矢量量化算法存在缺點,主要受限于碼本設計的順序性和碼本結構;
2)m進制樹搜索算法和瞬時聯合調整算法可以明顯的改善受限制的碼本結構,進一步提高碼本的量化性能和健壯性,在不降低碼本性能的情況下,顯著降低計算的復雜度;
3)自回歸預測模型可以有效去除LSF矢量序列之間相關性,得到分布更加集中的殘差矢量序列,達到壓縮碼本大小,提高語音質量的目的;
4)自回歸預測多級矢量量化與MELP和AMR編碼系統的LSF量化算法測試對比可以看出,不論是不同等級的SD還是PESQ性能都有明顯的提高和改進。參考文獻References
[1]Linde Y,Buzo A,Gray Y.
An algorithm for vector quantizer design[J].IEEE Transactions on Communications,1980,28(1):84-95.
[2]石亞楠.基于MELP的低速率語音編碼算法研究[D].西安:西安電子科技大學,2010.
SHI Yanan. Research of lowbitrate speech coding algorithms Based on MELP[D].Xi’an: Xidian University,2010.
[3]劉張宇,鮑長春,邱建偉,等.3GPP AMRNB與ITUTG.729A語音編碼標準技術的對比研究[J].電聲技術,2009,33(4):56-61.
LIU Zhangyu,BAO Changchun,QIU Jianwei,et al.Contrast study on speech coding techniques between 3GPP AMRNB and ITUTG.729A standards[J].Audio Engineering,2009,33(4):56-61.
[4]Linde Y,Buzo A,Gray R M.An algorithm for vector quantizer design[J].IEEE Transactions on Communications,1980,28(1):84-95.
[5]黃榜,謝林柏.一種新的矢量量化碼本設計算法[J].科學技術與工程,2011,11(1):46-49.
HUANG Bang,XIE Linbo.A new VQ codebook design algorithm[J].Science Technology and Engineering,2011,11(1):46-49.[6]周高洪,唐昆,崔慧娟.一種增強的LPC參數多級矢量量化技術[J].電子技術應用,2005(6):49-51.
ZHOU Gaohong,TANG Kun,CUI Huijuan.An enhanced LPC parameter multistage vector quantization technique[J].Application of Electronic Technique,2005(6):49-51.[7]Bhattacharya B,LeBlanc W P,Mahmoud S A,et al.Tree searched multistage vector quantization of LPC parameters for 4 Kb/s speech coding[J].IEEE international Conference on Acoustics,Speech,and Signal Processing,1992(1):105-108.[8]王都生,李敏.低速率語音編碼LPC參數多級矢量量化的有效搜索[J].大連民族學院學報,2006(3):9-11.
WANG Dusheng,LI Min.Efficient search procedures for multistage VQ of LPC parameters at lowrate speech coding[J].Journal of Dalian Minzu University,2006(3):9-11.[9]LeBlanc W P,Bhattacharya B,Mahmoud S A.Efficient search and design procedures for robust multistage VQ of LPC parameters for 4 kb/s speech coding[J].IEEE Transactions on Speech and Audio Processing,1993,1(4):373-385.[10]WaiYip Chan,Smita Gupta,Allen Gersho.Enhanced multistage vector quantization by joint codebook design[J].IEEE Transactions on Communications,1992,40(11):1 693-1 697.[11]鄒霞,張雄偉.線譜對參數預測多級矢量量化聯合優化算法[J].數據采集與處理,2008,23(2):186-190.
ZOU Xia,ZHANG Xiongwei.Predictive multistage vector quantization of LSP parameters[J].Journal of Data Acquisition and Processing,2008,23(2):186-190.[12]李曄,彭坦,許明,等.帶有幀間級間預測的線譜頻率參數多級矢量量化技術[J].清華大學學報:自然科學版,2009,49(7):965-967.
LI Ye,PENG Tan,XU Ming,et al.High efficiency MSVQ for prediction linear spectrum frequency parameters with interframe and interstage prediction[J].Journal of Tsinghua University:
Natural Science Edition,2009,49(7):965-967.
[13]韓笑蕾,趙曉群,方騰龍,等.線譜頻率及差分線譜頻率參數相關性分析[J].計算機應用,2011,31(2):548-552.
HAN Xiaolei,ZHAO Xiaoqun,FANG Tenglong,et al.Correlation analysis of LSF and differential LSF parameters[J].Journal of Computer Applications,2011,31(2):548-552.