馬 英,石小榮, 李海新
摘 要:在語音信號分析中,只有分析出可表示語音信號本質(zhì)特征的參數(shù),才有可能利用這些參數(shù)進行高效的語音通信、語音合成和語音識別等處理。因此對語音信號采用CEP和LPC譜提取語音信號基音周期的異同進行了研究,并采用Matlab實現(xiàn)了仿真分析。從中可以看出,LPC譜估計基音周期的算法運算量較大,而CEP 譜算法更直觀,且在少部分情況下基音峰會變得更突出一些, CEP譜具有更加廣闊的應(yīng)用前景。
關(guān)鍵詞:同態(tài)分析;線性預測分析(LPC);基音周期;Matlab
中圖分類號:TP274文獻標識碼:A
文章編號:1004-373X(2009)20-150-02
Speech Signal Extraction Method of Pitch Based on CEP and LPC Spectrum
MA Ying,SHI Xiaorong,LI Haixin
(Qinghai Nationality College,Xining,810000,China)
Abstract:In voice signal analysis,by analysing the voice signal substantive characteristics′ parameter,these parameters can be used to carry on high effective processing and voice communication,speech synthesis and speech recognition.Therefore,difference between speech signal extraction of pitch by CEP and speech signal extraction of pitch by LPC spectrum are analysed,and Matlab is used to realize the simulation analysis.LPC spectrum is used toestimate tone cycle's algorithm which has big calculation,but the CEP spectrum algorithm is more direct-viewing,and the tone summit becomes prominent,CEP spectrum has widely application prospect.
Keywords:analysis of same state;LPC;pitch;Matlab
0 引 言
語音信號的分析,就是提取語音產(chǎn)生模型的各種參數(shù)(語音的特征參數(shù)),應(yīng)用于語音的編碼、識別和合成等。不論是分析怎樣的參數(shù)以及采用什么分析方法,在按幀進行語音分析,提取語音特征參數(shù)前,有一些經(jīng)常使用的、共同的短時分析技術(shù)必須預先進行,如語音信號的數(shù)字化、預加重、加窗和分幀等。經(jīng)過這些處理,語音信號就被分割成一幀一幀加過窗函數(shù)的短時信號,然后再把每一個短時語音幀看成平穩(wěn)的隨機信號,利用數(shù)字信號處理技術(shù)提取語音特征參數(shù)。
在進行處理時,按幀從數(shù)據(jù)區(qū)中取出數(shù)據(jù),處理完后再取下一幀。最后得到由每一幀參數(shù)組成的語音特征參數(shù)的時間序列。基音周期是語音信號最重要的參數(shù)之一,它描述了語音激勵源的一個重要特征。因為漢語言是一種有調(diào)語言,基音的變化模式稱為聲調(diào),它攜帶著非常重要的具有辨意作用的信息,有區(qū)別意義的功能,所以基音周期的提取和估計對漢語言更是一個十分重要的問題。
1 同態(tài)分析
1.1 同態(tài)信號處理的原理
同態(tài)信號處理也稱為同態(tài)濾波,實現(xiàn)將卷積關(guān)系和乘積關(guān)系變換為求和關(guān)系的分離處理。將非線性信號處理變?yōu)榫€性信號處理的過程。語音信號x(n)可視為聲門激勵信息u(n)及聲道沖擊響應(yīng)h(n)的卷積:x(n)=u(n)*h(n);通過處理可將語音信號的聲門激勵信息及聲道沖擊響應(yīng)信息分離開來,從而求得聲道共振特征和基音周期。卷積同態(tài)系統(tǒng)可分為三個子系統(tǒng)[3]:
第一個子系統(tǒng)特征系統(tǒng)D*[] 完成將卷積信號轉(zhuǎn)化為加性信號的運算,對x(n)=x1(n)硏2(n)進行如下處理:
Z[x(n)]=X(z)=X1(z)X2(z)(1)
ln X(z)=ln X1(z)+ln X2(z)=
1(z)+2(z)=(z)(2)
Z-1[(z)]=Z-1[1(z)+2(z)]=
1(n)+2(n)=(n)(3)
第二個子系統(tǒng)對加性信號進行所需要的線性處理(滿足線性疊加原理等):
(n)=LTI[(n)]=LTI[1(n)+2(n)]
第三個子系統(tǒng)是逆特征系統(tǒng)D-1*[],使其恢復為卷積性信號。對(n)=1(n)+2(n)進行如下處理:
Z[(n)]=(z)=1(z)+2(z)(4)
exp[(z)]=Y(z)=Y1(z)Y2(z)(5)
y(n)=Z-1[Y1(z)Y2(z)]=y1(n)硑2(n)(6)
1.2 倒譜
設(shè)X(ejω)=|X(ejω)|ejarg[X(ejω)],對其取對數(shù)得:
(ejω)=ln|X(ejω)|+j arg[X(ejω)]
(ejω)仍然是復數(shù),只考慮其實部。令:
c(n)=IDTFT[ln|X(ejω)|]
c(n)=IDFT[ln|X(k)|]
式中:c(n)是序列x(n)對數(shù)幅度譜的傅里葉逆變換,稱為倒頻譜,簡稱為倒譜,有時也稱為對數(shù)倒頻譜,其量綱為時間。c(n)就是要求取得語音信號倒譜特征[4]。因此,設(shè)信號為s(n),則其倒譜為:
c(n)=IDFT{ln|DFT[s(n)]|}
1.3 倒譜的作用
倒譜的作用為:
(1) 區(qū)分清/濁音;
(2) 求濁音的基音周期,可以得到濁音的激勵信號;
(3) 得到聲道沖擊響應(yīng)[5]h(n)。
2 基于LPC系數(shù)的倒譜
由于語音樣點之間存在相關(guān)性,所以可以用過去的樣點值預測現(xiàn)在或未來的樣點值。這是線性預測分析的基本思想。通過使實際語音x(n)和線性預測結(jié)果x′(n)之間的誤差e(n){e(n)=x(n)- x′(n)} 在某個準則下達到最小值來決定惟一的一組預測系數(shù)ak。這組系數(shù)就能反映語音信號的特性,可以作為語音信號特征參數(shù)用于語音編碼、語音合成和語音識別等應(yīng)用中去。語音信號的倒譜特征系數(shù)與語音信號的LPC參數(shù)有密切關(guān)系。LPC系數(shù)是線性預測分析的基本參數(shù),它可以表示整個LPC系統(tǒng)沖激響應(yīng)的復倒譜。
預測誤差e(n)就是激勵信號G?u(n),預測系數(shù){ak}就是聲道濾波器的系數(shù){dk}。線性預測分析可以對生成模型的增益參數(shù)G和濾波器系數(shù){dk}進行直接和高效率的計算。這樣,結(jié)合清濁音的判斷和基音周期的估計,可得到語音信號生成模型的全部參數(shù),實現(xiàn)語音的產(chǎn)生。
3 Matlab仿真及基音周期提取
具體步驟如下:
(1) 打開Matlab軟件,在命令窗口中利用wavread函數(shù)打開語音信號的波形文件,得到抽樣頻率fs,n bits的值以及語音信號的二維圖形。實驗仿真是對一男聲“沙地”的語音信號進行分析,其采樣頻率為8 kHz[6]。
(2) 對該語音信號截取一幀的長度,幀長為20 ms。
(3) 定義窗函數(shù),在此選用漢明窗。
(4) 對截取的一幀語音信號AMP(見圖1)進行加窗處理。
圖1 一幀語音信號
(5) 對截取加窗后的一幀語音信號AMP進行CEP和LPC譜分析,觀察波形圖,估計基音周期。如圖2,圖3所示。
圖2 LPC譜
圖3 CEP譜
4 LPC譜(左)和CEP譜(右)的討論
對一幀語音信號做CEP譜和LPC譜都能準確地分析出語音信號的基音周期。LPC譜圖波峰位置恰好對應(yīng)CEP譜圖中的波谷位置;波形基本上關(guān)于橫軸對稱;LPC譜估計基音周期,可以采用離開原點的第一個波谷出現(xiàn)的樣值點除以采樣頻率;而用CEP譜圖估計基音周期,可以采用離開原點的第一個波峰出現(xiàn)的樣點值除以采樣頻率[7]。
但是,在語音信號分析過程中窗長的選擇對于語音特征參數(shù)的選擇是非常重要的,如果窗長很大,當語音信號通過時,反映波紋細節(jié)的高頻部分被阻礙,短時能量隨時間變化很小,不能真實地反映語音信號的幅度變化;反之,窗長太小,短時能量隨時間有急劇的變化,不能得到平滑的能量函數(shù),因此應(yīng)該根據(jù)不同的需要選擇合適的窗長,否則提取特征參數(shù)會產(chǎn)生很大的誤差[8]。
此外,采用LPC譜估計基音周期的方法,其算法的運算量較大,而CEP 譜算法簡單,概念更直觀,且在少部分情況下基音峰會變得更突出,基音周期的估計值更加準確;在實際的基音周期檢測算法中,CEP譜的應(yīng)用更為廣泛,因此基于CEP譜的改進算法是進一步需要研究的理論。
參考文獻
[1]陳洪立.一種基音周期估計方法[J].江西通信科技,2004(2):8-10.
[2]王文延,曾慶寧.一種噪聲環(huán)境下的語音端點檢測方法[J].聲學技術(shù),2007,26(3):435-441.
[3][美]夸特爾瑞.離散時間語音信號處理(原理與應(yīng)用)[M].趙勝輝,譯.北京:電子工業(yè)出版社,2000.
[4]王洪海,劉剛,郭建軍.基于滑動倒譜的自動語言識別[J].智能系統(tǒng)學報,2008(4):336-341.
[5]李躍強,孫星明,周天亮.基于復倒譜變換的數(shù)字音頻水印研究[J].計算機工程,2006,32(23):145-148.[6]叢玉良.數(shù)字信號處理及其Matlab實現(xiàn)[M].北京:電子工業(yè)出版社,2004.
[7]拉賓納,謝弗.語音信號數(shù)字處理[M].朱雪龍,譯.北京:科學出版社,1993.
[8]劉建,鄭方,吳文虎.基于混合幅度差函數(shù)的基音提取算法[J].電子學報,2006,34(10):1 925-1 928.
[9]周文,侯阿臨.基于自適應(yīng)濾波和小波變換的基音檢測[J].電聲技術(shù),2006,30(10):41-43.
[10]歐貴文,程新榮,杜劍峰.一種基于時域的基音周期提取方法[A].第五屆全國人機語音通訊學術(shù)會議論文集[C].1998.