高 悅 陳硯圃 閔 剛 杜 佳
(西安通信學(xué)院基礎(chǔ)部 西安 710106)
壓縮感知(Compressed Sensing, CS)理論是2006年 Donoho等人[1?3]首次提出的,其主要原理是利用非自適應(yīng)線性投影以少數(shù)數(shù)據(jù)保持信號的原始結(jié)構(gòu),通過解決數(shù)值最優(yōu)化問題來近似重構(gòu)原始信號。這一理論為信號處理理論帶來了革命性的突破,具有廣闊的應(yīng)用前景。目前,壓縮感知理論在壓縮成像系統(tǒng)、模擬信息轉(zhuǎn)換、生物傳感等領(lǐng)域都有很好的應(yīng)用[4]。
壓縮感知在實(shí)現(xiàn)邊采樣邊壓縮的同時,還可以實(shí)現(xiàn)對信息的加密,同時具有較強(qiáng)的抗干擾能力。基于壓縮感知的這些優(yōu)點(diǎn),人們開始將壓縮感知理論應(yīng)用于語音信號。但是目前,關(guān)于語音信號的壓縮感知理論研究并不多見。Griffin等人[5]將CS理論應(yīng)用于多通道語音信號處理,Giacobello等人[6]則將CS理論與語音編碼相結(jié)合,文獻(xiàn)[7]構(gòu)造了一種沖擊響應(yīng)矩陣來實(shí)現(xiàn)語音信號的稀疏化,并利用匹配追蹤算法實(shí)現(xiàn)了對語音信號的重構(gòu)。Christensen等人[8]利用復(fù)正弦窗構(gòu)成的字典對語音和音頻實(shí)信號進(jìn)行稀疏分解,采用壓縮感知理論來實(shí)現(xiàn)語音和音頻信號的重構(gòu)。在國內(nèi),南京郵電大學(xué)的楊震和解放軍理工大學(xué)的陳亮等開展了 CS理論在語音信號上的應(yīng)用等一系列研究,發(fā)表了關(guān)于觀測矩陣、稀疏變換矩陣、語音端點(diǎn)檢測、說話人識別系統(tǒng)的抗噪和信息隱藏等方面的論文[9?15]。這些都表明 CS理論與語音信號處理技術(shù)相結(jié)合具有廣闊的研究前景。
本文根據(jù)語音信號自身的特點(diǎn),利用語音信號的線性預(yù)測系數(shù)(Linear Prediction Coefficients,LPC),提出了一種將LPC與差分矩陣相結(jié)合的聯(lián)合稀疏變換方法,通過與快速傅里葉變換和LPC兩種稀疏變換方法的對比,分析了聯(lián)合變換法重構(gòu)語音信號的性能。

其中sni為標(biāo)量系數(shù),且K?N,此時信號x可以被稱為是K“稀疏”(sparsity)的。如果能夠?qū)⑹?1)表示為·x,則Y?1稱為x的稀疏化矩陣,s是只有K個未知非零元素的稀疏化向量。

其中T=FY稱為傳感矩陣。Baraniuk證明約束等距特性的等價條件是測量矩陣F和稀疏變換基Y不相關(guān),Candés證明當(dāng)F是高斯隨機(jī)矩陣時,傳感矩陣T能以較大概率滿足約束等距條件[16,17],因此本文采用高斯隨機(jī)矩陣作為測量矩陣。當(dāng)M<N時,式(2)無唯一解。但如果信號具有K稀疏性,則可以基于以下數(shù)學(xué)最優(yōu)化問題求解:

人們已經(jīng)提出了許多稀疏化問題的求解方法,如匹配追蹤算法、正交匹配追蹤算法[18]、梯度追蹤算法[19]、正則正交匹配追蹤算法[20]和壓縮采樣匹配追蹤算法[21]等。由于 OMP算法運(yùn)算速度快且易于實(shí)現(xiàn),本文將采用 OMP算法來求解優(yōu)化問題并重構(gòu)信號。
由壓縮感知理論可知,信號的稀疏化矩陣和測量矩陣是對信號進(jìn)行壓縮感知的兩個重要因素。如何找到信號最佳的稀疏域,是壓縮感知理論應(yīng)用的基礎(chǔ)和前提。同一信號在不同的稀疏變換域下,表達(dá)信號的稀疏程度和能量集中的程度會有所不同,經(jīng)壓縮感知變換后重構(gòu)信號的精度也會有很大差異。目前常用的稀疏變換域有FFT,離散余弦變換,離散小波變換,Curvelets, Gabor,冗余字典以及Karhunen-Loeve變換(KLT)[13,15]等。
無論這些稀疏化變換基如何,其原理都是對信號進(jìn)行某種變換,使信號在變換域上有部分值較大,而其余值為0或接近于0。根據(jù)這個原理,考慮語音信號處理中常用的LPC分析,對于信號x=,可以用過去的p個樣點(diǎn)值來預(yù)測現(xiàn)在或未來的樣點(diǎn)值

則

由此可以通過在某種準(zhǔn)則下使預(yù)測誤差 =[r(1),R最小的方法來得到唯一一組線性預(yù)測系數(shù)。利用線性預(yù)測系數(shù)可構(gòu)成一個N×N矩陣A:

由于預(yù)測誤差R是在某種最佳準(zhǔn)則下得到的最小值,因此其值多數(shù)是接近于0的,這與稀疏變換的定義相一致。如果將預(yù)測誤差R看作稀疏變換的結(jié)果,那么矩陣A就可以看作是一種稀疏變換域。本文將采用矩陣A作為稀疏變換的方法簡稱為LPC方法。
對于連續(xù)信號來說,相鄰樣點(diǎn)之間相關(guān)性較好。因此,如果采用差分矩陣,對信號相鄰的兩個樣點(diǎn)進(jìn)行相減運(yùn)算,就會得到包含很多近似零值的稀疏信號。一階差分矩陣為

任意信號與一階差分矩陣相乘,可得到相鄰兩個樣點(diǎn)值的差。LPC分析得到的預(yù)測誤差R本身可以看作是經(jīng)過稀疏變換的結(jié)果,如果再與差分矩陣相乘,則可使預(yù)測誤差相鄰樣點(diǎn)兩兩相減,由此得到更多的近似零值,這樣在LPC基礎(chǔ)上將得到另外一種稀疏變換基,即

為了方便,這里將稀疏變換基?1=CA Y稱為聯(lián)合變換矩陣,這種稀疏化變換方法稱為聯(lián)合變換法。為了說明LPC法和聯(lián)合變換法的性能,本文將會對基于FFT法,LPC法和聯(lián)合變換法3種稀疏變換方法的信號重構(gòu)性能進(jìn)行比較和分析。
實(shí)驗(yàn)語音為男聲“把悠遠(yuǎn)而短暫的人生”,16 kHz采樣率,研究其中幀長為100樣點(diǎn)的濁音幀,如圖1所示。
可以看出,圖 1(a)所示的濁音信號,在分別經(jīng)過FFT, LPC以及聯(lián)合變換基的稀疏變換后,在變換域都呈現(xiàn)出了稀疏性,滿足采用壓縮感知算法的條件。從變換域來看,聯(lián)合變換法的近似零點(diǎn)較多,稀疏域較好,在理論上應(yīng)該重構(gòu)效果最好。為了更好地比較這幾種稀疏變換域的性能,本文將采用OMP算法對語音信號進(jìn)行重構(gòu),其中稀疏矩陣分別采用FFT, LPC及聯(lián)合變換矩陣,測量矩陣均采用高斯隨機(jī)矩陣。
圖2~圖4分別是利用FFT變換,LPC變換和聯(lián)合變換對圖 1(a)信號進(jìn)行的壓縮重構(gòu)。其中。可以看出,用FFT法對信號進(jìn)行稀疏化變換,得到的重構(gòu)信號效果最差,這是由于語音信號的非周期性導(dǎo)致頻譜泄露而引起的。聯(lián)合變換法的重構(gòu)效果最好,幾乎可以完全重構(gòu)。這一結(jié)論與從變換域得到的結(jié)論相一致。
定義壓縮比b=M/N,x和分別表示原始信號和重構(gòu)信號,則重構(gòu)信號信噪比為


圖1 不同稀疏變換域的比較

圖2 FFT變換基重構(gòu)信號

圖3 LPC變換基重構(gòu)信號

圖4 聯(lián)合變換基重構(gòu)信號
圖5所示是在不同壓縮比時,分別采用 FFT,LPC和聯(lián)合變換3種稀疏化矩陣下重構(gòu)信號的信噪比。為了消除高斯隨機(jī)矩陣F產(chǎn)生的誤差,圖5所示曲線是對圖1(a)信號進(jìn)行100次重構(gòu)運(yùn)算得到的平均信噪比。從圖中可以看出,無論壓縮比大小如何,LPC法和聯(lián)合變換法得到的重構(gòu)信號,其性能都遠(yuǎn)遠(yuǎn)優(yōu)于FFT法得到的重構(gòu)信號性能。在壓縮比小于0.4時,LPC法略優(yōu)于聯(lián)合變換法,而壓縮比較大時,聯(lián)合變換法的重構(gòu)性能則比LPC法有了明顯的提高。

圖5 3種變換基在不同壓縮比時的SNR
圖6(a)為男聲“把悠遠(yuǎn)而短暫的人生”中的一段語音,16 kHz采樣率,幀長100點(diǎn),幀數(shù)50幀,分別采用3種稀疏變換方法,計(jì)算50幀重構(gòu)語音的信噪比,壓縮比為0.5。同樣為了消除高斯隨機(jī)矩陣帶來的不確定性,圖6(b)所示的SNR為多次計(jì)算的平均信噪比。可以看出,聯(lián)合變換法的重構(gòu)信噪比最高,其次是LPC方法,F(xiàn)FT法最差。另外,圖6(a)所示語音包含一段靜音,比較圖6(a), 6(b)可以發(fā)現(xiàn),無論采用哪種稀疏化方法,濁音段的重構(gòu)信噪比都比較高,靜音段的信噪比則較低。而實(shí)際上,這里得到的結(jié)論同樣適用于女聲以及清音信號。
圖7(a)為16 kHz采樣的女聲“運(yùn)輸壓力加大”中的一段語音,同樣取50幀,幀長100點(diǎn),其中包括部分清音。圖7(b)是這段語音在不同變換下的重構(gòu)信噪比,壓縮比為0.6,圖中SNR也是多次計(jì)算得到的平均信噪比。從圖7(b)可以得到與圖6(b)相同的結(jié)論,即聯(lián)合變換的重構(gòu)性能最好。另外,在清音段,3種方法的重構(gòu)性能接近,重構(gòu)信噪比都比較低。
無論采用哪種方法,由于在壓縮比較小時信號的重構(gòu)信噪比總體較低,重構(gòu)語音的音質(zhì)較差,因此在分析時一般選擇壓縮比在 0.4以上。從以上的分析可以看出,在壓縮比大于 0.4時,聯(lián)合變換的方法是一種非常有效的信號稀疏化變換方法。語音信號通過聯(lián)合變換的方法進(jìn)行稀疏化變換,會得到較高的重構(gòu)信噪比。而從圖6(b)和圖7(b)可以看出,采用聯(lián)合變換的方法,濁音段的重構(gòu)信噪比一般都在20 dB以上,即可以很好地重構(gòu)濁音信號。

圖6 男聲語音及其重構(gòu)信噪比

圖7 女聲語音及其重構(gòu)信噪比
與濁音相比,清音段的重構(gòu)性能則差得多。從圖6(b)和圖7(b)可以看出,對于清音部分,聯(lián)合變換法的重構(gòu)性能與LPC法相當(dāng),比FFT法略好。這是由于壓縮感知的前提條件是信號具有稀疏性,濁音信號的相關(guān)性較強(qiáng),說明濁音的可壓縮性較好,即稀疏性較好。而清音信號的相關(guān)性則差得多,因而稀疏性也較差。因此,無論采用哪種稀疏化方法,都很難對清音信號進(jìn)行良好的稀疏化變換,這是清音信號重構(gòu)信噪比都比較低的主要原因。
在CASIA標(biāo)準(zhǔn)漢語語音庫中隨機(jī)選取30段語音,其采樣頻率為16 kHz,每段語音以幀長為100樣點(diǎn)分幀,分別采用3種方法對語音進(jìn)行稀疏化變換并重構(gòu),壓縮比為0.5。首先計(jì)算每段語音各幀的重構(gòu)信噪比,然后再計(jì)算這段語音所有幀的平均重構(gòu)信噪比,如圖8所示。可以看出,聯(lián)合變換法的語音重構(gòu)質(zhì)量最好,而FFT法則最差。

圖8 30段語音的平均重構(gòu)信噪比
采用3種不同的稀疏變換方法,對16 kHz采樣的女聲“She turned in his hotel”進(jìn)行分析。壓縮比分別取0.4~0.9,采用PESQ語音質(zhì)量測評方法對重構(gòu)語音進(jìn)行MOS對比,如表1所示。從表1可以看出,在壓縮比為0.4時,LPC法的MOS值最高,但此時整體的 MOS值都比較低,重構(gòu)語音的語音質(zhì)量較差。在壓縮比大于 0.4時,聯(lián)合法重構(gòu)語音的 MOS值都比另外兩種方法高,尤其在壓縮比為0.7以上時,重構(gòu)語音的MOS值較高,這也說明,雖然采用聯(lián)合變換法沒有明顯提高重構(gòu)清音的信噪比,但是對整段語音的重構(gòu)效果影響不大,重構(gòu)語音的 MOS值較高,其可懂度、清晰度和自然度也較好。

表1 不同壓縮比時重構(gòu)語音的MOS值
本文根據(jù)語音信號LPC分析得到的殘差,提出了一種將 LPC分析和差分變換相結(jié)合的語音信號稀疏化變換方法。分別采用常用的FFT變換,LPC變換和聯(lián)合變換作為語音信號的稀疏變換矩陣,高斯隨機(jī)矩陣作為測量矩陣,以 OMP算法重構(gòu)語音信號,對語音信號的重構(gòu)性能進(jìn)行了對比分析。實(shí)驗(yàn)結(jié)果表明,在壓縮比大于 0.4時,以聯(lián)合變換的方法對語音信號進(jìn)行稀疏變換,信號的重構(gòu)性能最優(yōu)。非周期的語音信號在FFT變換域有頻譜泄露,影響了其重構(gòu)性能。LPC分析法的信號重構(gòu)性能比聯(lián)合變換的方法略差,主要因?yàn)槠湎∈枳儞Q域的信號稀疏性相對較差。這也說明在信號重構(gòu)性能相同時,聯(lián)合變換法的信號壓縮比最小。采用PESQ語音質(zhì)量測評方法對采用3種方法重構(gòu)的語音信號進(jìn)行MOS對比,在壓縮比大于0.4時,聯(lián)合變換法的MOS值最高。這說明對于語音信號而言,基于LPC分析和差分變換的方法是一種很好的稀疏化變換方法,它能夠顯著提高重構(gòu)語音信號的信噪比,如果將其應(yīng)用于語音編碼中,則具有非常重要的理論探索意義。
[1] Donoho D. Compressed sensing.IEEE Transactions on Information Theory, 2006, 52(4): 1289-1306.
[2] Baraniuk R G. Compressive sensing.IEEE Signal Processing Magazine, 2007, 24(4): 118-121.
[3] Donoho D and Tsaig Y. Extensions of compressed sensing.Signal Processing, 2006, 86(3): 533-548.
[4] 石光明, 劉丹華, 高大化, 等. 壓縮感知理論及其研究進(jìn)展.電子學(xué)報, 2009, 37(5): 1070-1081.Shi G M, Liu D H, Gao D H,et al.. Advances in theory and application of compressed sensing.Acta Electronica Sinica,2009, 37(5): 1070-1081.
[5] Griffin A and Tsakalides P. Compressed sensing of audio signals using multiple sensors. Proceedings 16th European Signal Processing Conference (EUSIPCO’08), Lausanne,Switzerland, August 25-29, 2008.
[6] Giacobello D, Christensen M G, Murthi M N,et al..Retrieving sparse patterns using a compressed sensing framework: applications to speech coding based on sparse linear prediction.IEEE Signal Processing Letters, 2010, 17(1):103-106.
[7] Sreenivas T V and Kleijn W B. Compressive sensing for sparsely excited speech signals. Proceedings of the 2009 IEEE International Conference on Acoustics, Speech and Signal Processing, Taipei, China, April 19-24, 2009: 4125-4128.
[8] Christensen M, Ostergaard J, and Jensen S H. On compressed sensing and its application to speech and audio signals. Proceedings of the 43rd Asilomar Conference on Signals, Systems and Computers (Asilomar’09), Monterey,California, Nov. 1-4, 2009: 356-360.
[9] 葉蕾, 孫林慧, 楊震. 基于壓縮感知觀測序列倒譜距離的語音端點(diǎn)檢測算法. 信號處理, 2011, 27(1): 67-72.Ye L, Sun L H, and Yang Z. Endpoint detection algorithm based on cepstral distance of compressed sensing measurements of speech signal.Signal Processing, 2011, 27(1):67-72.
[10] 季云云, 楊震. 基于自相關(guān)觀測的語音信號壓縮感知. 信號處理, 2011, 27(2): 207-214.Ji Y Y and Yang Z. Compressed speech signal sensing based on autocorrelative measurement.Signal Processing, 2011,27(2): 207-214.
[11] 葉蕾, 郭海燕, 楊震. 基于壓縮感知重構(gòu)信號的說話人識別系統(tǒng)抗噪方法研究. 信號處理, 2010, 26(3): 321-326.Ye L, Guo H Y, and Yang Z. Research on antinoise method of speaker recognition system based on compressed sensing reconstruction signal.Signal Processing, 2010, 26(3):321-326.
[12] 孫林慧, 楊震. 基于壓縮感知的分布式語音壓縮與重構(gòu). 信號處理, 2010, 26(6): 824-829.Sun L H and Yang Z. Distributed speech compression and reconstruction based on compressed sensing theory.Signal Processing, 2010, 26(6): 824-829.
[13] 郭海燕, 楊震. 基于近似 KLT 域的語音信號壓縮感知. 電子與信息學(xué)報, 2009, 31(12): 2948-2952.Guo H Y and Yang Z. Compressed speech signal sensing based on approximate KLT.Journal of Electronics&Information Technology, 2009, 31(12): 2948-2952.
[14] Xu T T, Yang Z, and Shao X. Novel speech secure communication system based on information hiding and compressed sensing. 2009 Fourth International Conference on Systems and Networks Communications (ICSNC 2009),Porto, Portugal, 2009: 201-206.
[15] 肖強(qiáng), 陳亮, 朱濤, 等. 基于準(zhǔn) KLT 域的線譜對參數(shù)壓縮感知量化研究. 電子與信息學(xué)報, 2011, 33(9): 2062-2067.Xiao Q, Chen L, Zhu T,et al.. Efficient compressed sensing quantization of LSP parameters based on the approximate KLT domain.Journal of Electronics&Information Technology, 2011, 33(9): 2062-2067.
[16] Candés E and Tao T. Decoding by linear programming.IEEE Transactions on Information Theory, 2005, 51(12):4203-4215.
[17] Candés E, Romberg J, and Tao T. Stable signal recovery from incomplete and inaccurate measurements.Communications on Pure and Applied Mathematics, 2006, 59(8): 1207-1223.
[18] Tropp J and Gilbert A C. Signal recovery from random measurements via orthogonal matching pursuit.IEEE Transactions on Information Theory, 2007, 53(12):4655-4666.
[19] Sreenivas T V and Kleijn W B. Compressive sensing for sparsely excited speech signals. 2009 IEEE International Conference on Acoustics, Speech, and Signal Processing(ICASSP 2009), Taipei, China, April 2009: 4125-4128.
[20] Needell D and Vershynin R. Signal recovery from incomplete and inaccurate measurements via regularized orthogonal matching pursuit.IEEE Signal Processing, 2010, 4(2):310-316.
[21] Needell D and Tropp J A. CoSaMP: iterative signal recovery from incomplete and inaccurate samples. ACM Technical Report 2008-01, California Institute of Technology, Pasadena,July 2008.