萬東琴,卿朝進(jìn),陽慶瑤,蔡 斌,余 旺
西華大學(xué) 電氣與電子信息學(xué)院,成都 610039
日益增長(zhǎng)的音頻傳輸需求造成頻譜資源緊張。為節(jié)省頻譜資源,壓縮感知(Compressed Sensing,CS)[1-2]技術(shù)被引入到稀疏音頻信號(hào)的壓縮處理中[3-4]。壓縮感知技術(shù)在一定程度上降低了頻譜資源需求,但仍面臨諸如模擬-數(shù)字轉(zhuǎn)換器(Analog to Digital Converter,ADC)設(shè)計(jì)困難的挑戰(zhàn)。為進(jìn)一步改善數(shù)據(jù)存儲(chǔ)與傳輸,1-bit CS[5]被應(yīng)用于稀疏音頻信號(hào)處理中[6]。
因只提取符號(hào)信息而不考慮音頻信號(hào)的幅度,1-bit CS 極大地降低了稀疏音頻信號(hào)傳輸時(shí)的頻譜資源需求[7-8]。然而,信號(hào)幅度信息的損失造成1-bit CS較低的重構(gòu)精度。為改善1-bit CS的重構(gòu)精度,文獻(xiàn)[9]提出了經(jīng)典的二進(jìn)制迭代硬閾值算法(Binary Iterative Hard Thresholding,BIHT)。在BIHT算法的基礎(chǔ)上,文獻(xiàn)[10-11]提出了自適應(yīng)量化方法。雖然文獻(xiàn)[9-11]取得了較好的重構(gòu)性能,但信號(hào)的先驗(yàn)信息沒能被開發(fā)利用。文獻(xiàn)[12]將信號(hào)的先驗(yàn)信息融入到重構(gòu)算法中,利用Oracle 估計(jì)、混合加權(quán)、監(jiān)督加權(quán)等方法獲取先驗(yàn)信息,進(jìn)一步改善稀疏信號(hào)的重構(gòu)性能。然而,文獻(xiàn)[12]通過估計(jì)方法獲取先驗(yàn)信息,不可避免的估計(jì)誤差造成重構(gòu)性能下降。
受文獻(xiàn)[12]啟發(fā),本文提出一種基于疊加特征輔助的1-bit CS 音頻傳輸方法。不同于文獻(xiàn)[12],本文方法不估計(jì)先驗(yàn)信息,而是以擴(kuò)頻疊加的方式[13-14]將先驗(yàn)信息傳輸至接收端,用以輔助重構(gòu)算法。在發(fā)送端,利用音頻中高幅度值信號(hào)的支撐集(即先驗(yàn)信息)構(gòu)造特征信息,并使用擴(kuò)頻矩陣對(duì)特征信息進(jìn)行擴(kuò)頻處理;為不增加頻譜開銷,將擴(kuò)頻后的特征信息加權(quán)疊加在1-bit壓縮后的音頻信號(hào)上進(jìn)行傳輸。接收端通過解擴(kuò)還原出特征信息和1-bit CS壓縮的音頻信號(hào);并利用特征信息輔助構(gòu)建重構(gòu)算法恢復(fù)稀疏的音頻信號(hào)。特別地,本文在BIHT 算法基礎(chǔ)上提出特征輔助的BIHT(Feature Aided BIHT,F(xiàn)A-BIHT)算法進(jìn)行稀疏音頻信號(hào)的重構(gòu)。相對(duì)于BIHT 重構(gòu)方法,本文方法可在不增加頻譜開銷的情況下改善重構(gòu)的音頻信號(hào)的MSE(Mean Square Error)值和MOS(Mean Opinion Score)評(píng)分。
本文中,(·)T、(·)-1和分別表示轉(zhuǎn)置、矩陣的逆和向下取整運(yùn)算;Il表示l×l的單位矩陣;矢量x的算子0范數(shù)定義為,矢量x的算子2范數(shù)定義為表示矢量x的支撐集(所述支撐集是指非零元素的索引);集合W的勢(shì)和變量x的絕對(duì)值分別表示為表示符號(hào)函數(shù),x≥0 時(shí),sign(x)=1 ,x <0 時(shí),sign(x)=-1;dec(x)表示硬判決操作,將x中大于0 的元素置為1,其余元素置為-1。
接收端接收的帶噪音頻信號(hào)z~ 可表示為:

其中,n∈?M×1表示高斯白噪聲矢量,其元素服從零均值,方差為的高斯分布;z∈?M×1表示疊加發(fā)送信號(hào),即:

式中,α(0<α <1)表示加權(quán)系數(shù);Es為信號(hào)發(fā)射能量;h∈?L×1為音頻幀信號(hào)的特征信息;Q∈?M×L為擴(kuò)頻矩陣,由Walsh碼構(gòu)成,滿足QTQ=MIL[13];y∈ ?M×1為音頻信號(hào),由1-bit CS壓縮得到,即:

其中,Φ表示M×N的測(cè)量矩陣;x表示N×1 的稀疏音頻信號(hào),其稀疏度為K(即‖x‖0=K)。根據(jù)聽覺掩蔽效應(yīng),可將人耳未能感知的聲音信號(hào)去掉,實(shí)現(xiàn)音頻信號(hào)的稀疏化[15-17]。本文以此為前提,假設(shè)音頻信號(hào)x是稀疏的,研究提出方法對(duì)1-bit 重構(gòu)音頻的MSE 和MOS的改善。
接收端對(duì)帶噪音頻信號(hào)z~ 進(jìn)行解擴(kuò)還原出特征信息h和1-bit壓縮信號(hào)y。繼而利用特征信息輔助BIHT重構(gòu)算法從1-bit CS壓縮的信號(hào)中恢復(fù)稀疏音頻信號(hào)。
根據(jù)式(2),提出方法將音頻幀信號(hào)的特征信息h疊加到1-bit CS壓縮音頻信號(hào)y上傳輸,這可使在相同時(shí)間相同傳輸速率的條件下傳輸更多信息。即在不增加頻譜開銷的情況下,將特征信息傳輸至接收端,用于輔助BIHT 重構(gòu)算法恢復(fù)稀疏音頻信號(hào),進(jìn)而改善重構(gòu)音頻信號(hào)的MSE和MOS評(píng)分。
基于特征信息的1-bit 壓縮傳輸?shù)姆椒ㄔ诎l(fā)送端提取特征信息,并根據(jù)式(2)將特征信息疊加傳輸;接收端通過解擴(kuò)頻恢復(fù)特征信息和1-bit CS壓縮的音頻信號(hào),并利用特征信息輔助構(gòu)建重構(gòu)算法重構(gòu)音頻信號(hào)。
本文選取音頻信號(hào)的部分支撐集作為特征信息輔助重構(gòu)。用Ω表示稀疏度為K的x的支撐集,即Ω=supp(x),支撐集Ω的勢(shì)為 |Ω|=K。
根據(jù)人耳聽覺特性中的掩蔽效應(yīng),高幅度值信號(hào)會(huì)掩蔽附近的低幅度值信號(hào),使得低幅度值信號(hào)不易被人耳察覺,故將高幅度值信號(hào)的支撐集信息作為特征信息將有助于改善語音重構(gòu)精度[16-17]。因此,將x前l(fā)個(gè)幅度值最大元素的索引構(gòu)成部分支撐集Ω^ ∈?l×1,即:

其中,λxi,i=1,2,…,K表示元素xi的索引。
對(duì)進(jìn)行量化處理,量化處理后的信息表示為ω,從而有:

其中,Θ(·)是二進(jìn)制量化操作器;ω為L(zhǎng)×1 的矢量。對(duì)ω進(jìn)行二進(jìn)制相移鍵控(Binary Phase Shift Keying,BPSK)數(shù)字調(diào)制處理,得到特征信息,即:

其中,?(·)表示數(shù)字調(diào)制處理。
提取到特征信息h后,根據(jù)式(2),利用擴(kuò)頻矩陣Q對(duì)特征信息h進(jìn)行擴(kuò)頻處理,并疊加在1-bit壓縮音頻信號(hào)上進(jìn)行發(fā)送。
因疊加處理造成疊加干擾(見式(1)和式(2)),接收信號(hào)并不能直接用于音頻重構(gòu)。首先,在3.2.1 小節(jié)通過解擴(kuò)處理方式從接收信號(hào)中恢復(fù)出特征信息和1-bit壓縮的音頻信號(hào)。然后,在3.2.2小節(jié)根據(jù)恢復(fù)出的1-bit壓縮信號(hào),并結(jié)合特征信息,構(gòu)建重構(gòu)算法重構(gòu)音頻信號(hào)。
3.2.1 特征信息與壓縮語音恢復(fù)
根據(jù)式(1)和式(2),接收端接收的帶噪信號(hào)可表示為:

對(duì)z~ 進(jìn)行解擴(kuò),得解擴(kuò)信號(hào)ph∈?L×1為:

對(duì)ph進(jìn)行硬判決操作,恢復(fù)出特征信息h的估計(jì)值,即(ph)。在獲取特征信息的估計(jì)值之后,利用干擾抵消技術(shù),可從接收信號(hào)中消除特征信息h的影響,從而得到壓縮信號(hào)y的估計(jì)值[13],即利用替代h,根據(jù)式(7)和式(8),可得:

其中,py為M×1 的矢量信號(hào)。
對(duì)py進(jìn)行硬判決操作,恢復(fù)出壓縮信號(hào),即(py)。聯(lián)合恢復(fù)得到的特征信息(參見式(8)和式(9)),通過3.2.2小節(jié)提出的FA-BIHT算法進(jìn)行音頻重構(gòu)。
3.2.2 音頻重構(gòu)
根據(jù)3.2.1小節(jié)恢復(fù)得到的特征信息與壓縮語音,在BIHT重構(gòu)算法[18]的基礎(chǔ)上,提出FA-BIHT算法對(duì)x進(jìn)行重構(gòu),算法如下。


不同于BIHT 算法,F(xiàn)A-BIHT 算法融入了由特征信息構(gòu)造的支撐集。具體不同表現(xiàn)在:
(1)輸入:不同于BIHT 算法,提出的FA-BIHT 的輸入?yún)?shù)增加了由特征信息構(gòu)造的支撐集(BIHT算法的輸入?yún)?shù)不含支撐集)。
(2)支撐集映射:

其中,ξ(·)表示支撐集映射操作器,它將集合在矢量βt+1中索引的元素幅值賦給集合在xt+1中的索引所在位置。不同的是,BIHT算法僅通過步驟2計(jì)算xt+1,即通過硬閾值映射計(jì)算xt+1,表示為:

其中,η(·)為硬閾值映射操作器,它保留βt+1中前K個(gè)最大元素,其余置為0。
為驗(yàn)證提出方法的有效性,對(duì)FA-BIHT 與BIHT 方法的音頻重構(gòu)精度和音質(zhì)效果進(jìn)行了對(duì)比。對(duì)比中,用到的術(shù)語做如下定義。稀疏率和信噪比(分貝形式)分別定義為:

仿真選用100組音頻文件,來自中國(guó)科學(xué)院自動(dòng)化語音庫和TIMIT語音庫,采樣率為16 kHz。取N=1 024,信道噪聲n為加性高斯白噪聲,其元素服從零均值,方差為的高斯分布,SNR 選取0 dB、5 dB 和10 dB。測(cè)量矩陣Φ的元素是獨(dú)立同分布的高斯隨機(jī)變量[1],且服從N(0)分布[19]。加權(quán)系數(shù)α選取0.01、0.05 和0.10,測(cè)量值M選取N、1.5N、2.0N和3.0N。
在疊加的特征信息數(shù)據(jù)維度相同的情況下,討論在不同α和SNR 情況下,測(cè)量值M和稀疏率k的變化對(duì)BIHT 與FA-BIHT 算法重構(gòu)性能的影響。采用MSE 和PESQ 標(biāo)準(zhǔn)下的MOS 作為音頻信號(hào)重構(gòu)性能的評(píng)價(jià)指標(biāo)[20-21]。
為討論在不同α和不同SNR情況下,測(cè)量值M變化對(duì)提出方法改善音頻信號(hào)音質(zhì)和精度的影響,圖1給出了不同α和不同SNR情況下,MSE與測(cè)量值M的關(guān)系曲線,圖2給出了不同α和不同SNR下,MOS與測(cè)量值M的關(guān)系曲線。
由圖1 和圖2 可知,提出方法改善了音頻信號(hào)的音質(zhì)和精度。由FA-BIHT 方法重構(gòu)音頻的MSE 和MOS值優(yōu)于BIHT 方法,尤其是測(cè)量數(shù)M=N時(shí),優(yōu)勢(shì)更為明顯。隨著測(cè)量數(shù)M的增加,F(xiàn)A-BIHT 方法的優(yōu)勢(shì)減弱,這是由于在測(cè)量數(shù)足以滿足1-bit重構(gòu)需求時(shí),BIHT方法也能準(zhǔn)確重構(gòu)出信號(hào)位置。盡管如此,提出方法仍具有有效性。
為討論在不同α和不同SNR情況下,稀疏率k對(duì)提出方法改善音頻信號(hào)音質(zhì)和精度的影響,圖3給出了不同α和不同 SNR 下,MSE 與稀疏率k的關(guān)系曲線,圖4給出了不同α和不同SNR 下,MOS 與稀疏率k的關(guān)系曲線。
由圖3和圖4可知,在稀疏率k增加的條件下,提出方法也具有改善音頻信號(hào)的音質(zhì)和精度的作用。尤其在稀疏率k=12 時(shí),由FA-BIHT 方法重構(gòu)音頻的MSE和MOS值明顯優(yōu)于BIHT方法。隨著稀疏率k升高,兩種方法所獲得的重構(gòu)信號(hào)的MSE 和MOS 值有一個(gè)下降再上升的過程。在這個(gè)過程中,F(xiàn)A-BIHT方法仍然優(yōu)于BIHT方法,提出方法仍具有有效性。

圖1 不同α 和不同SNR下MSE與M 的關(guān)系曲線

圖2 不同α 和不同SNR下MOS與M 的關(guān)系曲線

圖3 不同α 和不同SNR下MSE與k 的關(guān)系曲線

圖4 不同α 和不同SNR下MOS與k 的關(guān)系曲線
本文提出了一種基于疊加特征的1-bit 音頻壓縮傳輸方法。該方法以擴(kuò)頻疊加的方式傳輸音頻信號(hào)的特征信息,用以輔助接收端FA-BIHT 算法恢復(fù)音頻信號(hào),從而在不增加頻譜開銷的情況下改善重構(gòu)信號(hào)的MOS和MSE。通過與BIHT 算法進(jìn)行仿真對(duì)比,提出的FABIHT 算法能夠改善重構(gòu)精度,且在低信噪比和低測(cè)量數(shù)的情況下,改善效果尤為明顯。