武朋輝 楊百龍 時(shí) 磊
(1第二炮兵工程大學(xué)信息工程系 西安 710025)
(2中國(guó)人民解放軍96424部隊(duì) 寶雞 721004)
(3第二炮兵工程大學(xué)士官學(xué)院 濰坊 262500)
基于離散余弦變換的語(yǔ)音壓縮采樣和編碼算法?
武朋輝1,2?楊百龍1時(shí) 磊3
(1第二炮兵工程大學(xué)信息工程系西安710025)
(2中國(guó)人民解放軍96424部隊(duì)寶雞721004)
(3第二炮兵工程大學(xué)士官學(xué)院濰坊262500)
針對(duì)語(yǔ)音無(wú)線通信中帶寬資源受限的問(wèn)題,提出基于壓縮采樣的低速率語(yǔ)音編碼算法。以基尼系數(shù)為指標(biāo),比較不同稀疏變換域下語(yǔ)音信號(hào)的稀疏性,分析常見(jiàn)重構(gòu)算法對(duì)語(yǔ)音信號(hào)壓縮采樣觀測(cè)信號(hào)的重構(gòu)特性。對(duì)標(biāo)準(zhǔn)耳蝸濾波器——伽馬啁啾濾波器組的參數(shù)進(jìn)行研究,并以梯度投影稀疏重建(GPSR)算法重構(gòu)語(yǔ)音信號(hào)。利用語(yǔ)音質(zhì)量感知評(píng)估(PESQ)、信噪比和主觀聽(tīng)覺(jué)測(cè)試,對(duì)編解碼后的合成語(yǔ)音信號(hào)進(jìn)行了質(zhì)量評(píng)估。實(shí)驗(yàn)表明,基于壓縮感知的語(yǔ)音編碼器以4 kbps的低速率對(duì)語(yǔ)音進(jìn)行編碼時(shí),PESQ得分可達(dá)到3.16,計(jì)算復(fù)雜度相對(duì)較低,可以用于實(shí)際的語(yǔ)音編碼環(huán)境。
低速率編碼,壓縮采樣,基尼系數(shù),離散余弦變換
語(yǔ)音壓縮編碼要求在保證盡可能好的聽(tīng)覺(jué)質(zhì)量基礎(chǔ)上,以盡可能低的碼率傳輸和存儲(chǔ)語(yǔ)音信號(hào)中的信息。低編碼率的語(yǔ)音壓縮算法,在無(wú)線網(wǎng)絡(luò)、衛(wèi)星通信和軍事保密通信等帶寬資源十分有限的環(huán)境中有著廣泛應(yīng)用[1]。根據(jù)信息論的觀點(diǎn),理論上語(yǔ)音編碼的極限速率為80~100 bps,然而這種情況下,說(shuō)話人的音質(zhì)、音調(diào)、情感等重要信息已經(jīng)丟失。線性預(yù)測(cè)編碼(Linear prediction code)是最基本的語(yǔ)音參數(shù)編碼方法,在此基礎(chǔ)上發(fā)展起來(lái)的碼激勵(lì)線性預(yù)測(cè)模型(Code excited linear prediction,CELP),混合激勵(lì)線性預(yù)測(cè)模型(Mixed-excitation linear prediction,MELP),諧波激勵(lì)線性預(yù)測(cè)模型(Harmonic excited linear prediction,HELP)和波形插值編碼模型(Waveform interpolation,WI)是當(dāng)前語(yǔ)音低速率編碼研究的發(fā)展方向[2]。
壓縮采樣[3-4](Compressive sensing,CS)技術(shù),認(rèn)為如果信號(hào)本身或信號(hào)在某一變換域中稀疏或近似稀疏,就可以用此信號(hào)的投影觀測(cè)值來(lái)近似無(wú)損地重構(gòu)原信號(hào)。重構(gòu)信號(hào)的質(zhì)量與信號(hào)的最高頻率無(wú)關(guān),突破了奈奎斯特采樣定律對(duì)采樣頻率的限制。此外,Sreenivas[5]從理論和實(shí)驗(yàn)上分析了語(yǔ)音信號(hào)的稀疏特性,這使得壓縮采樣技術(shù)在一維語(yǔ)音信號(hào)中的應(yīng)用成為現(xiàn)實(shí)。
利用CS技術(shù)進(jìn)行低速率語(yǔ)音編碼成為研究的一個(gè)熱點(diǎn),葉蕾[6]等對(duì)語(yǔ)音信號(hào)小波變換高頻系數(shù)進(jìn)行壓縮采樣,在保證解碼端重構(gòu)語(yǔ)音質(zhì)量的同時(shí),降低語(yǔ)音碼率降至3.4 kbps。2011年,葉蕾[7]經(jīng)過(guò)改進(jìn)重構(gòu)算法,提出基于CS的3.0 kbps語(yǔ)音編碼算法,且重構(gòu)語(yǔ)音質(zhì)量的平均意見(jiàn)得分(Mean opinion score,MOS)達(dá)到3.7。Gunawan[8]等在六核并行計(jì)算框架下,利用矢量量化算法對(duì)語(yǔ)音CS后的觀測(cè)值進(jìn)行編碼,合成語(yǔ)音的MOS值可達(dá)到3.6。
本文對(duì)語(yǔ)音信號(hào)在三種確定性稀疏變換(離散余弦變換(Discrete cosine transform,DCT),離散傅里葉變換(Discrete fourier transform,DFT),離散小波變換(Discrete wavelet transform,DWT))下的稀疏性進(jìn)行分析對(duì)比,提出了一種DCT下基于壓縮采樣的語(yǔ)音編碼算法,對(duì)語(yǔ)音信號(hào)經(jīng)過(guò)伽馬通濾器組濾波后的子帶參數(shù)進(jìn)行壓縮采樣以降低碼率,解碼端利用梯度投影稀疏重建(Gradient projection for sparse reconstruction,GPSR)算法對(duì)壓縮采樣后的語(yǔ)音信號(hào)進(jìn)行重構(gòu)。通過(guò)主觀和客觀的語(yǔ)音質(zhì)量評(píng)估方法,對(duì)合成語(yǔ)音的質(zhì)量進(jìn)行了分析,并與CELP編碼算法進(jìn)行了性能比較。
2.1語(yǔ)音信號(hào)的稀疏表示
信號(hào)的嚴(yán)格稀疏性要求信號(hào)在變換基上只有K個(gè)非零的系數(shù),但是大多數(shù)情況下信號(hào)無(wú)法達(dá)到這個(gè)要求。然而,如果信號(hào)經(jīng)過(guò)變換后得到的系數(shù)經(jīng)排列后能夠呈現(xiàn)出指數(shù)級(jí)衰減趨近于零的趨勢(shì),就表示信號(hào)也是可壓縮的,稱為近似稀疏。此時(shí),可以將較小系數(shù)進(jìn)行零值化處理,在不影響語(yǔ)音質(zhì)量的前提下對(duì)進(jìn)行信號(hào)稀疏化。
以16 kHz的采樣頻率錄制一段語(yǔ)音信號(hào),取320個(gè)點(diǎn)的濁音信號(hào)進(jìn)行分析,其時(shí)域波形如圖1(a)所示,可以看出信號(hào)具有準(zhǔn)周期性。對(duì)信號(hào)進(jìn)行DCT變換后,按降序排列DCT系數(shù)的絕對(duì)值,曲線如圖1(b)所示,可以發(fā)現(xiàn)濁音信號(hào)的系數(shù)以指數(shù)級(jí)速度衰減趨于零,說(shuō)明語(yǔ)音信號(hào)的濁音部分在離散余弦變換下的系數(shù)可以看成是近似稀疏的。濁音信號(hào)在其他確定性變換基下的系數(shù)也是近似稀疏的,限于篇幅,其他變換的實(shí)驗(yàn)數(shù)據(jù)不再列出。由于語(yǔ)音信號(hào)中濁音信號(hào)占70%以上,所以我們可以得出結(jié)論:對(duì)語(yǔ)音信號(hào)可以采用壓縮采樣技術(shù)進(jìn)行處理,從而降低信息冗余。
2.2壓縮采樣
壓縮采樣與傳統(tǒng)的數(shù)據(jù)采集方法不同。它采取比傳統(tǒng)方法使用少得多的樣品或測(cè)量值來(lái)恢復(fù)原始信號(hào)。由于只需通過(guò)存儲(chǔ)最大的基系數(shù),信號(hào)得到壓縮。在復(fù)原過(guò)程中,沒(méi)有存儲(chǔ)的較小系數(shù)被置為零。
CS技術(shù)利用了兩個(gè)原理實(shí)現(xiàn)對(duì)原始信號(hào)的近似重構(gòu)。一是稀疏性,這與信號(hào)本身的特征相關(guān);二是非相干性,即感知模型中的觀測(cè)矩陣和稀疏變換中的稀疏矩陣之間的非關(guān)聯(lián)性[9]。
2.2.1稀疏性
從信號(hào)的隨機(jī)投影中恢復(fù)信號(hào)的前提是信號(hào)在向量空間上是稀疏的[10]。稀疏度是CS在測(cè)量階段衡量一個(gè)信號(hào)冗余度的指標(biāo)。觀察信號(hào)在常用變換域(像小波變換,離散余弦變換或快速傅立葉變換)的系數(shù)可以發(fā)現(xiàn),大部分系數(shù)都非常小,可以忽略不計(jì),只有相對(duì)較少的大系數(shù)包含了信號(hào)最重要的信息。
假設(shè)原始信號(hào)為x∈RN,ψ={ψ1,ψ2,···,ψN}是RN空間上的基向量。信號(hào)成為“T稀疏”的條件是:

其中sni是標(biāo)量系數(shù),且T<N,ψ是x的知識(shí)。所以x=ψ·s,其中s是只有T個(gè)非零元素的稀疏向量。
觀測(cè)方法是:

或y=Φ·x,? 是M×N維的觀測(cè)矩陣。Φ由m維隨機(jī)正交基向量?m構(gòu)成。如果Φ和? 滿足非相干性,且M>T lgN,則可以從y中高概率地重構(gòu)x。
CS的基本目標(biāo)是找出線性非自適應(yīng)觀測(cè)的最小數(shù)量以重構(gòu)信號(hào)。重構(gòu)的過(guò)程可轉(zhuǎn)化為求解凸優(yōu)化問(wèn)題:

其中‖·‖1表示?1范數(shù)。觀測(cè)矩陣的維數(shù)相當(dāng)?shù)停貥?gòu)時(shí)需要利用迭代算法。
2.2.2重構(gòu)算法
重構(gòu)出的信號(hào)的質(zhì)量取決于觀測(cè)次數(shù),信號(hào)的稀疏性和重構(gòu)算法的性能。稀疏逼近的重構(gòu)算法有許多,基本有三大類:追蹤算法,凸松弛算法和組合算法。其代表算法有匹配追蹤(Matching pursuit,MP),梯度追蹤(Gradient pursuit,GP)算法和鏈?zhǔn)阶粉櫍–haining pursuit,CP)算法等。梯度追蹤類算法結(jié)合了匹配追蹤算法,又使用最優(yōu)化方法中的最速下降法,在計(jì)算量上與MP算法接近,重建效果上又與正交匹配追蹤(Orthogonal matching pursuit,OMP)算法相當(dāng),具有很好的重構(gòu)效果。
本文提出的編碼算法如圖2所示。在編碼端,輸入的語(yǔ)音首先被分成32 ms的語(yǔ)音幀,然后經(jīng)過(guò)帶通濾波器進(jìn)行濾波。對(duì)幀信號(hào)進(jìn)行離散余弦變換,以使信號(hào)稀疏化,利用隨機(jī)高斯矩陣作為觀測(cè)矩陣,對(duì)稀疏信號(hào)進(jìn)行測(cè)量,將測(cè)量結(jié)果進(jìn)行矢量量化后,得到量化后的碼本下標(biāo)數(shù)據(jù),再傳輸或經(jīng)過(guò)信道存儲(chǔ)。

圖2 基于壓縮感知的語(yǔ)音編碼模型Fig.2 Speech encoder model based on CS
在解碼端,依據(jù)接收到的碼本下標(biāo),在碼本中進(jìn)行檢索,得到解碼后的信號(hào),接著利用GPSR算法對(duì)稀疏系數(shù)進(jìn)行重構(gòu),得到重構(gòu)的語(yǔ)音信號(hào)DCT系數(shù),經(jīng)過(guò)IDCT變換后,再利用帶通濾波器進(jìn)行濾波,得到合成的語(yǔ)音信號(hào)。由于重構(gòu)算法和DCT變換占用了時(shí)間資源,因此在伽馬通濾波器后使用延遲補(bǔ)償算法,以抵消合成語(yǔ)音的滯后現(xiàn)象。
3.1帶通濾波器組設(shè)計(jì)
人耳對(duì)語(yǔ)音信號(hào)各頻帶的感知是非均勻的,人耳的感知頻率與傳統(tǒng)意義的頻率之間并不是線性關(guān)系。因此,在設(shè)計(jì)帶通濾波器組之前,需要將實(shí)際頻率映射到符合人耳感知頻率的刻度上。目前,常用的非線性頻率刻度變換有Mel刻度、Bark刻度和ERB(Equivalent rectangular bandwidth)刻度[11]。
Mel刻度多用于心理聲學(xué)中對(duì)基音“幅度”的客觀測(cè)度,它和實(shí)際頻率之間大體呈對(duì)數(shù)關(guān)系,在1 kHz以上呈對(duì)數(shù)增長(zhǎng),在1 kHz以下大致呈線性分布。基于Mel刻度的美爾濾波器組一般采用多個(gè)三角形濾波器對(duì)語(yǔ)音信號(hào)進(jìn)行參數(shù)提取。
Bark刻度依據(jù)人類聽(tīng)覺(jué)系統(tǒng)的頻率選擇性測(cè)量得到,在500 Hz以下呈線性關(guān)系,高于500 Hz則呈對(duì)數(shù)關(guān)系?;谂R界帶的Mel刻度和Bark刻度模擬了人耳的聽(tīng)覺(jué)系統(tǒng)特性,但與真實(shí)的人耳聽(tīng)覺(jué)系統(tǒng)特性還有差距。
ERB刻度是依據(jù)聽(tīng)覺(jué)濾波器的波形而定義的一種刻度,同Bark刻度相比較,ERB刻度下,臨界帶帶寬更窄,尤其在低頻范圍內(nèi)更加明顯。在500 Hz頻率以下,ERB刻度既不像Bark刻度那樣呈線性關(guān)系,也不是對(duì)數(shù)關(guān)系,而是介于兩者之間,能夠更精確地描述了人耳基底膜的頻率選擇特性。因此,基于ERB刻度的耳蝸濾波器組在提取語(yǔ)音參數(shù)上更接近實(shí)際情況。常用的耳蝸濾波器組有伽馬通濾波器組和伽馬啁啾濾波器組。
伽馬通濾波器組[12]的沖激響應(yīng)為

式中,t≥0,1≤i≤N,N為濾波器的階數(shù);A為濾波器的增益;φi表示相位;u(t)為單位階躍函數(shù);B=-2πbERB(fi);ERB為等效矩形帶寬,可由式(5)得到。

fi表示濾波器中心頻率,在30 Hz到4000 Hz之間分布。伽馬通濾波器組,能模擬人耳的頻率選擇特性和頻譜分析特性,但它的幅頻響應(yīng)曲線是關(guān)于中心頻率對(duì)稱的且振幅與強(qiáng)度無(wú)關(guān),無(wú)法體現(xiàn)出基底膜曲線的非對(duì)稱性和強(qiáng)度相關(guān)特性。
伽馬啁啾濾波器組[13]是一個(gè)標(biāo)準(zhǔn)的耳蝸聽(tīng)覺(jué)濾波器,其沖擊響應(yīng)的典型模式為

其中:

lnt為時(shí)間的自然對(duì)數(shù);c為啁啾因子,當(dāng)c=0時(shí),伽馬啁啾濾波器組簡(jiǎn)化為伽馬通濾波器組。伽馬啁啾濾波器組不但具備伽馬通濾波器組的優(yōu)點(diǎn),還可以模擬基底膜濾波器的非對(duì)稱性和強(qiáng)度依賴性,因此,本文選擇伽馬啁啾濾波器組作為帶通濾波器。
3.2稀疏變換基的選擇
對(duì)一維語(yǔ)音信號(hào)稀疏化的變換域常有離散傅立葉變換(DFT),離散余弦變換(DCT)和小波變換(WT)。為了評(píng)價(jià)語(yǔ)音信號(hào)在稀疏基下的稀疏性能,本文借鑒經(jīng)濟(jì)學(xué)中的基尼系數(shù)(Gini index)來(lái)衡量信號(hào)的均勻程度?;嵯禂?shù)用于表征分配系統(tǒng)中的平均度,表示完全平均分配,即各個(gè)受益者在系統(tǒng)中得到均勻的資源;1表示最不等分配,即最稀疏情況。
對(duì)一段語(yǔ)音信號(hào)進(jìn)行稀疏變換后,以變換系數(shù)最大值的3%作為較小系數(shù)的計(jì)數(shù)開(kāi)始點(diǎn),將較小系數(shù)置,計(jì)算系數(shù)的基尼系數(shù),結(jié)果如表1所示??梢钥闯?,DCT域的語(yǔ)音信號(hào)更加稀疏,壓縮采樣的效果最好。本文采用DCT變換以使語(yǔ)音信號(hào)在子帶上稀疏。

表1 語(yǔ)音信號(hào)在稀疏基下的Gini系數(shù)Table 1 Gini indexs of speech signals under sparse basis
3.3梯度投影稀疏重建算法(GPSR)

梯度投影(GPSR)[14]算法將無(wú)約束?1正則化非線性凸優(yōu)化問(wèn)題,轉(zhuǎn)化為帶邊界約束的二次規(guī)劃問(wèn)題。即無(wú)約束凸優(yōu)化問(wèn)題:其中x∈Rn,y∈Rk,A是k×n矩陣。τ是非負(fù)參數(shù),‖·‖2表示歐幾里得范數(shù),‖·‖1表示?1范數(shù),可以轉(zhuǎn)化帶約束凸優(yōu)化問(wèn)題:

及

其中ε和σ均為非負(fù)實(shí)參數(shù)。
以任意一個(gè)可能解作為出發(fā)點(diǎn),沿著下降的可行方向搜索,求出使目標(biāo)函數(shù)值下降的新的可能解。當(dāng)?shù)霭l(fā)點(diǎn)在可行域內(nèi)部時(shí),沿負(fù)梯度方向進(jìn)行搜索;當(dāng)?shù)霭l(fā)點(diǎn)在某些約束的邊界上時(shí),將該點(diǎn)處的負(fù)梯度投影到矩陣的零空間,該空間是以起作用約束或部分起作用約束的梯度為行所構(gòu)造成的。GPSR算法對(duì)信號(hào)的重構(gòu)精度較高,且其收斂速度比最小?1范數(shù)算法和硬閾值算法快。表2是幾類重建算法的CPU時(shí)間。

表2 幾類重建算法執(zhí)行時(shí)間Table 2 CPU time of reconstruction algorithms
實(shí)驗(yàn)平臺(tái)參數(shù)為:Pentium Dual 2.0 GHz CPU,2 GB RAM,Windows 7操作系統(tǒng),仿真使用Mathwork公司的Matlab V7.8進(jìn)行。
4.1語(yǔ)音材料錄制
為了比較編碼算法的性能,在錄音室內(nèi)錄制3名男性和3名女性的話音,采樣頻率為25 kHz,位深16比特。每人錄制5段時(shí)長(zhǎng)在2~5 s的短話,共計(jì)30段語(yǔ)音數(shù)據(jù)。用Adobe Audition軟件對(duì)錄音進(jìn)行下采樣至16 kHz。
4.2碼本尺寸對(duì)重構(gòu)質(zhì)量的影響
實(shí)驗(yàn)選用前20個(gè)語(yǔ)音文件訓(xùn)練碼本,后20個(gè)語(yǔ)音文件進(jìn)行編碼并做性能測(cè)試。矢量量化固定碼本的尺寸初始設(shè)置為256,128,64,32,和16。
以第21個(gè)語(yǔ)音文件為實(shí)驗(yàn)音頻,測(cè)試碼本尺寸對(duì)語(yǔ)音感知質(zhì)量的影響。圖3是碼本大小與PESQ[15]測(cè)量值的關(guān)系曲線??梢钥闯?,決定編碼速率的碼本尺寸和語(yǔ)音透明性之間存在著相互制衡的關(guān)系。增加碼本尺寸,可以得到較好的合成語(yǔ)音質(zhì)量,但這會(huì)增加編碼比特率。

圖3 語(yǔ)音PESQ質(zhì)量與碼本尺寸關(guān)系曲線Fig.3 Speech quality with increasing codebook size
4.3語(yǔ)音合成質(zhì)量客觀評(píng)價(jià)
以語(yǔ)音素材集的后10個(gè)音頻文件(5男聲,5女聲)為實(shí)驗(yàn)材料,碼本尺寸設(shè)為256,利用PESQ、信噪比和分段信噪比作為客觀評(píng)價(jià)指標(biāo),對(duì)合成語(yǔ)音質(zhì)量進(jìn)行評(píng)價(jià)。表3是10個(gè)語(yǔ)音文件的PESQ值。PESQ平均得分3.164,表明合成語(yǔ)音質(zhì)量較好。圖4給出了合成語(yǔ)音的SNR和SNRseg。

表3 合成語(yǔ)音的PESQ值Table 3 PESQ score of synthetic speech
4.4語(yǔ)音合成質(zhì)量主觀評(píng)價(jià)
選取25名正常聽(tīng)覺(jué)的聽(tīng)音者對(duì)10個(gè)合成語(yǔ)音進(jìn)行主觀性能測(cè)試,得到每個(gè)語(yǔ)音文件的平均意見(jiàn)得分。得分5表示完全無(wú)雜音,得分1表示完全聽(tīng)不清。10個(gè)合成語(yǔ)音的平均得分為3.712,表示具有非常良好的品質(zhì),也證實(shí)了客觀測(cè)試PESQ得分3.164的正確性。

圖4 合成語(yǔ)音的信噪比和分段信噪比Fig.4 SNR and SNRsegof synthetic speech
4.5與典型低速率聲碼器的性能比較
保密電話常用的聲碼器以CELP和MELP聲碼器為主。CELP以高質(zhì)量的合成語(yǔ)音、優(yōu)良的抗噪聲和多次轉(zhuǎn)接性能,在低速率語(yǔ)音編碼上得到廣泛應(yīng)用。MELP聲碼器在傳統(tǒng)的二元激勵(lì)線性預(yù)測(cè)模型的基礎(chǔ)上作了改進(jìn),并采用了許多新的措施,使得在2.4 kbps速率上能夠得到更高質(zhì)量的合成語(yǔ)音。將4.8 kbps CELP聲碼器,2.4 kbps MELP聲碼器和本文提出的算法進(jìn)行比較,對(duì)后10個(gè)語(yǔ)音文件分別進(jìn)行三種算法下的編解碼,其性能如表4所示。

表4 聲碼器性能比較Table 4 Vocoder characteristics of a range
在語(yǔ)音合成質(zhì)量方面,三種算法的平均PESQ得分相當(dāng)。在編碼速率方面,基于壓縮采樣的語(yǔ)音編碼速率可以達(dá)到4 kbps,低于CELP聲碼器的編碼速率,但高于MELP聲碼器的編碼速率。
在計(jì)算復(fù)雜度方面,本文算法的性能介于兩種傳統(tǒng)聲碼器之間。由于語(yǔ)音信號(hào)相鄰幀之間的相關(guān)性很大,可以在GPSR重構(gòu)時(shí),以前一幀信號(hào)的重構(gòu)信息作為當(dāng)前幀重構(gòu)時(shí)的初值,從而減少恢復(fù)算法的計(jì)算量,加快信號(hào)恢復(fù)的過(guò)程,降低算法的計(jì)算復(fù)雜度。
提出基于壓縮采樣的低比特率語(yǔ)音編碼算法,利用伽馬通濾波器組對(duì)語(yǔ)音信號(hào)進(jìn)行濾波后,語(yǔ)音信號(hào)在DCT變換域上的稀疏性,使用壓縮采樣對(duì)語(yǔ)音信號(hào)進(jìn)行測(cè)量。利用GPSR算法對(duì)語(yǔ)音進(jìn)行了重構(gòu)??陀^和主觀評(píng)價(jià)結(jié)果表明合成語(yǔ)音質(zhì)量的PESQ得分為3.16,信噪比為9.35,表現(xiàn)出良好的合成語(yǔ)音質(zhì)量。與編碼速率為4.8 kbps的FS-1016標(biāo)準(zhǔn)CELP編碼算法相比,在降低編碼速率(4 kbps)的同時(shí),提高了合成語(yǔ)音的感知質(zhì)量。算法可滿足語(yǔ)音編碼系統(tǒng)的性能要求,也為低速率語(yǔ)音編碼探索了新的方法和途徑。下一步,將利用語(yǔ)音信號(hào)幀間的相關(guān)性,研究基于壓縮采樣的參數(shù)域語(yǔ)音編碼方法,并降低算法的計(jì)算復(fù)雜度。
[1]SPANIAS A S.Speech coding:a tutorial review[J].Proceedings of the IEEE,1994,82(10):1541-1582.
[2]RABINER L R,SCHAFER R W.數(shù)字語(yǔ)音處理理論與應(yīng)用(英文版)[M].北京:電子工業(yè)出版社,2011.
[3]CANDES E J,WAKIN M B.An introduction to compressive sampling[J].Signal Processing Magazine,IEEE,2008,25(2):21-30.
[4]DONOHO D L.Compressed sensing[J].IEEE TransactionsonInformationTheory,IEEE,2006,52(4):1289-1306.
[5]SREENIVAS T V,BASTIAAN K W.Compressive sensing for sparsely excited speech signals[C].Proceeding of IEEE ICASSP.Washington DC:IEEE Computer Society,2009:4125-4128.
[6]葉蕾,楊震,郭海燕.基于小波變換和壓縮感知的低速率語(yǔ)音編碼方案[J].儀器儀表學(xué)報(bào),2010,31(7):1569-1575. YE Lei,YANG Zhen,GUO Haiyan.Low bit rate speech codingbased on wavelet transform and compressed sensing[J].Chinese Journal of Scientific Instrument,2010,31(7):1569-1575.
[7]葉蕾,楊震,孫林慧.基于壓縮感知的低速率語(yǔ)音編碼新方案[J].儀器儀表學(xué)報(bào),2011,32(12):2688-2692. YE Lei,YANG Zhen,SUN Linhui.New low bit rate speech coding scheme based on compressed sensing[J]. Chinese Journal of Scientific Instrument,2011,32(12):2688-2692.
[8]GUNAWAN T S,KHALIFA O O,SHAFIE A A,et al. Speech compression using compressive sensing on a multicore system[C].Proceeding of the 4th International Conference On Mechatronics(ICOM),IEEE,2011:1-4.
[9]郭金庫(kù),劉光斌,余志勇,等.信號(hào)稀疏表示理論及其應(yīng)用[M].北京:科學(xué)出版社,2013:22-27.
[10]CHRISTENSEN M G,STERGAARD J,JENSEN SH. On compressed sensing and its application to speech and audio signals[C].Conference Record of the Forty-Third Asilomar Conference on Signals,Systems and Computers,2009:356-360.
[11]俞一彪,袁冬梅,薛峰.一種適于說(shuō)話人識(shí)別的非線性頻率尺度變換[J].聲學(xué)學(xué)報(bào),2008,33(5):450-455. YU Yibiao,YUAN Dongmei,XUE Feng.A non-linear frequencytransformforspeakerrecognition[J].Acta Acustica,2008,33(5):450-455.
[12]AMBIKAIRAJAH E,EPPS J,LIN L.Wideband speech and audio coding using gamma tone filter banks[C]. Proceedings of International Conference on Acoustics,Speech,and Signal Processing(ICASSP’01),IEEE,2001,2:773-776.
[13]IRINO T,PATTERSON R D.A dynamic compressive gamma chirp auditory filter bank[J].Transactions on Audio,Speech,and Language Processing,IEEE,2008,14(6):1044-1048.
[14]FIGUEIREDO M A T,NOWAK R D,WRIGHT S J.Gradient projection for sparse reconstruction:application to compressed sensing and other inverse problems[J].Journal of Selected Topics in Signal Processing,IEEE,2007,1(4):586-597.
[15]HU Y,LOIZOU P.Subjective evaluation and comparison of speech enhancement algorithms[J].Speech Communication,2007,49:588-601.
Speech compressive sensing and codec algorithm based on discrete cosine transform?
WU Penghui1,2?YANG Bailong1SHI Lei3
(1 Department of Information Engineering,the Second Artillery Engineering University,Xi'an 710025,China)
(2 Unit 96424 of PLA,Baoji 721004,China)
(3 College of NCO,the Second Artillery Engineering University,Weifang 262500,China)
Due to restricted bandwidth in wireless speech communication,a new low-bit rate speech codec based on compressive sampling under discrete cosine transform is proposed.Speech sparsity under different transformations was compared,and the characteristic of reconstructed algorithm on speech compressive sampling was analyzed.The Gini index was utilized to gage the coefficient sparsity Before sampling,parameters of gamma chirp filter bank were selected in the speech frame.During reconstruction,the gradient projection for sparse reconstruction(GPSR)was used to recover the signals.Speech signals after encoded were evaluated by perceptual evaluation of speech quality(PESQ),signal to noise ratio(SNR)and listening tests.Subjective and objective tests show that the proposed technique gets 3.16 PESQ mean score,and the bit-rate reaches to 4 kbps.Furthermore,low computation complexity of the proposed algorithm makes that it can be deployed under real circumstance.
Low bitrate coding,Compressive sampling,Gini index,Discrete cosine transform
TN973
A
1000-310X(2015)01-0017-07
10.11684/j.issn.1000-310X.2015.01.003
2014-03-28收稿;2014-07-09定稿
?軍隊(duì)裝備科研基金資助項(xiàng)目(EP133072)
武朋輝(1980-),男,陜西周至人,博士研究生,研究方向:語(yǔ)音信號(hào)處理,信息安全。
E-mail:wupenghui403@163.com