強 策,夏 凌,卿朝進,童 新
(西華大學 電氣與電子信息學院,四川 成都 610039)
?
絕對聽閾下的語音信號壓縮感知
強策,夏凌,卿朝進,童新
(西華大學 電氣與電子信息學院,四川 成都 610039)
在基于壓縮感知進行語音壓縮重構時,語音信號的稀疏性是決定重構語音質量好壞的重要因素.為了增加信號稀疏度,文中加入心理聲學模型中的絕對聽閾,把一些人耳聽不見、無用的信號過濾掉,減少信號非零值,以期達到提高重構語音質量的目的.實驗表明,將絕對聽閾加入到傳統的語音信號壓縮感知后,語音重構取得了明顯效果,語音信號的CS性能得到改善,觀測次數減少. 當進行高壓縮比壓縮感知時,運行時間大幅度降低,這在大規模數據需要高質量壓縮重構時具有很大優勢.
語音信號;稀疏性;壓縮感知;心理聲學模型;絕對聽閾
近年來,壓縮感知理論(Compressed Sensing,CS)在語音信號處理領域取得了非常多的成果.該理論指出,若信號在某變換域上具有稀疏性,就能據此信號在某一投影域上的觀測集合近似無損的重構出原始信號[1].在CS系統中,信號的稀疏性是影響語音重構質量的關鍵因素[2].為了簡化研究,語音信號在某種稀疏基下能夠被近似稀疏表示,也被認為是具有壓縮性的[3],這勢必會影響到重構語音的質量.為此本文引入絕對聽閾;而心理聲學模型(psychoac-oustic model)的一部分,心理聲學模型是一個模擬人耳聽覺的數學模型,其效果好壞直接影響音頻編碼的質量[4-5].該模型認為人耳能否聽見聲音取決于聲音的頻率、幅度是否高于這種頻率下的絕對聽閾,低于該閾值的聲音人耳是聽不到的[5].本文利用這一特性,把語音信號中低于絕對聽閾的部分置為零,這樣就增加了信號的稀疏性,提高了重構語音質量[6].


圖1 壓縮感知數學模型
(1)
式(1)表示信號x在稀疏基Ψ內的線性分解,投影系數αi=〈x,φi〉,α=Ψx為投影系數向量,Ψ為N×N矩陣.
語音信號x在滿足稀疏性的前提下,便可以將信號投影到一個和變換矩陣不相關的觀測矩陣Φ的低維空間上,得到的投影稱作觀測序列,記作y,即y=Φx.Φ是M×N矩陣(M?N),y是M維的列向量,可見信號被壓縮了.由式(1)得:
y=ΦΨα
(2)
將觀測的長度M與信號的比值r定義為壓縮比[7],即:
(3)
稀疏信號的定義[2]:如果N維信號有K個(K?N)非零值,其它值均為零,則稱信號是K稀疏的.信號在稀疏基上有且只有K個非零值稱為嚴格稀疏[8-9].
CS理論的提出是建立在信號的稀疏表示基礎上的.信號是稀疏的,或者信號在某種變換下可以被稀疏表示是壓縮感知的先驗條件.CS理論所需的觀測次數M與信號的最高頻率無關,只是與信號的稀疏性密切相關[7].信號的非零值K越少,信號越稀疏,那么重構信號所需要的觀測次數越少;在觀測次數相同的情況下,信號越稀疏,重構語音的質量越好[2,10].
為了降低傳輸寬帶音頻信號的編碼速率或減少其數據存儲,高效音頻編碼算法起到了重要作用.音頻編碼算法須采用感知編碼算法,而感知編碼算法的核心是心理聲學模型.心理聲學模型是在研究人類聽覺系統基礎上抽象出來的,它是一種反映人類聽覺感知特性的數學模型,該模型描述了人類聽覺系統對音頻及噪聲的感知和掩蔽能力[5,11].人耳并不能感受到所有頻率和所有聲強的聲音,而只能感受到一定聲壓級和頻率范圍的聲音,正常人能聽到的聲音頻率范圍為20 Hz~20 kHz.
心理聲學模型依據臨界頻帶、絕對聽閾、掩蔽效應等特性綜合出一個全局的表征聽覺掩蔽特性的曲線.音頻編碼算法利用的就是這個全局掩蔽曲線,進行音頻數據和參數的量化、編碼和比特分配,提高了編碼效率[11].心理聲學模型中的絕對聽閾(Absolute Threshold of Hearing,ATH)[4],描述在無噪聲環境下,人耳對不同的聲音頻率分量能夠感知的最小聲壓級.在絕對聽閾外的聲音是聽不見的.聲壓級的單位是dB,它與頻率有關.絕對聽閾的經驗公式為:
TQ=3.64f-0.8-
(4)
其中,f為音頻信號頻率;TQ為絕對聽閾.將ATH運用到語音信號處理過程中,可以有效地去除包含在原始音頻中的與人類聽覺不相關的信號,進而大幅度地壓縮音頻信號的數據量,同時可以保持音頻信號的質量.
因此,在進行壓縮感知前,我們先將語音信號進行ATH處理,具體過程如下:
Step1:對讀入的語音信號x∈RN×1進行量化,量化比特數為16;
Step3:求信號頻率fn:n=0,1,2,…,N-1,fn=n·FS/N;


Step7:利用psd*-TQ≤0這一判斷條件將低于絕對聽閾的頻率幅度置零.
實驗語音選自AURORA庫與Noisex-92數據庫[12],純凈語音“The birch canoe slid on the smooth planks”,采樣頻率 FS=16kHz.該原始語音共含有49600個數據,非零值個數為49250個.在進行壓縮感知前,經過ATH處理非零值個數降到了13010個,數據壓縮效果非常明顯.
實驗首先采用基于ITU-T(國際電信聯盟遠程通信標準化組織) P.862標準的PESQ算法對重構語音質量進行評分,該算法得到的評分結果與主觀評價的MOS 得分的相關度最高,是現有的基于聽覺模型的客觀評價算法中效果最好的,評分范圍為:-0.5~4.5,4.5分最好[13].另外,由于壓縮感知在處理語音信號時是針對每幀信號進行的,本文引入分段信噪比SSNR作為語音質量評價的第二種方法,相對于傳統的信噪比SNR,SSNR能更準確的反應語音重構效果[14].其公式如下:
(5)
在語音分幀過程中,取幀長N=16000×0.025=400點,即每一幀25ms,共分出124個幀.壓縮比r分別取為0.1,0.2,0.3,0.4,0.5,實驗環境為安靜環境.實驗中采用高斯隨機矩陣作為觀測矩陣,利用OMP算法對壓縮后的語音信號進行重構.PESQ評分結果如表1、圖2所示.
表1加入ATH前后的PESQ評分

壓縮比r(M/N)0.10.20.30.40.5加入ATH前0.4781.3402.0222.6373.044加入ATH后0.5991.4472.1142.7603.444

圖2 加入ATH前后的PESQ評分
SSNR結果見表2.

表2 加入ATH前后的SSNR dB
兩種評價方法得出的結果都可以看出:(1)隨著壓縮比r的增大,觀測次數M的增加,絕對聽閾加入前和加入后的語音信號重構質量都在提高;(2)同一壓縮比下,加入絕對聽閾后的語音重構質量明顯更好;(3)在達到同一重構效果時,加入聽覺閾值的語音信號壓縮感知需要更少的觀測次數(即觀測矩陣的行M).
表3記錄了聽覺閾值加入前后在不同壓縮比下運行所需要的時間.不難看出,隨著r增大,ATH加入前的運行時間增加的幅度較大,加入ATH后的運行時間增加幅度卻小很多.在r0.2時,加入ATH后運行時間比加入前稍長;在r=0.3以后,加入ATH后在運行時間上逐漸顯示出了較大優勢.

表3 算法運行時間比較 s
通過實驗結果比較,我們可以看出,相較于傳統語音信號壓縮感知,加入絕對聽閾后重構語音質量有了明顯提高,改善了語音信號的CS性能.在進行高壓縮比壓縮感知時可以大幅度降低運行時間,在大規模數據需要高質量壓縮重構面前有很大優勢, 減少了觀測次數和語音信號傳輸、存儲占用的資源,降低處理信號的成本.但是,加入絕對聽閾的壓縮感知在低壓縮比下處理語音信號時運行時間稍長,今后需繼續研究,加以改進.
[1]趙翠.基于壓縮感知的語音信號壓縮[D]. 杭州:浙江工業大學,2013.
[2]孫林慧.語音壓縮感知關鍵技術研究[D]. 南京:南京郵電大學,2012.
[3]唐力.基于壓縮感知的語音稀疏基和投影矩陣構造技術的研究[D].南京:南京郵電大學,2012.
[4]張力光,王讓定.心理聲學模型及其在MP3編碼中的應用[J].寧波大學學報(理工版),2010,23(3):27-31.
[5]郭澤華,任璐.常用心理聲學模型的不足與改進[J].通信技術,2009,42(9):159-161.
[6]徐倩.基于稀疏表示的語音信號的最佳投影與其重構技術的研究[D].南京:南京郵電大學,2012.
[7]徐倩,季云云.基于最優觀測的語音信號壓縮感知[J].南京郵電大學學報(自然科學版),2011,31(6):49-54.
[8]陳臻圓.語音信號的壓縮感知研究及其在語音編碼中的應用[D].蘇州:蘇州大學,2011.
[9]劉智威.基于壓縮感知的重構算法與語音壓縮研究[D].南京:南京郵電大學,2012.
[10]王帥.基于壓縮感知的語音信號壓縮重構算法研究[D].太原:中北大學,2014.
[11]馬鴻飛,夏雨,郭澤華.新型低復雜度心理聲學模型[J].西安電子科技大學學報(自然科學版),2010,37(5):842-878.
[12]寧礦鳳,王景芳.壓縮感知分組分離語音增強[J].計算機工程與應用,2014,50(24):204-208.
[13]李薇.基于聽覺模型的PESQ算法的研究[D].北京:華北電力大學,2008.
[14]孫紅英.基于CS理論的語音增強算法的研究[D].蘭州:西北師范大學,2011.
(編輯:姚佳良)
Speech compressed sensing based on absolute threshold of hearing
QIANG Ce, XIA Ling, QING Chao-jin, TONG Xin
(School of Electrical Engineering and Electronic Information, Xihua University, Chengdu 610039, China)
When reconstructing speech based on compressed sensing, the sparsity of speech signal is an important factor to reconstruct speech′s quality. In order to increase the signal′s sparsity, the paper adds psychoacoustic model to speech compressed sensing, using the absolute threshold of hearing in this model. The threshold of hearing can filter out some inaudible and unwanted signals, reducing the number of nonzero, increasing the signal′s sparsit, improving the quality of reconstructed speech. The experiments′ results showed that the absolute threshold of hearing added to the traditional speech compressed sensing, achieved better effect in speech reconstruction, and improved the performance of CS of voice signal. The number of observations are significantly reduced,so that it can greatly reduce the running time during the high compression ratio of CS .It has a great advantage in front of big data which has high quality requirements to be compresssd and reconstructed.
speech signal;sparsity;compressed sensing;psychoacoustic model;absolute threshold of hearing
2016-01-11
強策,男,heroqiang@126.com; 通信作者:夏凌,女,462968924@qq.com
1672-6197(2016)06-0044-04
TN912.3
A