奚 吉 梁瑞宇 趙 力 鄒采榮 李慶武
(1 東南大學信息科學與工程學院,南京210096)
(2 河海大學物聯網工程學院,常州213022)
(3 河海大學常州傳感網與環境感知重點實驗室,常州213022)
信息隱藏技術[1-2]是一種利用信息冗余及人類感知特征,在不影響原信息感知質量的前提下,隱匿額外信息于原始載體中的技術.隨著計算機及網絡技術的快速發展,信息隱藏作為信息安全領域的前沿技術,其應用范圍日益廣泛.語音信號作為音頻信號的一個子類,具有信息量小、冗余度低等特點,而人類聽覺系統(HAS)相比于人類視覺系統(HVS)更靈敏,對隨機噪聲更敏感[3],因此基于語音的信息隱藏技術成為信息隱藏領域的一個難點和熱點,受到科研人員的廣泛關注.
近年來隨著研究深入,各種語音信息隱藏方法[4]如相位編碼、擴頻、特征點提取以及回音隱藏等方法相繼被提出.其中,Bender 等[5]提出的回聲隱藏方法由于嵌入信息與宿主語音統計和感知特征相同,因此不產生噪聲、感知質量高、隱蔽效果好,而且其同步要求不高、算法實現簡單,因而吸引了眾多研究者的關注.在此基礎上,研究人員提出了各種改進的回聲嵌入算法.例如Kim 等[6]提出雙核方案,通過引入前后向延遲核增強倒譜檢測點的幅度,從而提高了回聲算法的魯棒性;為了改善回聲算法的安全性,Ko 等[7]提出了一種通過PN序列對回聲核進行時域擴展的回聲隱藏方案,如果檢測時沒有該PN 序列作為參考信息將無法提取隱藏信息;Wu 等[8]綜合考慮透明性和魯棒性提出了基于分析和綜合的回聲信息隱藏方案,通過在嵌入時綜合考慮宿主信號和攻擊,自適應地調整嵌入信號的幅度,對回聲隱藏的透明性和魯棒性進行了折中.上述方法都是在傳統回聲倒譜提取方法的基礎上,通過隱藏信息嵌入策略的調整改善回聲信息隱藏性能,但倒譜提取方法本身存在對噪聲敏感、易受攻擊等缺陷,這些都大大制約了改進方法的實際效果.
本文提出了一種基于回聲路徑估計模型的語音信息提取策略.該策略充分利用回聲路徑估計算法對回聲隱寫語音進行回聲路徑參數估計,然后通過對回聲路徑參數進行判決,實現隱秘信息提取.本文采用基于次梯度投影的回聲估計算法(APSM),并改進了算法的收斂策略,提出一種基于噪聲估計的自適應收斂算法.與經典倒譜提取算法相比,本文提出的自適應次梯度投影算法在濾波攻擊、噪聲攻擊、采樣攻擊和壓縮攻擊下,顯著提高了回聲隱藏數據提取算法的魯棒性.與其他回聲估計算法相比較,本算法也具有更好的抗攻擊性能.
回聲估計與抑制系統模型[9]如圖1所示.圖中,h*為疊加了隱藏數據的回聲路徑;h 為自適應估計的回聲路徑,用來提取隱藏數據,其參數由回聲估計算法產生;v 為疊加了隱藏數據的聲音信號;e 為減去估計反饋信號后的殘差信號,用來自適應調節濾波器參數;n 為加性噪聲,一般情況下可假定為獨立同分布的高斯信號.

圖1 回聲估計與抑制系統模型
令X=[xk,xk-1,…,xk-r+1]T∈RN×r表示估計算法的輸入信號矩陣,這里r 為算法的步長,N 為自適應濾波器的長度.回波路徑h*∈RN,估計路徑h∈RN.此時,包含隱藏數據的聲音信號可表示為v=XTh*+n,殘差信號表示為e=v-XTh.通過對回聲路徑h 的估計,以及對回聲路徑中出現峰值位置的判斷,可確定嵌入回聲的延時大小,從而進一步確定隱藏信息是“0”或“1”.
Yamada 等[10-11]提出利用次梯度投影取代精確投影算子進行迭代,該方法在不降低估計性能的前提下,減少了計算量.
定義凸集

式中,H 為Hibert 空間;{Yk,k =1,2,…,m}滿足如下約束:

因此,對實際回聲路徑h*的估計問題就轉變成了向凸集C 的投影問題,可以證明當滿足時能夠保證收斂性,即
定義凸函數

以及梯度算子

則基于該凸函數的半空間為
此時,投影公式為

hk的迭代更新公式為

式中,松弛系數λk應滿足λk∈[0,2].
由式(2)可知,參數ρ 的取值直接影響了h*∈Y(ρ)的概率,從而影響了算法的速度和性能.一般來說,ρ 越大,算法收斂速度越快,但是最終收斂誤差較大;相反,ρ 越小,收斂誤差越小,但是收斂較慢.為了改善算法性能,本文采用如下方法來確定ρ 值:①由聲信號v 的表示可看出,為了保證約束集合能夠包含真實回波路徑,ρ 的取值應與相應的噪聲環境相吻合.因此,通過對噪聲信號的估計,可設定ρ 的初值為aδ2,其中δ 為n 的方差.②根據式(2),本文采用自適應調節的策略,即算法開始時,ρ 取值較大,然后每次迭代以步長Δ =bδ2減少ρ 的取值,直至達到收斂條件.通過上述方法,不僅有效提高了算法的收斂速度,并通過對ρ 估計,改進了算法對噪聲的魯棒性.
實驗所用數據均來自于本實驗室在符合ITU標準的語音室中自行錄制的漢語語料庫,該庫包含65 男、60 女各10 段語音.本文所采用的數據為一段女聲語音,采樣頻率為11.025 kHz,采樣深度16 bit,時長14 s.嵌入數據為二值圖像,如圖2所示,共300 個像素點.

圖2 語音嵌入數據
本文比較了倒譜法、歸一化最小二乘算法(NLMS)、并行次梯度投影算法(PSP)和APSM 算法的隱藏數據分析方法.信息的嵌入采用分段嵌入法,首先將要隱藏的信息轉化成二進制形式,將整個原始語音信號分為300 段,每段長度為500 個樣本點,并嵌入1 bit.倒譜法中延時250 個樣本點代表“1”,延時280 個樣本點代表“0”.而其他3 種基于回聲路徑估計的算法中延遲25 個樣本點代表“1”,延遲38 個樣本點代表“0”.回聲信號衰減為0.5.通過比較2 個樣本點的延遲估計的峰值來判斷該段語音隱藏的數據是“1”還是“0”.
算法的評價指標為錯誤率Pe,即

式中,Serr為出錯的數據點數;Sall為總的數據點數.
為測試算法魯棒性,所采用的攻擊策略選自STEP2001 音頻信息隱藏魯棒性測試參考文檔[12],包含濾波攻擊、噪聲攻擊、采樣攻擊、動態范圍壓縮攻擊和拉伸攻擊.
5 種攻擊的設置如下:
1)濾波攻擊.濾波攻擊指的是將隱寫信號通過FIR 濾波器進行低通濾波,然后再進行隱藏信息的提取.本實驗所采用的截止頻率為0.1fs/2,0.2fs/2 和0.5fs/2.
2)噪聲攻擊.噪聲攻擊的模擬是通過在隱寫信號中加入一定信噪比(SNR)的噪聲來實現的,此處所選信噪比為30,40 和70 dB.
3)采樣攻擊.將隱寫信號分別下采樣4 倍和2倍,再上采樣至原信號頻率,然后提取秘密信息.
4)動態范圍壓縮攻擊.將隱寫信號的16 bit的采樣深度變為8 bit.
5)拉伸攻擊.通過插值和抽取將隱寫信號拉伸±10%,來驗證算法的魯棒性.

圖3 濾波攻擊性能比較
4 種方法的Pe結果如圖3所示.從攻擊方式來看,采樣攻擊和壓縮攻擊的錯誤率較低,而拉伸攻擊對隱藏數據提取的干擾最大.由圖可知,4 種方法中倒譜法的效果較差,在各種攻擊中,其錯誤率都高于基于回聲估計的算法.而從濾波攻擊可看出,APSM 算法在3 種回聲估計算法中魯棒性最好.通過與倒譜法的錯誤率對比,基于回聲估計的隱藏數據分析方法在噪聲攻擊下的性能表現最佳,而拉伸攻擊的效果最差.
比較了100 段語音面對攻擊時的隱藏效果,統計結果如表1所示.從表中可看出,在面對攻擊時,3 種基于回聲估計的隱藏信息提取算法的魯棒性都優于倒譜法.尤其是在40 dB 的白噪聲攻擊下,倒譜法的錯誤率達到45%,而3 種基于回聲估計算法的錯誤率都低于1.5%.在3 種基于回聲估計算法中APSM 的性能最優,相比于其他2 種算法,錯誤率降低25%~30%.但是,從表中也可看出,在面對拉伸攻擊時,4 種算法的性能都不佳,需要進一步改善.

表1 4 種方法的解碼錯誤率 %
本文根據語音回聲隱藏框架,提出了一種基于回聲路徑估計模型的語音信息提取策略.通過仿真實驗表明3 種回聲估計算法(NLMS,PSP,APSM)相比于經典倒譜提取算法,顯著提高了回聲隱藏算法對濾波攻擊、噪聲攻擊、采樣攻擊和壓縮攻擊的魯棒性,而3 種回聲估計算法中,本文提出的APSM 算法具有更好的抗攻擊性能.但這些方法對拉伸攻擊的改善效果不明顯,還有待進一步研究.
References)
[1]Craver S,Memon N,Yeo B,et al.Resolving rightful ownerships with invisible watermarking techniques:limitations,attacks,and implications[J].IEEE Journal on Selected Areas in Communications,1998,16(4):573-586.
[2]Arnold M.Audio watermarking:features,applications and algorithms[C]//Proceedings of IEEE International Conference on Multimedia and Exposition.New York,2000:1013-1016.
[3]Bassia P,Pitas I,Nikolaidis N.Robust audio watermarking in the time domain[J].IEEE Transactions on Multimedia,2001,3(2):232-241.
[4]Xu C S,Wu J K,Sun Q B,et al.Applications of digital watermarking technology in audio signals[J].Journal of the Audio Engineering Society,1999,47(10):805-812.
[5]Bender W,Gruhl D,Morimoto N,et al.Techniques for data hiding[J].IBM Systems Journal,1996,35(3/4):313-336.
[6]Kim H J,Choi Y H.A novel echo-hiding scheme with backward and forward kernels[J].IEEE Transactions on Circuits and Systems for Video Technology,2003,13(8):885-889.
[7]Ko B,Nishimura R,Suzuki Y.Time-spread echo method for digital audio watermarking[J].IEEE Transactions on Multimedia,2005,7(2):212-221.
[8]Wu W-C,Chen O T-G.Analysis-by-synthesis echo hiding scheme using mirrored kernels[C]//IEEE International Conference on Acoustics,Speech and Signal Processing.Toulouse,France,2006:14-19.
[9]喬杰,趙力,鄒采榮.一種基于并行次梯度投影技術的加速聲回波抵消算法[J].電子與信息學報,2008,30(5):1140-1143.
Qiao Jie,Zhao Li,Zou Cairong.An accelerated acoustic echo cancellation algorithm based on parallel subgradient projection technique[J].Journal of Electronic and Information Technology,2008,30(5):1140-1143.(in Chinese)
[10]Yamada I,Slavakis K,Yamada K.An efficient robust adaptive filtering algorithm based on parallel subgradient projection techniques[J].IEEE Transactions on Signal Processing,2002,50(5):1091-1101.
[11]Yukawa M,de Lamare R C,Yamada I.Robust reduced-rank adaptive algorithm based on parallel subgradient projection and Krylov subspace[J].IEEE Transactions on Signal Processing,2009,57(12):4660-4674.
[12]Japanese Society for Rights of Authors,Composers and Publishers.STEP2001 [EB/OL].(2001-06-29)[2012-10-30].http://www.jasrac.jp/ejhp/release/2001/0629.html.