郭 娟,文 紅,2,3,張 鵬,吳思慧,王佩瑤,費靈芝
(1.電子科技大學 航空航天學院,四川 成都 611731;2.電子科技大學 飛行器集群智能感知與協同控制四川省重點實驗室,四川 成都 611731;3.電子科技大學 四川省智慧物聯通信技術工程研究中心,四川 成都 611731)
信道是通信系統的一部分,是傳輸各種信息的通道。潛信道是一種隱蔽存在的信道,可以在不為人知的情況下實現重要機密的傳輸,該概念最早由Simmons在1978年提出[1]。傳統揚聲器的聲音傳播是發散式的,由此產生的噪聲給人們的日常帶來了各種困擾,一種高指向的揚聲器應運而生。高指向的揚聲器對于不在該方向的人而言,感受不到聲音的存在,這就是一種隱蔽的信息傳輸方式,因此,可以將這種聲音傳播方式稱為語音潛信道通信,產生的高指向性的聲音為“聲音波束”,正如圖1所示,只有波束所指的方向上的人物能夠正常接收到聲音信號。
不容置否,科技是一把雙刃劍。潛信道信息在安全通信方面發揮著重要作用,由此帶來的安全隱患問題同樣值得思考并解決。近年來,智能語音助手帶來了良好的用戶體驗,但因為缺乏嚴格的機制來保證操作系統的聲源的可信性,智能語音系統容易受到非法語音命令的攻擊[2-3]。使用潛信道語音通信技術可以對電子產品注入旁人難以察覺的“聲音波束”控制命令,可能導致致命性的災難。
本文從“聲音波束”的產生及其安全隱患著手,提出解決基于機器學習的軟件相關的防御辦法。由于該隱患不再是傳統的簡單的聲音的復現,因此,提出基于HHT對MFCC的改進算法提取信號特征,使用不同的分類算法驗證所提出的防御措施的可行性,同時對比發現MFCC改進后防御系統的識別的準確性普遍提高了。
“聲音波束”的產生主要包括3部分:一是將聲音調制到超聲波上,二是對信號進行波束成形處理,三是將信號利用揚聲器陣列發射。
將普通聲音調制成超聲波的方法已經非常成熟,該過程涉及AM調制,是將需要隱蔽傳輸的信號控制高頻載波信號,對該過程進行一般性建模,其表達式為:

式中中,m(t)為調幅波模型的輸入信號,sAM(t)為調制好的高頻輸出信號,頻率為fc,kα是調制幅度,滿足|ka|≤1。從頻域角度分析,可得到調制后的語音含有fc、fc±fm這3種頻率分量。
波束成形這一技術的使用主要是為了得到特定方向的聲音波束,該理論最早使用于MIMO系統的智能天線[4],對該過程進行一般性建模,得到:

式中,pi(t)為經AM調制后的高頻信號,Pi(k,t)為經過幅度加權并延時的信號,加權因子為ki,延時為τi。在已知目標方向后,可以控制pi(t)的權值ki以及延時τi,使得聲音在該方向得到一個最大值,而在其他方向上信號盡可能小,實現聲音定向傳輸,實現語音潛信道通信。

圖1 語音潛信道隱蔽安全通信示意圖
自適應濾波通過各種準則來自適應調整加權值,使得波束成形處理方法得到更多的普適性,尤其是存在干擾的情況下。圖2是假設目標方向在30°,竊聽者方向在40°,經過自適應波束成形仿真,可以將信號最大化地傳輸到目標方向,同時使得竊聽方向存在陷波,抑制信號在該方向的傳輸。

圖2 自適應波束成形指向圖
超聲波是一種人耳甚至麥克風(麥克風電路中含有低通濾波器)無法理解的一種高頻聲音信號。而傳統的AM解調方法代價都很高。揚聲器陣列能利用空氣這一非線性介質從高頻信號中解調出原始信號,使語音潛信道通信方法如虎添翼。
揚聲器陣列也具有增強聲音指向性的作用,主要是以Westervelt方程[5]及“Berktay遠場解”[6]為理論支持的。Westervelt方程可表示為:

式中,β是非線性因子,p0是聲壓幅值,S是聲源面積,z是傳播距離,E(τ) 是調制信號,表示聲音到達目標方向的時間。波束成形處理的目的之一是補償各陣元的延時,使得各陣元到達目標方向的值最大。從上式中可以推出,調制高頻信號經過二次求導后,含有fc±fm、fc、fm、2(fc±fm)、2fc、2fc±fm多種頻域分量,其中fm頻率分量是常人可以理解的聲信號,也是原始語音信號的頻率,其余高頻成分的語音具有衰減快和人耳不易察覺的特點,在傳播過程中被忽略了。“Berktay遠場解”則是對Westervelt方程的補充,使得任何寬帶信號可以做傅立葉級數展開,寬帶信號可以看成具有多個頻率分量的信號。
原始低頻聲信號經過上述3個過程實現了語音潛信道隱蔽安全傳輸。
梅爾倒譜系數(Mel Frequency Cepstrum Coefficient,MFCC)是根據人耳聽覺特性提出的一種語音特征提取方法,常用于語音識別系統,與頻率的關系可以表示為:

MFCC特征提取是假設語音信號是平穩的這一理想前提下,但是實際中,語音信號是連續非平穩的。本文提出基于黃-希爾伯特變換(Hilbert-Huang Transformation,HHT)改進的MFCC特征提取方法,該方法可適用于非平穩信號中。基于HHT的MFCC改進的流程如圖3所示,與MFCC的特征提取過程相比主要是增加了HHT經驗模式分解以及分解后IMF(Intrinsic Mode Function,IMF)分量的重組,并且用HHT邊際譜代替FFT譜。HHT變換根據經驗模態分解方法將信號分成若干IMF和一個殘余分量,每一個MIF代表一定頻率段的震蕩情況,并且每個MIF的頻率逐漸降低。

圖3 基于HHT的MFCC特征提取流程
由于高頻分量主要分布在前幾個IMF,后幾個MIF函數的幅值幾乎為零,為了凸顯高頻信號對原始信號的貢獻,重新對前五個MIF函數進行加權重組形成新的信號,權值分別是1,0.7,0.5,0.3,0.3。隨后,在進行與MFCC特征提取相同的操作,不同的是,不使用快速傅立葉變換,而是通過求HHT的邊際譜代替該過程。HHT的邊際譜是將信號與基函數做卷積得到的,是全局意義下的頻率譜。圖4中,分別對FFT傅立葉變換的幅頻特性和HHT的邊際進行對比,發現兩者形狀相似。
使用改進后的MFCC分別對高頻和低頻兩種語音進行特征提取,該特征是由36維的向量,對于任何一段語音取中間260幀信號進行分析,高低頻兩種信號的改進后的MFCC第一維MFCC特征如圖5所示。
智能語音設備存在被有心人利用的風險,例如將聽不到的海豚音注入非線性器件麥克風[2]。然而,本文提到的語音潛信道通信方式具有能量更大,方向性強,低通濾波器無法濾除的特點,產生的危害更為致命。
本文已經指出該語音潛信道通信方式仍存在高頻成分以及改進后的MFCC對高低頻兩種聲音的提取的特征存在差異性,提出對含有智能語音助手設備的麥克風接收的語音進行分類,根據聲音來源判斷語音命令的合理性的防御措施。

圖4 HHT邊際譜和FFT幅頻對比

圖5 基于改進的MFCC對高低頻兩種語音特征提取
通過機器學習算法可以對數據進行高效的處理,本節采用4種常見的機器學習分類算法:支持向量機(Support Vector Machines,SVM)、隨機森林(Random Forest)、K-近鄰算法(K-Nearest Neighbor,K-NN)、誤差反向傳播(error Back Propagation,BP)算法驗證該防御措施是否可行。此外,還驗證了改進的MFCC比改進前的特征更具有代表性,通過分別對所改進的MFCC和原來的MFCC所提取的特征數據進行分析,建立相應的機器學習識別模型,再使用實際采集的音頻信號對模型進行驗證分析,比較改進前后的MFCC提取特征的識別率。
在空曠且安靜的環境中,對高頻和低頻語音信號各采集了20組,各包括10組男性和10組女性聲音。根據上述語音特征提取,每一組聲音可以用260幀36維數據表示,對于每一組語音,再隨機抽取其中25幀作為數據集,25幀作為測試集,每一幀高頻語音數據記為標簽“0”,為非法語音,低頻語音數據記為標簽“1”,為合法語音,這樣得到1 000×37的訓練集和1 000×37的測試集樣本。
此外,為了驗證基于HHT改進的MFCC特征提取的性能比改進前的好,在語音中分別加入信噪比為5 dB、10 dB的高斯白噪聲,在相同的分類模型下比較它們的性能。得到的結果如圖6所示。

圖6 實驗結果
HHT改進后的MFCC對高頻聲音的識別率普遍高于改進前大約5%,這也體現了相同維度的改進后的MFCC較改進前含有更多的信息分量,由此判定的改進是有效的。此外,SVM分類模型和BP算法分類模型即使在加入信噪比為10 dB的噪聲后,識別率仍能在87%以上,這兩種分類算法模型具有更強的魯棒性,能更好地應用到防御系統中。
語音通信圍繞著人們生活的方方面面,本文提出了一種新的語音潛信道通信方式,不同于以往的是,該方法借助自然現象——空氣的非線性生成定向語音信號實現語音潛信道通信。考慮到這種通信方式的高隱蔽性帶來的危害,本文提出了基于HHT的MFCC改進方法提取語音信號特征,使用機器學習的不同分類模型對兩種通信方式的語音信號進行判別。在加入不同信噪比的高斯白噪聲情況下經分類模型測試發現,改進后的MFCC特征識別率更高,同時,對比發現BP算法和SVM算法兩種算法用于防御系統中更具魯棒性,證實了所提出的防御措施是有效的。