范?,?,李成娟,易 強,李寶清
(1.中國科學院上海微系統(tǒng)與信息技術研究所 微系統(tǒng)技術重點實驗室,上海 201800;2.中國科學院大學,北京 100049)
野外監(jiān)控傳感網(wǎng)主要負責探測固定區(qū)域范圍內(nèi)的非法入侵目標,并將目標的一系列相關信息提供給決策者。該傳感網(wǎng)主要由聲音、震動、紅外、圖像等傳感器節(jié)點組成,而基于聲音、震動信號的探測識別方法具有隱蔽性好、能耗小、可克服光學偵探技術盲區(qū)等優(yōu)點。
傳統(tǒng)的野外運動目標分類方法主要依賴于對聲音信號的特征分類。常用的特征有信號能量、能量熵、過零率、譜質心等時域特征[1];有基于傅里葉變換、梅爾倒譜系數(shù)[2]、小波變換[3]、經(jīng)驗模式分解[4]等手段設計的手工特征;有融合諧波集、梅爾倒譜系數(shù)和小波能量得到的融合特征[5]。但上述的特征只能提取信號的淺層信息且對噪聲敏感,這使得傳統(tǒng)分類方法的魯棒性差。
隨著深度學習理論的提出,卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network,CNN)在計算機視覺領域得到快速發(fā)展[6-8]。由于CNN 具有較強的深層表征能力,可以提高分類識別的準確率,因此其被應用于音頻處理領域,如說話人識別、環(huán)境聲音分類等。但此類方法大多將音頻信號轉換成二維表示(如譜圖),并使用二維卷積核進行處理。使用二維表示的優(yōu)勢是可以把高維的波形概括成更緊湊的形式,但其缺點是網(wǎng)絡所含參數(shù)量大,容易過擬合,識別的實時性也較差。而用一維卷積層設計出的網(wǎng)絡參數(shù)量小,且能利用信號良好的時間結構直接從時域波形中學習聲學模型。時域卷積網(wǎng)絡(Temporal Convolutional Network,TCN)是一種典型的一維卷積神經(jīng)網(wǎng)絡,已經(jīng)被證明在音頻合成[9]、單詞級語言建模[10-11]和機器翻譯[12]等領域可達到最先進的標準。相比于LSTM、GRU 等標準遞歸網(wǎng)絡,TCN 在時間序列問題上不僅能得到更精確的輸出結果,而且其結構更簡單清晰。
然而,上述分類方法大部分僅利用單模態(tài)信號特征,使得復雜環(huán)境下對野外運動目標進行有效識別與跟蹤存在困難,因此,基于多模態(tài)深度學習的識別技術得到重視[13-14]。文獻[15]提出基于超圖的多模態(tài)關聯(lián)特征識別方法,在原始多模態(tài)特征聚類劃分方面取得了很好的效果。文獻[16]根據(jù)語義關系建立多模態(tài)語義網(wǎng)絡進行信息檢索,相比于基于哈希索引、低秩矩陣嵌入和深度神經(jīng)網(wǎng)絡的檢索方法,該方法具有更高的檢索準確性。文獻[17]通過獲取聲音、圖像等多模態(tài)數(shù)據(jù)信息,利用深度學習和多模態(tài)融合技術設計相應神經(jīng)網(wǎng)絡,實現(xiàn)了準確的車輛分類。
與文獻[17]方法相比,利用震動與聲音信號進行目標識別[18]的被動識別技術安全性高且存儲內(nèi)存遠小于視頻圖像信號。本文選取聲音和震動兩種模態(tài)信號,設計一種雙通道融合網(wǎng)絡架構實現(xiàn)野外運動目標分類。由于聲音、震動信號都是典型的時間序列信號,因此采用TCN 作為特征提取網(wǎng)絡。針對數(shù)據(jù)缺乏問題,利用密集連接對TCN 網(wǎng)絡進行改進;針對各類數(shù)據(jù)不均衡的問題[19-20],使用nll_loss 損失函數(shù)為不同類型數(shù)據(jù)分別賦予相應的權重。
針對傳統(tǒng)神經(jīng)網(wǎng)絡中需要線性堆疊多層卷積才能實現(xiàn)對時間序列建模的問題,TCN[21]通過采用空洞卷積增大每層感受野的范圍從而達到減少卷積層數(shù)量的目的??斩淳矸e與普通卷積的不同之處在于其允許卷積時的輸入存在間隔采樣,采樣率取決于膨脹因子。
設濾波器F=(f0,f1,…,fk-1),序列信號為S=(s1,s2,…,sT),對輸入序列中t時刻的值st進行空洞卷積,得到式(1)。

其中:d表示膨脹因子;k表示濾波器大小。因此,膨脹卷積的操作相當于在每兩個相鄰的濾波器之間引入一個固定的間隔。
感受野的計算公式為:

由式(2)中可知,增大TCN 感受野有2 種方法,即選擇更大的濾波器大小k和增加膨脹因子d。在空洞卷積操作中,膨脹因子d會隨著網(wǎng)絡深度的增加以指數(shù)方式增長,因此,卷積網(wǎng)絡能用較少的層數(shù)獲得較大的感受野。
經(jīng)典的TCN 網(wǎng)絡中另一個重要的網(wǎng)絡結構是殘差模塊[22]。一個殘差模塊含有兩層卷積和非線性映射,同時殘差網(wǎng)絡加入了跨層連接的恒等映射,使得網(wǎng)絡以跨層的方式傳遞信息。這可以解決梯度消失的問題,使淺層網(wǎng)絡很容易擴展為深層網(wǎng)絡。
完整的TCN 網(wǎng)絡是一種全卷積網(wǎng)絡,用卷積層代替了全連接層,并保證每個卷積層的輸出與輸入維度一致。
雖然TCN 網(wǎng)絡結構簡單,但是計算量大,存在參數(shù)量隨網(wǎng)絡深度成倍增長的問題。當使用小數(shù)據(jù)集訓練TCN 網(wǎng)絡時,會導致網(wǎng)絡產(chǎn)生過擬合現(xiàn)象。
DenseNet[23]是計算機視覺領域中的一種網(wǎng)絡結構。DenseNet 網(wǎng)絡l層的輸出如式(3)所示。

其中:l表示網(wǎng)絡的層級;xl表示l層的輸出;Hl表示一個非線性變換。DenseNet 將0 到l-1 層輸出的特征圖拼接,再進行非線性變換。因為DenseNet 每一層都包含之前所有層的輸出信息,實現(xiàn)了特征復用,所以該網(wǎng)絡每層卷積的通道數(shù)可以設計得相對較小。因此,針對小數(shù)據(jù)集,DenseNet 能很好地解決過擬合問題。
DenseNet 進行特征復用時,要求每層輸出的特征圖大小相等,而TCN 中的Temporal-Block 中添加了一個裁剪層(chomp),保證網(wǎng)絡每一層的特征長度相等。密集連接是實現(xiàn)跨層連接的另一種方式,如圖1 所示,Temporal-Block 作為一個整體,使用密集連接的方式相連,即圖中藍色線條部分(彩色效果見《計算機工程》官網(wǎng)HTML 版),而在Temporal-Block 中使用殘差結構實現(xiàn)跨層連接,因此,可將殘差連接去除,即Temporal-Block 中虛線部分。

圖1 改進TCN 模型原理Fig.1 Principle of improved TCN
TCN 網(wǎng)絡取每個輸出通道的最后一個值進行拼接作為最后的特征,若直接改變連接方式,由于提取的部分特征來自于原始幀,因此需要再連接一個過渡模塊(Transition)將特征進一步處理,此處的Transition 模塊舍棄了池化層,由卷積核大小核為3的Conv1d 和BatchNorm1d 層構成,該模塊在利用一維卷積對特征進行處理的同時可減少通道數(shù)量,從而有效降低最后的特征維度,而BatchNorm1d 層具有抑制過擬合的能力。本文主要是利用改進的TCN 網(wǎng)絡對聲音、震動信號進行深層特征提取。
不同環(huán)境產(chǎn)生的聲音信號組成成分有所不同,例如輕型輪式車在水泥路或砂石路快速行進時,胎噪是目標信號的主要來源,而在硬土路上慢速行駛時,發(fā)動機噪聲和機械噪聲是主要來源。震動信號主要由監(jiān)控目標對地面進行沖擊而產(chǎn)生,其信號傳播主要受地質條件影響。為了有效結合運動目標兩種信號的特征以達到性能互補的目的,本文提出了聲震多模態(tài)融合網(wǎng)絡模型,網(wǎng)絡結構如圖2 所示(彩色效果見《計算機工程》官網(wǎng)HTML 版)。該模型主要包括3 個模塊:基于改進TCN 的聲音特征提取模塊,基于改進TCN 的震動特征提取模塊以及特征融合模塊。網(wǎng)絡的輸入分別是四通道的原始聲音信號與單通道的原始震動信號。具體識別步驟為先將兩種模態(tài)的信號進行簡單預處理,利用改進的TCN 網(wǎng)絡分別提取出聲音信號特征和震動信號特征,之后將兩者進行融合,對運動目標進行分類。

圖2 聲震多模態(tài)融合網(wǎng)絡模型結構Fig.2 Structure of multi-model fusion network model based on sound and vibration signals
CNN 必須能對輸入的聲音、震動信號進行連續(xù)預測,因為信號持續(xù)的時間不同,而使用一維CNN要求輸入的樣本長度必須固定,所以有必要對CNN進行調整,使其能夠處理不同長度的信號。但對CNN 進行相關調整的過程比較復雜,因此,可使用一個適當寬度的滑動窗口將采集到的信號分割成固定長度的幀。本文根據(jù)信號采樣率使用一個可變寬度的窗口將聲音、震動信號截取成適合一維CNN 輸入的信號幀。連續(xù)的幀之間有一定比例的重疊,其目的是最大限度地利用信息,增加樣本的數(shù)量,這可以看作是一種數(shù)據(jù)擴充的手段。
同步的聲震數(shù)據(jù)采集的條件較為苛刻,因此,在自制數(shù)據(jù)集中,同步的聲震數(shù)據(jù)量比不要求同步的聲震數(shù)據(jù)量小。當模型的網(wǎng)絡參數(shù)過多時,需要使用大量數(shù)據(jù)進行訓練才能提高網(wǎng)絡泛化性,否則易出現(xiàn)過擬合現(xiàn)象。本文將網(wǎng)絡分成3 個子網(wǎng)絡進行訓練,分別為聲音分類子網(wǎng)絡、震動分類子網(wǎng)絡、融合分類子網(wǎng)絡。此時每個子網(wǎng)絡的參數(shù)量小于整體網(wǎng)絡的參數(shù)量,且每個子網(wǎng)絡都可以動態(tài)擴展訓練數(shù)據(jù)量,一定程度上可防止過擬合現(xiàn)象。
聲音子網(wǎng)絡由基于改進TCN 的聲音特征提取模塊和一個分類層構成。由于本文采用非平衡數(shù)據(jù)集,容易產(chǎn)生因樣本失衡導致的網(wǎng)絡泛化能力衰退的問題,因此本文選擇nll_loss 函數(shù)作為訓練損失函數(shù),通過設置參數(shù)權重改善樣本失衡帶來的影響。使用nll_loss 損失函數(shù)時需要對常用的Softmax 分類層的輸出結果進行一次取對數(shù)運算,因此,分類層均選用log_softmax 層。對于震動子網(wǎng)絡,也使用上述方法進行設計。訓練完成后,將兩個子網(wǎng)絡的log_softmax 層去掉,得到Transition 層輸出的深層特征,并將兩種特征進行融合,使用融合分類子網(wǎng)絡對融合后的深層特征進行分類,其中分類融合子網(wǎng)絡為圖2 中的特征提取模塊。為了在融合后的特征基礎上進一步提取聲音、震動信號中的不變性特征,利用兩個一維卷積替代融合網(wǎng)絡中常用的全連接層。此時因為輸入的數(shù)據(jù)已經(jīng)是前兩個子網(wǎng)絡提取出的深層特征,所以融合網(wǎng)絡的收斂速度極快。
本文使用的數(shù)據(jù)集為實驗室自制數(shù)據(jù)集。聲音信號采集設備是一種微孔徑均勻圓陣(Uniform Circular Array,UCA),采樣率為8 192 Hz。圖3 為實驗場景示意圖,道路全長約1 km,在道路中間放置UAC,其距離路面中心的距離d有15 m、30 m、50 m 3 種不同情況。

圖3 實驗場景示意圖Fig.3 Schematic diagram of experiment scene
數(shù)據(jù)集中包含了不同數(shù)量、不同種類的運動目標在硬土路上的聲震同步信號,運動目標分別為輕型輪式車(Small Wheel,SW)、履帶車(Track Wheel,TW)、大型輪式車(Large Wheel,LW)、人(Person,P)和直升機(Helicopter,H)。以輕型輪式車和人為例,從起點到終點產(chǎn)生的信號時域波形圖分別如圖4所示。

圖4 聲震信號時域波形圖Fig.4 Time domain waveform diagrams of sound and vibration signals
實驗設置的幀長為1 s,幀移為0.25 s,樣本集中訓練幀數(shù)約占總幀數(shù)的60%,測試幀數(shù)約占總幀數(shù)的40%,各運動目標的幀數(shù)分別如表1 和表2所示。

表1 訓練集Table 1 Training set

表2 測試集Table 2 Test set
本文對信號進行簡單的預處理,首先將每一幀的信號進行8 倍降采樣,得到1 024 個點,然后進行歸一化操作。為了減少網(wǎng)絡深度,再繼續(xù)降采樣為256 個點,因此2 個特征提取網(wǎng)絡的輸入數(shù)據(jù)維度分別為4×256 和1×256。網(wǎng)絡的膨脹因子設置為2,與TCN 的膨脹因子相同。經(jīng)感受野計算公式可知網(wǎng)絡至少需要6 層卷積。DenseNet 網(wǎng)絡中的通道數(shù)一般設置為12,而筆者經(jīng)多次實驗發(fā)現(xiàn),通道數(shù)設置為[12,12,24,32,48,64]取得的效果最好。訓練過程中使用Adam 優(yōu)化算法更新參數(shù),訓練的周期數(shù)設為200,batch_size 大小設為256,學習率大小設置為0.000 1,并根據(jù)樣本的數(shù)量及多次實驗驗證設置nll_loss 函數(shù)參數(shù)權重為[1.9,1.0,1.3,2.5]。
實驗包含兩個部分:1)TCN 網(wǎng)絡(TCN)與改進后的TCN 網(wǎng)絡(M_TCN)的對比,此對比實驗主要關注兩個網(wǎng)絡分別針對單模態(tài)輸入的結果性能比較,其中TCN 網(wǎng)絡的實驗編號為1~4,改進后的TCN 網(wǎng)絡的實驗編號為5 和6;2)單模態(tài)輸入的網(wǎng)絡與多模態(tài)融合輸入的網(wǎng)絡對比,實驗編號5 和6 為單模態(tài)輸入的實驗,實驗編號7 是使用聲音和震動兩種模態(tài)作為多模態(tài)輸入的實驗。為了保證結果的有效性,測試均在相同軟硬件平臺下進行,且信號預處理等手段相同。實驗結果如表3 所示。

表3 不同模型性能對比Table 3 Performance comparison of different models
對比實驗編號為2 和4 的實驗結果可發(fā)現(xiàn),當參數(shù)量較小時,識別準確率為80.49%,這是TCN 網(wǎng)絡每層通道數(shù)較小,提取特征不充分,從而導致準確率降低;當參數(shù)量增加約兩倍時,識別準確率僅提高了3.27%;若繼續(xù)提高參數(shù)量,則會產(chǎn)生過擬合,導致網(wǎng)絡泛化性能變差。
對比實驗編號為4 和6 的實驗結果可發(fā)現(xiàn),改進的TCN 網(wǎng)絡準確率雖然下降了0.3%,但是參數(shù)量減少了約34.15%。而對比四通道的聲音實驗(實驗編號為1、3、5)發(fā)現(xiàn)改進的TCN 網(wǎng)絡在參數(shù)量最少的情況下,識別準確率最好。這說明改進的TCN 網(wǎng)絡利用特征復用技術,在減小每層的通道數(shù)的同時,可以保證準確率沒有明顯下降甚至有些情況下還可以提高準確率。
對比實驗編號為5、6、7 的實驗結果可發(fā)現(xiàn),融合了兩種模態(tài)信息的網(wǎng)絡識別準確率與使用聲音信號或震動信號作為輸入信號的實驗相比,識別準確率有6.63%~9.46%的提升。
除此之外,由聲音和震動從不同角度描述監(jiān)控目標,因為兩者干擾源也不相同,所以多模態(tài)融合網(wǎng)絡可以彌補因不同干擾帶來的信號損失,從而增加網(wǎng)絡的魯棒性。圖5 所示分別為LW 的聲音信號測試結果、震動信號測試結果及多模態(tài)融合信號測試結果,其中,LW 的標簽為0。

圖5 LW 信號測試結果Fig.5 Test results of LW signals
從圖5 中可以看出:背景噪聲遮住了部分有效的信號,若僅靠聲音信號進行目標分類,由于風噪聲的存在,這類目標的識別準確率僅有64.82%,并且易將LW 判別為TW(標簽3);震動信號對TW 的識別準確率僅為43.65%,很難區(qū)分出LW 和SW(標簽1);將兩種信號進行特征融合后,可有效抵抗噪聲的影響并彌補兩種信號的缺點,使準確率達到85.02%。由此可見,針對僅使用聲音信號和震動信號進行分類的系統(tǒng),使用多模態(tài)信號進行分類的系統(tǒng)具有一定的魯棒性及穩(wěn)定性。
圖6 是分別用聲音信號、震動信號、多模態(tài)信號進行分類得到的混淆矩陣圖(彩色效果見《計算機工程》官網(wǎng)HTML 版)。將使用多模態(tài)信號作為輸入的網(wǎng)絡和使用單模態(tài)信號作為輸入的網(wǎng)絡進行對比可知,5 種運動目標的識別準確率整體有了一定的提高:在使用聲音信號作為輸入的網(wǎng)絡中,LW 的識別率為87.77%,SW 的識別率為85.59%,TW 的識別率為85.01%;在使用震動信號作為輸入的網(wǎng)絡中,LW 的識別率為73.54%,SW 的識別率為79.90%,TW 的識別率為84.30%;在多模態(tài)輸入的網(wǎng)絡中,LW、SW、TW 的識別率分別為89.83%,93.43%和91.93%。野外運動目標識別的一個難點就是對不同車型的識別,而融合網(wǎng)絡使這3 種車型的識別準確率均得到了提升。同時由圖6(a)、圖6(b)中可知,各類運動目標的分類效果差異較大,并且直升機的分類準確率明顯高于其他運動目標,原因主要有以下兩點:1)直升機作為非車輛目標,它的信號與車輛信號相似度較低;2)直升機的樣本數(shù)量較少,在訓練過程中的損失函數(shù)權重最大,針對其他類型若將其直升機類型判定錯誤,損失函數(shù)會得到更大懲罰。但從圖6(c)中可以看出,5 種運動目標的分類識別準確率比較均衡且識別效果較好。

圖6 混淆矩陣圖Fig.6 Confusion matrix diagrams
野外運動目標背景噪聲復雜,單模態(tài)信號無法對目標進行全面描述,導致識別系統(tǒng)魯棒性差且識別率低。本文構建一種聲震多模態(tài)融合網(wǎng)絡模型,先對兩種模態(tài)的信號進行簡單預處理,再使用改進的TCN 網(wǎng)絡提取相關特征,并將提取出的聲音信號特征與震動信號特征進行融合及分類。為解決各類數(shù)據(jù)不均衡問題,采用nll_loss 損失函數(shù),對不同類型的數(shù)據(jù)分別賦予相應的權重。實驗結果表明,使用TCN 網(wǎng)絡和單模態(tài)信號進行分類時準確率最高為83.08%,使用改進TCN 網(wǎng)絡和單模態(tài)信號進行分類時準確率最高為86.29%,而使用改進TCN 網(wǎng)絡和多模態(tài)信號進行分類時準確率提升到92.92%。后期將采集不同路況下的聲震同步信號擴充數(shù)據(jù)集,并驗證本文模型對不同路況的魯棒性,同時結合實際項目需要對融合網(wǎng)絡做進一步優(yōu)化,使其能被移植到外場實驗的硬件平臺上。