張雷,沈國琛,歐冬秀
(同濟大學交通運輸工程學院,上海 201804)
隨著人工智能技術的發展,大量依靠人力完成的工作逐步被計算機自動化處理所代替。同時隨著計算機處理能力的不斷提升,原先人力無法實現的設想也逐漸成為了現實。此外,得益于互聯網基礎設施和移動互聯技術的快速發展,以國家戰略以及民間對便捷生活的自發追求為動力,諸如管理、服務、商貿等社會生活的交互也在向線上轉移。這種全社會自動化和數字化的轉變,離不開感知的全面數字化,由此也使多源數據得到極大豐富。多源大數據“涌現”的現象出現在各行各業,其中較為突出的就有交通行業。交通行業的研究和實踐一直處于大數據的背景之下。在運輸方面,軌道、航空、水路等運輸方式很早就應用了自動化輔助技術,甚至部分實現了自動駕駛。隨著近年來公路運輸自動駕駛和車路協同的蓬勃發展,智能化和自動化成為了五大交通運輸方式的共同現狀。在管控和服務方面,近年來各地交管部門紛紛推出了智能交通云平臺和交通信息發布應用軟件,一些企業也將交通信息發布整合到應用軟件產品中。而無論是交通運輸還是交通管控與服務,產生的數據都具有非常明顯的多樣性,常見的有檔案文本數據、業務記錄數據、定位和軌跡數據,以及大量傳感器數據。而傳感器數據又包括一維的物理量時序數據、二維的圖像/視頻/雷達數據、三維的雷達/點云數據等。得益于圖像處理算法的快速進步,由攝像設備采集的二維視覺數據得到了廣泛的應用。
視覺數據具有視場大、信息量大、分辨率高等優勢[1],同時在交通場景的布設率高。因此無論是在自動駕駛還是在交通管控中,視覺數據都是非常重要且普遍的一類數據。但是視覺數據也存在明顯的局限性,如受天氣、光照等條件影響較大、特殊情況下會受到物體顏色信息的干擾等[1-2],由此造成的識別和判斷的失誤甚至失靈,會降低交通管理與控制所需數據的有效性,也會給交通運輸帶來較大的事故風險。紅外熱成像數據也是一種二維數據,不同于視覺數據記錄的場景物體發射和反射的可見光,紅外熱成像數據記錄的是物體的熱輻射,可以避免視覺數據存在的受環境條件干擾的缺點[3]。同時熱成像數據的數據結構與圖像、視頻類似,非常適合移植現有的圖像處理算法。
提取可見光圖像數據的特征的算法,包括傳統方法和深度學習方法,諸如VGGNet[4]和ResNet[5]的卷積神經網絡(CNN)就是深度學習方法中具有代表性的一類,得到了廣泛的應用。而同樣是二維數據的紅外熱成像數據也可以利用常見的卷積神經網絡提取特征。但是卷積神經網絡的權重需要大量的數據訓練才能得到。可見光圖像數據有著豐富的訓練數據集,這也是卷積神經網絡能被大量圖像處理算法采納的原因之一,而紅外熱成像數據缺少這樣豐富的訓練集。紅外熱成像數據與可見光圖像數據為不同的數據域,如果能通過域適應(DA)將學習自可見光圖像數據的網絡應用到紅外熱成像的特征提取上,就可以克服紅外熱成像數據缺少訓練集的問題。
通過域適應將原本從可見光圖像數據集中學習到的卷積神經網絡應用到紅外熱成像數據的研究非常豐富,其中,無監督的學習方法主要有利用域對抗的方式如域判別器訓練特征學習網絡[6-7]、利用多光譜知識轉移的方式訓練域編碼器和共享域解碼器[8-9]、利用注意力機制匹配不同域數據進行訓練[10-11]、利用對比學習方法學習可見光和熱成像數據的共同特征[12]、利用元學習范式改進無監督學習方法[13]。此外,還有利用目標域樣本微調網絡初始層后通過自頂向下的方式完成域適應[14-16]、將熱成像數據轉換到可見光域進行網絡微調訓練[17]、通過訓練圖像變換器實現域適應[18]、利用可見光-熱成像數據對訓練熱成像數據識別網絡[19]、利用深層次對抗網絡將可見光特征轉移到熱成像數據進而訓練熱成像數據識別網絡[20]等方法,還有在已有的神經網絡的基礎上訓練特殊場景特殊樣本實現域適應的方法[21-22]。盡管這些研究的方法各異,且有著較好的效果,但是還是離不開一定程度的訓練。如果能直接獲取從可見光圖像數據集中學習到的域不變特征,用于構建適用于紅外熱成像數據的卷積神經網絡,就可以避免再從本就為數不多的紅外熱成像數據中劃分出一部分訓練集,同時避免了訓練的流程,對于硬件設備的要求也相應降低。
有研究者關注了圖像在頻率域的表現。HUANG等[23]分析得出圖像頻域的低頻段和高頻段主要包含隨域改變的成分,包括顏色、風格等,而中頻段主要包含域不變的成分,包括結構、形狀等。XU等[24]利用這一發現,分離圖像的不同頻段,將域改變成分進行隨機處理,再與原本的域不變成分一起還原成多樣的樣本,大大豐富了原來的數據集樣本,也增加了隨域改變的特征的多樣性,從而用于域對抗學習,使得域不變特征能被更好地從隨域改變的特征中分離。
在這一發現的啟發下,本文提出一種基于離散余弦變換(DCT)和卡方獨立性分數的卷積神經網絡特征圖篩選方法。使用離散余弦變換得到預訓練的卷積神經網絡淺層特征圖的頻域圖,并借鑒卡方獨立性檢驗的思想定義一種卡方獨立性分數,根據特征圖在頻域的3個頻段分量度量特征圖的差異度。通過聚類的方法,根據這種差異度度量方法,卷積神經網絡淺層特征圖被分成若干類。根據這些類中的特征圖共同表現出的3個頻段分量的占比,這些淺層特征圖可以被區分為主要包含域不變成分的特征圖和主要包含隨域改變成分的特征圖。保留前者,將后者在卷積神經網絡中剔除,即可得到更適用于與可見光圖像數據具有不同數據域的紅外熱成像數據。基于交通場景中車輛與行人熱成像數據的實驗表明,本文所提方法能夠將原本識別紅外熱成像數據效果較差的預訓練卷積神經網絡優化為可以較好預測紅外熱成像數據中目標類別的網絡。
一個預訓練卷積神經網絡的淺層特征圖F={F1,F2,…,Fn}∈n×h×w主要包含域不變成分的特征圖I={FI1,FI2,…,FIk}∈k×h×w和主要包含隨域改變成分的特征圖V={FV1,FV2,…,FVl}∈l×h×w。其中,h和w為特征圖的高和寬,n=k+l為特征圖的數量。如圖1所示(彩色效果見《計算機工程》官網HTML版,下同),本文研究的問題是找出特征圖中主要包含域不變成分的特征圖I,組成篩選后的淺層特征圖F′=I,構建適合與訓練集數據域不同的預測集的神經網絡。

圖1 特征圖篩選流程Fig.1 Procedure of feature maps filtering
二維離散余弦變換被用于將圖像轉換到頻域,HUANG等[23]和XU等[24]使用二維離散余弦變換得到圖像的頻譜圖,并分離隨域改變成分和域不變成分。其中,頻譜圖的低頻和高頻成分被認為主要是隨域改變的,而中頻成分則被認為主要是域不變的。對于M×N圖像矩陣F[x,y],經二維離散余弦變換得到的M×N頻域矩陣D[u,v]定義為:

(1)

對于得到的頻譜圖,為了分離不同頻率成分,構造濾波器:

(2)

(3)

(4)
分別提取低頻、中頻、高頻的成分,其中,RL和RH分別為低頻截止頻率和高頻截止頻率。
在卷積神經網絡提取的某一層特征圖集合中,一部分特征圖保留較多的域不變特征,另一部分保留較多的隨域改變特征。表現在頻域上,一部分特征圖的頻譜含有更多的中頻成分,另一部分特征圖的頻譜含有更多的高頻和低頻成分。對于M×N特征圖的頻域矩陣A=(aij),計算三頻分量占比:

(5)

(6)

(7)
為了提取出保留較多域不變特征的特征圖,一種方法是直接篩選中頻成分占比較高的特征圖。但是這樣的方法勢必需要設定一個閾值,比較依賴經驗。為此,本文構造了一種卡方獨立性分數,根據特征圖頻域的3種頻率分量占比,計算不同頻譜圖之間的相似度(距離),最后通過聚類分離特征圖集,找到主要保留域不變特征的特征圖。
1.3.1 卡方獨立性分數
為了計算特征圖頻譜之間的相似度,根據卡方獨立性檢驗的思想構造卡方獨立性分數。圖像的頻譜分為高頻、中頻、低頻3個部分,對于2張特征圖的頻域矩陣A和B,他們的高頻占比為ha和hb,中頻占比為ma和mb,低頻占比為la和lb。
假設三頻占比與特征圖無關,作為零假設,可以得到各個特征圖在3個頻段上占比的期望。而備擇假設則是三頻占比與特征圖有關,這意味著特征圖之間在三頻上的占比有明顯的統計差異。令:
Sa=ha+ma+la
(8)
Sb=hb+mb+lb
(9)
S=Sa+Sb
(10)


(11)
其中:O為觀測值;E為理論期望值。代入特征圖的實際三頻占比和期望三頻占比,計算得到式(12):

(12)
2個特征圖頻段分量樣本的自由度為(2-1)×(3-1)=2,根據卡方值和自由度,進一步得到對應的p值。
在卡方獨立性檢驗中,p值如果小于設定的閾值,則認為應推翻零假設而接受備擇假設,這意味著2張特征圖在三頻上的占比有明顯差異。由于本文擬構造的卡方獨立性分數需要作為聚類分析的距離度量,距離越小說明特征圖的三頻占比差異越小,因此定義基于卡方獨立性檢驗的獨立性分數為:
D=1-p
(13)
1.3.2 基于聚類分析的特征圖分類與篩選
定義了卡方獨立性分數以后,可以得到每一張特征圖與其他特征圖之間的獨立性分數矩陣,這個矩陣作為特征圖之間的距離度量矩陣,就可以對特征圖進行分類。通過無監督機器學習方法進行聚類,可以將樣本劃分為若干類別,保證同一類別內的樣本更加接近,并保證不同類別的樣本有足夠的差異。使用聚類分析的方法,以獨立性分數作為特征圖樣本的距離,可以在沒有較多先驗知識的前提下找出中頻成分占比較大(也即保留更多域不變特征)的特征圖。
聚類分析算法有非常多的類別,章永來等[25]將聚類算法分為小樣本聚類和大樣本聚類,又將小樣本聚類分為傳統聚類和智能聚類2類。傳統聚類又被分為劃分聚類和層次聚類。劃分聚類中有基于劃分的k-means算法、基于密度的DBSCAN算法、近鄰傳播算法等。層次聚類包括自底向上的聚合型聚類和分裂型聚類,其中較為常見的是聚合型聚類。由于特征圖樣本量不大,分類任務也較為簡單,因此可以使用傳統聚類方法。
為了提取保留了較多域不變特征的特征圖,本文分別使用了DBSCAN算法、近鄰傳播算法。DBSCAN算法通過預設半徑定義樣本鄰域,將鄰域內樣本數量不少于預設最少相鄰樣本數量的樣本定義為核心樣本,將鄰域內的樣本和鄰域中心樣本的關系定義為直接可達,將直接可達的傳遞定義為可達,將互相可達的核心樣本以及與它們可達的非核心樣本歸為一類(簇),與任何簇的任意核心樣本均不可達的樣本則為異常樣本。近鄰傳播算法定義了相似性、吸引度和歸屬度,通過不斷迭代更新吸引度、歸屬度以及決策判斷,最終確定聚類中心和歸屬。
考察聚類結果中每一類特征圖頻域樣本的頻段分布,選取中頻成分占比較高的類別作為需要保留的特征圖,標記其他頻段占比較高的特征圖,從原先的網絡中剔除這部分特征圖,完成特征圖的篩選。
1.3.3 算法的偽代碼表示
算法1特征圖頻譜成分分離
輸入預訓練特征圖張量F
輸出特征圖三頻分量矩陣S
D←dct(M)∥得到特征圖頻域張量
l←leftCut∥得到低頻到中頻的截止頻率
r←rightCut∥得到中頻到高頻的截止頻率
∥以下構建三頻濾波器
L←zeros(shape(M)[1], shape(M)[2])
M←zeros(shape(M)[1], shape(M)[2])
H←zeros(shape(M)[1], shape(M)[2])
for i=0 to shape(M)[1]-1 do
for j=0 to shape(M)[2]-1 do
L[i,j]←1
M[i,j]←1
else
H[i,j]←1
∥以下計算特征圖三頻分量
S←zeros(shape(M)[0], 3)
for i=0 to shape(M)[0]-1 do
S[i,0]←sum(D[i]⊙L)
S[i,1]←sum(D[i]⊙M)
S[i,2]←sum(D[i]⊙H)
算法2特征圖分類(以DBSCAN聚類為例)
輸入特征圖三頻分量矩陣S
輸出特征圖類別向量Ic
∥以下計算卡方獨立性分數矩陣
C←zeros(shape(S)[0], shape(S)[0])
for i=0 to shape(S)[0]-1 do
for j=0 to shape(S)[0]-1 do
C[i,j]←l+m+h
Ic=DBSCAN(eps, minSamples).fit(C)
本文實驗所使用的數據是由紅外熱成像儀采集的熱成像影像。紅外熱成像儀型號是Fotric 618C,分辨率為640×480像素,鏡頭視場角水平29°,垂直21°,空間分辨率為0.78 mrad,響應波段為7.5 ~14 μm,測溫范圍為-20℃~650℃。由于僅測試所提出的特征圖篩選方法對于卷積神經網絡目標預測的提升效果,因此截取影像中的感興趣目標,例如車輛、人物等。實驗數據采集自戶外道路場景,包括了車輛目標和人物目標,采集環境包括日間和夜間。
為了測試所提出的特征圖篩選方法對于卷積神經網絡目標預測的提升效果,本文選擇ResNet50作為基準網絡,同時使用基于ImageNet 1000訓練的預訓練網絡。使用ImageNet預訓練網絡,沒有為熱成像數據做針對性訓練,也可以保證訓練集與驗證集來自不同的域,用以更好地測試域適應的效果。


圖2 預訓練網絡淺層特征圖Fig.2 Low-level feature maps from pre-trained network

圖3 特征圖頻域基頻置零前后對比圖Fig.3 Comparison of the original frequency domain diagram of the feature map and the frequency domain diagram with the base frequency been set to zero
典型特征圖的頻域圖見圖4。將基頻置零后,部分特征圖的頻率成分主要集中在低頻處[如圖4(b)和圖4(d)所示],另一部分特征圖的頻率成分相對平均地分布在3個頻段內[如圖4(a)和圖4(c)所示]。觀察特征圖的頻率圖,人為篩選出中頻成分占比較高的特征圖,將其他特征圖置零(如圖5所示)。

圖4 典型特征圖的頻域圖Fig.4 Frequency domain diagrams of typical feature maps

圖5 人工置零后的淺層特征圖Fig.5 Low-level feature maps after manual zeroing
在理想情況下,得分越高的類別應該更接近實際目標的類別,反之則類別與目標的實際類別應更無關。因此,根據網絡輸出得分最高的類別是否符合圖片中目標的真實類別,可以檢驗網絡的預測效果。ResNet網絡原文[5]中即使用網絡的top-5預測檢驗網絡的效果,因此本文也選用了前5位預測輸出考察預測結果。比較熱成像影像的預訓練網絡的預測輸出前5位和篩選后網絡的預測輸出前5位,并將可見光圖像數據的預訓練網絡和篩選后網絡的預測輸出進行對比,結果見表1。可以看到,針對可見光圖像數據訓練的預訓練網絡在預測熱成像數據時,前5位預測中識別為車輛的比例為0。但是經過特征圖篩選后,預測結果更接近對可見光圖像數據的預測結果,識別為車輛的比例達到了60%。此外,前5名預測結果中的“輪胎”和“格柵”雖然不是車輛的類別,但也是車輛的組件(格柵是指車輛前部進氣口位置的格柵)。由此可以看出,篩選后的網絡對可見光圖像數據和熱成像數據的車輛預測效果均較好。

表1 篩選前后目標預測結果對比Table 1 Prediction results comparison between original network and filtered network
利用二維離散余弦變換對ResNet第1次卷積后提取的特征圖進行頻域變換,再將基頻處置零。根據HUANG等[23]提出的3個頻段的截止頻率,計算特征圖的頻域圖在低、中、高3個頻段的分量,得到頻段分量向量。然后根據所提出的獨立性分數定義,計算64個頻段分量向量之間的獨立性分數,作為聚類的距離度量。使用近鄰傳播算法得到的聚類結果如圖6所示,其中,第1類樣本(圖中右下)的低頻分量占比較高,第2類樣本(圖中左上)的高頻分量占比較高,第3類樣本(圖中左下)的高頻和低頻分量占比均相對較低,因此選擇第3類樣本作為需要保留的特征。

圖6 近鄰傳播算法聚類結果Fig.6 Clustering result using affinity propagation algorithm
使用DBSCAN算法得到的聚類結果如圖7所示,其中,第1類樣本(圖中左下)的高頻和低頻分量占比均較低,第2類樣本(圖中右部中間)的低頻分量占比較高,其余樣本(分布在左上、中后和右下)為離群樣本,其中既有低頻分量占比較高的樣本,又有高頻分量占比較高的樣本,因此不做進一步區分,并將第1類樣本作為需要保留的特征。

圖7 DBSCAN算法聚類結果Fig.7 Clustering result using DBSCAN algorithm
使用近鄰傳播算法聚類后需要保留的特征圖序列為[0,2,4,6,8,18,21,23,24,30,31,32,36,38,40,41,42,45,47,51,55,56,57,58,63],使用DBSCAN算法聚類后需要保留的特征圖序列為[0,2,4,6,8,15,17,19,23,24,30,31,32,36,40,41,45,47,51,56,57,61,63],2種聚類方法保留的特征圖序列的交集為[0,2,4,6,8,23,24,30,31,32,36,40,41,45,47,51,56,57,63],并集為[0,2,4,6,8,15,17,18,19,21,23,24,30,31,32,36,38,40,41,42,45,47,51,55,56,57,58,61,63]。
2.5.1 車輛預測結果
將車輛的可見光圖像數據與熱成像數據分別輸入經過篩選的網絡進行預測。
當選用較為嚴格的聚類結果,保留2種方法的特征圖序列交集時,預測結果如表2所示。由表2可見,雖然熱成像數據預測結果相對較好,識別為車輛的比例為60%,但是可見光圖像數據預測結果相比預訓練網絡的預測結果明顯下降。

表2 保留特征圖序列交集的車輛預測結果Table 2 Vehicle prediction result of filtered network which kept the intersection of feature map sets
當選用較為寬松的聚類結果,保留2種方法的特征圖序列并集時,預測結果如表3所示。由表3可見,選用較為寬松的聚類結果,既能保證熱成像數據預測的效果(識別為車輛的比例達到了90%),又能保證可見光圖像數據的預測效果。

表3 篩選后網絡保留特征圖序列并集的車輛預測結果Table 3 Vehicle prediction result of filtered network which kept the union of feature map sets
表4對比了預訓練網絡和篩選后網絡的預測結果。預訓練網絡預測熱成像數據的前5位類別與實際目標完全無關。經過嚴格篩選的網絡,對于熱成像數據的預測效果得到了提升,但是會一定程度降低可見光圖像數據的預測效果,而經過寬松篩選的網絡則可以有效預測熱成像數據的類別,同時仍具有對可見光圖像數據的預測有效性。

表4 預訓練網絡及篩選后的網絡對車輛預測結果對比Table 4 Vehicle prediction result comparison between pre-trained network and filtered network %
上述對比結果表明,本文提出的特征圖篩選的這種域適應方法,可以將由可見光圖像數據訓練的網絡應用于熱成像數據。
2.5.2 人預測結果
預訓練網絡對于人的可見光圖像數據和熱成像數據的預測結果如表5所示,預測類別主要是人物身上的小飾品或衣物,并未將人作為整體而預測,這是因為預訓練數據集的標注側重于這些物品,而缺少人這個整體的分類;而熱成像數據預測則與圖像內容大多毫無關系。

表5 預訓練網絡的人預測結果Table 5 Human prediction result of pre-trained network
將人的可見光圖像數據與熱成像數據分別輸入經過篩選的網絡進行預測。保留2種聚類方法的特征圖序列交集網絡,預測結果如表6所示。由表6可見,在預測結果中,對人的圖像可以預測出許多人物身上的配飾,但是更多的是與圖像內容毫無關系的類別。保留2種聚類方法的特征圖序列并集網絡,預測結果如表7所示。由表7可見,預測結果與前一種篩選標準得到的預測結果類似,對人的檢測結果較差,但是會預測人身上的配飾。

表6 篩選后網絡保留特征圖序列交集的人預測結果Table 6 Human prediction result of filtered network which kept the intersection of feature map sets

表7 篩選后網絡保留特征圖序列并集的人預測結果Table 7 Human prediction result of filtered network which kept the union of feature map sets
表8對比了車輛和人的可見光圖像數據和熱成像數據分別由預訓練網絡和篩選后網絡的預測結果。當預訓練網絡對可見光圖像數據的預測效果較好時,本文提出的特征圖篩選的域適應方法能有效將網絡用于熱成像數據的預測,但是當預訓練網絡對可見光圖像數據的預測較差時,本文提出的域適應方法并不能提升網絡的預測效果。對比結果說明了訓練用的數據集和預訓練網絡本身對于預測準確度的重要性。篩選特征圖的域適應方法能使本身就具備較好預測能力的網絡更好地遷移到不同的數據域中,但是不能改變網絡從訓練集中學習到的預測能力。

表8 預訓練網絡及篩選后網絡整體預測結果對比Table 8 Overall prediction result comparison between pre-trained network and filtered network
本文提出了一種基于離散余弦變換和卡方獨立性分數的卷積神經網絡特征圖篩選方法,直接提取出在可見光圖像數據樣本基礎上得到的預訓練網絡中主要成分為域不變特征的特征圖,從而實現網絡的域適應,預測熱成像數據。其中:離散余弦變換將特征圖轉換到頻域,以便分離出特征圖中隨域改變和域不變成分;卡方獨立性分數是根據卡方獨立性檢驗的原理設計的一種根據特征圖頻段分量判斷特征圖相似性的指標。最后通過聚類算法,將特征圖按頻域特性分類,從而得到主要成分為隨域改變特征的特征圖和主要成分為域不變特征的特征圖。對車輛圖像的預測實驗結果表明,該方法無需大量樣本進行重新訓練,就可以使基于可見光圖像數據訓練的網絡同時適應可見光圖像數據和熱成像數據。篩選后的網絡對熱成像數據的前5位預測結果與目標相關的比例最高可達90%。但是對人的圖像的預測實驗結果表明,這種優化方法不能改變網絡在預訓練時的學習目標。
后續的研究可以考慮優化劃分特征圖頻段的方法,尋找比憑經驗設置三頻截止頻率更合理且有效的算法。同時,卡方獨立性分數是受卡方獨立性檢驗的啟發而定義的,在卡方獨立性檢驗中,只有當p值小于設定的閾值,如0.05時,才可以推翻原假設。這意味著在判斷特征圖頻段分量相似性的時候,只有獨立性分數大于0.95時,才能認為2個特征圖差異較大。而根據統計學原理可知,這樣的標準無法避免差異性較大的特征圖被認為差異較小的錯誤,因此也值得進一步研究。此外,聚類分析的算法并未體現卡方獨立性分數的統計學原理,后續也需要進一步研究和優化。