李連偉 秦世引*②
①(北京航空航天大學(xué)自動化科學(xué)與電氣工程學(xué)院 北京 100191)
②(東莞理工學(xué)院電子工程與智能化學(xué)院 東莞 523808)
隨著公共交通出行量的迅猛提升,公共場所的人流量也在不斷增加,使得反恐以及維護社會穩(wěn)定的任務(wù)復(fù)雜性和實際要求也在不斷攀升,從而對安檢系統(tǒng)的技術(shù)性能提出了新的嚴峻挑戰(zhàn)。傳統(tǒng)的安檢方式往往要求被檢對象主動配合安檢人員進行人體檢查,這不僅限制了檢測效率,也對人體隱私保護造成影響。近年來被動毫米波成像技術(shù)不斷發(fā)展,在安檢系統(tǒng)中的應(yīng)用越來越廣泛。這主要得益于其穿透性、安全性等諸多優(yōu)良特性[1],并且不需要被檢對象主動配合,可大大節(jié)省檢測時間而提高效率。
獲得人體掃描圖像后,如何快速高效檢測出所攜帶隱匿違禁物是安檢系統(tǒng)研發(fā)中的一個嚴峻的技術(shù)挑戰(zhàn)。一方面,被動毫米波成像機制不同于一般的可見光成像,其分辨率比可見光圖像低,且存在復(fù)雜的背景噪聲。同時在被動毫米波圖像(Passive MilliMeter Wave Image, PMMWI)中展示檢測結(jié)果容易引發(fā)人體隱私泄露問題,因此需要將檢測到的疑似違禁物位置標記于可見光圖像(Visible Image,VI)之中,這就需要對PMMWI與VI中人體輪廓進行配準。另一方面,僅采用PMMWI進行違禁物檢測容易出現(xiàn)誤檢,例如胳膊與人體的間隙區(qū)域容易誤檢為疑似違禁物。因此需要將VI提取到的信息結(jié)合來判斷違禁物是否存在。此外,面對公共場所安檢流量大的問題,檢測算法的運算速度也是需要考慮的重要因素。
本文將被動毫米波成像的穿透性和可見光成像的清晰性相結(jié)合,提出一種基于輕量級U-Net的人體安檢隱匿違禁物的高性能實時檢測算法。首先,采用輕量級U-Net分別對PMMWI和VI中的人體輪廓進行快速分割;進而采用基于相似性測度的無監(jiān)督學(xué)習(xí)方法訓(xùn)練圖像配準網(wǎng)絡(luò)對PMMWI與VI分割結(jié)果中的人體輪廓進行配準,根據(jù)配準結(jié)果,初步剔除虛警后檢出疑似違禁物,并將其位置標記于VI之中得到單幀圖像檢測結(jié)果;最后通過對多幀序列圖像檢測結(jié)果的綜合研判,進一步剔除虛警,輸出檢測結(jié)果。
本文的主要貢獻體現(xiàn)在以下3個方面:(1) 基于MobileNetV2[2]作為編碼器網(wǎng)絡(luò),設(shè)計了輕量級UNet分割網(wǎng)絡(luò)以提高處理速度,滿足安檢過程中大流量的需求。同時,采用參數(shù)共享策略,只需一個模型便可完成PMMWI與VI中人體輪廓的快速分割。(2) 借鑒醫(yī)學(xué)圖像配準的經(jīng)驗,將基于相似性測度的無監(jiān)督學(xué)習(xí)策略同輕量級U-Net相結(jié)合,通過無監(jiān)督學(xué)習(xí)生成配準空間位移場,以實現(xiàn)PMMWI與VI中人體輪廓的高效配準,從而為后續(xù)的高性能實時檢測奠定基礎(chǔ)。(3) 在人體輪廓配準的基礎(chǔ)上,通過區(qū)域比對實現(xiàn)虛警目標濾除,進而結(jié)合多幀序列圖像檢測結(jié)果的綜合推斷得到最終的隱匿違禁物檢測結(jié)果,并在可見光圖像VI中予以標記,從而可實現(xiàn)無接觸檢測和有效的隱私保護。
在檢測PMMWI中人體攜帶的隱匿違禁物方面,López-Tapia等人[3]在圖像中抽取以像素為中心的圖像塊并通過Haar算子提取特征進而采用隨機森林方法在預(yù)處理后的PMMWI上檢測隱匿物并取得一定成果。文獻[4]采用深度神經(jīng)網(wǎng)絡(luò)的方法識別圖像塊中的違禁物,同時利用圖像分割的方法對違禁物進行檢測定位。文獻[5]采用YOLO v3 (You Only Look Once v3)算法檢測PMMWI中的違禁物目標,并在其自建小數(shù)據(jù)集上實現(xiàn)了實時檢測。受限于PMMWI成像質(zhì)量問題,使用單一毫米波圖像容易產(chǎn)生誤檢,因此本文采用PMMWI與VI相結(jié)合的方式以高效檢測人體所攜帶的隱匿違禁物,主要采用了圖像分割及圖像配準技術(shù)。
在圖像語義分割方面,基于全卷積網(wǎng)絡(luò)(Fully Convolutional Network, FCN)[6]的方法獲得了優(yōu)越性能。特別是隨著U-Net[7]的提出,研究者開始使用編解碼器結(jié)構(gòu)融合低、高層特征以獲取更多上下文信息來實現(xiàn)更好的分割效果。羅會蘭等人[8]將基于區(qū)域與基于全卷積兩種方法的優(yōu)點結(jié)合起來,并利用帶擴張卷積的殘差網(wǎng)絡(luò)進行特征提取,最后通過多模型融合得到分割結(jié)果。Zhu等人[9]提出一種統(tǒng)計紋理學(xué)習(xí)網(wǎng)絡(luò)用于圖像分割,以更好地利用網(wǎng)絡(luò)低層的紋理信息從而達到更好的性能。
圖像配準目前廣泛應(yīng)用于醫(yī)學(xué)圖像處理領(lǐng)域,基于深度學(xué)習(xí)的配準方法主要分為有監(jiān)督配準[10,11]和無監(jiān)督配準[12,13]?;诒O(jiān)督學(xué)習(xí)的配準一般利用已有算法生成標簽或者利用模擬變形生成標簽,較為復(fù)雜。鑒于此,現(xiàn)在的研究者大多傾向于使用基于無監(jiān)督學(xué)習(xí)的配準方法。Balakrishnan等人[14]提出一種快速學(xué)習(xí)圖像配準的VoxelMorph框架,使用卷積神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)變形場,并通過最小化圖像之間的相似度代價來實現(xiàn)網(wǎng)絡(luò)優(yōu)化。Ma等人[15]提出一種編解碼結(jié)構(gòu)的配準網(wǎng)絡(luò),并根據(jù)特征的性能以及特征之間的關(guān)系對特征進行校準,進而設(shè)計了層次代價函數(shù)用于網(wǎng)絡(luò)訓(xùn)練。本文借鑒文獻[14]處理3維醫(yī)學(xué)圖像的經(jīng)驗,結(jié)合輕量級U-Net,將無監(jiān)督配準學(xué)習(xí)應(yīng)用于2維PMMWI與VI圖像之中。
U-Net網(wǎng)絡(luò)應(yīng)用跳躍連接結(jié)合低層特征的細節(jié)信息,能夠有效地彌補下采樣過程造成的空間信息損失,幫助網(wǎng)絡(luò)恢復(fù)更精確的分割結(jié)果,在圖像分割中具有卓越的性能優(yōu)勢;同時,其所具有的編解碼結(jié)構(gòu)簡單,設(shè)計改進方便,因此本文根據(jù)安檢過程中人體輪廓實時分割的技術(shù)需求,經(jīng)過對實驗結(jié)果的比較分析,選用了U-Net網(wǎng)絡(luò)。MobileNetV2[2]在V1版[16]采用逐通道可分離卷積的基礎(chǔ)上,借鑒ResNet[17]的殘差連接,創(chuàng)新性地提出了“倒置殘差”結(jié)構(gòu),兼具速度與性能優(yōu)勢??紤]到安檢過程中人流量大且檢測算法需要實時快速運行,本文在采用U型網(wǎng)絡(luò)架構(gòu)的基礎(chǔ)上,利用MobileNetV2作為編碼器特征提取網(wǎng)絡(luò),進行了必要的輕量化設(shè)計以滿足人體安檢中的快速運行需求。所設(shè)計的輕量級U-Net網(wǎng)絡(luò)架構(gòu)如圖1(a)所示,本文將其命名為Lightweight U-Net,簡記為L-UNet。L-UNet網(wǎng)絡(luò)中所采用的倒置殘差模塊1~5的組織架構(gòu)如圖1(b)所示,而解碼模塊1~5則由圖1(c)給出。
相較于原始版MobileNetV2,本文對倒置殘差模塊1~5僅重復(fù)堆疊1次從而減少參數(shù)量和計算量。其中,除倒置殘差模塊1以外,其余倒置殘差模塊均進行下采樣使得特征圖逐漸減小。在圖1(b)所示的倒置殘差模塊中,首先對輸入特征進行1×1卷積并通過預(yù)設(shè)的擴張倍數(shù)使得通道數(shù)增加,進而進行3×3逐通道卷積(DepthWise Convolution, DW-Conv),最后通過1×1卷積降低通道數(shù)并與輸入特征信息直接相加得到輸出特征。本文參照原網(wǎng)絡(luò)參數(shù),將倒置殘差模塊1的擴張倍數(shù)設(shè)為1,其余倒置殘差模塊擴張倍數(shù)均為6。在圖1(c)所示的解碼模塊中,首先進行3×3卷積進一步提取特征信息,進而通過轉(zhuǎn)置卷積進行上采樣以使空間信息得以恢復(fù)。在上采樣過程中,通過使用解碼模塊最后可獲得與原圖尺寸相同的輸出結(jié)果。
在實際毫米波安檢過程中,人體通過安檢儀的速度快且人流量大,這對隱匿違禁物檢測提出了很強的實時性需求。因此需要算法能夠快速高效地檢測定位出人體所攜帶的隱匿違禁物,本文所提網(wǎng)絡(luò)能夠很好地滿足這些需求。
一方面,以3×3卷積為例,深度可分離卷積的計算量比標準卷積少8~9倍[16],從而可使模型的運行速度顯著提升,對實際應(yīng)用具有重要意義。本文所構(gòu)建L-UNet僅具有4.3 M參數(shù)量,相當于U-Net的13.9%;計算量為2.7 G,相當于U-Net的6.3%。同時,參數(shù)量的減少也會使得模型的占用空間降低,從而在實際應(yīng)用中更具優(yōu)勢。L-UNet在GTX TITAN Xp GPU上處理分辨率為400×200的圖像時速度可達126 fps,遠超實時性要求。
另一方面,由于逐通道卷積是按通道深度進行分離卷積,不存在通道間信息的混合,其所提特征受限于通道數(shù)量。而通過倒置殘差模塊結(jié)構(gòu),先對特征通道數(shù)進行必要的擴張,以增加通道數(shù)量,并在通道分離條件下完成卷積運算,從而使提取的特征信息得以豐富。
在進行人體輪廓分割前,本文首先采用Pixel Annotation Tool[18]軟件進行數(shù)據(jù)標注以生成分割標簽。圖2展示了5張對應(yīng)的PMMWI和VI的人體輪廓標注結(jié)果。需要說明的是,在數(shù)據(jù)標注中,行人的背包中隱藏了一種違禁物,對可見光圖像VI而言,是無法確認的,所以對背包區(qū)域無標注;由于PMMWI的可穿透性,其探測到該違禁物是理所當然的,所以在對PMMWI的標注結(jié)果中凸顯了該隱匿違禁物的所在區(qū)域和位置。
本文采用PyTorch中的隨機梯度下降(Stochastic Gradient Descent,SGD)優(yōu)化器對網(wǎng)絡(luò)進行迭代深度訓(xùn)練,同時使用交叉熵函數(shù)計算訓(xùn)練代價。由于本任務(wù)中僅將圖像分割為人體和背景,因此采用的二分類交叉熵代價函數(shù)L可表示為
根據(jù)人體安檢需求,本文通過對L-UNet網(wǎng)絡(luò)的深度訓(xùn)練,實現(xiàn)對人體輪廓的快速分割。圖3給出了面向人體安檢的人體輪廓分割的網(wǎng)絡(luò)化算法的執(zhí)行機理和邏輯流程。
首先利用圖像分割標注軟件對采集到的PMMWI/VI數(shù)據(jù)進行人體輪廓的數(shù)據(jù)標注以生成數(shù)據(jù)標簽。然后將以訓(xùn)練數(shù)據(jù)激勵L-UNet網(wǎng)絡(luò)而得到模型預(yù)測值,進而將結(jié)合監(jiān)督標簽信息,采用交叉熵代價函數(shù)計算訓(xùn)練代價,以SGD最小代價函數(shù)優(yōu)化器對L-UNet的網(wǎng)絡(luò)參量進行調(diào)優(yōu),隨著調(diào)優(yōu)訓(xùn)練的迭代進展,使L-UNet的分割性能得以不斷提高,在滿足終止條件時得到認可。進而利用該認可的L-UNet實施人體輪廓的分割,給出有效的分割結(jié)果。
訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)通常需要大量的帶標簽數(shù)據(jù)作支撐,醫(yī)學(xué)圖像有監(jiān)督配準中一般采用以下兩種方式獲取變形場標簽:(1)利用傳統(tǒng)方法對圖像進行配準以獲得變形場作為標簽真實值,如文獻[11]首先采用對稱圖像歸一化方法對圖像進行初步配準,然后進一步對齊邊界并生成最終的變形場。(2)人工生成變形場,如文獻[19]通過人工合成變形場并對原始圖像施加變形場生成形變圖像用于訓(xùn)練??梢姡@兩種方式均復(fù)雜且低效,難以推廣。與此同時,標簽的精準度對網(wǎng)絡(luò)訓(xùn)練的效果也有影響。區(qū)別于需要標簽信息的有監(jiān)督學(xué)習(xí),無監(jiān)督學(xué)習(xí)不需要數(shù)據(jù)標簽,節(jié)省了人工標注的時間。綜合上述考慮,本文采用無監(jiān)督學(xué)習(xí)的方法來對安檢圖像中的人體輪廓進行配準學(xué)習(xí)。
無監(jiān)督學(xué)習(xí)分為多種,例如聚類、降維等,本文采用基于相似性測度的無監(jiān)督學(xué)習(xí),通過比對模型輸出與被配準圖像的相似度,并對相似度代價函數(shù)進行最小化來優(yōu)化調(diào)整網(wǎng)絡(luò)參量。
一方面,由于PMMWI與VI成像機制不同,成像效果存在明顯差異。具體而言,PMMWI成像視野小于VI,且成像質(zhì)量差,分辨率低。但被動毫米波能檢測到隱匿物,具備可見光所沒有的穿透性。而VI在清晰性與分辨率上比PMMWI有更好的表現(xiàn)。兩種圖像的成像差異性使得讓其優(yōu)勢互補成為可能。本文同時利用VI的清晰性與PMMWI的穿透性使得隱匿違禁物的檢測更加高效。
另一方面,從圖4可以看出,PMMWI與VI的人體輪廓分割結(jié)果中人體區(qū)域均存在黑色空洞,相同位置的空洞是由胳膊與身體的間隙產(chǎn)生的,而PMMWI中存在但VI中沒有的空洞區(qū)域才是隱匿物所在位置。因此,只有將兩者分割結(jié)果進行配準,才能有效去除虛警目標,獲得隱匿違禁物的位置。此外,由于直接展示PMMWI會帶來隱私問題,因此需要在VI中對隱匿物位置進行標記,這也需要PMMWI/VI的配準才能得以實現(xiàn)。
受文獻[14]醫(yī)學(xué)圖像配準方法啟發(fā),本文設(shè)計了適合PMMWI和VI圖像的無監(jiān)督學(xué)習(xí)配準方法,如圖5所示。本文采用L-UNet作為配準網(wǎng)絡(luò)骨架,與分割網(wǎng)絡(luò)相比變動之處在于去掉了最后的分類層和sigmoid層。將PMMWI分割圖像p及VI分割圖像v定義在2維圖像空間W ?R2中,L-UNet配準網(wǎng)絡(luò)記為fθ(),θ為神經(jīng)網(wǎng)絡(luò)參數(shù),則基于L-UNet的配準位移解算過程可表示為fθ(p,v)=u。其中u是一個3維的位移場。對于任一像素點m,u(m)是一個使得v(m)與[p ?φ](m)表示相同位置的位移,其中映射φ= Id+u,I d表示恒等變換,v(m)表示m在v中的位置,p ?φ表示p通過映射φ變換后的配準圖像,[p ?φ](m)表示m在配準后圖像中的位置。
如圖5所示,將待配準的PMMWI和VI分割圖像對拼接后輸入L-UNet配準網(wǎng)絡(luò),通過網(wǎng)絡(luò)運算輸出配準空間位移場u,然后對PMMWI分割圖像p進行坐標配準以變換為p ?φ,得到配準后的PMMWI圖像pr。本文基于空間變換網(wǎng)絡(luò)[20]的思想并采用文獻[14]的方法計算p ?φ。對于配準后圖像中的每個像素點m,本文計算其對應(yīng)原圖p中的像素點位置,并利用8個相鄰點的像素值進行線性插值得到[p ?φ](m)。
本文通過衡量配準后的PMMWI與VI的相似度,并對相似度代價最小化以調(diào)優(yōu)配準網(wǎng)絡(luò)。同時,在代價函數(shù)中加入配準位移場梯度的懲罰項,以使坐標變換更加平滑。總代價函數(shù)由式(2)給出
其中,λ為正則化系數(shù),?u(m)表示對u(m)求梯度。式(2)中前半部分計算配準后的PMMWI與VI的均方誤差(Mean Square Error, MSE),后半部分對位移場的梯度施加正則化。如圖5所示,通過計算總代價函數(shù)及其變化梯度,進而基于總代價函數(shù)的變化梯度采用自適應(yīng)矩估計(Adaptive moment estimation, Adam)優(yōu)化器對L-UNet進行參數(shù)優(yōu)化從而使網(wǎng)絡(luò)性能得以不斷提升。
此外,在訓(xùn)練過程中,一方面本文將PMMWI/VI分割圖像對輸入網(wǎng)絡(luò)進行訓(xùn)練;另一方面,對于分割過程產(chǎn)生的人體內(nèi)的空洞區(qū)域,對其進行填充生成填充后的分割圖像,作為訓(xùn)練集的擴增集參與訓(xùn)練以提高網(wǎng)絡(luò)性能的魯棒性。
經(jīng)過輪廓配準后,PMMWI與VI分割后圖像中人體輪廓形狀基本一致,但PMMWI中包含了疑似隱匿物的位置和形狀信息;而VI中僅包含人體輪廓的形狀信息。基于配準結(jié)果,可以將PMMWI中的疑似隱匿物位置標注在VI中,不僅便于安檢人員快速查驗,同時也能避免人體隱私的泄露問題。圖6展示了基于PMMWI/VI輪廓配準的疑似隱匿物快速檢測過程。
具體而言,首先采用L-UNet對PMMWI/VI圖像對進行人體輪廓分割,得到對應(yīng)圖像的分割結(jié)果。進而基于相似性測度的無監(jiān)督學(xué)習(xí)配準方法對分割后圖像中的人體輪廓進行配準,最后將隱匿物在VI中進行標記得到最終檢測結(jié)果。需要說明的是,在本文的安檢應(yīng)用場景中,安檢儀1次通過1人次,且僅針對檢測中出現(xiàn)的隱匿違禁物這一類目標,但隱匿違禁物可能藏于人體的多個部位,因此屬于多目標檢測。
經(jīng)過分割或配準后的PMMWI/VI中可能會存在噪聲點,如圖7中VI分割結(jié)果所示。因此需要在圖像配準之后進行背景噪聲過濾,以防產(chǎn)生虛警干擾。此外,在人體輪廓配準過程中,PMMWI中的疑似隱匿物經(jīng)過坐標變換后會因形變而導(dǎo)致形狀過小,如圖7所示,經(jīng)過噪聲濾除處理容易造成漏檢。
為了對漏檢目標進行補正以提高檢測性能,對配準過程中基于L-UNet骨架網(wǎng)絡(luò)的無監(jiān)督學(xué)習(xí)的代價函數(shù)進行了優(yōu)化調(diào)整。具體而言,式(2)中λ可以調(diào)節(jié)位移場梯度的正則化項占總代價函數(shù)的比重大小,影響坐標變換的程度也即控制著圖像形變的程度。通過調(diào)整優(yōu)化λ的值,可使配準后PMMWI中人體輪廓與VI趨近一致的同時,隱匿物目標不會形變到很小。
此外,由于人體肢體動作在VI中產(chǎn)生的虛警目標,經(jīng)過圖像配準后,會在PMMWI中對應(yīng)位置出現(xiàn)。本文通過對比人體輪廓相同位置出現(xiàn)的空洞區(qū)域,實現(xiàn)了虛警目標的有效濾除。如圖8所示,首先對配準后的PMMWI/VI進行圖像濾波,本文采用的是依次進行形態(tài)學(xué)閉、開運算以去除噪聲點并平滑人體輪廓。在此基礎(chǔ)上,分別對PMMWI/VI進行空洞填充并與原圖進行異或運算,得到對應(yīng)圖像中的空洞區(qū)域。最后,通過區(qū)域?qū)Ρ葘⑻摼繕巳コ?,從而獲得隱匿物目標。
在安檢實際情況中,由于人在不斷走動行進,因此基于單幀圖像的隱匿物檢測也會造成漏檢或者誤檢,本文結(jié)合安檢過程中產(chǎn)生的序列圖像進行綜合判斷以提升檢測性能。采用策略為:序列圖像數(shù)據(jù)中每隔5幀輸出1次檢測結(jié)果。具體而言,對每幀圖像檢測結(jié)果中的疑似隱匿物區(qū)域像素值置1,其余置0,并將5幀檢測結(jié)果相加,若疊加圖像中某處像素值大于等于n(n ∈[1,5],由實驗確定),則認為該區(qū)域存在隱匿物。
為了實現(xiàn)人體安檢過程中隱匿違禁物的快速檢測,對本文所提網(wǎng)絡(luò)與算法進行綜合集成,如圖9所示。首先,對連續(xù)5幀PMMWI/VI圖像對采用基于L-UNet的分割算法進行人體輪廓分割,然后采用基于無監(jiān)督學(xué)習(xí)的配準算法對PMMWI/VI分割后的人體輪廓進行配準。進而根據(jù)配準結(jié)果通過區(qū)域?qū)Ρ纫詾V除虛警目標,得到單幀圖像的隱匿違禁物檢測結(jié)果。最后通過對多幀檢測結(jié)果進行綜合判斷,得到最終的隱匿違禁物檢測結(jié)果并在VI中進行標記。
根據(jù)第3~5節(jié)的研究結(jié)果,本文提出基于輕量級U-Net深度學(xué)習(xí)的人體安檢隱匿物的高性能檢測算法,如表1所示。

表1 基于輕量級U-Net深度學(xué)習(xí)的人體安檢隱匿物檢測算法
本文采集并標注了1268幀PMMWI及其對應(yīng)的VI圖像作為本文所用數(shù)據(jù)集,其中PMMWI尺寸為160×80,VI尺寸為400×200。本文數(shù)據(jù)采集所用設(shè)備成像速度為25 fps,即每幀成像時間為40 ms。所采用數(shù)據(jù)集中,圖像對來自多個個體;隱匿違禁物分別位于人體的5個不同位置:前胸、后背、前腰、后腰、側(cè)身,如圖10所示,其中隱匿物所在位置用紅框標注以便于展示。在實驗過程中,1032幀對的標注圖像用于進行深度監(jiān)督訓(xùn)練,訓(xùn)練完成后再用236幀對的標注圖像進行測試檢驗。
本文算法與網(wǎng)絡(luò)采用基于Python語言的PyTorch深度學(xué)習(xí)框架并在Windows平臺上實現(xiàn)。GPU為NVIDIA GTX TITAN Xp,CPU為Intel Core i7-8700k,內(nèi)存為32 GB RAM。
在人體輪廓分割實驗中,采用SGD優(yōu)化器對網(wǎng)絡(luò)進行調(diào)優(yōu),學(xué)習(xí)率為0.01,動量設(shè)為0.9,深度監(jiān)督訓(xùn)練所設(shè)置的終止條件為2000輪次的迭代。在人體輪廓配準實驗中,采用Adam優(yōu)化器對網(wǎng)絡(luò)參數(shù)進行更新,學(xué)習(xí)率為0.01;經(jīng)過實驗驗證,網(wǎng)絡(luò)經(jīng)過100輪次的迭代可以達到認可的效果,因此訓(xùn)練的終止條件設(shè)置為100輪次的迭代。在上述兩部分實驗的訓(xùn)練過程中,首先對圖像進行隨機裁剪,使其邊長隨機裁剪為原來的0.6~1倍,然后將圖像縮放到320×160尺寸輸入網(wǎng)絡(luò);在測試過程中,直接將圖像縮放到320×160尺寸輸入網(wǎng)絡(luò)進行測試。
6.3.1 基于輕量級U-Net的人體輪廓分割實驗
為了驗證所提L-UNet人體輪廓分割網(wǎng)絡(luò)的有效性,本文在所采集的PMMWI/VI數(shù)據(jù)集上進行實驗性能驗證。同時,采用平均交并比(Mean Intersection over Union, MIoU)作為性能評價指標,MIoU的計算方式如式(3)所示
其中,pij表示類別標簽為第i類的像素點被模型預(yù)測到第j類 。由于本文圖像分割類別只包含人體區(qū)域和背景區(qū)域兩類,因此i和j的取值范圍只有0和1。
由于可見光和被動毫米波成像機制不同,本文首先將PMMWI和VI分別輸入L-UNet分割網(wǎng)絡(luò)進行單獨訓(xùn)練,參數(shù)不共享,最終獲得2個參數(shù)不同的L-UNet分割模型。同時,考慮到實際應(yīng)用的便捷及安檢系統(tǒng)的實時性要求,將兩種不同數(shù)據(jù)輸入同一L-UNet網(wǎng)絡(luò)中進行訓(xùn)練,參數(shù)共享,最終獲得1個L-UNet分割模型。兩種訓(xùn)練策略的結(jié)果對比如表2所示。
由表2可見,采用參數(shù)不共享訓(xùn)練策略的分割性能指標比參數(shù)共享策略好。但從實際應(yīng)用角度出發(fā),將PMMWI和VI數(shù)據(jù)分開處理需要使用2個模型,并消耗額外的計算資源和存儲資源,獲得的性能提升卻有限。因此權(quán)衡利弊,本文研究將采用參數(shù)共享的訓(xùn)練方式進行后續(xù)實驗。

表2 兩種訓(xùn)練策略下人體輪廓分割的MIoU對比(%)
為了展示L-UNet應(yīng)用于人體輪廓分割的性能優(yōu)勢,本文在所采數(shù)據(jù)集上與FCN-8s[6], SegNet[21]以及U-Net[7]網(wǎng)絡(luò)模型進行了對比實驗。圖11展示了不同網(wǎng)絡(luò)人體輪廓的分割結(jié)果,其中第1列待分割圖像中PMMWI與VI是分別對應(yīng)的。結(jié)果表明,F(xiàn)CN的分割效果最差,無法對PMMWI中的隱匿物進行有效分割。SegNet和U-Net的分割效果與L-UNet相似,但處理細節(jié)能力弱于L-UNet。例如,對于第1幅PMMWI圖像,在U-Net分割結(jié)果中,手臂細節(jié)部分分割不準確,而SegNet分割時則存在多余空洞,從而可導(dǎo)致隱匿物檢測過程中產(chǎn)生虛警。綜合來看,L-UNet的分割效果較好,精度較高。
為了定量對比各個網(wǎng)絡(luò)的分割性能,本文統(tǒng)計了其在自建數(shù)據(jù)集上的性能指標,如表3所示。同時也對網(wǎng)絡(luò)參數(shù)量、計算量以及運算速度FPS進行了對比分析。從表3可以看出,L-UNet的參數(shù)量和計算量都大大低于上述網(wǎng)絡(luò),在運算速度和性能上也有明顯的優(yōu)勢。雖然L-UNet的分割性能與UNet相近,但是在參數(shù)量、計算量和運算速度上都明顯優(yōu)于U-Net。

表3 L-UNet及其他網(wǎng)絡(luò)在自建數(shù)據(jù)集上進行人體輪廓分割的性能對比
6.3.2 基于無監(jiān)督學(xué)習(xí)的人體輪廓配準實驗
本文采用Dice分數(shù)[22]來衡量配準后的PMMWI與VI的相似度作為配準性能的評價指標,其計算方式為
本實驗將式(2)中的正則化系數(shù)λ設(shè)置為0.25,并對6.3.1節(jié)使用的不同網(wǎng)絡(luò)進行性能對比。圖12展示了不同網(wǎng)絡(luò)的一組配準結(jié)果對比,可以發(fā)現(xiàn),F(xiàn)CN基本保持了分割的結(jié)果,配準效果最差;SegNet配準結(jié)果中人體輪廓變形嚴重。U-Net與L-UNet的性能相似,配準后的PMMWI分割圖像中人體輪廓與VI分割圖像基本一致的同時,保留了PMMWI中的有效信息,為隱匿物的高效檢測做好了鋪墊。
圖13展示了不同網(wǎng)絡(luò)輪廓配準性能的定量對比,其結(jié)果與圖12一致:L-UNet性能最好,U-Net次之。
6.3.3 面向人體安檢的隱匿物高性能檢測實驗
本文首先測試了式(2)中λ值的大小對于配準結(jié)果的影響。圖14展示了兩組數(shù)據(jù)中配準后的PMMWI隨λ值變化的情況。結(jié)果表明,隨著λ的增大,由于對位移場梯度懲罰項權(quán)重的增加,坐標變換更平滑,從而空洞區(qū)域形變程度變小,配準后的空洞區(qū)域面積變大。
為了定量表示,本文統(tǒng)計了隨著λ值增大時配準指標Dice分數(shù)與隱匿物尺寸的變化情況,如圖15所示??梢园l(fā)現(xiàn),結(jié)論與圖14一致:對位移場梯度的懲罰項增大,則空間變換程度減弱,從而使配準指標降低;同時,防止位移場變化過大,也能盡可能地保留原始圖像的有用信息,從而更有利于隱匿物的檢測。綜合考慮,本文選擇λ值為0.5時的模型作為實驗所用模型,以取得在配準效果與隱匿物尺寸之間的折中。
本文以精確率P、召回率R和 F1分數(shù)作為檢測性能的評價指標,其中 F1分數(shù)可以對檢測性能進行綜合考量。指標的計算方式如式(5)—式(7)所示,真正例(True Positives, TP)表示圖像中違禁物區(qū)域被算法正確檢測到;假正例(False Positives, FP)表示非違禁物區(qū)域被算法錯誤檢測為違禁物區(qū)域,即出現(xiàn)誤檢;假負例(False Negatives, FN)表示違禁物區(qū)域未被算法檢測到,即出現(xiàn)漏檢
表4展示了基于單幀圖像檢測以及基于連續(xù)幀序列圖像檢測的性能指標對比。在連續(xù)幀檢測實驗中,基于6.2節(jié)提出的策略,本文選定n為2~4進行了實驗??梢钥吹絥=2時的R值為100%,這是由于采用單幀檢測時召回率R已經(jīng)達到了90.8%,即FN較小,漏檢較少;當采用多幀檢測時,漏檢會進一步消除,很容易滿足FN = 0,即達到R= 100%。但是n較小也會使得圖像中噪聲點所產(chǎn)生的虛警無法通過多幀判斷去除,從而使性能下降,導(dǎo)致n=2時的P值卻小于單幀圖像檢測的值。同時,表4結(jié)果表明,連續(xù)幀檢測n=3時 F1分數(shù)最高,n=4時的 F1分數(shù)要低于單幀圖像檢測。這是由于人體在走動過程中,隱匿物位置也在不斷變化,從而使得前后幀圖像中的隱匿物區(qū)域出現(xiàn)差異,導(dǎo)致多幀疊加后檢測性能隨著n的增加逐漸下降。同時,測得連續(xù)幀檢測算法的運算速度為每秒可處理34 幀PMMWI/VI圖像對,即每幀對圖像平均處理時間為29 ms,小于成像時間40 ms,完全滿足人體安檢的實時性要求。

表4 單幀圖像隱匿物檢測與連續(xù)幀檢測性能對比(%)
圖16展示了2段各5幀視頻的檢測結(jié)果。第1段視頻中PMMWI與VI分別在第1, 3, 4, 5幀和第1,3幀出現(xiàn)誤檢。但通過配準后進行虛警濾除,可將第1, 3幀虛警目標濾除。因此若采用單幀檢測方案,則依然會在第4, 5幀出現(xiàn)虛警目標,干擾檢測性能。如若采用連續(xù)幀檢測并設(shè)置n ≥3,則會進一步將第4, 5幀的虛警目標濾除,達到更高的檢測性能。需要注意的是,在實際應(yīng)用中,連續(xù)幀檢測僅顯示最近一幀的檢測結(jié)果,圖16為方便展示均標注了檢測結(jié)果。第2段視頻中第2幀圖像出現(xiàn)漏檢,同時由于人體運動幅度稍大,造成隱匿物區(qū)域位置變化大,使得多幀檢測中當n ≥4時檢測不到目標,出現(xiàn)漏檢。因此,通過實驗結(jié)果及上述分析,本文選定n=3作為連續(xù)幀檢測過程中的參數(shù)設(shè)定值。
進一步,本文對比了基于L-UNet與基于UNet進行分割配準的檢測性能,如圖17所示??梢钥吹剑M管兩者在分割與配準上的性能相近,但在基于分割與配準相結(jié)合的隱匿物檢測上L-UNet性能更優(yōu)。這表明,采用更具優(yōu)勢的MobileNetV2作為編碼器,L-UNet提取特征更加高效;同時由于參數(shù)量變少,訓(xùn)練更加充分,因此處理細節(jié)能力更優(yōu),使得檢測性能更好。
此外,為了驗證本文所提算法性能的優(yōu)越性,本文與文獻[5]中基于YOLO v3的方法進行了單幀檢測的性能對比,如表5所示。結(jié)果表明,在所有實采圖像數(shù)據(jù)上,盡管由于YOLO v3本身檢測性能良好,F(xiàn)P = 0從而P= 100%,沒有出現(xiàn)誤檢,但其 F1指標遠低于本文所提方法。原因在于部分PMMWI中沒有違禁物目標,造成正負樣本不均衡,導(dǎo)致YOLO v3性能表現(xiàn)不佳,這需要進行額外的樣本均衡處理;PMMWI與VI成像機制的不同也是YOLO v3性能大幅下降的原因之一。同時,雖然YOLO v3在實采圖像中含隱匿物的圖像上性能稍高于本文所提方法,但由于缺少與VI的配準,不僅不能去除虛警,而且無法在VI中對違禁物位置進行標記,因此在實際應(yīng)用中仍具有一定的局限性。

表5 YOLO v3單幀圖像隱匿物檢測性能(%)
本文提出一種基于輕量級U-Net的人體安檢隱匿違禁物的高性能實時檢測算法?;贛obileNetV2架構(gòu),本文設(shè)計了L-UNet輕量級分割網(wǎng)絡(luò)實現(xiàn)了PMMWI/VI中人體輪廓的快速分割,在所構(gòu)建的數(shù)據(jù)集上,分割性能指標MIoU達到91.6%。進而,本文結(jié)合L-UNet工具,采用基于相似性測度的無監(jiān)督學(xué)習(xí)方法實現(xiàn)了PMMWI/VI中的人體輪廓配準,在所建數(shù)據(jù)集上Dice分數(shù)達到98.5%。在人體輪廓配準之后,通過區(qū)域?qū)Ρ葹V除虛警目標,得到單幀圖像的隱匿物檢測結(jié)果,F(xiàn)1分數(shù)達到84.3%。然后,對多幀序列圖像的檢測結(jié)果進行綜合評判與優(yōu)化決策,輸出最終檢測結(jié)果并標記于清晰的VI之中,多幀檢測性能F1分數(shù)達到92.3%。在后續(xù)工作中,將利用主動毫米波成像來獲取清晰的違禁物圖像進行分類識別,從而向安檢工作人員發(fā)出可靠的報警信號。