















摘要:霧天是影響高速公路交通安全的重要因素。研究從監(jiān)控圖像進(jìn)行高速公路霧天能見度的自動識別方法可以為交通管理部門的智能管理和決策提供技術(shù)支持。根據(jù)大氣散射模型分析出與霧濃度相關(guān)的多個(gè)物理因素,提出了綜合這些物理因素的多通路融合識別網(wǎng)絡(luò)。該網(wǎng)絡(luò)使用三個(gè)通路聯(lián)合學(xué)習(xí)深度視覺特征、傳輸矩陣特征和場景深度特征,并設(shè)計(jì)注意力融合模塊來自適應(yīng)地融合這三類特征以進(jìn)行能見度等級識別。同時(shí)構(gòu)建了一個(gè)合成數(shù)據(jù)集和一個(gè)真實(shí)的高速公路場景數(shù)據(jù)集,用于網(wǎng)絡(luò)參數(shù)學(xué)習(xí)和性能評估。實(shí)景數(shù)據(jù)集中的圖像是從中國多條高速公路的監(jiān)控視頻中收集的。在這兩個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)表明,所提方法可以適應(yīng)不同的監(jiān)控拍攝場景,能夠比現(xiàn)有方法更準(zhǔn)確地識別能見度等級,有效提升了識別精度。
關(guān)鍵詞:能見度識別; 多通路網(wǎng)絡(luò); 大氣散射模型; 注意力融合
中圖分類號:TP751文獻(xiàn)標(biāo)志碼:A
文章編號:1001-3695(2022)08-043-2490-06
doi:10.19734/j.issn.1001-3695.2022.01.0010
Recognition of highway visibility level in foggy weather using multi-stream deep fusion network
Yan Hongyan1, Sun Yubao1, Zhang Zhendong2, Huang Liang2
(1.Jiangsu Collaborative Innovation Center on Atmospheric Environment amp; Equipment Technology, Jiangsu Key Laboratory of Big Data Analysis Technology (B-DAT Lab), Nanjing University of Information Science amp; Technology, Nanjing 210044, China; 2.Key Laboratory of China Meteorological Administration Transportation Meteorology, Jiangsu Meteorological Service Center, Jiangsu Provincial Meteorological Bureau, Nanjing 210008, China)
Abstract:Foggy weather is an important factor affecting highway traffic safety. Research on the automatic recognition method of highway fog visibility from surveillance images can provide technical support for the intelligent management and decision-making of the traffic management department. This paper analyzed multiple physical factors related to fog density based on the atmospheric scattering model and proposed a multi-channel fusion network that integrated these physical factors. Specifically, the method jointly exploited three streams to learn deep visual feature, transmission matrix feature and scene depth feature, and designed an attention fusion module to adaptively fuse these three streams for the final visibility level recognition, which was very beneficial for improving the recognition accuracy. Meanwhile, this paper constructed a synthetic dataset and a real-scene dataset for network parameters learning and performance evaluation. The images in the real-scene dataset were collected from surveillance videos of multiple highways in China. Experiments on these two datasets show that this method can identify visibility level more accurately than existing methods.
Key words:visibility level recognition; multi-stream network; atmospheric scattering model; attention fusion
0引言
霧是自然環(huán)境中常見的天氣現(xiàn)象,霧天條件下光線被空氣中的懸浮顆粒吸收和散射,導(dǎo)致能見度距離降低。這會對現(xiàn)實(shí)生活的諸多方面造成潛在的安全隱患,尤其是在公路運(yùn)輸中,能見度的降低會大大增加交通事故的發(fā)生率。據(jù)統(tǒng)計(jì),影響道路正常運(yùn)行的惡劣天氣中大霧為主要影響天氣,占比達(dá)69%。霧天時(shí),發(fā)生交通事故的概率會比晴天時(shí)高出幾十倍。黨中央高度重視交通安全問題,各級部門多次提出相關(guān)指導(dǎo)意見和規(guī)劃綱要。《國務(wù)院關(guān)于加強(qiáng)道路交通安全工作的意見》中也指出,要加強(qiáng)道路交通安全設(shè)施建設(shè),積極推進(jìn)高速公路災(zāi)害性天氣預(yù)報(bào)和預(yù)警系統(tǒng)建設(shè),提高對濃霧等惡劣天氣的防范應(yīng)對能力,因此迫切需要建立高速公路霧天能見度自動識別系統(tǒng),這樣高速公路管理部門能夠獲得準(zhǔn)確和即時(shí)的決策支持,進(jìn)而采取相應(yīng)的控制措施,對降低事故率具有很大幫助[1]。此外,由于能見度下降會導(dǎo)致自動駕駛輔助系統(tǒng)的失效,所以這些基于視覺的自動駕駛系統(tǒng)也需要能見度識別,從而可以及時(shí)調(diào)整操作或?qū)︸{駛員作出提醒[2]。
目前廣泛應(yīng)用的能見度識別方法主要包括人眼觀測和儀器測量。人眼觀測是一種主觀的估計(jì)方法,不僅耗費(fèi)人力而且存在較大誤差。儀器測量主要是通過放置在室外的能見度傳感器來測量能見度距離。雖然儀器測量提高了識別精度,但儀器部署成本高,識別范圍非常有限,難以實(shí)現(xiàn)大規(guī)模覆蓋。目前的高速公路通常都配備了良好的監(jiān)控系統(tǒng)。圖1顯示了大霧天氣下不同能見度范圍的高速公路監(jiān)控圖像。根據(jù)不同霧濃度下監(jiān)控圖像的差異性,可以利用計(jì)算機(jī)視覺和深度學(xué)習(xí)方法,建立一種成本低、靈活性高的自動識別模型。
為了提升識別算法的適應(yīng)性,本文著重研究僅使用單張高速公路霧天圖像的能見度等級識別方法。但由于監(jiān)控?cái)z像的視角和光照條件的不同,準(zhǔn)確識別不同場景下霧天圖像的能見度等級是一項(xiàng)具有挑戰(zhàn)性的任務(wù)。現(xiàn)有的研究大多集中在圖像去霧算法[3~6]上,然而它們是兩個(gè)不同的任務(wù)。圖像去霧是一種通過調(diào)整每個(gè)像素的值來提高圖像質(zhì)量的圖像增強(qiáng)任務(wù),能見度識別則是通過分析圖像的霧分布來推斷能見度水平。目前,與圖像去霧算法相比,從霧天圖像中識別能見度的工作較少,大致可以分為基于物理模型的方法和基于深度學(xué)習(xí)的方法兩類。基于物理模型的方法主要是基于大氣散射模型,它首先估計(jì)大氣散射模型中的場景深度參數(shù)和傳輸矩陣參數(shù),然后根據(jù)一些啟發(fā)式規(guī)則來估計(jì)能見度。雖然這種方法有較好的物理解釋性,但并不能很好地適應(yīng)高速公路的實(shí)際復(fù)雜場景。基于深度學(xué)習(xí)的方法主要利用卷積神經(jīng)網(wǎng)絡(luò)優(yōu)秀的學(xué)習(xí)能力,直接學(xué)習(xí)從霧天圖像到能見度水平的函數(shù)映射。但由于監(jiān)控?cái)z像機(jī)視角和光照條件等因素,視覺特征會有顯著差異,進(jìn)而影響識別的準(zhǔn)確性。
為了應(yīng)對上述問題,本文根據(jù)霧形成的物理模型,提出了高速公路霧天圖像能見度識別的多通路深度融合網(wǎng)絡(luò)模型,稱為MSVP-Net。該方法融合了傳輸矩陣特征、場景深度特征和視覺特征進(jìn)行等級識別。具體地,首先傳輸矩陣通路通過暗通道先驗(yàn)算法估計(jì)霧天圖像的傳輸矩陣,場景深度通路通過深度估計(jì)子網(wǎng)絡(luò)估計(jì)霧天圖像深度圖、視覺特征通路通過殘差子網(wǎng)絡(luò)提取圖像的深度視覺特征;然后設(shè)計(jì)了注意力融合模塊自適應(yīng)地融合這三個(gè)通路的特征;最后通過全連接層對融合的特征進(jìn)行最終的能見度等級分類。為了訓(xùn)練和評估所提出的網(wǎng)絡(luò),本文構(gòu)建了合成數(shù)據(jù)集和真實(shí)的高速公路場景數(shù)據(jù)集兩個(gè)數(shù)據(jù)集。合成數(shù)據(jù)集使用FRIDA1和FRIDA2中的無霧圖像及其深度圖來生成不同強(qiáng)度的有霧圖像,真實(shí)場景數(shù)據(jù)集是從我國的多個(gè)高速公路監(jiān)控系統(tǒng)中收集到的圖像,這些監(jiān)控圖像的能見度等級是由專業(yè)氣象人員進(jìn)行標(biāo)定。在這兩個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)表明,本文方法比現(xiàn)有方法更能準(zhǔn)確地識別高速公路能見度。主要貢獻(xiàn)如下:
a)提出了一種新的網(wǎng)絡(luò)模型,僅從單張霧天監(jiān)控圖像識別高速公路能見度等級。該方法可為高速公路交管部門提供低成本且高效的智能管控技術(shù)支持。
b)本文根據(jù)大氣散射模型提出了由深度視覺特征通路、傳輸矩陣通路和場景深度通路組成的多通路網(wǎng)絡(luò),并通過注意力融合模塊對三個(gè)通路進(jìn)行自適應(yīng)融合,進(jìn)而識別能見度等級,有效提升了識別精度。
c)本文構(gòu)建了一個(gè)合成數(shù)據(jù)集和一個(gè)真實(shí)場景的高速公路數(shù)據(jù)集進(jìn)行性能評估,在這兩個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果驗(yàn)證了該網(wǎng)絡(luò)的優(yōu)越性能。
1相關(guān)工作
首先闡述了霧天成像的大氣散射模型,然后對現(xiàn)有基于圖像的能見度識別工作進(jìn)行了綜述。這些現(xiàn)有工作大致可以分為基于物理模型的方法和基于深度學(xué)習(xí)的方法兩類。
1.1大氣散射模型
1999年,文獻(xiàn)[7]提出了大氣散射模型,定量建模霧天成像過程。此模型假設(shè)成像設(shè)備所接收到的光強(qiáng)來自兩個(gè)部分:a)由物體反射,經(jīng)由大氣粒子衰減最終到達(dá)成像設(shè)備的光強(qiáng);b)主要是由大氣介質(zhì)中的太陽光散射形成的大氣光強(qiáng)。其模型的具體形式可以表示為
I(x)=J(x)t(x)+A(x)(1-t(x))(1)
其中:x為圖像中像素的空間坐標(biāo);I(x)為拍攝到的霧天圖像;J(x)為對應(yīng)的無霧圖像;A(x)為大氣環(huán)境中的光強(qiáng),通常將它假設(shè)為一個(gè)常數(shù)變量;t(x)為傳輸矩陣,其物理含義是由目標(biāo)物體反射的光經(jīng)大氣粒子散射后能夠達(dá)到成像設(shè)備的能力。對于RGB圖像,一般認(rèn)為三色通道具有相同的傳輸矩陣。當(dāng)假設(shè)大氣光均勻時(shí),t(x)可以表示為
t(x)=e-βd(x)(2)
其中:β為大氣衰減系數(shù);d(x)為像素x的場景深度。
1.2基于物理模型的圖像能見度識別方法
許多傳統(tǒng)的圖像能見度識別方法[8~14]主要是基于傳統(tǒng)圖像處理或大氣散射模型。文獻(xiàn)[11]依據(jù)Koschmieder定律指出,光會受漂浮在空中的水粒子影響而發(fā)生擴(kuò)散。基于這一現(xiàn)象,Hautiere等人發(fā)現(xiàn)地平線上的灰度變化可以用來測量圖像中的霧濃度,進(jìn)而估計(jì)能見度距離。文獻(xiàn)[12]基于判別外部光源周圍是否存在后向散射的光暈來檢測是否有霧,并由此估計(jì)氣象能見度距離。文獻(xiàn)[13]中進(jìn)一步指出,由于水顆粒和其他散射介質(zhì)漂浮在空氣中,來自天空的光會擴(kuò)散并聚焦在道路區(qū)域,道路與天空之間的邊界會變得模糊,所以可以通過計(jì)算相對天空高度得到能見度距離。文獻(xiàn)[14]依據(jù)大氣散射模型構(gòu)造了一個(gè)可調(diào)的經(jīng)驗(yàn)函數(shù)來識別霧霾程度,并對多種戶外圖像進(jìn)行了統(tǒng)計(jì)分析,通過多元線性回歸估計(jì)了經(jīng)驗(yàn)函數(shù)中的超參數(shù)。然而,這種啟發(fā)式設(shè)計(jì)的經(jīng)驗(yàn)函數(shù)并不能很好地推廣到實(shí)際的高速公路場景中,因此影響了識別性能。
1.3基于深度學(xué)習(xí)的圖像能見度識別方法
近年來,卷積神經(jīng)網(wǎng)絡(luò)在圖像識別[15,16]、目標(biāo)檢測[17,18]等計(jì)算機(jī)視覺任務(wù)中都取得了巨大的成功,并被應(yīng)用于圖像去霧任務(wù)。然而,圖像能見度識別與圖像去霧是兩個(gè)不同的任務(wù),目前只有少數(shù)研究嘗試使用卷積神經(jīng)網(wǎng)絡(luò)來識別能見度水平。Zhang等人[5]提出了一種可用于檢測室外圖像霧霾濃度的端到端卷積神經(jīng)網(wǎng)絡(luò),具體而言,該方法使用了霧霾圖像和相同場景下的無霧圖像共同引導(dǎo)網(wǎng)絡(luò)訓(xùn)練,將兩張圖像中的結(jié)構(gòu)相似性(SSIM)分?jǐn)?shù)作為回歸目標(biāo),然而,在實(shí)際應(yīng)用中較難收集無霧和相應(yīng)有霧的圖像對。Gunawan等人[19]使用經(jīng)典的AlexNet從有霧圖像中檢測能見度信息。文獻(xiàn)[20]提出了一種估計(jì)和監(jiān)測城市空氣污染的方法,該方法利用暗通道先驗(yàn)[3]估計(jì)傳輸矩陣,利用深度卷積神經(jīng)網(wǎng)絡(luò)[21]估計(jì)深度圖,并設(shè)計(jì)預(yù)定義的轉(zhuǎn)換和池化函數(shù)的組合來識別霧霾水平,但是預(yù)定義的變換函數(shù)限制了深度網(wǎng)絡(luò)的表示能力,不利于提高識別精度。總結(jié)來說,從單張霧天圖像識別能見度水平是一個(gè)具有挑戰(zhàn)性的問題,如何更好地融合多種類型的特征是應(yīng)對這一挑戰(zhàn)的關(guān)鍵。
2多通路融合識別網(wǎng)絡(luò)
由大氣散射模型可知,傳輸矩陣與場景深度信息是估計(jì)霧濃度的兩個(gè)重要參數(shù)。同時(shí),學(xué)習(xí)視覺特征也有利于分析霧的分布。為此,本文提出了大氣散射模型啟發(fā)的多通路深度融合識別網(wǎng)絡(luò)。該網(wǎng)絡(luò)采用三條通路聯(lián)合學(xué)習(xí)輸入圖像的傳輸矩陣、場景深度和視覺特征,并通過注意力模塊自適應(yīng)融合三條通路特征進(jìn)行高速公路霧天圖像能見度等級識別。本章將首先介紹所提方法的總體結(jié)構(gòu),然后闡述注意力融合模塊設(shè)計(jì),最后介紹網(wǎng)絡(luò)參數(shù)的學(xué)習(xí)方法。
2.1網(wǎng)絡(luò)架構(gòu)
該網(wǎng)絡(luò)的總體架構(gòu)如圖2所示。首先對輸入的霧天場景圖像進(jìn)行三通路并行處理,分別得到估計(jì)的場景深度、傳輸矩陣和深度視覺特征。然后將三部分特征輸入到注意力融合模塊中進(jìn)行自適應(yīng)融合,由全連接層對融合特征進(jìn)行分類,從而識別出能見度等級。
2.1.1場景深度通路
該通路用于提取輸入圖像的場景深度特征。場景深度特征反映了場景中的物體與監(jiān)控?cái)z像機(jī)之間的距離,這是估計(jì)能見度水平的一個(gè)重要依據(jù)。本文選用FastDepth網(wǎng)絡(luò)[22]對輸入圖像進(jìn)行景深估計(jì)。FastDepth網(wǎng)絡(luò)采用編碼器—解碼器結(jié)構(gòu)進(jìn)行單目深度估計(jì),其顯著優(yōu)點(diǎn)是結(jié)構(gòu)簡單、模型輕量化,同時(shí)可以保持較高的精度。為了降低計(jì)算復(fù)雜度,網(wǎng)絡(luò)編碼器采用MobileNet模型,將編碼器中的標(biāo)準(zhǔn)卷積層分解為深度卷積和逐點(diǎn)卷積。解碼器執(zhí)行五次上采樣,中間三次上采樣的結(jié)果通過skip connections的方法分別與編碼器部分的特征進(jìn)行了特征融合,為了減小上采樣部分的通道特征,還使用了5×5的卷積來降維。最后使用1×1的卷積得到高分辨率深度圖。
2.1.2傳輸矩陣通路
此通路用于估計(jì)輸入霧天圖像的傳輸矩陣。根據(jù)式(2),傳輸矩陣是大氣消光系數(shù)與場景深度乘積的負(fù)指數(shù)函數(shù)。通過估計(jì)傳輸矩陣,可以推斷霧氣濃度。根據(jù)暗通道先驗(yàn)?zāi)P停?],使用下面的公式估計(jì)傳輸矩陣t~:
t~=1-ωminy∈Ω(x)(mincJc(x)Ac)(3)
其中:c為顏色通道;ω(0lt;ωlt;1)是一個(gè)常數(shù)參數(shù);Ω(x)是一個(gè)以x為中心的圖像塊;Jc(x)是通道c在x位置的像素值;Ac是估計(jì)的天空亮度。在本文實(shí)驗(yàn)中,ω設(shè)為0.95,圖像塊的數(shù)量設(shè)置為5。進(jìn)一步使用導(dǎo)向?yàn)V波對估計(jì)的傳輸矩陣t~進(jìn)行細(xì)化。
2.1.3深度視覺特征通路
該通路是由多個(gè)殘差塊組成的卷積網(wǎng)絡(luò),用于從輸入的圖像中學(xué)習(xí)深度視覺特征。殘差模塊由于其優(yōu)越的學(xué)習(xí)能力[16]被廣泛應(yīng)用于計(jì)算機(jī)視覺任務(wù)中。與文獻(xiàn)[16]類似,所使用的殘差塊為三層結(jié)構(gòu)。第一和第三都使用1×1卷積,分別用于壓縮特征、擴(kuò)大特征映射的通道維數(shù)。通過這種瓶頸設(shè)計(jì),第二層卷積層只需要處理低通道維度的特征。對于霧天能見度識別任務(wù),還需要提取多尺度特征來更好地學(xué)習(xí)霧分布。因此,本文網(wǎng)絡(luò)將殘差塊的第二層設(shè)計(jì)為三個(gè)并行的空洞卷積,其空洞率分別為1、3和5,從而能夠提供不同感受野范圍內(nèi)的多尺度特征。為了減低特征圖的空間分辨率,首先在三個(gè)殘差結(jié)構(gòu)之前進(jìn)行了步幅為2的3×3卷積和最大池化操作。同時(shí),將其中兩個(gè)殘差塊中的卷積步幅設(shè)置為2。該通路共執(zhí)行了四次×2降采樣。
2.2注意力融合模塊
本文設(shè)計(jì)了一個(gè)基于注意力機(jī)制的自適應(yīng)融合模塊,對三個(gè)通路輸出的場景深度d(x)、傳輸矩陣t(x)和深度視覺特征F進(jìn)行有效融合。多通路注意力融合模塊的整體結(jié)構(gòu)如圖3所示。考慮到場景深度和傳輸矩陣是與霧濃度相關(guān)的重要物理因素,因此首先通過concatenate操作將d(x)與t(x)進(jìn)行融合,并通過卷積模塊進(jìn)一步提取高層特征。該卷積模塊由兩個(gè)3×3卷積層、兩個(gè)最大池化層組成,步幅為2,保證卷積模塊的輸出和深度視覺特征F具有相同的空間分辨率。將卷積模塊處理后的特征與深度視覺特征F通過concatenate操作進(jìn)行融合,同時(shí)使用1×1卷積來減少融合后的特征通道數(shù),將其記為FS。
特征FS中每個(gè)通道和空間位置對能見度水平識別具有不同貢獻(xiàn)度。因此,本文通過注意力機(jī)制自適應(yīng)地關(guān)注空間和通道維度上的重要特征。注意力融合模塊配置為殘差空間注意和殘差通道注意的級聯(lián)結(jié)構(gòu),殘差注意力的優(yōu)點(diǎn)是能夠捕獲信息特征,同時(shí)減少信息損失和學(xué)習(xí)困難。
空間注意力通過分配不同的權(quán)重來突出對能見度識別任務(wù)重要的空間位置。殘差空間注意力的詳細(xì)計(jì)算可以表示為
Sa=σ(conv1(δ(conv3(Fs))))(4)
Fss=(1+Sa)conv3(Fs)(5)
其中:conv3為3×3卷積操作;conv1為1×1卷積操作;δ為ReLU激活函數(shù);σ為sigmoid激活函數(shù);為元素乘法。首先通過卷積操作得到維度大小為1×H×W的空間權(quán)重sa,然后依據(jù)式(5)計(jì)算得到空間注意加權(quán)特征Fss。
類似地,通道注意力主要通過分配不同的權(quán)重來突出重要的特征通道。首先,對空間注意力模塊得到的Fss進(jìn)行全局平均池化操作Hp,具體為
fc=Hp(Fs)=1H×W∑Hi=1∑Wj=1Fssc(i,j)(6)
其中:Fssc(i,j)為Fss在位置(i,j)上的第c通道的值;Hp操作將特征維度從C×H×W轉(zhuǎn)換為C×1×1,然后利用所得到的特征fc來估計(jì)通道注意權(quán)重Ca,并相應(yīng)地計(jì)算出通道注意加權(quán)特征Fscs。具體的計(jì)算公式可以表示為
Ca=σ(conv1(σ(conv1(conv3(fc)))))(7)
Fscs=(1+Ca)conv3(Fss)(8)
本文將上述conv3操作的步幅設(shè)置為2,以減小特征圖的空間維度大小。Fscs是殘差注意力處理后的最終融合特征,將其輸入到全連接層中進(jìn)行最終能見度等級分類。
2.3損失函數(shù)
該網(wǎng)絡(luò)包含多個(gè)需要優(yōu)化的參數(shù)塊,即場景深度通路、視覺特征通路、多通路注意力融合模塊和全連接層。為了降低學(xué)習(xí)難度,本文采用兩階段化的學(xué)習(xí)方法來更新網(wǎng)絡(luò)參數(shù)。在第一階段,只學(xué)習(xí)場景深度通路的參數(shù)Θd。在第二階段,固定了場景深度通路的參數(shù)Θd,重點(diǎn)學(xué)習(xí)剩余的部分,包括深度視覺特征流的參數(shù)Θv、注意融合模塊的Θa和全連接層的Θf。對于第二學(xué)習(xí)階段,損失函數(shù)采用交叉熵函數(shù),具體定義為
L(Θ)=-∑Ci=1yclog(F(Θ,xi)c)(9)
其中:Θ={Θv,Θa,Θf}為網(wǎng)絡(luò)中需要更新的參數(shù);xi為第i個(gè)訓(xùn)練樣本;F(Θ,·)為網(wǎng)絡(luò)整體的相關(guān)函數(shù)映射;F(Θ,xi)c表示xi分類為第c類的概率;yc表示二進(jìn)制變量,如果xi的類別與其真類別相同,則為1,否則為0;C是能見度級別的數(shù)量。完成網(wǎng)絡(luò)訓(xùn)練后,網(wǎng)絡(luò)可用來識別新測試樣本的能見度等級。
3實(shí)驗(yàn)部分
3.1數(shù)據(jù)集介紹
本文構(gòu)建了兩個(gè)數(shù)據(jù)集進(jìn)行網(wǎng)絡(luò)訓(xùn)練與實(shí)驗(yàn)評估,包括合成數(shù)據(jù)和真實(shí)場景數(shù)據(jù)集。
a)FRIDA數(shù)據(jù)集。該數(shù)據(jù)集由FRIDA1和FRIDA2數(shù)據(jù)集構(gòu)建。FIDA1和FRIDA2最初是為圖像去霧任務(wù)而設(shè)計(jì)的,F(xiàn)RIDA1包含18個(gè)城市道路場景的90張合成圖像[23],F(xiàn)RIDA2包含66個(gè)不同道路場景的330張合成圖像[24],每個(gè)合成場景都配有一張清晰圖像和一張相應(yīng)的場景深度圖。根據(jù)式(2),本文使用清晰的圖像和相應(yīng)的場景深度圖,通過改變β的值來生成多張有霧圖像,以模擬不同能見度等級下的圖像。圖4顯示了用不同的β值生成的一些樣本,β值越大,霧濃度越大。總共生成了756張霧圖像,并根據(jù)能見度將圖像分為無霧、輕霧、中霧和濃霧四個(gè)級別。
b)高速公路數(shù)據(jù)集。本文收集了1 200張真實(shí)的高速公路監(jiān)控圖像,這些圖像是2019—2020年間由中國多條高速公路上的大量監(jiān)控?cái)z像頭拍攝得到的。根據(jù)交通管理部門的應(yīng)用要求,專業(yè)的氣象學(xué)家根據(jù)能見度距離將能見度分為四個(gè)級別。表1給出了詳細(xì)的能見度級別標(biāo)準(zhǔn),等級越高,圖像就越清晰,能見度距離就越長。該高速公路數(shù)據(jù)集的真實(shí)能見度級別由專業(yè)氣象學(xué)家和交通管理人員共同確定。圖5顯示了來自這四個(gè)能見度級別的部分樣本圖像,每行為同一級別。這些高速公路監(jiān)控圖像的成像條件差異很大,例如相機(jī)高度和觀看方向、天氣條件和照明強(qiáng)度可能都不同。
3.2實(shí)驗(yàn)設(shè)置
在實(shí)驗(yàn)中所提出的網(wǎng)絡(luò)將分兩階段進(jìn)行訓(xùn)練。首先使用NYU Depth V2數(shù)據(jù)集[25]對場景深度通路進(jìn)行預(yù)訓(xùn)練;然后固定場景深度通路的參數(shù),更新其余參數(shù),其中傳輸矩陣通路沒有可學(xué)習(xí)的參數(shù)。本文使用PyTorch框架搭建網(wǎng)絡(luò),使用GPU 2080Ti訓(xùn)練網(wǎng)絡(luò),采用Adam方法[26]作為優(yōu)化器來更新網(wǎng)絡(luò)參數(shù)。優(yōu)化器中參數(shù)的詳細(xì)設(shè)置包括β1=0.9和β2=0.999 9。學(xué)習(xí)速率初始化為1×10-4,在每30個(gè)周期后下降到一半,batch-size的大小設(shè)置為16。
3.3對比實(shí)驗(yàn)
本文方法與現(xiàn)有基于深度學(xué)習(xí)的能見度識別方法在FRIDA數(shù)據(jù)集和高速公路數(shù)據(jù)集上進(jìn)行了對比實(shí)驗(yàn)。選取的對比方法包括AlexNet[27]、depthtrans[20](深度信息+暗通道先驗(yàn))和MSBDN[28]。AlexNet方法是僅通過AlexNet提取可視化特征,用于能見度等級識別[19]。depthtrans最初是為估計(jì)霧霾水平而設(shè)計(jì)的回歸模型[20]。為了使該模型適應(yīng)離散的能見度等級分類任務(wù),將其輸出層修改為全連接層,而骨干網(wǎng)絡(luò)保持不變,骨干網(wǎng)絡(luò)中深度圖和傳輸矩陣的變換函數(shù)選取為單位變換T(x)=x,并將這兩個(gè)特征連接起來進(jìn)行分類。此外本文還修改了一種基于深度學(xué)習(xí)的圖像去霧算法,通過保留主干網(wǎng)絡(luò)和添加全連接層來識別能見度級別。在實(shí)驗(yàn)中,選擇了一個(gè)最新的、高效的圖像去霧網(wǎng)絡(luò)MSBDN,使用其編碼器從霧天圖像中提取特征,然后利用提取的特征對能見度級別進(jìn)行識別,對比實(shí)驗(yàn)結(jié)果如表2所示,被加粗的為最好精度。
據(jù)表2的實(shí)驗(yàn)結(jié)果,depthtrans方法在兩個(gè)數(shù)據(jù)集上的性能都較差。主要原因是此方法只結(jié)合估計(jì)的場景深度和傳輸矩陣來識別能見度級別,這對傳輸矩陣和場景深度的估計(jì)精度有很高的要求。然而,在真實(shí)的場景中,很難準(zhǔn)確地估計(jì)這些參數(shù)。MSBDN的性能優(yōu)于AlexNet,這表明MSBDN的編碼器網(wǎng)絡(luò)相比于AlexNet可以學(xué)習(xí)到更多的信息性視覺特征。本文MSVP-Net在兩個(gè)數(shù)據(jù)集上都具有最好的識別精度,特別地,該方法在真實(shí)場景高速公路數(shù)據(jù)集上具有較大的性能優(yōu)勢。圖6展示了這些方法在高速公路數(shù)據(jù)集上識別結(jié)果的混淆矩陣。可以看出,本文方法更具有分類穩(wěn)定性。圖7展示了四組在高速公路數(shù)據(jù)集上的四種方法的識別結(jié)果和真實(shí)結(jié)果的對比樣本,盡管每個(gè)場景的監(jiān)測角度和光照條件存在差異,但本文方法對這四個(gè)樣本場景都作出正確的識別。圖8展示了本文方法在合成數(shù)據(jù)集和高速公路數(shù)據(jù)上的部分識別結(jié)果,可以看出該方法在大部分情況下都可以作出準(zhǔn)確的識別。圖中1~4行對應(yīng)高速公路數(shù)據(jù)集,第5行對應(yīng)合成數(shù)據(jù)集。
本文方法的優(yōu)越性主要源于兩個(gè)方面:a)所提出的多通路體系結(jié)構(gòu)能夠有效地集成視覺特征、傳輸矩陣和場景深度信息,以進(jìn)行能見度識別;b)設(shè)計(jì)的多通路注意力融合模塊可以自適應(yīng)地選擇對能見度識別重要的特征。下一節(jié)將通過消融實(shí)驗(yàn)來進(jìn)一步評估這兩個(gè)方面的有效性。
3.4消融實(shí)驗(yàn)
該網(wǎng)絡(luò)具有多通路體系結(jié)構(gòu)和自適應(yīng)注意力融合的特點(diǎn),在本節(jié)中,進(jìn)一步進(jìn)行了消融研究,以驗(yàn)證其是否能夠提高識別性能。首先為驗(yàn)證深度視覺通路中空洞卷積嵌入的有效性,構(gòu)建了引入空洞卷積的殘差網(wǎng)絡(luò)(deep visual feature-1)與普通殘差網(wǎng)絡(luò)(deep visual feature-2)兩種深度視覺通路結(jié)構(gòu)。將兩種結(jié)構(gòu)的深度視覺特征通路與場景深度通路、傳輸矩陣通路、普通連接操作和多通路注意力融合作為設(shè)置選項(xiàng),結(jié)合這些設(shè)置選項(xiàng)形成了五種簡化網(wǎng)絡(luò)模型(消融)。表3顯示了五種消融方法和所提方法的識別精度。消融方法1~4使用的深度視覺通路均為嵌入空洞卷積的結(jié)構(gòu)。消融方法1使用普通的連接操作來融合這三個(gè)流,消融方法2、3和4只使用其中某兩個(gè)通路進(jìn)行識別。通過比較所提MSVP-Net與消融方法2~4可以發(fā)現(xiàn),三種通路的組合具有最高的識別精度,通過比較所提MSVP-Net與消融方法1可以看出,自適應(yīng)注意力融合也可以顯著提高識別精度。消融方法5使用的深度視覺通路為普通殘差網(wǎng)絡(luò),其余設(shè)置與所提方法MSVP-Net相同,通過比較消融方法5與所提方法MSVP-Net可以看出,由于霧的分布具有空間不均勻性,空洞卷積通過擴(kuò)大感受野、提取多尺度特征能夠更有利于學(xué)習(xí)霧的分布,有助于能見度的識別。綜上,這些消融結(jié)果充分證明了深度視覺通路結(jié)構(gòu)、多通路組合與自適應(yīng)融合的有效性。
除此之外,本文給出了一些中間處理結(jié)果的可視化展示。圖9展示了由場景深度通路和傳輸矩陣通路估計(jì)的高速公路監(jiān)控圖像的深度特征圖和傳輸矩陣特征圖。場景深度圖中顏色較深的表示更大的場景深度(見電子版)。傳輸矩陣信息反映了在特定的空間位置上的傳輸速率,傳輸矩陣圖中較亮的顏色表示傳播率較高。由于霧的影響,可以看到高速公路的場景深度逐漸縮小,同時(shí)傳輸速率也降低了,這在公路的遠(yuǎn)端尤為明顯。這些結(jié)果也說明了利用場景深度和傳輸矩陣進(jìn)行能見度等級識別的合理性。
圖10可視化展示了多通路注意力融合模塊學(xué)習(xí)到的注意力圖,第一行是原高速公路監(jiān)控圖像,第二行為學(xué)習(xí)到的注意力圖并將其疊加于原始圖像,其中黃色顯示區(qū)域代表具有高權(quán)重的突出注意區(qū)域(見電子版)。從圖10中看到,本文網(wǎng)絡(luò)對于能見度識別的突出區(qū)域主要位于公路上,并沿著公路的延伸方向分布。對于能見度較低的場景,最突出的區(qū)域主要位于剛剛看不見消失在霧中的路段,對于能見度高的場景,在地平線上也會有突出的區(qū)域。從這些顯著區(qū)域的分布來看,網(wǎng)絡(luò)識別方式在某種程度上與人類觀察能見度的方式相似。
4結(jié)束語
本文提出了一種多通路深度融合網(wǎng)絡(luò),可以利用霧天情況下拍攝的監(jiān)控圖像識別高速公路能見度等級。該網(wǎng)絡(luò)多通路體系結(jié)構(gòu)的靈感來自于大氣散射模型。具體而言,此網(wǎng)絡(luò)首先聯(lián)合利用深度視覺特征通路、傳輸矩陣通路和場景深度通路進(jìn)行特征學(xué)習(xí);然后,設(shè)計(jì)了一個(gè)注意力融合模塊,自適應(yīng)地融合這三條通路得到的特征;最后,利用融合后的特征進(jìn)行最終的能見度等級識別。實(shí)驗(yàn)結(jié)果表明,該網(wǎng)絡(luò)在合成數(shù)據(jù)集與真實(shí)場景數(shù)據(jù)集上都具有良好的識別性能,充分驗(yàn)證了該方法的有效性和可行性。
參考文獻(xiàn):
[1]Hassaballah M, Kenk M A, Muhammad K, et al. Vehicle detection and tracking in adverse weather using a deep learning framework[J].IEEE Trans on Intelligent Transportation Systems,22(7):4230-4242.
[2]Hautière N, Aubert D, Dumont , et al. Experimental validation of dedicated methods to in-vehicle estimation of atmospheric visibility distance[J].IEEE Trans on Instrumentation and Measurement,2008,57(10):2218-2225.
[3]He Kaiming, Sun Jian, Tang Xiaoou. Single image haze removal using dark channel prior[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2011,33(12):2341-2353.
[4]Li Boyi, Peng Xiulian, Wang Zhangyang, et al. Aod-Net: all-in-one dehazing network[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2017:4780-4788.
[5]Zhang Jiahe, Min Xiongkuo, Zhu Yucheng, et al. HazdesNet: an end-to-end network for haze density prediction[J].IEEE Trans on Intelligent Transportation Systems,2022,23(4):3087-3102.
[6]彭莉婷,李波.基于優(yōu)化后透射率和半逆法的暗通道圖像去霧方法[J].計(jì)算機(jī)應(yīng)用研究,2019,36(11):3174-3178.(Peng Liting, Li Bo. Dark channel prior image dehazing method based on optimization transmission and semi-inverse algorithm[J].Application Research of Computers,2019,36(11):3174-3178.)
[7]Nayar S K, Narasimhan S G. Vision in bad weather[C]//Proc of the 7th IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,1999:820-827.
[8]Hautière N, Labayrade R, Aubert D. Real-time disparity contrast combination for onboard estimation of the visibility distance[J].IEEE Trans on Intelligent Transportation Systems,2006,7(2):201-212.
[9]Hautiere N, Tarel J P, Lavenant J, et al. Automatic fog detection and estimation of visibility distance through use of an onboard camera[J].Machine Vision and Applications,2006,17(1):8-20.
[10]Hautière N, Labayrade R, Aubert D. Estimation of the visibility distance by stereovision: a generic approach[J].IEICE Trans on Information and Systems,2006,89(7):2084-2091.
[11]Middleton W E K. Vision through the atmosphere[M]//Bartels J. Geophysik Ⅱ/Geophysics Ⅱ.Berlin:Springer,1957:254-287.
[12]Gallen R, Cord A, Hautière N, et al. Nighttime visibility analysis and estimation method in the presence of dense fog[J].IEEE Trans on Intelligent Transportation Systems,2014,16(1):310-320.
[13]Bronte S, Bergasa L M, Alcantarilla P F. Fog detection system based on computer vision techniques[C]//Proc of the 12th International IEEE Conference on Intelligent Transportation Systems.Piscataway,NJ:IEEE Press,2009:1-6.
[14]Mao J, Phommasak U, Watanabe S, et al. Detecting foggy images and estimating the haze degree factor[J].Journal of Computer Science amp; Systems Biology,2014,7(6):226-228.
[15]Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[EB/OL].(2014-09-04).https://arxiv.org/abs/1409.1556.
[16]He Kaiming, Zhang Xiangyu, Ren Shaoqing, et al. Deep residual learning for image recognition[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.2016:770-778.
[17]Redmon J, Divvala S, Girshick R, et al. You only look once: unified, real-time object detection[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2016:779-788.
[18]華夏,王新晴,馬昭燁,等.復(fù)雜大交通場景弱小目標(biāo)檢測技術(shù)[J].計(jì)算機(jī)應(yīng)用研究,2019,36(11):3486-3492.(Hua Xia, Wang Xinqing, Ma Zhaoye, et al. Detection of dim and small targets in complex large traffic scenes[J].Application Research of Compu-ters,2019,36(11):3486-3492.)
[19]Gunawan A A S, Prasetyo H, Werdiningsih I, et al. Inferring the level of visibility from hazy images[J].International Journal of Business Intelligence and Data Mining,2020,16(2):177-189.
[20]Li Yuncheng, Huang Jifei, Luo Jiebo. Using user generated online photos to estimate and monitor air pollution in major cities[C]//Proc of the 7th International Conference on Internet Multimedia Computing and Service.2015:1-5.
[21]Liu Fayao, Chunhua Shen, Guosheng Lin. Deep convolutional neural fields for depth estimation from a single image[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2015:5162-5170.
[22]Wofk D, Ma Fangchang, Yang T J, et al. FastDepth: fast monocular depth estimation on embedded systems[C]//Proc of International Conference on Robotics and Automation.Piscataway,NJ:IEEE Press,2019:6101-6108.
[23]Tarel J P, Hautière N, Cord A, et al. Improved visibility of road scene images under heterogeneous fog[C]//Proc of IEEE Intelligent Vehicles Symposium.Piscataway,NJ:IEEE Press,2010:478-485.
[24]Tarel J P, Hautiere N, Caraffa L, et al. Vision enhancement in homo-geneous and heterogeneous fog[J].IEEE Intelligent Transportation Systems Magazine,2012,4(2):6-20.
[25]Silberman N, Hoiem D, Kohli P, et al. Indoor segmentation and support inference from RGBD images[M]//Fitzgibbon A, Lazebnik S, Perona P, et al. Computer Vision.Berlin:Springer,2012:746-760.
[26]Kingma D P, Ba J. Adam: a method for stochastic optimization[EB/OL].(2017-01-30).https://arxiv.org/abs/1412.6980.
[27]Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks[C]//Proc of the 25th International Conference on Neural Information Processing Systems.2012:1097-1105.
[28]Dong Hang, Pan Jinshan, Xiang Lei, et al. Multi-scale boosted dehazing network with dense feature fusion[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:2154-2164.
收稿日期:2022-01-07;
修回日期:2022-03-01
基金項(xiàng)目:國家自然科學(xué)基金資助項(xiàng)目(U2001211);江蘇省氣象局重點(diǎn)基金資助項(xiàng)目(KZ202105)
作者簡介:閆宏艷(1997-),女,河北保定人,碩士研究生,主要研究方向?yàn)樯疃葘W(xué)習(xí)、能見度檢測;孫玉寶(1983-),男(通信作者),江蘇連云港人,教授,博士,主要研究方向?yàn)樯疃葘W(xué)習(xí)理論與方法、計(jì)算機(jī)視覺(sunyb@nuist.edu.cn);張振東(1988-),男,江蘇南通人,高級工程師,碩士,主要研究方向?yàn)榻煌▓鼍皥D像分析;黃亮(1981-),男,湖南常德人,高級工程師,副主任,主要研究方向?yàn)榻煌庀?