陳韋學(xué) 朱 猛 劉志成 趙 旭 趙朝陽 尹 彤 王金橋
(1.天津津航技術(shù)物理研究所 天津 300308)
(2.中國科學(xué)院自動(dòng)化研究所 北京 100190)
(3.空軍裝備部駐北京地區(qū)軍事代表局 天津 300074)
目標(biāo)檢測(cè)是計(jì)算機(jī)視覺和遙感圖像分析的一項(xiàng)基本任務(wù),被大量應(yīng)用于民用和軍事領(lǐng)域,包括醫(yī)療診斷、自動(dòng)車輛導(dǎo)航、搜索和救援行動(dòng)等。傳統(tǒng)的目標(biāo)檢測(cè)算法依賴于從圖像中提取手工設(shè)計(jì)的特征作為算法的輸入,之后該算法執(zhí)行目標(biāo)的分類與精細(xì)定位。該類方法采用的手工特征對(duì)圖像的表達(dá)能力不足,泛化能力較弱。近年來,基于深度學(xué)習(xí)的方法以大量的訓(xùn)練數(shù)據(jù)為基礎(chǔ),端對(duì)端提取高階語義特征,從而充分表達(dá)目標(biāo),極大地提升了目標(biāo)檢測(cè)的精度。
在遙感領(lǐng)域,不同類型的傳感器(視覺、近紅外、短波、中波和長波紅外、紫外線等)技術(shù)在計(jì)算機(jī)視覺領(lǐng)域取得了重大進(jìn)展,為解決遙感目標(biāo)檢測(cè)任務(wù)創(chuàng)造了新的可能性。同時(shí),在某些場(chǎng)景下,環(huán)境信息的復(fù)雜性與語義信息的豐富性,使得很少有單一模態(tài)的數(shù)據(jù)能夠提供對(duì)檢測(cè)目標(biāo)的完整理解。若能夠建立不同模式數(shù)據(jù)之間的關(guān)系,在對(duì)象識(shí)別過程中涉及新模式的信息可以提高識(shí)別質(zhì)量[1]。
在遙感圖像的目標(biāo)檢測(cè)領(lǐng)域,目前以可見光與單波段紅外圖像的多模態(tài)融合為主,但可見光圖像在煙霧、黑暗條件下的成像效果差[2],具體表現(xiàn)為物體輪廓不清晰,特征信息丟失,使得檢測(cè)任務(wù)無法適應(yīng)不同的光照條件[3]。因此,為了充分研究其他波段信息的實(shí)用價(jià)值,本文摒棄了可見光波段的成像特性,并使用不同波段的紅外圖像,且提出了相對(duì)應(yīng)的圖像融合算法,本文的主要貢獻(xiàn)如下:
1)依托本實(shí)驗(yàn)室采集的豐富場(chǎng)景下的紅外多波段圖像數(shù)據(jù),本文將同一場(chǎng)景下的短、中、長波段的圖像數(shù)據(jù)進(jìn)行整合、標(biāo)注,構(gòu)建多波段目標(biāo)檢測(cè)數(shù)據(jù)集。
2)提出了基于YOLOv4 的網(wǎng)絡(luò)模型的像素級(jí)紅外圖像融合方法,來充分發(fā)揮神經(jīng)網(wǎng)絡(luò)共享計(jì)算的特性,從而實(shí)現(xiàn)目標(biāo)識(shí)別過程中對(duì)多源信息的利用,又保證較高的計(jì)算效率。
傳統(tǒng)模式的目標(biāo)檢測(cè)算法基本上是在特定的候選區(qū)域,使用特征提取方法進(jìn)行目標(biāo)的識(shí)別。常用的傳統(tǒng)特征提取方法有SIFT[4]、HOG[5]、Haar[6]等。在某些特定的任務(wù)中,這些方法能夠有效地表征圖像信息,但其在某些復(fù)雜場(chǎng)景難以做到精確描述,具有一定的局限性。
由于深度學(xué)習(xí)理論的快速發(fā)展,目標(biāo)檢測(cè)與識(shí)別技術(shù)在此基礎(chǔ)上也取得了很大進(jìn)步。目前基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法主要分為兩類。一類是通過生成候選區(qū)域進(jìn)行檢測(cè)的雙階段算法,主要包括R-CNN[7],F(xiàn)ast R-CNN[8],F(xiàn)aster R-CNN[9]系列。其中,F(xiàn)aster R-CNN 屬于R-CNN 和Fast R-CNN 的迭代版本,在網(wǎng)絡(luò)結(jié)構(gòu)上將特征抽取、候選區(qū)域提取、bounding box 的回歸以及類別預(yù)測(cè)匯總到了一個(gè)網(wǎng)絡(luò)中,使得其性能得到了較大提升。另一類目標(biāo)檢測(cè)方法是基于直接回歸進(jìn)行目標(biāo)檢測(cè)的單階段算法,以YOLO[10]、YOLOv2[11]、YOLOv3[12]、YOLOv4[13]和SSD[14]算法為代表,具有實(shí)時(shí)的圖像處理能力。
在遙感圖像領(lǐng)域,用于目標(biāo)檢測(cè)任務(wù)的高光譜圖像、合成孔徑雷達(dá)(SAR)圖像和紅外圖像等模態(tài)信息得到了廣泛應(yīng)用,每種模態(tài)都有其信息獨(dú)特性。若有效利用不同模態(tài)之間的信息互補(bǔ)性,則能夠給整體帶來某種類型的附加價(jià)值,使多種形態(tài)的數(shù)據(jù)融合成為了可能[15]。在文獻(xiàn)[16]中,作者使用RGB+T(熱通道)的方式進(jìn)行多模態(tài)數(shù)據(jù)融合,使用T 通道替換RGB 中的某一通道,生成TGB、RTB 和RGT三種模式的圖像,并對(duì)其進(jìn)行篩選以得到最優(yōu)解;在文獻(xiàn)[17~18]中,作者利用可見光與單波紅外遙感圖像,在YOLOv3 的架構(gòu)上,提出了針對(duì)這兩種模態(tài)的特征級(jí)融合與像素級(jí)融合兩種方式,并通過實(shí)驗(yàn)驗(yàn)證,其準(zhǔn)確率有了一定程度的提升;在文獻(xiàn)[19]中,作者利用YOLOv2 網(wǎng)絡(luò),研究了RGB 和深度模態(tài)數(shù)據(jù)的最優(yōu)融合點(diǎn),并成功應(yīng)用于行人檢測(cè)。
目前最先進(jìn)的多模態(tài)目標(biāo)檢測(cè)算法,大多選擇可見光(RGB)模態(tài)與其他模態(tài)的數(shù)據(jù)融合方式,從而拓展RGB 圖像的能力,并取得了不錯(cuò)的效果,但其在大霧、夜間等場(chǎng)景有很大的局限性。因此,本文拋棄了可見光波段的圖像數(shù)據(jù),只使用紅外模態(tài)的數(shù)據(jù),并利用不同紅外波段數(shù)據(jù)攜帶的差異性信息,結(jié)合YOLOv4 網(wǎng)絡(luò),引入一個(gè)卷積神經(jīng)網(wǎng)絡(luò)框架,實(shí)現(xiàn)了多波段紅外信息的像素級(jí)融合。為了驗(yàn)證算法的有效性,本文選擇了短、中、長波不同波長信息的組合方式,進(jìn)行大量對(duì)比實(shí)驗(yàn),本文的實(shí)驗(yàn)結(jié)果驗(yàn)證了與單波段相比,多波段數(shù)據(jù)融合算法能夠有效利用各個(gè)波段的差異性信息,具有較大的優(yōu)勢(shì)。
本次實(shí)驗(yàn)所構(gòu)建的數(shù)據(jù)集,為紅外遙感數(shù)據(jù)集,包括短、中、長三個(gè)波段不同波長紅外相機(jī)采集的數(shù)據(jù)。不同波段相機(jī)采集的原始圖像存在目標(biāo)位置信息不匹配的問題,本文使用基于慣導(dǎo)信息的矯正方法,對(duì)同一場(chǎng)景的數(shù)據(jù)進(jìn)行對(duì)齊操作,使目標(biāo)的位置精度得到了保證;同時(shí)采集圖像的空間分辨率非常大,不滿足常見硬件設(shè)備對(duì)網(wǎng)絡(luò)輸入大小的要求,本文對(duì)其進(jìn)行裁剪,最終構(gòu)建了多波段目標(biāo)檢測(cè)數(shù)據(jù)集。
數(shù)據(jù)集標(biāo)注目標(biāo)為車輛,其背景包括城區(qū)、道路、樹林和村莊等,背景信息較為復(fù)雜。現(xiàn)有數(shù)據(jù)集包括2203 張具備完整7 個(gè)譜段的分辨率為640×512的圖像。圖像采集的波段信息如表1所示。

表1 紅外圖像的波段信息
表1 對(duì)不同紅外波段的波長進(jìn)行了說明,從中能夠看出,數(shù)據(jù)集的數(shù)據(jù)包括短波波段、中波和長波波段數(shù)據(jù)。本文在中波的波長范圍內(nèi)挑選兩個(gè)子波段,長波的波長范圍內(nèi)挑選四個(gè)子波段,來構(gòu)建數(shù)據(jù)集。短波中的近紅外波段具有可視性,只用來進(jìn)行目標(biāo)的輔助標(biāo)注工作,模型的訓(xùn)練由短、中、長波數(shù)據(jù)完成。
多波段目標(biāo)檢測(cè)算法以YOLOv4 框架為基礎(chǔ),由于傳感器的輸出圖像為同一場(chǎng)景的不同波段的遙感數(shù)據(jù),本文首先根據(jù)先驗(yàn)知識(shí)來保證這幾個(gè)通道相互對(duì)齊,之后,根據(jù)實(shí)驗(yàn)所需要的波段需求進(jìn)行篩選,得到理想的譜段組合方式。由于需要實(shí)現(xiàn)多維度數(shù)據(jù)的輸入,本文將算法的第一個(gè)卷積層進(jìn)行了修改,使其能夠自適應(yīng)地滿足多個(gè)維度的圖像數(shù)據(jù)的輸入,并兼容任意譜段數(shù)據(jù)通道的數(shù)量,實(shí)現(xiàn)不同數(shù)量的譜段組合的實(shí)驗(yàn)方式。
對(duì)植物體的標(biāo)記方法有: ①“植物營養(yǎng)室”培養(yǎng)法。在密閉的植物營養(yǎng)室中,通入放射性氣體供植物進(jìn)行光合作用。②植物地上部引入法。將示蹤劑配制成濃度合適的溶液,通過涂抹、噴霧、注射等方法將示蹤劑從植物的地上部引入植物體內(nèi)。③植物根部引入法。即將示蹤劑加入栽培介質(zhì)如水、沙、土等,供給植物生長。
圖1 為多波段目標(biāo)檢測(cè)算法的方法框架圖。從圖中可以看出,該模型的輸入為多個(gè)波段的圖像組合,本文將其組合為多維度的數(shù)據(jù)模型,之后將其送入目標(biāo)檢測(cè)網(wǎng)絡(luò),得到最終的檢測(cè)結(jié)果。在圖像的預(yù)處理階段,本文需要將多個(gè)組合的圖像信息進(jìn)行融合,如式(1)、(2)所示:

圖1 多波段目標(biāo)檢測(cè)融合算法框架
其中,F(xiàn)為目標(biāo)檢測(cè)神經(jīng)網(wǎng)絡(luò),I…IN為不同波段的圖像數(shù)據(jù),concatinate 為拼合操作,此方法能夠使圖像保持原有的通道數(shù),并實(shí)現(xiàn)不同波段圖像的橫向拼接,以滿足圖像的輸入需求。在訓(xùn)練時(shí),訓(xùn)練數(shù)據(jù)為上述拼合操作產(chǎn)生的多波段圖像,圖像的標(biāo)注工作則在近紅外圖像上完成,并映射到短、中、長三個(gè)波段。
為了保證各個(gè)波段數(shù)據(jù)在數(shù)據(jù)擴(kuò)增后的空間一致性,本文設(shè)計(jì)了并聯(lián)分治的擴(kuò)增方式。本文沿用了YOLOv4 的Mixup[20]、Mosaic[21]等數(shù)據(jù)增強(qiáng)方式,并增加了隨機(jī)角度旋轉(zhuǎn)的數(shù)據(jù)擴(kuò)增方式。之后采用并聯(lián)分治的方法,使每個(gè)波段的信息使用一致的參數(shù)進(jìn)行數(shù)據(jù)增強(qiáng),從而確保不同紅外波段圖像的信息一致性。
在式(3)中,split 為組合圖像的拆分操作,在式(4)中,DAt代表第t個(gè)數(shù)據(jù)增強(qiáng)策略,本文對(duì)同一場(chǎng)景的不同波段數(shù)據(jù)使用相同參數(shù)進(jìn)行數(shù)據(jù)增強(qiáng),在式(5)中,concatinate 將多波段數(shù)據(jù)在深度方向上進(jìn)行疊加,為最終生成多維度的譜段圖像數(shù)據(jù),本文將此多維度圖像送入檢測(cè)模型。在多譜段目標(biāo)識(shí)別模型的訓(xùn)練階段,數(shù)據(jù)擴(kuò)增的每步都進(jìn)行上述公式中表示的并聯(lián)分治增強(qiáng)方式,以保持譜段數(shù)據(jù)對(duì)齊。
本文將圖像的三個(gè)輸出特征層分割為若干個(gè)搜索單元,并在其中單獨(dú)地進(jìn)行目標(biāo)搜索。對(duì)于每一個(gè)搜索單元,多波段目標(biāo)融合算法能夠預(yù)測(cè)出3個(gè)目標(biāo)框,每一個(gè)目標(biāo)框返回一個(gè)輸出的特征向量:
在式(6)中,與為預(yù)測(cè)目標(biāo)框相對(duì)于當(dāng)前搜索單元的中心坐標(biāo)系數(shù),tw與t?表示預(yù)測(cè)目標(biāo)框的高度與寬度系數(shù)。o來表達(dá)預(yù)測(cè)框的置信度得分,p1表示為此目標(biāo)為車輛目標(biāo)的概率。
接下來,本文要根據(jù)上述預(yù)測(cè)參數(shù)回歸計(jì)算預(yù)測(cè)邊界框的中心坐標(biāo)、寬度和高度。這時(shí)本文引入已經(jīng)設(shè)計(jì)好的anchor box 的信息,用ax和ay表示此搜索單元的寬度和高度(從圖像的左上角開始計(jì)算),用aw和a?表示此anthor box 的寬度和高度,最終,預(yù)測(cè)框的中心坐標(biāo)表示為x=σ(tx)+ax,y=σ(ty)+ay。其寬度為w=awexp(tw) ,高度為?=a?exp(t?)。
本文的實(shí)驗(yàn)是基于YOLOv4 目標(biāo)檢測(cè)框架進(jìn)行的,使用了本位構(gòu)建的多波段目標(biāo)檢測(cè)數(shù)據(jù)集。具體來說,本文按照5∶1 的比例將數(shù)據(jù)集進(jìn)行分割,1835組圖像用于訓(xùn)練,368組圖像用于測(cè)試。
在模型的訓(xùn)練階段,本文訓(xùn)練了300 個(gè)epochs,通過這一過程,本文對(duì)一系列的超參數(shù)進(jìn)行評(píng)估,以測(cè)試模型的性能。
為了測(cè)試單波段數(shù)據(jù)的表現(xiàn),本文首先使用紅外單波段圖像進(jìn)行訓(xùn)練,從表2 中可以看出,中波波段的性能最好,其中,中波1 波段的mAP 達(dá)到了0.6995,為表現(xiàn)最好的波段。對(duì)于長波的四個(gè)波段而言,長波4波段的表現(xiàn)最差,其他波段與中波1相比性能會(huì)降低4%~9%左右。短波紅外波段的準(zhǔn)確率、召回率和平均精度則低于其他波段,表現(xiàn)不佳。為了有效提高目標(biāo)檢測(cè)模型性能,本文使用多波段融合算法進(jìn)行訓(xùn)練,得到多波段模型。

表2 單紅外波段模型評(píng)測(cè)結(jié)果
本文使用多波段數(shù)據(jù)融合算法,構(gòu)建了相對(duì)應(yīng)波段的融合模型,本節(jié)將其與單波段數(shù)據(jù)的訓(xùn)練結(jié)果進(jìn)行對(duì)比,并將不同波段組合得到的mAP 繪制在了表3中,由于7個(gè)波段的波段組合很多,結(jié)果無法一一列舉,本文挑選了幾個(gè)波段并展示其實(shí)驗(yàn)結(jié)果。

表3 中波1、長波1、長波1波段交叉實(shí)驗(yàn)評(píng)測(cè)結(jié)果
表3 對(duì)波段融合數(shù)據(jù)的結(jié)果進(jìn)行定量分析。從表中可以看出,雙波段的準(zhǔn)確率、召回率和mAP都有5%~10%左右的提升,而三個(gè)波段數(shù)據(jù)的融合結(jié)果相較于雙波段其mAP 增長了4%,達(dá)到0.7858。另外,上表中也列出了全部七個(gè)波段的數(shù)據(jù)融合訓(xùn)練結(jié)果,其mAP 為0.7902,而三波段數(shù)據(jù)融合mAP分別為0.7858,性能提升為0.0044。可以看出,隨著加入波段的增加,其檢測(cè)性能在逐步提升,但是此實(shí)驗(yàn)結(jié)果表明,波段數(shù)量由三個(gè)增加到了七個(gè),其mAP 的提升幅度卻非常小,說明圖像包含的冗余信息也隨著數(shù)據(jù)量的增加而增加,正向信息的利用率有所降低,導(dǎo)致多波段數(shù)融合的性能提升緩慢。
本文使用不同波段組合的訓(xùn)練模型進(jìn)行目標(biāo)檢測(cè),并將兩張圖片的檢測(cè)結(jié)果繪制在圖2 和圖3中。為了準(zhǔn)確觀察目標(biāo)車輛的位置信息,圖(a)中的輸入圖像表示兩張待檢測(cè)圖像所對(duì)應(yīng)的近紅外波段示意圖(實(shí)際送入網(wǎng)絡(luò)的圖像為相應(yīng)短、中、長波的紅外圖像),可以觀察到,第一張圖片在右半部分存在四個(gè)車輛目標(biāo),第二張圖片在下半部分存在三個(gè)車輛目標(biāo)。

圖2 單波段模型目標(biāo)檢測(cè)結(jié)果

圖3 多波段模型目標(biāo)檢測(cè)結(jié)果
圖2 為單波段紅外圖像可視化檢測(cè)結(jié)果,中波1 波段的模型在第一張圖片存在一個(gè)車輛目標(biāo)的誤檢,在第二張圖片中表現(xiàn)良好。而長波1 波段在這兩張圖片的檢測(cè)結(jié)果不佳,檢測(cè)結(jié)果大部分為漏檢和誤檢信息;圖3 為上述兩張圖像的多波段模型檢測(cè)結(jié)果,從圖中可以看出,雙波段融合與三波段融合都能夠正確檢測(cè)出目標(biāo)的位置信息,不存在中波1 和長波1 波段的錯(cuò)誤檢測(cè)。檢測(cè)結(jié)果說明,相較于單波段模型,紅外多波段融合算法能夠提高目標(biāo)檢測(cè)的準(zhǔn)確率,并且算法有能力在保證一定準(zhǔn)確率的前提下處理人眼無法辨認(rèn)的各波段數(shù)據(jù)。
我們結(jié)合現(xiàn)有的多波段紅外數(shù)據(jù)集,提出了一種基于YOLOv4 框架的圖像數(shù)據(jù)融合的目標(biāo)檢測(cè)算法,此方法使用多波段圖像并聯(lián)輸入、單波段圖像統(tǒng)一增強(qiáng)的思想保證了紅外多波段數(shù)據(jù)增強(qiáng)的一致性。實(shí)驗(yàn)結(jié)果表明,其克服了光照條件的影響,mAP 提升了10%以上,有效提高了模型的檢測(cè)性能。若在此基礎(chǔ)上能夠定量地對(duì)每個(gè)波段的貢獻(xiàn)程度進(jìn)行分析,則能夠有效提高多源信息的利用率,使模型更加精煉。