杜達寬, 孫劍峰, 丁源雪, 姜 鵬, 張海龍
(1.哈爾濱工業大學 光電子技術研究所可調諧(氣體)激光技術重點實驗室,黑龍江 哈爾濱 150001;2.復雜系統控制與智能協同技術重點實驗室,北京 100074)
激光成像雷達波束窄、方向性好,與二維成像傳感器相比,能夠獲得目標豐富的三維結構信息、位置信息及反射率信息。由于激光雷達可以獲取多維數據,快速準確檢測遠距離弱小目標,在軍用與民用領域都有著重要的應用。但受限于像元數與空間分辨率,常用的檢測算法對于激光成像雷達圖像檢測準確率低,且魯棒性較差。
目前,針對激光雷達數據的弱小目標檢測成為研究熱點。傳統目標檢測方法通常采用手工特征。文獻[1]使用基于DPM+SVM的多尺度檢測方法,在采集的激光雷達行人數據集上得到了61%的檢測準確率。文獻[2]使用輪廓相似性度量與尺寸相似性度量對仿真生成的點云場景圖投影降維后進行目標檢測,準確率達到90%。文獻[3]使用激光雷達對行車周圍的道路標記成像,并利用特征標記和模板匹配對道路標記進行分類,分類準確率達到90%。但手工特征提取到的特征魯棒性較差,當目標出現光照平移等變化時,提取到的特征會發生改變。
在弱小目標檢測中,利用深度學習的方法相對于傳統的目標檢測方法具有明顯的優勢[4-7]。相對于兩階段檢測算法,單階段檢測算法速度快但準確率低,尤其對于分辨率不高的弱小目標準確率更低,所以不適合對遠距離弱小目標進行檢測。文獻[8]將ModelNet數據集中的點云降維生成灰度圖,使用二維卷積進行處理,相對于體素的方法識別準確率從78.5%提升至85.8%。參考文獻[9]用激光雷達對附近車輛進行成像,并對得到的距離像使用卷積神經網絡進行分類識別,準確率達到了86.3%。
在經過圖像重構后[10],激光雷達會生成一一對應的強度像和距離像。這兩種數據可以融合為帶有強度信息的四維點云,相較于圖像可以更全面地描述物體的特征。PointNet網絡[11]開創了對原始點云直接處理的先河,但是該網絡只考慮了點云的全局特征,忽略了局部點之間的關系。DGCNN網絡[12-13]利用動態圖卷積的方式提取點云局部特征,占用內存小,魯棒性好。目前,主要采用三維點云檢測[14-15],需要在空間上搜索目標,計算復雜度高,同時標注困難。在二維圖像上初篩出候選框后,再對框內目標點云使用點云分類網絡進行二次檢測。這樣既避免直接在三維空間層面對目標進行搜索,降低了算法的復雜度;同時,在二次檢測時又利用了目標的三維坐標信息與強度信息,充分合理地使用多維度信息,從而提高整體網絡的檢測準確率。
強度像描述的是目標的幾何信息和紋理信息,距離像描述的是目標的三維坐標信息和結構信息,這些信息可以很好地表達目標特征,具有很強的互補性。本文針對重構后生成的強度像和距離像,提出一種融合兩種圖像信息的目標檢測網絡。該網絡首先通過融合注意力機制(Con?volutional Block Attention Module, CBAM)[16]與感受野模塊(Receptive Field Block, RFB)[17]的改進特征金字塔網絡(Field Pyramid Network, FPN)在強度像上對目標進行初篩,然后將基于強度像提議的候選框內的目標轉化為點云,最后利用點云分類網絡進行二次驗證。實驗表明,對于復雜背景下的道路車輛,該算法的準確率達到98.8%。
基于激光雷達的強度像與距離像信息融合目標檢測網絡模型如圖1所示。整個模型可分為兩個階段,由FPN,RFB,CBAM和DGCNN 4部分組成。Stage1階段,在FPN網絡最頂層的輸出(F4)插入CBAM模塊,同時對不同尺度的輸出插入RFB模塊,使其對小目標做初次檢測時更多地考慮背景與目標的關系,同時融合通道間的高級語義信息,從而提高目標初篩的準確率。Stage2階段,使用DGCNN網絡對篩選出的目標進一步驗證。

圖1 目標檢測網絡框架Fig.1 Framework of target detection network
特征提取網絡使用以ResNet50為骨干的FPN網絡,其結構如圖2所示,其中每一個Bot?tleneck代表一個殘差塊。FPN采用先自下而上,后自上而下的連接方式,使得深層信息與淺層信息相融合。整個網絡結構在多尺度下進行檢測,對于小目標優勢明顯。

圖2 FPN結構Fig.2 Structure of FPN
一張維度為(3,600,600)的輸入圖像,經過Mod_1后變為(256, 300, 300)維度的特征圖,之后每經過一個module,特征圖大小變為一半,通道深度變為兩倍,從Mod_4輸出后,特征圖的維度變為(2 048,38,38)。從Input到Mod_4完成了特征金字塔自下而上的部分。之后,從金字塔的最頂端開始進行上采樣,通過1×1的卷積核使得上采樣后每個尺度下特征圖的維度都與原始該尺度下維度相同。這兩個特征圖融合后同時包含網絡的淺層信息與深層信息,有利于后續的目標檢測。圖2中M1,M2,M3,M4分別為在4個尺度下融合后的特征圖,可以基于此在4個尺度下分別對目標進行預測。
CBAM可以使FPN在目標檢測任務下更加關注有效特征。相比于其他注意力模塊,CBAM采用通道注意力模塊與空間注意力模塊的串聯結構,有效地提高了CNN的特征提取能力,具有參數量少,可移植性好的優勢。該模塊通過聯系局部特征的通道與空間的關系,創建具有局部通道與空間響應的特征圖,從而使網絡更加專注于有用的目標特征。在本文網絡結構中,CBAM只插入到FPN的最頂層輸出,以突出特征之間的高級語義信息。CBAM網絡的具體實現過程如圖3所示,對于作為輸入的特征F,整個過程可以描述為:

圖3 CBAM結構Fig.3 Structure of CBAM
其中:?表示矩陣元素按位相乘的運算,F為輸入的特征,F′為經過通道注意力模塊后的特征,F′′為最終輸出的總特征,MC與MS分別為通道注意力模塊與空間注意力模塊。
RFB模塊受到人眼觀看物體的注意力的啟發,將感受野分為3個不同的等級,分別使用1×1,3×3,5×5三個卷積來模擬不同的感受野,同時通過空洞卷積的方式擴大感受野。空洞卷積是將一個固定尺寸的卷積核與圖像更大范圍內的像素進行卷積操作,具有擴大感受野的作用。相較于RFB模塊結構[16],RFB-s結構首先使用3×3的卷積核來代替原始5×5的卷積核,以增強小目標的檢測能力,其次使用1×3和3×1的卷積相結合的方式來代替3×3的卷積,以減少計算量。其結構如圖4所示。

圖4 RFB-s結構Fig.4 Structure of RFB-s
RFB插入到FPN可以擴大感受野,有效幫助特征圖聯系目標與背景間的關系,但插入時要考慮插入的數量與位置。越靠近淺層的特征圖經歷的降采樣次數越少,其感受野本身就會越小,RFB模塊的加入可以擴大感受野;靠近深層特征圖本身的感受野較大,加入RFB模塊后作用不僅沒有提升,反而會加大計算量。因此,RFB模塊應該插入在網絡深度較淺的F1層與F2層。
DGCNN點云分類網絡可以較好地利用點云的局部空間關系。其核心為EdgeConv模塊,該模塊可以描述特征點與其臨近點的空間關系。具體實現方法為:對第i個頂點使用k近鄰算法找到該頂點周圍的k個點,每個點命名為xj,j∈{1,2,...k},之后這k個點之間的邊緣關系組成點云第i個頂點的局部特征。此局部特征可以表示為:
其中:x′i是第xi點的點云局部特征,M是對第xi點與周圍的k個點之間的邊緣特征的總結,h?是xi與xj兩點之間的邊的特征,一般利用非線性激活函數組來表示。
本文將點云分類網絡應用到目標的二次檢測中,對于Stage1階段生成的候選框中的點云,為了使輸入到分類網絡的點云大小相同,本文采用隨機采樣法從每個目標點云中選取512個點作為DGCNN的輸入,輸入網絡中點云維度為512×4。取四維點云的原因在于相較于三維點云,四維點云可以同時包含目標的三維坐標信息與強度信息,不僅包含位置信息更能反映目標點云的反射率特征,從而提高分類的準確率。而且,四維點云與三維點云使用相同的網絡結構,不會增加模型的復雜度。在特征提取階段,將該點云生成兩個1 024維度的向量,之后將這兩個向量拼接成2 048維的向量,并通過此向量完成目標的分類。
DGCNN結構如圖5所示,其中特征提取模塊用來負責點云的特征提取,分類模塊負責對提取到的特征進行分類。
在Stage1,使用分類損失函數和邊框回歸損失函數進行訓練,其公式為:
其中:p,t分別為預測的類別與邊框,p*,t*分別為真實的類別與邊框;Lcls(p,p*)是分類的損失函數,采用交叉熵損失函數增加訓練穩定性;Lloc(t,t*)是邊框回歸損失函數,采用IoU損失函數可以使邊框更加準確。
在Stage2,采用交叉熵損失函數作為點云分類的損失函數,其公式為:
其中:p為預測類別,p*為真實類別。
實驗使用GM-APD激光雷達對遠距離車輛弱小目標采集數據并重構生成圖像,在GMAPD激光雷達遠距離小目標數據集上,驗證了本文提出網絡的檢測效果,并與其他網絡進行比較。
使用64×64面陣GM-APD激光成像雷達對室外道路上遠距離車輛目標進行成像。實驗采集激光雷達圖像的速度為14 frame/s。采集到的原始數據經過圖像重構后可以同時生成相同分辨率的強度像和距離像,如圖6所示。根據SPIE對于小目標的定義[18],小目標是指所占像素尺寸不超過9×9(即小于80個像素)的目標區域。數據集的統計細節如表1所示。在采集的1 600對強度像和距離像中,隨機挑選1 200張圖片用于訓練,400張用于測試,加入隨機噪聲,隨機裁剪,旋轉縮放等數據增強過程。實驗配置如表2所示。

表1 數據集細節Tab.1 Details of data set

表2 軟件和硬件環境Tab.2 Software and hardware environment

圖6 重構生成的強度像與距離像Fig.6 Reconstructed intensity image and range image
3.2.1 實驗參數設置
本文提出的目標檢測網絡的訓練采用兩階段端到端的訓練方式,如圖1的Stage1與Stage2所示。首先對改進的FPN網絡采用端到端的訓練方式,學習率設置為0.005,batchsize設置為4,優化器采用隨機梯度下降法(SGD),權重衰減(weight_decay)設為0.000 5。
DGCNN點云分類網絡的輸入為由強度像與距離像轉化成的四維點云,學習率設置為0.001,優化器采用Adam算法,權重衰減(weight_decay)設為0.000 1。
為了驗證本文目標檢測網絡的有效性,實驗分別在只使用強度信息與同時使用強度和距離信息的條件下進行。對于只使用強度信息的情況,網絡為在強度像上進行檢測,不包含后續的點云二次檢測,如圖1的Stage1所示。對于同時使用強度和距離信息的情況,網絡結構即為圖1的Stage1和Stage2。
3.2.2 強度像上不同方法的實驗對比
使用激光雷達數據集的強度像,將本文網絡與Faster RCNN,YOLO系列網絡和SSD網絡進行對比,實驗結果如表3所示。其中,Parms代表每個模型參數量的大小,AP50∶95代表從0.5開始,每隔0.05作為IoU的閾值計算一次AP,最終將所有結果取平均。AP50與AP75分別代表在IoU取得0.5與0.75時計算出的AP,FPS為該算法每秒鐘可以檢測的圖像張數。
分析 設D(x0,y0),當x0=0時,已證明.下面證明x0≠0的情況,設切點Q(x3,y3),P(x4,y4),此時y0y3y4≠0.如圖2,直線DQ的斜率一定存在,則直線DQ:y3y=p(x+x3),
由表3可以看出,所有網絡的檢測速度均大于14 frame/s,可以滿足實際場景的實時性需要,且相比已有網絡,本文網絡在3個AP指標下均獲得最佳精度。將本文網絡與目前先進的YO?LOv5網絡和SSD網絡等可視化后進行比較,進一步突出這些檢測結果的具體差異。可視化結果如圖7所示。

表3 不同網絡在激光雷達強度像數據集上的準確率Tab.3 Precision of different detection networks on lidar intensity image data set
從圖7可以看到,在場景一(第一行)中,相比于SSD網絡和YOLOv5網絡檢測中目標輪廓不完整、遠距離目標弱回波的漏檢情況,本文提出的網絡可以準確地檢測此類目標。在場景二(第二行)中,SSD網絡檢測將道路誤檢為車輛,而本文提出的網絡可以準確地分類目標和車道。在場景三(第三行)中,相比較于YOLOv5網絡,本文提出的網絡對于強反射的光斑有較好的魯棒性,YOLOv5將光斑的一部分錯檢為車輛,而本文網絡并沒有發生錯檢。綜上所述,本文網絡的初篩階段使用CBAM與RFB,在多尺度特征圖中可以同時考慮目標本身與周圍的背景信息,面對復雜環境,相對于SSD與YOLOv5網絡表現出更好的魯棒性。

圖7 激光雷達數據集上檢測結果對比Fig.7 Comparison of detection results on lidar data set
3.2.3 結合強度像與距離像的不同方法實驗對比
為了使其余網絡也能夠利用目標的強度信息與距離信息,比較網絡也同時加入目標強度信息與距離信息。分別將強度像與距離像輸入到圖像不同通道,在輸入三通道圖像的第一層與第三層輸入強度像,第二層輸入距離像。實驗結果如表4所示。

表4 結合強度與距離信息后不同檢測網絡的準確性Tab.4 Precision of different detection networks based on intensity and range information
由表4可以看出,所有網絡的檢測速度均大于14 frame/s,可以滿足實際場景的實時性需要。相較于其他網絡,本文提出的結合強度像與距離像的網絡精度最佳。與表3相比,若強度像與距離像的信息只是輸入到圖像的不同通道,檢測準確率不會有很大提升,目標的距離信息并沒有被很好地利用。而本文模型先在強度像上對車輛小目標進行檢測,再對檢測出的候選框內的目標通過點云進行二次檢測,可以將原本錯檢的與目標相似的背景從結果中剔除,從而提高檢測準確率。一些場景二次檢測前后的可視化結果如圖8所示。
由圖8可以看出,對于只基于強度像的目標檢測網絡表現不佳的場景,基于點云的二次檢測結果有較好的提升。其中,對于目標在強度像下回波較弱從而基于強度像生成兩個檢測框的情況(如圖8的左上角所示),可以利用點云將這兩個檢測框內的目標進行判斷,從而保留準確率較高的檢測框。對于基于強度像的檢測網絡中將強反射的光斑局部認為是車輛的情況(如圖8左下角所示),通過點云的二次檢測可以剔除,原因在于這些光斑的局部在強度像上與一些目標車輛有一定程度的相似性,但是在距離像上具有較為明顯的差別。利用強度像初篩與點云二次檢測組合的網絡結構形式,對車輛結構不完整,弱回波目標,強反射光斑干擾等復雜場景具有更強的魯棒性。

圖8 二次檢測前后的結果對比Fig.8 Comparison of results with or without secondary detection
總的來說,相比較于YOLO系列網絡與SSD網絡,本文網絡的檢測準確率高,且在復雜場景下不容易發生錯檢。由于本文使用激光雷達圖像的采集速度為14 frame/s,對于算法的實時性要求不高,所以權衡精度與速度,本文網絡在實際應用場景中的檢測性能更優。
為了驗證FPN中RFB與CBAM的有效性,在激光雷達目標強度像數據集上進行了消融實驗。共設計7組實驗,第一組為不加入任何模塊的FPN網絡,作為對照組。Im_FPN 1-6分別為在FPN網絡的不同Mod輸出特征圖中添加感受野RFB模塊和注意力CBAM模塊。這里認為Mod_1與Mod_2輸出的是較為淺層的特征圖,Mod_3與Mod_4輸出的是較為深層的特征圖。在不同模塊的輸出上分別插入RFB模塊與CBAM模塊來比較目標檢測結果。實驗結果如表5所示,其中√代表該Mod插入了RFB模塊或者使用了CBAM模塊。
由表5可以看出,在淺層的特征圖中加入RFB模型的效果優于在深層特征圖中加入RFB。因為淺層特征圖尺度較大,每個特征點的感受野有限,加入RFB模塊后可以有效地擴大感受野,而深層的特征圖經過多次卷積與下采樣后,每個特征點的感受野已經較大,足以包含目標與背景,所以加入RFB模塊后準確率提升有限。同時,比較了在4個尺度的特征圖都加入RFB模塊的情況,發現效果并沒有進一步提升。原因在于4個尺度都加入RFB模塊導致網絡參數增多,收斂困難,檢測準確率下降。在最頂層加入CBAM的檢測準確率均獲得了一定程度的提升。AP在這3種方案下分別提升了0.4%,0.9%,0.1%,驗證了CBAM的有效性。

表5 消融實驗時不同方法的準確率Tab.5 Precision of different methods in ablation experiment
3.3.2 三維點云和四維點云對檢測準確率的影響
為了驗證四維點云分類的有效性,對Stage1階段在強度像上生成的候選框分別使用三維點云(x,y,z)與四維點云(x,y,z,i)作為DGCNN網絡的輸入進行二次檢測,實驗結果如表6所示。其中,Parms代表DGCNN模型的參數量,Epochs代表該模型開始訓練到收斂所需要的迭代次數。
由表6可知,三維點云和四維點云分別輸入網絡時,模型的參數量并沒有較大變化,四維點云輸入模型從開始訓練到收斂所需要的迭代次數約為三維點云的1/3。四維點云同時包含了目標點的三維坐標信息與強度信息,豐富了點云特征,能夠更好地區分目標與背景,最終目標檢測網絡的準確率相較于三維點云提高了2.4%。因此,使用四維點云作為輸入具有更好的檢測性能。

表6 三維點云和四維點云的檢測準確率對比Tab.6 Comparison of detection accuracy of 3D point clouds and 4D point clouds
本文提出了一種基于GM-APD激光雷達數據融合的小目標檢測算法。該算法分為強度像初篩與點云二次檢測兩部分。在對于強度像初篩的FPN結構中,將CBAM,RFB引入目標檢測網絡,可以關注到目標與背景間的關系。在二次檢測的DGCNN上,將候選框內的目標轉化為點云進行分類。在所采集到的GM-APD激光成像雷達遠距離車輛小目標數據集上驗證了本文網絡的有效性。實驗結果表明,該網絡可以有效解決車輛結構不完整,遠距離車輛回波弱,背景中出現強反射光斑等復雜場景中檢測率低下的問題,在激光成像雷達遠距離小目標數據集的檢測準確率達到98.8%,與現有網絡相比精度更高。