劉海軍,楊鴻海
(1.青海省地理空間和自然資源大數據中心,青海 西寧 810001;2.青海省地理空間信息技術和應用重點實驗室,青海 西寧 810001)
高分遙感影像包含海量地物要素信息,對其進行快速精準的檢測,能在智慧城市建設、智能交通、應急救災、軍事偵察等領域發揮重要價值,是長期以來的研究熱點。許多學者曾以傳統機器學習方法為出發點,通過梯度直方圖[1]、顏色直方圖[2]、SIFT[3]等人工歸納的特征實施檢測,但其對目標的表達能力嚴重依賴設計者經驗,且該類特征僅能表達影像中目標的淺層次信息,在實際應用中錯檢、漏檢率較高。隨著深度學習的興起,基于卷積神經網絡的目標檢測模型因能挖掘目標深層次語義特征而得到廣泛應用,如李妹燕[4]結合top-hat 形態學濾波算法與形變卷積神經網絡對紅外遙感影像中的多種目標進行檢測,取得了漏警率與虛警率均低于1.5%的結果;史超[5]基于兩階段的快速區域卷積神經網絡對遙感影像中的船舶目標進行檢測,在海洋衛星遙感數據集上取得了精度均值78.4%的結果;黃西堯[6]等通過高斯過程回歸和模板匹配對多幀圖像進行前景/背景分割與配準,并構建深度卷積神經網絡對低精度CCD影像中的地球同步軌道目標進行檢測,在測試集上檢測精度最高可達98%。受衛星拍攝高度、拍攝角度、地面光照變換和地物陰影等因素影響,高分遙感影像內的目標往往背景復雜多樣,且多以小尺寸目標的形式存在,因此常規方法難以精確檢測遙感影像內的地物目標。
鑒于此,本文提出了一種單階段的遙感影像地物檢測模型,首先以非對稱卷積核與小尺寸常規卷積核組成的AC模塊構建特征提取端,然后使用4層跨層特征強化端對提取特征進行上采樣,最終通過4 個不同感受野的特征圖實現多尺度目標檢測。本文采用暗通道先驗算法與顏色直方圖均衡算法對訓練集內的圖像進行增強處理,同時利用幾何變換、添加高斯噪聲等方法制作包含噪聲的樣本數據,以提高訓練后模型在不同場景下的魯棒性。
基于卷積神經網絡的深度學習模型主要包括基于候選區域的二階段法和基于目標回歸的單階段法[7],前者先通過前端網絡在整張圖像中生成候選區,再使用后端檢測網絡輸出目標的位置與類別檢測結果,雖具有較高精度,但其結構復雜、計算參數量大、檢測過程緩慢;后者將目標檢測問題視為回歸問題,通過整張自上而下的特征提取端從原始影像中提取不同感受野下的目標語義信息,再通過特征增強端對特征圖進行融合增強,最后利用多個尺寸的錨點框來實現檢測輸出。本文采用單階段目標檢測模型結構。
為確保模型能提取足夠豐富的特征信息參與訓練,且在測試階段不會因模型結構過于復雜而導致檢測速度過慢,本文借鑒了卷積核計算的可疊加性,在訓練和測試階段采用不同的等效卷積核來構建特征提取模塊,表達式為:
式中,M為輸入的特征圖;Cm、Cn為卷積核;Cm⊕Cn為二者的等效卷積核。
在訓練階段,特征提取層采用3×3 常規卷積核與非對稱卷積核的并聯結構進行特征提取,再將提取的特征圖進行通道合并以提高特征圖內語義信息的豐富程度(圖1a)。在檢測階段,為使模型采用參數一致的卷積核進行操作的同時盡可能減少計算量,對AC模塊中的并聯卷積核進行融合以獲取其等效卷積核,并利用該卷積核進行特征提取。卷積核的融合通過核矩陣的對應位置求和操作來實現,檢測階段的計算過程見圖1b。

圖1 AC結構訓練與測試過程示意圖
為增強特征提取后非線性特征的表達輸出能力,同時避免梯度消失問題[8],本文采用無邊界、非飽和、平滑的非線性函數Mish 作為輸出特征的激活函數,相較于Relu、Sigmoid 等硬邊界函數,Mish 函數能夠避免梯度飽和問題,且平滑的激活函數能讓模型得到更好的準確性和泛化能力。其表達式為:
式中,x為輸入特征值。
為加快模型的訓練收斂,防止模型出現過擬合以及因上層輸入特征分布不均而產生的協變量偏移[9],在特征提取層后采用批量再規范化層對特征提取后的輸入進行處理。為盡可能完整地保存原始圖像內的語義信息,模型采用固定卷積核兩倍下采樣的方式來壓縮圖像尺寸,完整結構見圖2。

圖2 特征提取—下采樣層示意圖
本文采用的損失函數由類別損失Lclass、置信度損失Lconf、邊界框損失Lbound組成,具體公式為:
式中,λclass、λbound、λconf為權重系數;Lclass為多分類交叉熵型損失函數,類別個數K為圖像網格數,c=3為目標類別個數,或1用以判斷第i個網格中第j個預測框是否負責檢測該類物體的閾值,pi、分別為該物體存在的預測概率與真實概率;Lbound為邊界框定位損失函數,xi、yi、wi、hi與、高高高、、高高高分別為預測框與真實框的中心點坐標、邊框長和寬;Lconf為置信度損失函數,Cij、分別為第i個網格下第j個預測的預測置信度和真實置信度。
為豐富特征圖的語義信息,實現精準的多尺度目標檢測,將特征增強端連接在特征提取端末尾,通過上采樣和特征圖拼接的方式獲取多個感受野的特征圖,具體結構見圖3,可以看出,特征增強端將提取端底層特征圖為基礎連續進行3 次的上采樣作為主干,為進一步增強上采樣所得特征圖內特征的豐富程度,不僅將提取端內同尺度特征圖與其進行拼接,而且對增強端內特征圖進行兩倍上采樣,對3 種不同來源的特征圖像進行拼接,將語義信息更豐富的特征圖送入檢測輸出層。

圖3 特征增強端結構示意圖
錨點框是單階段檢測模型實現多尺度目標檢測的必要參數,其寬高比與目標真實尺寸相近,能有效提高模型擬合速度與檢測精度。本文以訓練數據為基礎,采用K-means++聚類獲取錨點框。具體步驟為:①以全部訓練目標的真實尺寸框為樣本,隨機選取一個點作為首個聚類中心;②獲取其余樣本與聚類中心之間的最小距離D=1-IOU(box,centroid),計算其余樣本被選作聚類中心的概率值,其中IOU為目標框box與真實框centroid的交并比;③利用輪盤算法迭代m次,直到選擇出所有聚類中心(m+1);④計算其余非中心樣本與所有聚類中心的距離D,將每個樣本歸納到與其距離最近的中心類簇內;⑤為每個類簇重新選取一個聚類中心,重復直至所有中心固定。
結合特征增強端輸出特征圖個數與模型計算開銷,本文通過12個聚類中心對目標框進行聚類。聚類結果為(19,16)、(22,22)、(27,29)、(28,20)、(34,37)、(40,41)、(46,46)、(51,61)、(55,51)、(73,48)、(78,77)、(121,78)。本文將12 個錨點框平分給4 個尺度的輸出特征圖,其中特征增強端輸出的最下層特征圖尺寸最小但感受野最大,適合檢測大尺寸目標,因此將3 個尺寸最大的錨點框(73,48)、(78,77)、(121,78)縮小4 倍后用于該層;最上層特征圖感受野最小,適合檢測小尺寸目標,因此獲得3 個最小的錨點框(19,16)、(22,22)、(27,29),其余特征圖均按該標準分配合適的錨點框。
本文以RSOD 衛星遙感影像集內包含飛機、油罐、操場目標的影像作為數據集,將其進一步劃分為訓練集、驗證集和測試集。由于原始數據集內影像尺寸較大,無法直接放入模型進行訓練,因此本文采用608×608 窗口采集訓練集內的影像,再通過人工篩選將包含樣本的影像作為訓練集。受衛星拍攝高度、角度、時間等因素影響,原始衛星影像質量參差不齊,為提高訓練后模型檢測精度,本文采用暗通道先驗算法[10]和顏色直方圖均衡算法對訓練集進行圖像增強;同時為提高訓練后模型的魯棒性,通過幾何變換、高斯噪聲等方法制作了噪聲樣本放入訓練集內,部分增強圖像和噪聲樣本見圖4。處理后的訓練集、驗證集、測試集分別包含影像5 453 張、545 張和684 張,按照Pascal VOC個數對訓練集中的樣本進行標注,標注后的飛機樣本共4 587個,操場樣本共873個,油罐樣本共3 659個。

圖4 圖像增強處理對比圖
本文采用的硬件配置:CPU 為Intel i9 9900k,GPU 為Nvidia GTX 3080,內存為16 G,硬盤為1T-SSD,運行環境為Ubuntu16.04、Python3.7,深度學習框架構建為TensorFlow,運算加速為Cuda10.0。訓練過程中采用Adam 優化器實現模型參數的動態更新,并采用動態學習率調整機制每隔1 500 次迭代動態調整學習率一次,避免模型陷入局部極小值。初始學習率為0.000 35,每次調節的倍數為0.1 倍,單次輸入模型參與訓練的圖片數量為20 張,訓練總迭代次數為7 000 次。模型訓練迭代過程中的損失變化見圖5,可以看出,模型訓練損失在訓練初期快速收斂,而在后續訓練中始終保持穩定降低,最終收斂到50 以內,說明模型訓練參數設置較好,訓練擬合情況理想。

圖5 訓練擬合曲線示意圖
為全面準確地評價本文方法,以每一類目標的平均準確率(AP)、全部類目標的平均準確率均值(mAP)和每秒傳輸幀率(FPS)為評價指標,以SSD、R-FCN、Yolov4 深度學習算法為對照方法,對模型進行綜合評價。測試檢測速度時,測試集中的圖像尺寸統一為608×608,將全部測試集送入模型檢測后,按照處理單張圖像所需時間來計算最終的FPS。評價結果見表1,可以看出,模型能穩定檢出全部類別的目標,其中最高單類別檢測精度可達96.53%,對于小尺寸的飛機目標也能達到87.24%的檢測精度;模型的mAP達到了91.03%。由圖6可知,模型能較好地檢出不同角度、顏色背景下的多個尺度目標,說明本文方法有效提高了遙感影像中小目標物體的特征表達能力與豐富程度,使模型得到更充分的訓練,具備了更好的泛化能力;進一步說明了AC 模塊能更有效地提取影像中的特征信息,利用4 層特征增強結構也能更好地檢測小尺度目標,因此模型在檢測精度方面具備明顯優勢。模型的檢測速度在測試硬件環境下可達27 m·s-1,略低于SSD、Yolov4算法,其原因在于本文模型不僅在特征提取端的結構比SSD、Yolov4 模型更復雜,而且為了提高小尺寸目標的檢出精度,在特征增強端設置了4 層多尺度檢出輸出窗口,增加了推理過程的計算量,犧牲了一部分檢測速度,但整體上仍能達到實時檢測水平。

表1 各類目標AP 對比

圖6 部分檢測結果圖
針對高分遙感影像背景復雜以及現有方法對小目標檢測精度較低、魯棒性較差等問題,提出了一種單階段遙感影像地物檢測方法,以RSOD 數據集為基礎,對模型進行訓練和測試,并采用AP、mAP 和FPS等指標對模型進行評價。
1)模型對各類目標的檢測精度表現均衡,且mAP 達到91.03/%。實際檢測結果證明模型能很好地檢出不同背景復雜程度下多類別、多尺寸大小的目標,具備很好的穩定性和泛化能力。
2)模型的檢測速度在測試硬件環境下可達27 m·s-1,達到實時檢測水平。
綜上所述,模型能精準快速地檢測高分遙感影像內不同尺度的地物目標,能在智慧城市建設、城市監督管理、軍事偵察等多個領域發揮重要作用。在今后的研究中,將優化模型結構,擴充訓練集,提高模型對密集、遮擋等更復雜目標的檢測精度;同時采用輕量化手段對模型進行結構壓縮,使其能部署在更多環境下開展流暢推理。