薛白, 王懿哲, 劉書含, 岳明宇, 王藝穎, 趙世湖
(自然資源部國土衛星遙感應用中心,北京 100048)
近年來,隨著高分辨率遙感影像的普及,在土地、環保和減災等領域的大范圍高分辨率土地覆被整體變化或特定要素變化的應用需求日益旺盛。傳統基于人工作業的方式分析遙感影像變化費時費力,自動實現時序影像變化檢測具有重要的科學研究和應用價值,遙感界對該領域的研究已經開展了數十年[1-3]。高分辨率影像隨著空間分辨率的提升,影像的精細細節和復雜紋理特征更加豐富,同時受到成像角度、配準及輻射處理等差異、傳感器差異等影響[4],急劇增加了自動變化檢測難度,不同地物光譜和紋理特征混淆性增加,可分性降低。傳統基于光譜特征閾值差分圖[5]、主成分分析[6]和典型相關分析[7]等方法應用于高分辨率遙感影像變化檢測時存在圖斑較破碎等問題?;诿嫦驅ο蠓治龅姆椒ú捎脤ο蠹y理等特征表達的方式可以有效提升檢測質量,例如李亮等[8]提出充分融合光譜特征和紋理特征的面向對象多特征融合的變化檢測方法,提高了變化檢測的精度,但該類方法往往先進行對象化分割,對象化分割結果對變化檢測效果影響顯著,且主要適用于均質性較好的地物變化場景。
隨著深度學習方法在計算機視覺領域的成功,具有更強影像語義特征提取能力的深度學習方法逐漸被引入到高分辨率遙感影像變化檢測研究中,其無需先對影像對象化,通過神經網絡直接提取多尺度特征實現像素級變化區域檢測。引入深度學習的變化檢測方法主要分為2類: 僅用深度學習做特征提取的方法和端到端直接提取變化的方法。前者首先通過深度信念網絡、自動編碼器和卷積神經網絡等深度學習技術提取像素或對象的深度特征,然后生成差分向量通過聚類或分類方法獲取變化[9]; 后者直接對輸入的時序影像提取特征獲取變化結果[10]。由于深層神經網絡具有很強的高層特征提取能力,這些方法取得了優于傳統方法的性能,但這些方法大多數是從單影像語義分割網絡中修改過來,缺乏對變化檢測問題的針對性設計,在較復雜場景應用中存在檢測完整度低、易誤檢漏檢等問題,與工程化生產應用需求尚存在一定差距。研究針對復雜多樣化的高分辨率遙感影像典型人類活動地表變化檢測應用,提出一種孿生注意力變化檢測深度學習方法。
同時,深度學習方法的精度和泛化性嚴重依賴樣本,雖然目前已有多個高分辨率遙感變化檢測數據集公開(表1),但大多針對建筑類變化[11-14],僅少量覆蓋多類型地表變化[15-16],并且數據量較小且同本研究的人類活動地表變化檢測業務應用類型不能匹配。針對典型人類活動地表變化檢測應用,需要構建面向人類活動變化檢測應用的高分辨率遙感變化檢測數據集。

表1 主要的開源高分辨率遙感變化檢測數據集
研究首先構建高分辨率遙感人類活動變化檢測數據集(high-resolution remote sensing human activity change detection dataset, HRHCD-1.0)。選擇GF-1,GF-2和ZY-3等國產主流高分辨率衛星影像處理生成2 m和0.8 m融合數據構建成組的影像對,采集建筑物、推填土、道路、溝渠和礦區等各類目標新增和減少的變化圖斑,按照512像素×512像素數據尺寸成對裁剪得到23 026組樣本。本數據集涉及變化類型多樣,變化場景有明確的業務應用定義,考慮到存在很多同真實變化類似的影像變化,選擇易混淆的非變化區域生成負例樣本,例如圖1(a)中的時相變化和圖1(b)中的亮度變化均是負例。同時,變化圖斑按土地利用場景采集,場景圖斑存在多類型混合或沒有明顯邊界的情況,例如圖1(c)和圖1(d)。這些因素使得本數據集成為一個很有挑戰性的變化檢測數據集。


(a) 時相變化負例(b) 亮度變化負例


(c) 多類型混合變化正例(d) 模糊邊界變化正例
孿生網絡已經被證明在變化檢測任務中有良好表現[17],研究采用雙分支孿生網絡進行特征提取,2期影像分別接入2個結構相同權重共享的卷積分支提取特征。直接使用全卷積孿生變化檢測網絡存在檢測完整度低、易誤檢漏檢等問題,這主要受限于網絡特征提取能力不足和空間與通道域上下文語義信息未有效利用。考慮到高分辨率遙感影像變化檢測具有更豐富的特征和語義信息提取與利用能力的要求,研究一方面引入具有注意力機制的骨干網絡提取特征,另一方面引入空間注意力和通道注意力機制模塊[18]對2個分支提取的孿生特征進行融合,獲取更好的空間與通道域語義信息,設計得到孿生注意力機制變化檢測網絡,簡稱Siam-Atte。網絡結構(圖2)的主要流程包括: ①孿生特征提取。分別以變化前時相(T1)和變化后時相(T2)影像為輸入,利用深度卷積神經網絡進行影像特征提取。研究采用具有分隔注意力機制的ResNeSt50網絡作為主干實現豐富的特征提取能力,為了有效聯合2個時相的特征構建具有可比性的同一特征空間,T1和T2的特征提取網絡選用同樣的結構并且參數共享。②特征融合。將2個分支提取的特征作為輸入,通過雙注意力模塊(spatial attention and channel attention, SACA)分別實現注意力特征提取,對特征進行拼接,再通過特征金字塔卷積分類實現變化檢測。

圖2 孿生注意力機制變化檢測網絡結構
網絡中對于變化與非變化區域復雜特征提取的優化主要是通過注意力機制模塊實現,包括空間注意力機制和通道注意力機制。首先分別從孿生特征轉換得到注意力特征,然后將2個注意力模塊的輸出特征進行聚合,以獲得更好的特征表示??臻g注意力特征的計算過程為: ①利用空間注意力矩陣對孿生特征空間上的任意2個像素之間的空間關系進行建模; ②在空間注意力矩陣和原始孿生特征之間進行矩陣乘法; ③對第二步得到的矩陣進行逐元素求和運算,得到最終的特征矩陣。通道注意力特征的計算過程為: ①計算通道維度上的通道注意力矩陣; ②在通道注意力矩陣和原始孿生特征之間進行矩陣乘法; ③將第二步得到的矩陣與原始特征逐元素求和。最終,將2個注意力模塊的輸出進行逐元素求和,并通過卷積聚合。
1.3.1 損失函數
變化目標呈現多樣化的尺度特征,且相對背景占比較小,考慮到現實中變化區域一般較少,存在顯著的變化與非變化區域樣本類別不平衡的問題,研究采用對樣本不均衡有效的平衡二分類交叉熵和Dice系數損失綜合的損失函數,損失函數L為兩者的加權和,公式為:
L=Lbce+λLdice,
(1)
(2)
(3)
式中:Lbce為平衡二分類交叉熵損失;Ldice為Dice系數損失;λ為權重系數,取值0.2;β=|Y-|/(|Y+|+|Y-|)和1-β=|Y+|/(|Y+|+|Y-|),|Y+|和|Y-|為樣本數據統計的變化和非變化像素數;Pr(yj)為像素j的sigmoid輸出;Y′和Y分別為預測和標簽中變化像素的個數。
1.3.2 數據增強
考慮到應用中變化影像對的前后期色彩、分辨率、亮度等差異性,研究采用了較多的增強處理方法以豐富數據提升模型的魯棒性,訓練中采用的動態增強方法包括: ①2期影像成對的90°,180°和270°旋轉, 0~40°的隨機旋轉, 0.8~1.25倍的隨機縮放,水平和垂直翻轉; ②2期影像獨立的隨機噪聲,高斯模糊,色彩擾動和對比度變化。
1.3.3 網絡訓練
為了提升模型訓練的效率,采用ResNeSt50網絡在ImageNet數據上的預訓練權重,設置輸入影像尺寸為512×512像素,采用2階段訓練方法。第一階段訓練時凍結ResNeSt50特征提取層權重設置批大小為16,迭代輪數為300,采用Adam優化器,初始學習率為2E-3,余弦衰減到1E-6。第二階段訓練時取消ResNeSt50權重凍結,凍結批歸一化層設置批大小為4,迭代輪數為200,采用Adam優化器,初始學習率為1E-4,分段衰減到1E-8,同時為避免訓練過擬合,采用早停策略。
對于人類活動變化檢測業務化應用,深度學習提取的結果存在圖斑空洞、小圖斑和邊界不平滑等問題,需要進行優化處理。對于存在空洞的圖斑通過形態學方法進行填洞處理; 對于業務應用不關注的小圖斑按像素閾值進行刪除處理; 針對邊界優化進行7個像素的形態學膨脹與腐蝕操作去除提取結果邊界的毛刺和尖銳凹槽,以獲取更加平滑的圖斑邊界。柵格結果圖形優化后,還需要將柵格結果矢量化以得到業務可直接應用的矢量成果。矢量化中采用抽稀平滑操作進一步解決矢量成果的鋸齒狀和節點多等問題,提升成果的美觀性。
研究分別對訓練和應用建立評價指標,評價在不同階段評估模型的性能。訓練評價指標采用像素級的平均交并比,應用階段采用圖斑級的召回率和正確率。平均交并比是語義分割領域常用的評價指標,其表達式為:
(4)
(5)
式中:IoU為交并比;mIoU為平均交并比;Pi為真實值像素數;Pj為預測值像素數;Pii為將真實值預測正確的像素數;l為第l類;k為類別數量,單類變化中僅考慮變化像素,k為1。
在應用階段為了更直觀地評估模型效果,采用圖斑級的召回率和正確率指標。首先對預測結果進行矢量化,同標注矢量進行逐圖斑對比,定義預測與標注圖斑交并比大于30%的圖斑為正確預測的正例圖斑,正確率P和召回率R分別為:
(6)
(7)
式中:TP為正確預測的正例;FP為錯誤預測的正例;FN為錯誤預測的錯例。
2.2.1 模型精度分析
研究采用相同的特征提取網絡ResNeSt50訓練非注意力機制的全卷積孿生網絡模型(Siam-Diff和Siam-Conc)與本文方法(Siam-Atte)進行訓練精度對比分析。Siam-Diff,Siam-Conc和Siam-Atte這3種網絡模型在同一測試數據集上的mIoU分別為0.357,0.324和0.443。Siam-Atte網絡具有顯著的精度優勢,mIoU比Siam-Diff網絡高0.086,相對提升24%。建筑群、推填土和道路3種典型場景下3種網絡的檢測結果如表2所示。從表2中可以看出: ①Siam-Diff和Siam-Conc結果存在邊界較差、局部漏檢和較多空洞等現象,Siam-Atte結果建筑群、道路等完整性較好,相對更準確; ②3種模型均存在少量的誤檢測,表現為檢測范圍過大或過小。

表2 不同網絡檢測結果對比
2.2.2 后處理提取圖斑效果分析
研究對模型檢測結果進行多種圖形學后處理以優化檢測結果。圖3展示了后處理優化效果,圖中淺灰色區域為原始檢測結果,紅線和藍線分別為標注圖斑和優化后的矢量圖斑。從圖3中可以看出,后處理方法對檢測結果實現了小圖斑去除、填洞和圖形學平滑,提升了圖斑完整度、精度和圖形美觀性,同時對于小圖斑誤提取有去偽作用。


(a) 邊緣平滑(b) 填洞
2.2.3 不同數據量訓練模型的應用測試
研究在不同訓練數據規模下訓練模型并分析模型的應用效果。為了獨立評估應用效果,選擇獨立的測試數據采用正確率和召回率對不同模型應用效果進行評價分析。訓練樣本量分別設置為5 000,10 000和20 000組,表3給出了不同數據集訓練模型的測試指標。結果表明模型應用的召回率和正確率隨著樣本量的增大而提升,20 000組樣本量模型精度最佳,小樣本量模型在應用中存在相對較多誤檢,樣本量對于模型應用的精度和泛化能力有顯著提升作用。

表3 不同訓練數據規模下模型應用效果
盡管數據集樣本量達到20 000組,但是測試中發現模型正確率仍然偏低,主要的誤檢類型包括時相差異、高大建筑物陰影、云霧干擾等,典型的誤檢圖斑如圖4所示。誤檢測主要由于實際應用場景中影像變化類型更加多樣,而模型的適配性和魯棒性還較低,需要針對應用結果設計相應的負例樣本進行優化訓練。


(a) 耕地時相變化(b) 陰影差異變化
1)本文面向高分辨率遙感數據場景下的典型人類活動變化檢測應用,一方面利用高分辨率遙感影像構建了一套面向人類活動變化檢測應用的0.8~2 m高分辨率遙感變化檢測數據集(HRHCD-1.0); 另一方面構建了用于2期影像變化檢測的孿生注意力機制變化檢測網絡,特別地引入空間注意力模塊和通道注意力模塊進行注意力特征提取和融合,實現具有更強上下文語義特征提取能力的變化檢測網絡。
2)本文模型相比全卷積孿生模型提取的變化結果更完整,有效緩解了后者存在的邊界較差、局部漏檢和較多空洞等問題; 后處理方法對檢測結果的小圖斑去除、填洞和圖形學平滑有良好效果,提升了圖斑完整度,減少了小型誤提圖斑; 在較復雜的變化場景應用中,小樣本量模型存在相對較多的誤檢,樣本量增加對于模型應用的精度和泛化能力有顯著提升作用。
3)然而,在復雜的人類活動變化檢測應用場景中,面臨著業務應用中變化場景復雜多樣判定難、變化區域邊界模糊、圖斑邊界業務規則化要求高等挑戰,本文變化檢測方法還存在正確率不高、邊界套合精度不足等問題。同時,業務化應用中對變化檢測算法的正確率和召回率均有較高的需求,進一步的研究工作主要考慮針對業務應用擴展樣本、研究更好的特征提取網絡、設計更具魯棒性的網絡和研究變化結果的誤檢圖斑去除方法等。