傅繪錦
(1.武漢大學 遙感信息工程學院,湖北 武漢 430079)
利用遙感影像動態掌握國土資源變化,可為國家提供地理國情信息決策支撐。傳統人工變化檢測對高分辨率衛星遙感圖像的特征刻畫能力較差,且工作量巨大,而基于深度學習的解譯方法可自動分析變化信息,但如何提升檢測效率和準確性仍是業界重要討論的主題。變化檢測主要分為兩步,即先進行圖像內的目標提取,再計算圖像間的信息差,因此高效正確的目標提取對后續信息差計算影響很大。
在深度學習普及前,傳統方法根據像素閾值、顏色等信息進行目標提取,如袁敏[1]等利用最大流、最小割函數進行圖像分割,但無法消除遙感影像中“同物異譜、同譜異物”的影響;肖明虹[2]等提出的超像素協同分割變化檢測方法有效克服了椒鹽噪聲,但忽略了像素塊之間的關系,檢測效果不理想。隨著深度學習的快速發展,變化檢測方法得到了相關算法的支持與改進,如LYU H[3]等利用卷積神經網絡提取遙感影像抽象特征,但只重點關注了高維語義信息,重要邊界細節易丟失;GONG M[4]等利用分類圖獲取訓練樣本,通過深度學習訓練得到變化檢測圖,但特征提取較少,預分類結果缺少空間結構信息。業界提出利用語義分割提取目標的方法,語義分割網絡形成兩大流派:①以SVM、UNet為代表的下采樣后復原方法,如孫紅巖[5]提出的SVM與多特征融合的方法,該方法受噪聲影響較大,在特征圖分辨率縮小的過程中仍有空間信息流失;②以DeepLab為代表的保持特征高分辨率的方法,如趙祥[6]等提出的改進的DeepLab3+孿生網絡,計算繁雜、效率不高。相較于傳統目視方法,深度學習降低了檢測成本,但目前只有少數研究關注到保持高空間語義信息對模型性能的影響,為了做出改進,SUN K[7]等在研究人類姿勢時提出了一種并行結構網絡HRNet,不同于傳統語義分割網絡,其通?;趶母叩降偷木幋a器提取特征圖,使特征提取同時擁有高分辨率和高語義,能保留重要的形狀和邊界細節。受上述研究啟發,本文以CHEN H[8]等提出的BIT-CD框架為基礎,設計了一種基于HRNet方法的H-BIT遙感影像變化檢測方法,通過HRNet融合高分辨率和高語義信息,Transformer整合特征向量與語義特征輸出強化特征,最后生成二值變化結果;并在LEVIR-CD數據集上進行了對比實驗,驗證了本文方法的有效性和魯棒性,還通過消融實驗獲取了最佳模型。
H-BIT變化檢測網絡結構如圖1所示,由HRNet-V2特征提取主網絡、雙時態圖像自注意力變換網絡Transformer和差異計算預測Predction Head三個模塊組成。

圖1 H-BIT變化檢測網絡結構
1.1.1 HRNet-V2特征提取主網絡
受HRNet[7]啟發,本文采用多分辨率并行的HRNet-V2網絡,對不同分辨率的特征圖進行提取后再跨分辨率融合,從而解決傳統串聯網絡提取語義高維信息時高分辨率空間信息被壓縮、對小尺度目標特征提取能力有限的問題,保證在高分辨率特征圖下較精確完整的空間位置信息,對位置敏感的語義分割任務友好。
如圖2所示,HRNet-V2網絡對圖像特征進行并行提取,特征單元塊通過下采樣使語義聚合、上采樣恢復高分辨率,再通過層間融合得到一代特征圖X i,即可在提取高維語義信息的同時,保留高分辨率特征。

圖2 HRNet-V2特征提取主網絡結構
1.1.2 雙時態圖像自注意力變換網絡Transformer
Transformer主要包括詞元分析器、編碼器和解碼器,用于處理一代特征圖。如圖3所示,詞元分析器可將HRNet-V2輸出的一代特征圖轉換為詞元,類似自然語言處理,將語句切分后用詞元去表達,CHEN H[8]等設計了孿生形的詞元集,將X1、X2兩幅特征圖送入同一個詞元分析器網絡分別進行卷積操作,將提取的特征圖也分為A1、A2兩套子圖,并分別映射為T1、T2兩套詞元集。為了匯聚空間層面上的信息,本文利用Woo S[9]等提出的Convolutional Block Attention Module中的空間注意力模塊來壓縮通道,得到語義豐富的緊湊詞元。

圖3 詞元分析器結構
編碼器與Dosovitskiy A[10]等提出的ViT相似,但本文模塊更小,注意力模塊只堆疊了4次。如圖4所示,將Transformer輸出的兩套詞元集T1、T2串聯成為一個詞元集后進行編碼、范數計算,得到Query、Key和Value。多頭自我注意力機制模塊并行處理,串聯后計算范數,送入多層感知機模塊。多頭自我注意力機制利用不同位置的多種子圖信息表達,擁有異源信息共同作用的優勢。多層感知機模塊則通過GELU激活函數[11]連接兩個線性轉換層構成,最終將輸出的詞元集切片還原為富含高級語義信息的詞元集
解碼器采用孿生網絡形式,結合詞元信息對原始特征進行改進。為了將編碼器得到的富語義詞元集重投影到像素空間,解碼器利用原始影像特征向量X1、X2每個像素與富語義詞元集之間的關系,得到優化后的特征向量如圖4所示,解碼器由多頭交叉注意力模塊和多層感知機模塊組成,不同于Siamese解碼器[12],利用多頭交叉注意力模塊代替原始多頭自我注意力模塊,可有效避免像素間富連接造成的不良影響,此時Query、Key和Value分別來自不同的輸入序列,即Query來自一代特征圖,Key和Value來自富語義詞元集。

圖4 編碼器與解碼器結構
1.1.3 差異計算預測Predction Head
在最后的預測模塊,Prediction Head對改進后得到的兩幅特征圖作差再取絕對值得到差異特征張量,利用FCN的思想,在分類器中通過兩個卷積核大小為3×3的卷積層,得到最終預測輸出的二值變化圖。
在訓練階段,為優化網絡參數,選擇最大程度降低交叉熵損失L,計算公式為:

式中,l(P hw,y)=-log(Phwy)為交叉熵損失函數;Y hw為位于(h,w)上像素的標簽。
本文在PyTorch上實現了H-BIT方法。訓練時采用動量梯度隨機下降(SGD)優化器,動量設置為0.99,權重衰減設置為5×10-4,學習率最大值max_lr=0.01,并在前30%的迭代輪次中進行學習率預熱,從0緩慢上升到max_lr,再隨迭代輪次逐步衰減到max_lr/75。每輪訓練后對模型進行驗證,驗證集中的最佳模型用于測試集預測。實驗在武漢大學超級計算中心的GPU服務器上完成模型訓練,具體硬件配置為兩塊Intel(R)Xeon(R)E5-2640 v4 x86_64、24 GHz、20核心,4塊Nvidia Tesla V100 16GB和128GB DDR4 2 400 MHz ECC,共迭代100輪,訓練635幅遙感影像數據。模型每迭代一輪大約需要花費5 min。
LEVIR-CD數據集源于北航LEVIR團隊的公開論文[8],包含637對由航拍器采集的遙感影像對,時間跨度為5~14 a,每幅圖像由近紅外、紅色和綠色3個波段組成,大小均為1 024像素×1 024像素,影像分辨率為0.5 m,共有31 333個變化建筑實例作為數據集的變化信息,平均變化大小為987像素。由于GPU內存限制,將圖像切成256×256的無重疊小尺寸圖像塊,按照訓練集、驗證集、測試集的劃分,分別得到7 120對訓練圖像塊、1 024對驗證圖像塊和2 048對測試圖像塊。
鑒于遙感影像變化檢測可看作像素點的二分類問題,本文的評價指標選取機器學習統計學中用以衡量二分類模型精確度的F1得分(可兼顧分類模型的精確率和召回率)、精確率(precision)、召回度(recall)、交并比(IoU)、總體精度(OA)。

TP表示將正類預測為正類,FP表示將負類預測為正類,TN表示將負類預測為負類,FN表示將正類預測為負類,構成變化檢測混淆矩陣如表1所示。

表1 變化檢測混淆矩陣
利用訓練好的模型對測試集進行端對端的輸出預測;在LEVIR-CD數據集上,將H-BIT方法與原始BIT方法進行比較實驗,數據集和實驗環境均相同。定量和定性結果如表2和圖5所示,可以看出,H-BIT方法各項指標均優于原始BIT方法,說明H-BIT方法能有效提升模型變化檢測精度;兩種方法均能識別檢測目標的變化,但H-BIT方法效果更好。圖5中白色代表建筑變化,黑色代表未變化,黃色標記圈出了H-BIT方法的優點,與標準變化標簽圖相比,原始BIT方法存在錯檢、漏檢現象,大型變化建筑檢測結果結構丟失、部分內部有較大空洞,小型變化建筑檢測結果邊界模糊、形態缺陷;而H-BIT方法在復雜背景下也表現優越,建筑邊界更平滑,去除了噪點影響,能完整提取目標、有效區分變化像素與偽變化像素,極少出現錯檢、漏檢現象,對于不同尺度目標的提取均能發揮較好的效果,因此在定性結果上,H-BIT方法也優于原始BIT方法。

表2 H-BIT與BIT方法的精度對比/%

圖5 H-BIT方法與原始BIT方法檢測結果對比
為了獲得性能最優的H-BIT模型,本文控制一些參數的設置,仍采用F1得分、precision、recall、IoU和OA五個評價指標,通過調整學習率預熱所占總體訓練輪次的比例和Token_length,獲得一個較穩定的模型。本文分別在預熱比例為0.3、0.5、0.7和Token_length為4、6的情況下訓練模型,具體結果如表3所示,可以看出,模型在預熱比例為0.3和Token_length為6時的表現較好;預熱比例為0.5和0.7時,雖然模型訓練經過預熱已經穩定,但剩下較少的訓練輪次,模型無法取得足夠的訓練條件;模型在Token_length為6時,更加符合數據集語義信息,因此學習率預熱比例為0.3,Token_length為6的H-BIT模型在LEVIR-CD上表現最優。

表3 消融實驗結果統計
本文將遙感影像變化檢測視為目標提取與差異計算兩大塊,基于BIT變化檢測框架提出了一種改進后以HRNet為目標提取主干網絡的H-BIT模型;在公開的遙感影像變化檢測數據集LEVIR-CD上進行訓練與測試;并與原始BIT模型進行定性和定量的測試對比。同時,為了獲得性能最優的模型,本文對H-BIT模型進行了參數消融實驗,結果表明:
1)以HRNet為目標提取的主干網絡,在很大程度上降低了錯檢漏、檢概率,提高了變化檢測精度。H-BIT方法的precision、recall、F1得分和OA分別達到了86.95%、90.24%、87.93%和96.62%,較原始BIT方法分別提高了11.02%、10.22%、10.86%和3.95%。HRNet有利于目標邊界的平滑處理,對于背景與目標模糊的影像也能完整提取出目標。
2)不同于原始卷積神經網絡降低分辨率的做法,經HRNet網絡提取的特征圖像融合了高分辨率和高語義信息兩大優勢,高分辨率有利于后續差異計算,對小目標的變化也很敏感,即使影像復雜,存在多種尺度目標,H-BIT方法也能表現出較高的變化檢測性能。
3)相較于原始方法,H-BIT方法的參數數量和計算量更少,訓練速度更快,擁有時間優勢。
本文提出的基于HRNet的H-BIT模型仍存在一些不足,如訓練樣本變化檢測目標種類單一等,下一步將獲取擁有不同種類目標的數據進行檢測,以進一步提高該方法的目標可拓展性。