夏凡凡 肖志峰 談筱薇 王凱
(1.武漢大學測繪遙感信息工程國家重點實驗室,湖北 武漢 430079;2.武漢大學遙感信息工程學院,湖北 武漢 430079)
變化檢測廣泛應用于土地利用變化監測[1]、災害識別[2]等領域。近年來,變化檢測技術實現了從像素級變化檢測到對象級變化檢測,從二值變化檢測到語義變化檢測,從面向同源光學遙感數據到面向異源遙感數據三方面的發展。
“從像素級變化檢測到對象級變化檢測”,旨在解決噪聲或混合像元的存在給土地覆蓋類型變化檢測帶來干擾混淆的問題[3]。使用證據理論和形態學知識將基于像素的結果擴展到基于對象的結果。DCA-Det[4]提出一種單階段對象級變化檢測網絡,解決建筑物變化檢測問題。“從二值變化檢測到語義變化檢測”,強調前一時相與后一時相圖像中對象具體類別轉變的檢測,而不是僅識別出“變化”和“不變”兩種狀態[5]。將語義變化檢測視為兩步分類任務——對象實例分割和變化檢測[6],以端到端的方式完成了整個過程。“從面向同源光學遙感數據到面向異源遙感數據”,是指利用來自多個傳感器的多時相數據進行變化檢測,其關鍵是在異構數據中找到地物的特征一致性[7],發現地物在光學和SAR 數據上具有局部結構一致性[8],發現了Landsat-5 和Landsat-7 對于同類地物的光譜一致性。
盡管基于多時相遙感數據的變化檢測技術取得了巨大進步,但仍存在許多挑戰[9]。船舶或飛機等動態目標的實時狀態和狀態變化是異常檢測和監測的重要基礎,但基于這些動態目標的變化檢測的研究較少。此外,隨著遙感技術的發展,可獲取的多傳感器、多時相遙感影像越來越豐富,但目前公開的變化檢測數據集仍以光學影像為主,缺乏包含異源數據的數據集。
論文針對現階段變化檢測的主要挑戰,提出了一種面向多時相光學和SAR 遙感影像中動態目標的對象級變化檢測方法,構建基于孿生網絡的對象級變化檢測框架,對異源遙感數據深度語義特征圖提取和語義特征相似度的定量描述,判別異源影像上動態目標的狀態變化。同時提出對象級變化檢測數據集OCD3k,利用OCD3k 數據集和兩組高分二號和高分三號衛星影像,驗證了該方法的有效性。
大多數變化檢測數據集僅對圖像進行了像素級標注,難以應用于對象級變化檢測研究。為驗證和評估論文方法的有效性,構建了一個對象級變化檢測數據集OCD3k,以模擬真實場景下動態目標在不同時相的異源遙感影像上的狀態變化。
論文從光學遙感圖像目標檢測數據集DOTA[10]中收集光學影像目標切片,從MSAR[11,12]、Air-SARShip-1.0[13]等SAR 遙感圖像目標檢測數據集和高分三號衛星影像中收集SAR 影像目標切片。這些數據集標注了圖像上目標的邊界框和類別,通過以下步驟將這些數據集轉換為OCD3k 數據集:
(1)根據原始數據集的標注,通過邊界框獲取目標的切片,并按類別分組。
(2)所有類分為兩大類:動態目標和靜態場景。動態目標切片包含從光學圖像和SAR 圖像中獲取的飛機和船只目標切片。靜態場景包括棒球場、籃球場、橋梁、操場、港口、十字路口、足球場、油罐、游泳池和網球場。其中,橋梁和油罐既有光學影像切片也有SAR 圖像切片,其余靜態場景僅包含光學影像切片。
(3)對象級變化檢測對劃分。所有切片兩兩組合成圖像對。同一類別的兩個動態目標被標記為語義不變圖像對(對應真實場景中目標狀態不變的情況),其余均被標記為語義變化圖像對(對應真實場景中目標狀態改變的情況)。語義一致圖像對和語義不一致圖像對示例如圖1 所示。

圖1 語義一致圖像對和語義不一致圖像對示例
(4)數據集圖片總數為3024 張,訓練集、驗證集、測試集中,每個傳感器每類的圖片數之比約為4∶1∶16。記每個傳感器每類的圖片數為N,靜態場景的圖片數為Nss,飛機和船的圖片總數分別為Npl和Nsh,語義不一致圖像對數量為Nlabel=1,語義一致圖像對數量為Nlabel= 0:
公式(1)(2)中,C表示組合計算。根據上述規則,可將3024 張圖像切片擴充至百萬對不重復的對象級變化檢測對。OCD3k 數據集圖片和圖片對的組成如表1 所示。
論文選用兩組高分衛星影像,每組由一張分辨率為1m 的高分二號全色波段影像和一張分辨率為3m 的高分三號SAR 影像組成。數據一為新加坡某機場2020 年5 月29 日的高分二號衛星全色波段影像(8305×8721),和2020 年10 月27 日的高分三號衛星影像(8089×8338),該場景包含船只目標圖像對130 個,其中狀態變化的59 個,狀態未變化的71 個。數據二為荷蘭某港口2021 年4 月27 日的高分二號衛星全色波段影像(11424×11142),和2020 年10 月23 日的高分三號衛星影像(14091×11127),該場景包含飛機目標圖像對203 個,其中狀態變化的109 個,狀態未變化的94 個。
論文提出一種基于孿生網絡的對象級變化檢測框架。該框架包含異源影像目標特征提取、特征相似性描述以及目標狀態變化決策三個階段,整體框架如圖2 所示。在異源影像目標語義特征提取階段,異源圖像目標切片圖像作為孿生網絡的輸入,其深度語義特征通過兩個共享參數f(·)的并列子網提取。兩個子網輸出特征的語義差異在相似性描述階段進行定量表示。最后,在目標變化決策階段,差異度大的目標對被標識為發生變化的目標對,反之則為未發生變化的目標對。

圖2 基于孿生網絡的對象級變化檢測框架
記兩個時相的影像分別為I1和I2,前一時相影像I1上的任一目標切片記為P1,后一時相影像I2上與P1相同地理位置的目標切片記為P2。孿生網絡同時接收兩張圖片作為輸入,與單分支網絡相比,保留了輸入數據的原始信息。并列的兩個子網共享網絡參數,分別接收P1和P2作為輸入,輸出特征圖可以表述為:
公式(3)中,t表示第t個卷積層。卷積神經網絡中,淺層特征圖包含更豐富的細節和位置信息,深層特征圖則包含更豐富的語義信息。由于論文主要關注語義信息的變化,因此僅使用最后一個卷積層的特征圖,與全連接層連接起來,得到整合后的圖像特征。輸入圖像對中的兩張圖像分別被編碼為f(P1)和f(P2)。
兩個特征向量間的距離通常用于衡量特征之間的相似性,其中歐氏距離是最常見的。歐氏距離的定義如下:
歐氏距離保留了特征向量的原始性,平方計算能夠對特征間不明顯的差異進行放大。但在訓練階段開始時,高維特征向量f(P1)和f(P2)的數值差異很大,使用歐氏距離可能會導致梯度爆炸問題。因此,論文引入余弦距離,將特征向量的差異值拉伸至[0,1]之間。兩個特征向量的余弦距離定義為:
目標狀態變化決策階段通過比較相似性描述模塊輸出的特征向量間的距離與距離閾值間的關系,將圖像對判別為語義一致和語義不一致圖像對。判別規則如下:
公式(7)中,變量y表示給圖像對賦予的標簽,y= 0 表示圖像對語義一致,y= 1 表示圖像對語義不一致表表示示兩張圖片特征向量的距離,margin是距離閾值。
通過計算前一時相上的目標,與后一時相相同地理位置圖像切片的深度語義特征的距離相似度,在合適的距離閾值下,根據公式(7),給該地理位置的圖像對分配標簽,判別目標狀態是否發生變化。重復上述過程直至給前一時相上所有的目標均分配標簽。
論文使用在ImageNet[14]上進行預訓練的ResNets[15]作為特征提取網絡。訓練和測試過程在16GB 內存的Tesla-V100 GPU 上進行。訓練過程中,使用隨機梯度下降(SGD)優化器,動量為0.9,權重衰減為1×10?4。在更改特征維度和主干網絡時,保持訓練輪次為30,初始學習率為0.01,然后在第18 個和第27 個輪次時分別降低為0.001 和0.0001。網絡輸入的圖像大小為64×64。使用余弦距離時,距離閾值設置為0.6,使用歐氏距離時設置為1.0。
論文使用精確率(Precision,prec)、召回率(Recall,rec)和特異度(Specificity,spec)評估對象級變化檢測方法的性能。
考慮到測試集和訓練集的數據差異性較大,訓練時用的距離閾值不一定是測試階段的最優閾值。在ROC 曲線的啟發下,以0.1 為間隔,統計在大于0 且小于等于訓練階段距離閾值的所有閾值下的精確度、召回率和特異度指標。繪制 “recall-(1-specificity)”曲線,記為“閾值靈敏性曲線”(Margin-sensitivity Curve),曲線示意圖如圖3 所示。

圖3 閾值靈敏性曲線
和ROC 曲線類似,“閾值靈敏性曲線”圖中有一條線通過(0,0)和(1,1)的直線,表示“隨機猜測”模型,其在二分類問題中表示的可信度為0.5 的模型。在“隨機猜測”線上方的曲線代表有效模型,任意“閾值靈敏性曲線”中,如果一個點比任何其他點離“隨機猜測”線更遠,即認為模型在對應的距離閾值上表現最佳。與該點對應的指標將被記錄為測試集的結果。同時,曲線和x 軸包圍的面積越大表示曲線對應模型的性能越高。
3.3.1 OCD3k 數據集實驗結果
實驗在2.1 節所提及的OCD3k 數據集的測試集上進行。表2 統計不同深度的特征提取網絡(backbone,分別為ResNet18、ResNet50 和ResNet152)、全連接層特征維度(fc,可設置為32 或128 或152)和損失函數中距離公式(dis_func,cosine 表示使用余弦距離,Euclidean 表示使用歐氏距離)的情況下,每個模型的召回率(rec),精度(prec)和特異性(spec)指標,這些指標依據3.2 節中的“閾值靈敏性曲線”篩選得到。

表2 OCD數據集測試集實驗結果
實驗結果表明,即使在數據集的組織上,測試集中包含訓練集中未出現的語義變化組合,當實驗設置不同的“特征提取網絡-距離函數-特征維度”(“ backbone -dis_fun-fc”)組合時,所有模型都表現出較高準確率,除“ResNet18-cosine-32”“ResNet50-cosine-32”和“ResNet152- cosine-128”三組設置的模型準確度略低外,其余設置下模型的準確度均高于95.00%,在選用ResNet18 作為主干網絡、歐氏距離作為距離函數、全連接層特征維度設置為32 時(“ResNet18-Euclidean-32”),準確度最高,達到98.23%。這表示論文方法不僅能檢測經過訓練類別間的語義變化,在檢測未經訓練類別的圖像語義變化上也表現出巨大潛能。
使用余弦距離和歐氏距離的模型的“閾值靈敏性曲線”分別如圖4 和圖5 所示。從表2、圖4、圖5 分析得出,隨著網絡層數和特征向量維數的增加,模型在余弦距離和歐氏距離上的表現趨勢幾乎相反。具體表現為:

圖4 距離函數為余弦距離時的閾值靈敏性曲線

圖5 距離函數為歐氏距離時的閾值靈敏性曲線
(1)如果沒有梯度爆炸,使用歐氏距離的模型在最佳閾值下的性能整體上優于使用余弦距離的模型;
(2)網絡較淺且特征維度較小的模型在使用歐氏距離時效果更好,但在使用余弦距離時效果更差。使用歐氏距離時,最好效果的模型的主干網絡為ResNet18、全連接層特征維度為32(“ResNet18-Euclidean-32”),最差效果的模型的主干網絡為ResNet152、全連接層特征維度為1024(“ResNet152-Euclidean-1024”);使用余弦距離時,最好效果的模型的主干網絡為ResNet152、全連接層特征維度為1024(“ResNet152-cosine-1024”),最差效果的模型的主干網絡為ResNet18、全連接層特征維度為32(“ResNet18-cosine-32”)。
(3)總體來說,使用歐氏距離的模型在識別語義不一致圖像對方面顯示出明顯優勢,特別是網絡較淺且特征維度較少時,但隨著網絡層和特征維數的增加,歐氏距離優勢減弱,使用余弦距離的模型開始顯示出優勢。這是由于余弦距離能夠對數據進行壓縮,抑制了無用的信息,更適合更深的網絡和更高的特征維度。從另一個角度來看,歐氏距離強調有用的信息,特別是在使用較淺的網絡和較少維度的特征時。綜上,在數據量較小時,選擇較深的網絡和余弦距離,或者選擇較淺的網絡和歐氏距離,可以取得更好的效果。
3.3.2 動態目標變化檢測實例
利用2.2 節提及的兩組高分衛星影像,將論文提出的對象級變化檢測方法擴展至真實衛星影像的應用上。圖6 中,(a)(b)展示了數據一的原始影像,(e)(f)展示了數據二的原始影像,(c)(g)分別展示了數據一和數據二的變化檢測真值,(d)(h)展示了選用ResNet50 作為主干網絡、歐氏距離作為距離函數、特征維度設置為1024 的模型,對前一時相遙感影像上的飛機或船只目標,在后一時相影像中的狀態是否發生變化進行檢測的結果。圖中,藍色方塊表示前后時相圖像的目標狀態不變,黃色方框表示目標狀態改變。

圖6 異源高分影像變化檢測結果
論文針對異源遙感影像動態目標變化檢測問題,提出一種基于孿生網絡結構的對象級變化檢測方法。通過兩個結構和權重完全相同的分支,提取異源圖像對具有判別性的語義特征;利用距離函數構建圖像對深度特征相似性描述符,抑制無效信息,增強特征差異。為解決異源遙感影像對象級變化檢測數據不足問題,論文收集了典型類別目標的圖像切片3024 張,組合成包含百萬對同源和異源圖像對的數據集,構建了一種適用于異源影像對象級變化檢測的數據集OCD3k。論文方法的有效性在數據集和真實衛星數據上得到了驗證,在區分經過訓練及未經訓練的目標類別間的語義變化問題上,都表現出較高的準確率。