丁 偉 黃 河 孫友強
1(中國科學院合肥物質科學研究院智能機械研究所 安徽 合肥 230031)
2(中國科學技術大學 安徽 合肥 230026)
3(安徽省智慧農業工程實驗室 安徽 合肥 230031)
隨著遙感技術的不斷發展,使用遙感圖像進行大規模農業信息獲取、分析已經成為一種重要手段。使用遙感圖像對作物進行分類得到地塊信息,對于輔助農業政策決策、作物產量估計等方面有著重要的意義。相比于傳統的遙感影像特征提取、分類方法,深度學習技術的進步,使其在遙感影像分類、分割任務上都有著效果顯著的應用。文獻[3]基于卷積神經網絡,使用GF-2衛星影像對龍虎莊道路、建筑物等6種典型地物進行面向對象分類。文獻[4]使用語義分割網絡同時融入循環神經網絡來捕捉遙感圖像時序信息,完成像素級別的大棚提取。文獻[5]使用基于模型的遷移學習來解決多類遙感影像場景分類中樣本標簽少的問題。
然而遙感圖像分類一個重要的問題是跨域數據預測。造成這個問題的原因主要有兩個:首先是對于空間分辨率低的遙感圖像,我們無法直接通過目譯確定現有的地塊作物到底輸入哪一類,也就導致了無法直接使用監督學習模型;其次,遙感影像會由于天氣變化、獲取的時間不一致、圖像矯正的參數不同等原因,導致圖像分布不同。在建模過程中我們一般會假設訓練集和測試集分布基本一致。然而,當訓練集和測試集分布不一致時,基于最小化訓練集經驗風險得到的模型在測試集上不一定會有好的表現。如圖1所示,基于源域數據訓練出的模型,無法正確預測目標域數據。

圖1 跨域數據預測問題
領域自適應(Domain Adaptation)是遷移學習一個重要分支。通常會把數據分為兩部分:源域Ds和目標域Dt,目的是利用從源域數據Ds和學習任務Ts學習到的知識來提高目標域數據Dt在目標任務Tt上的表現。源域和目標域的特征、類別空間相同,但是特征分布不同,即Ps(x)≠Pt(x)。此外,會假設源域有更多的樣本,并且所有數據都是有標簽的,而目標域的數據只有樣本,沒有類別信息或者只有少量標簽。
文獻[6]的方法在自然場景、人臉數據集等領域自適應任務中取得不錯的效果,然而在遙感領域研究相對較少。本文針對遙感影像跨時間域作物分類問題,使用改進特征提取模塊的CDAN模型對不同年份地塊作物的深度特征進行對齊,從而完成無標簽目標域作物的分類;在上述遷移模型基礎之上,改進樣本遷移性度量方式,通過引入可學習的樣本加權網絡來學習樣本的可遷移性,使模型在單月、多月影像遷移效果上都有更好的表現。

模型結構如圖2實線部分所示。其中梯形表示CDAN三個重要的子網絡:特征提取網絡F、類別分類網絡C和領域判別網絡D;矩形表示模型運算的中間向量和已有的數據標簽。特征提取網絡F使用經典的卷積網絡,如AlextNet、ResNet[10],輸出是從源域樣本xs和目標域樣本xt提取出的一維向量fs、ft;分類網絡C是全連接網絡,通過Softmax函數計算出模型預測的源域和目標域樣本的類別概率分布gs、gt;判別網絡D是全連接網絡,輸出是模型預測的樣本來源的概率分布d,即樣本來自源域還是目標域的概率分布。

圖2 CDAN-SWN網絡結構圖

Ex~pt(x)[1-logD(F(x))]
(1)
模型損失包括判別損失LD和分類交叉熵損失LC,優化目標如式(1)所示。即更新D參數使得域判別損失LD最小;更新C參數使得分類損失LC最小;更新F網絡參數使得LC最小、LD最大;F網絡和D網絡形成對抗關系。
(2)

當模型收斂后fs和ft的分布相似,由于網絡C通過最小化LC已經能正確分類源域數據特征fs,當再輸入目標域數據特征ft=F(xt)給C時,也能輸出正確分類結果。
CDAN網絡使用AlextNet[11]或Resnet-50作為特征提取模塊,然而這些網絡結構由于過多的非填充(No Padding)卷積或者下采樣操作的存在會使輸出的特征尺寸逐層變小。以Resnet-50為例,直到全連接層之前,特征圖的尺寸縮小到了輸入圖像的1/32。在面向對象的方法中,尤其是當遙感影像的空間分辨率低時,每個對象的尺寸很小,使用過深的卷積網絡或者過多下采樣操作,會提取不出或者丟失有效的信息。因此須對小對象設計高效的特征提取結構。
現有的深度學習主干網絡大多由若干個瓶頸結構(Bottleneck)串聯而成,如Inception網絡[12]、ResNet網絡等。為了避免過多的串聯卷積結構帶來的特征尺寸減小問題,本文以ResNeXt提出的瓶頸結構為基礎,構建出特征提取網絡,瓶頸如圖3所示。可以看出,通過引入并聯卷積結構對同一層輸入提取K組特征,再將這K組特征進行合并輸入到下一層,僅使用少量Bottleneck的串聯結構,就能夠提取出更豐富的特征。此外對比圖4同樣采用并聯結構的Inception網絡,文中使用的結構每個分支都使用相同大小的卷積核不需要精心的設計,并且在硬件并行計算上也更加高效。

圖3 ResNeXt網絡瓶頸結構

圖4 Inception網絡瓶頸結構
由于錯誤標注、存在異常樣本等原因,源域和目標域存在一些遷移困難的樣本,在對齊特征時過多關注這些樣本會產生負遷移現象。
原CDAN模型為每個樣本i計算其“可遷移性”wi,并且使用分類概率分布的熵來衡量樣本的可遷移性。熵越小,可遷移性越高,在計算域判別器損失LD時權重wi越大如式(3)所示。
(3)
權重計算如式(4)所示。其中gi是第i個樣本經過分類網絡C輸出的概率分布。
(4)
文獻[13]中的作者認為樣本的可遷移性并不體現在分類網絡輸出的概率分布gi上,而是應該體現在判別網絡輸出的概率分布di上。具體的,判別器輸出的概率分布熵越大,樣本可遷移性越小。然而,上述兩種方案都沒有很好解決樣本可遷移性的度量問題。




圖5 嵌入的樣本加權網絡W
本文研究區域儀征市位于江蘇省中西部,總面積為857平方千米,雨量充沛,光照充足,多種植水稻、棉花、小麥等農作物。
實驗中使用的是哨兵二號遙感影像,包括2019年3月13日和5月12日兩期圖像;2020年3月7日、3月17日和4月26日三期圖像。這5幅遙感圖像覆蓋整個儀征市,其中紅、綠、藍、近紅外波段均提供10米空間分辨率。
在數據預處理方面,2019年兩期圖像,通過ENVI軟件對L1C級多光譜數據進行大氣校正、幾何校正得到的融合圖像,共4個波段。2020年三期影像是直接得到的L2A數據。由于預處理流程、參數等不同,2019年數據和2020年數據存在著較大的差異。
儀征全市的地塊矢量邊界是已有的數據。2019年,實地采樣了3 328樣本點,其中包括水稻區域1 393塊、非水稻區域1 935塊;2020年采集了803樣本點,同樣也標記成水稻、非水稻兩類,測試數據占了總數據量的20%。整個實驗過程中,2020年作物的標簽只在測試的時候會使用,訓練的時候不會使用。地塊影像的分辨率固定為40×40大小。
針對1.1節提出的改進,本節使用單期影像進行遷移實驗,將使用ResNeXt瓶頸結構作為特征提取模塊的CDAN模型(CDAN-X)與使用ResNet瓶頸結構的CDAN-R,以及針對小尺寸輸入的LeNet[15]網絡作為特征提取層的CDAN-L進行比較。
其中CDAN-X使用1.1節的2層瓶頸結構來提取特征。為了保持相近參數量,CDAN-R的特征提取網絡同樣使用ResNet50前兩個瓶頸結構,如表1所示。CDAN-L使用C5作為提取出的特征,C5是LeNet網絡的第五層的輸出。

表1 CDAN-R特征提取網絡結構
三種特征提取網絡構成的CDAN模型精度對比如圖6,同時也對比直接預測目標域數據、基于監督的效果。其中監督學習指的是,直接用目標域的訓練集訓練模型,預測目標域測試數據。首先可以看出如果不進行遷移,由于2019年源域數據和2020年目標域數據分布差異大,直接預測精度較低;其次,對比三種不同特征提取網絡構成的CDAN模型,可以看出由1.1節提出的改進模型CDAN-X在平均精度上達到最高;最后,對比監督學習方法,可以看出精度上仍然有一定差距。

圖6 不同特征提取網絡效果對比
具體的不同月份的遷移精度如表2所示。

表2 不同特征提取網絡的CDAN精度對比(%)
在固定特征提取網絡后,為了驗證本文提出的樣本權重加權網絡的有效性,我們首先在單月影像上進行遷移,對比原始CDAN模型和嵌入樣本加權網絡的CDAN在準確率,召回率以及F1值三個方面的評價指標。由表3我們可以發現嵌入了樣本加權網絡的CDAN在三個指標上均高于原始模型,準確率方面高了2.58百分點,召回率高了3.53百分點,F1值高了1.69百分點。說明樣本加權網絡的CDAN在多種遷移數據場景下均有一定的性能提升。召回率和F1值的提高說明了,在樣本不均衡的情況下,模型并沒有只偏向于某一類,而是學到了有用的模式。

表3 CDAN與CDAN-SWN在多項指標上對比(%)
文獻[16]表明,使用多期遙感影像作為輸入能讓模型在輪廓提取、耕地信息提取等任務上有較為明顯的性能提升,因此我們還需要關注模型在多期影像輸入的情況下能否完成遷移。實驗中,我們使用2019年3月份和5月份的影像作為源域輸入,目標域為2020年三期影像的兩兩組合,共形成三組數據。直接使用通道疊加的方式融合兩個月份的影像。實驗結果如表4所示。

表4 在多時相上CDAN-SWN遷移精度對比(%)
可以發現:第一,直接預測的結果非常差,這可以解釋為隨著多期影像的加入,輸入特征增多,在更加高維的空間中,樣本分布的稀疏性導致源域和目標域樣本分布更加分散,距離更大;其次我們可以發現,特征的增多給特征對齊增加了難度,CDAN并沒有因為輸入特征的增多而提升模型的精度,反而由于特征對齊的難度增大有精度的降低;第三,對比CDAN模型,加入樣本加權網絡的CDAN-SWN能更好地處理多時像特征對齊問題;最后,表3中最后一列是直接使用目標域數據訓練的監督模型精度,如第一行則是使用20200307和20200317帶標簽的訓練集數據訓練模型,來預測20200307和20200317測試集數據。可以發現,使用本文提出的遷移模型與監督模型在精度上僅有1.33百分點的差別。
為了能夠更加直觀觀察到對齊后的特征,針對第一組數據,在訓練好模型之后,從2019年和2020年測試集中各取130個樣本,提取出深層特征后使用t-SNE算法[20]進行可視化后的結果如圖7所示。可以看出2019年和2020年水稻地塊特征(實心標記)聚成一簇,非水稻地塊(空心標記)聚成另一簇。因此當模型的分類器能夠正確區分2019年地塊作物標簽時,分類器也就能正確判別2020年地塊作物類別。

圖7 源域和目標域深度特征可視化
在模型收斂性方面,從圖8、圖9我們可以看出,目標域的預測精度是穩步上升的。前期,由于模型沒有得到足夠的訓練,導致在目標域上的分類精度也一直處于較低水平,情況隨著源域分類精度的提升慢慢緩解。后期,可以看出分類精度基本趨于平穩,而分類的損失依然會有小幅下降,說明分類器輸出的概率分布仍然是慢慢接近樣本類別真實值的,只是沒有體現在更多樣本被正確分類上。

圖8 源域和目標域驗證集精度

圖9 源域和目標域驗證集損失
本文針對遙感影像的遷移分類問題引入深度學習中的領域自適應方法。基于CDAN模型,本文在特征提取網絡上作出改進,并且提出新的樣本加權網絡代替直接使用熵計算的方式,通過實驗得出結論:(1) 跨時間域的預測問題會顯著降低模型的性能。雖然在某些特殊場景下,直接進行跨域數據預測會有較好的效果,但這完全依賴于兩個域的數據分布,是十分不可靠的。并且當使用多期影像輸入,特征增多時,兩個域的特征分布差別會更加明顯,直接預測效果會更差。(2) 在面向對象的遙感影像分類問題上,本文構建的特征提取網絡能有效支持CDAN模型完成特征對齊。(3) 可學習的樣本加權網絡相比于熵計算,能更好地度量樣本可遷移性,在多項指標上均有一定的提升。尤其在多月數據融合的情況下,更能體現其優越性。
目前使用域自適應方法應對遙感影像變化的研究還較少,本文也僅僅在水稻分類任務上取得了較好的結果,下一步需要考慮能否將遷移模型應用在更加精細化的多類分類任務上,以及如何將領域自適應方法應用到遙感影像分割等其他任務上。