朱杰凡 張明虎 丁 超 羅錦暉 顧 翼
(武漢數字工程研究所 武漢 430205)
隨著遙感技術[15]的發展,如今獲取的遙感圖像數據已經具備了高空間分辨率和高時間分辨率的特征。雖然,獲得遙感圖像數據變得越來越容易,但是針對圖像數據進行的標注依舊是一個費時費力的問題。同時,隨著遙感圖像清晰度越來越高,圖像包含的內容也越來越豐富,針對遙感圖像分類準確率的要求也變得越來越高,如何快速準確地對遙感圖像進行分類引起了各界學者的廣泛關注。而遙感圖像場景分類作為理解遙感數據的重要一環,無論是在民用還是軍用領域都有著非常重要的作用,也一直是遙感圖像領域的研究熱點和難點。基于場景的分類方法,通俗來說就是將數據集中不同的遙感圖像按照具有一定相似場景特征的圖片進行分類,并打上正確的標簽。合適的語義標簽可以實現對遙感圖像數據的有效分析和管理。如何有效描述遙感圖像內容并實現高效分類已經成為一個具有挑戰性的課題[9]。
在現代戰爭中,作為獲取軍事情報的重要手段之一,遙感技術在軍事領域中的地位變得越來越重要。遙感技術在軍事上廣泛用于軍事偵察、導彈預警、海洋監視、武器制導、軍事測繪、目標識別及定位、地形分析和制圖等方面[14]。而遙感圖像作為遙感技術中最重要的信息載體,針對遙感圖像的各種研究都十分有意義且必要。有關遙感圖像的場景收稿日期:2022年8月13日,修回日期:2022年9月25日作者簡介:朱杰凡,男,碩士研究生,研究方向:圖像處理。分類問題的研究便是其中之一。高分辨率遙感圖像可以提供地面特征的詳細邊緣度量和分布特征,為理解最終目標場景解釋和信息提取認知提供基礎。這使得它在地形分析和制圖等軍事測繪方面有極高的參考價值。通過對遙感圖像場景的分類,幫助人們更好地理解圖像,從而掌握遙感圖像的關鍵信息和繪制更好的作戰地圖。
圖像分類技術[4,13]發展歷史悠久,最早的分類方法是利用淺層的機器學習方法進行分類,但隨著科技的發展和技術的進步,目前使用最廣的是人工神經網絡模型。而遙感圖像的場景分類問題[7~8,10]在本質上也是一種圖像分類問題,因此也能通過尋找合適的神經網絡模型解決問題[12]。
傳統的人工神經網絡算法通過利用計算機模擬人類學習的過程,由存儲在網絡內部的大量神經元通過節點連接權組成的一種信息響應網狀拓撲結構,建立輸入與輸出數據直接聯系的一種方法。這種方法在圖像領域效果十分突出,國內外眾多研究者研究出了各種各樣的神經網絡模型和算法,例如:BP 神經網絡、前饋神經網絡、卷積神經網絡等一系列神經網絡算法。但是在遙感圖像場景分類問題上這些網絡模型都不是最優模型。
傳統的神經網絡在發展過程中,隨著樣本數量和復雜度的不斷增加,網絡層次和網絡深度也隨之不斷加大、加深。從而引發了網絡的“退化”,此時的模型錯誤率不降反升,優化也變得異常困難,最終導致網絡模型無法達到預期。而ResNet網絡[1~2]則不同,它是一種基于卷積神經網絡的結構,在擁有常規網絡結構的同時,更近一步增添了恒等映射層[3],通過使用這樣的殘差結構,ResNet 網絡能夠很好地克服由于層數、深度增加所引起的網絡“退化”問題。
殘差網絡學習單元如下圖所示,在該學習單元中有兩種映射方式,一種是殘差映射(residual mapping),其的輸出結果是F(x),另一種是身份映射(identity mapping)其輸出結果是輸入本身x。經過學習單元后的最終輸出結果為F(x)+x(即H(x),網絡的最優解映射)。這樣的結構能夠保證即使當殘差映射的輸出F(x)為0 時,余下的單元結構就等效于一個簡單的身份映射,使得網絡的輸出結果不會為0,從而確保網絡的性能不會降低。因此本文采用ResNet 網絡作為遙感圖像場景識別分類的網絡模型[11]。

圖1 殘差學習單元
總的實驗流程如圖2 所示,首先,對數據樣本進行劃分,將遙感圖像數據樣本分成訓練集,測試集和驗證集3 類。其中,訓練集用于模型的訓練;驗證集用于監控模型在訓練過程中是否發生過擬合情況;測試集用于最終檢驗訓練的模型性能好壞。依照經驗訓練集、驗證集和測試集中的樣本比例控制在8∶1∶1。選用華中科技大學和武漢大學發布的遙感圖像數據集AID 為主要數據集來源[5],從該數據集中選取包含機場、學校、山脈、江河、森林等15種不同場景的遙感圖像共計5330張用于訓練和驗證網絡模型。

圖2 實驗步驟流程圖

圖3 不同學習速率下網絡損失函數的變化情況
其次,通過遷移學習的方法對搭建好的ResNet網絡進行權重系數的初始化操作,并將訓練集和驗證集樣本分批次通過輸入端傳入網絡進行計算,得到網絡的損失函數值和準確率,并根據網絡計算值對網絡各層權重進行優化調整。
最后,將測試集樣本輸入進訓練好的網絡模型中,在準確率、有效性等方面對模型的輸出結果進行分析,最終得到符合期望的場景分類模型。
使用遷移學習方法[6],利用PyTorch 框架中的預訓練模型進行初始化,通過對其全連接層進行調整使得最終的收斂類別與期望相一致。在之后的仿真實驗過程中發現學習速率大小的設置對網絡訓練過程中損失函數收斂的情況影響十分巨大,經過比對最終選擇0.001作為網絡的學習速率。
圖4 是訓練集和驗證集的正確率變化情況,通過數據集在網絡上訓練的結果我們可以看出,使用ResNet網絡來進行遙感圖像場景分類是可行的,在采用遷移學習的方法后,網絡很快便得以收斂,最終的訓練成績也很突出,訓練集和驗證集的準確率都超過了90%。

圖4 訓練集和驗證集正確率變化情況
從實驗的最終結果可以看出,經過訓練的ResNet 網絡可以出色地完成針對不同場景的遙感圖像的分類問題,預測精度高,完全可以達到與人相近的辨識能力。
由4.3 可知,實驗中網絡的準確率(acc)很高,但是實際分類問題中由于分類類別的數量過多會導致網絡模型大多數類別的判定上準確率很高但在少數類別上的準確率不足的情況發生。因此,我們采用一種帶有可以懲罰模型“偏向性”的指標——Kappa 系數,來驗證本文方法的有效性。基于混淆矩陣的Kappa系數計算方式如下:
其中,Acc為總精度(網絡實際準確率),acc_num為測試集中被準確分類的圖片個數,all_num為測試集總體圖片個數。
Pe定義為
a1、a2、a3…表示測試集中每一類樣本的真實個數,b1、b2、b3…表示測試集實驗中每一類樣本的預測個數。
經過計算該方法在測試集上的總體精度和Kappa 系數如表1 所示,Kappa 系數值與分類問題的一致性關系如表2 所示,系數值越高,一致性越強。

表1 總體精度和Kappa系數

表2 Kappa系數值與一致性的關系表
根據圖6,可以看到該分類方法雖然在面對農田(Farmland)和山脈(Mountain)兩種標簽的分類上表現不佳,但是面對大多數類別都有著極高的辨別準確率,且總體的準確度也高達93%。另一方面,該方法的Kappa 系數超過了0.9,表明該方法針對遙感圖像場景分類的效果與實際分類結果的有很高的一致性。同時,對比參考文獻[8]中的實驗,準確率0.86、Kappa 系數0.85 的AlexNet 算法,本文方法效果更優秀,更適合遙感圖像分類應用。

圖6 測試集實驗結果的混淆矩陣
本文通過使用ResNet 深度學習模型,從具有豐富地面對象信息的高分辨率遙感圖像中提取相應的場景語義特征,通過遷移學習方法實現用少量樣本完成針對遙感圖像數據集的場景分類。在戰場評估、地形分析,軍事制圖等方面有廣泛的參考意義和使用價值。網絡準確率高過90%,且網絡模型的分類效果與實際分類結果一致性高。但是,有時候人們得到的遙感圖像中可能含有多個場景,因此,對圖像中場景分類的研究也很重要,關于遙感圖像場景分類等相關問題還有待更進一步的研究。