胡永進, 韓 旭, 高小慧, 胡耀天
(江蘇農林職業技術學院,江蘇句容 212400)
林地作為重要的自然資源之一,是國家可持續發展的重要物質基礎,掌握林地的準確分布對于林地調查管理具有重要作用[1-2]。隨著遙感技術的發展,利用衛星影像對林地資源進行識別、變化檢測表現出了極大的應用潛力,這也是當前遙感圖像解譯中的重要研究課題[3]。
利用遙感影像進行林地解譯方法主要分為2類,包括目視解譯和計算機解譯,其中目視解譯即利用人工的方法,通過遙感影像中林地所表達的光譜、形狀、紋理等差異直接觀察或者借助輔助判讀儀器對遙感影像中的林地類別進行判讀[4-5]。然而,該類方法耗時耗力、且人工解譯的過程不能疊加,知識無法有效積累。此后,隨著計算機技術的不斷發展,基于計算機技術的遙感影像解譯方法得到了更多應用。基于計算機技術的遙感影像林地提取方法可以分為2類,包括傳統方法和深度學習[6]。其中,傳統方法主要是通過分析林地在遙感影像中的特征表達,如光譜、紋理、形態等特征,并構建預定義模型對林地進行分類。包括基于像元分類的方法、面向對象的方法以及基于機器學習的方法。其中,基于像元的林地信息提取方法主要是通過分析林地光譜特征表達對不同波段進行特征組合,如利用歸一化植被指數(NDVI)[7]、比值植被指數(RVI)[8]等植被指數進行林地信息提取。然而單一的色彩空間并不能完整表達林地特征,且高分辨率遙感影像中地物更加清晰,信息更加豐富,同時林地的顯示也更加突出和細碎化,多種特征結合的方式很難精確地提取出林地信息。在此基礎之上,面向對象的方法逐漸被應用,與像元方式不同,面向對象的林地提取方法是以同質對象作為最小分析單元,通過分析遙感影像中林地的光譜、形狀、紋理等多種特征,并借助認知機理來選定這些特征,保證其能夠最大程度地區分遙感影像上的林地信息[9-12]。雖然這些方法在林地提取方面都取得了一定的效果,但由于光學遙感影像以非均勻區域的形式表達地物信息,且草地、耕地等光譜特性與林地極相似,從而對林地區域的識別產生干擾。此外,較大的類內方差和較低的類間方差導致無法建立預定義模型,從而實現高精度的林地提取。此后,基于機器學習的方法被用于林地信息的提取,機器學習的方法是通過設計特征提取函數,并利用一定的樣本學習進行參數擬合計算樣本之間的關聯,包括支持向量機(support vector machine,簡稱SVM)、決策樹、隨機森林等[13-14]。然而,機器學習僅限于淺層特征提取,其非線性表達能力有限,無法抽取遙感影像中林地的深層次特征。而通過構建深層次神經網絡則可以通過自動學習的方式有效抽取影像深層次特征,可以進一步解決以上問題。
Hinton等提出深度學習理論,深度學習通過非線性表達來獲取數據中的高級抽象特征,并構建數學模型以提高分類精度和檢測準確率[15]。其中卷積神經網絡 (convolutional neural networks,簡稱CNN)在圖像分類方面取得了較好的成果,許多學者在CNN的基礎上進一步研究產生了眾多改進算法,如FCN[16]、SegNet[17]、UNet[18]、PSPNet[19]等,在此基礎上許多神經網絡算法也被應用于遙感影像信息提取。Nataliia則通過一種多層次的神經網絡結構對衛星圖像進行土地覆蓋和作物類型分類[20];Liu等提出了基于隨機尺度拉伸CNN的高光譜高分辨率遙感影像分類方法[21];Felix等利用無人機影像,通過UNet卷積神經網絡對不同類型的林地進行了提取[22]。Gui等則利用POI-Net和Deep-UNet對高分一號影像進行了林地檢測試驗[23]。盡管以上研究相對于傳統方法取得了明顯的進展,然而,林地相對于普通地物更加特殊。首先,林地在影像中光譜特征表達差異性大,同物異譜現象更加明顯,且林地與植被、耕地等地物特征相似,同譜異物現象顯著;其次,林地面積差異性較大,既包括大面積森林也包含有小面積林地,尺度差異特征更加明顯;最后,由于深度學習需要以大量數據為基礎,當前并沒有可用于林地提取的遙感影像數據集。
針對上述問題,本研究提出一種顧及多尺度上下文特征的高分影像林地提取方法,在編碼階段利用殘差網絡實現林地的深層次特征提取,在解碼階段,通過考慮上下文信息的特征融合方法與深度多尺度信息聚合結構進一步提高網絡對于林地信息的提取能力。為證明方法的有效性,建立了1個遙感影像林地信息提取數據集,并將該方法與多種常用深度神經網絡模型對比,以驗證本方法的有效性。
顧及多尺度上下文信息的卷積神經網絡模型見圖1,該模型是一種端到端的對稱訓練結構,包括編碼器網絡和解碼器網絡2個部分,其中編碼部分為殘差網絡,解碼部分則包括顧及上下文信息的特征融合算法與深度多尺度特征聚合。在編碼階段,利用殘差網絡獲取遙感影像中林地的深層次特征。在此基礎之上,結合林地在遙感影像中的特征表達,通過顧及上下文信息的特征融合算法提取林地的上下文信息,提高深層網絡對目標區域的關注度,此外,考慮到林地尺度差異性相對于遙感影像中的一般地物更加明顯,通過建立深度多尺度預測結構,聚合不同從層次網絡中所表現出的多尺度特征以獲取更好的結果。
隨著網絡層數的增加,在促進網絡的非線性表達能力的同時,單一的級聯結構也會導致梯度消失/梯度爆炸,導致在反向傳播的過程中網絡參數無法優化。由He等提出的ResNet則避免了這種情況,ResNet通過一種跳躍連接的方式把輸入跨層連接到下一層,使得網絡的訓練更關注于網絡之間的變化,相比于原來的映射,殘差映射更容易收斂且容易訓練[24]。圖1中①~⑤分別代表ResNet-101從低級到高級的5個不同階段的特征。與之不同的是,在初始階段進一步考慮通過改變卷積核的大小來提取局部林地信息。卷積核的大小從1個7×7變成了3個3×3,可以在保證感受野相同的情況下減少參數,同時,串聯多個小卷積核比單個大卷積核具有更高的非線性表達能力,可以進一步提高網絡初始階段對于局部特征的提取能力。此外,為了避免在下采樣過程中由于池化層造成的信息損失,該模型構造為一個無池化層的網絡,通過將步長設置為2以達到下采樣的目的。

遙感影像中的上下文信息是指不同類型對象的位置和特征表達之間的關系,它可以直接或間接地影響地物信息提取的結果[25-26]。因此,如何在神經網絡編碼與解碼過程中設計一種適合的上下文信息融合結構,對于林地的提取極為重要。在語義分割過程中常用的連接結構是將編碼與解碼過程中具有相同分辨率的特征進行融合,如UNet和SegNet,這種操作方式可以將不同尺度的特征進行有效融合,避免特征丟失。然而,這種簡單通道拼接是基于全局特征信息融合的,缺乏對目標區域的關注,特征表達程度不高,因此,本研究提出一種顧及上下文信息的特征融合算法(圖2),將編碼過程中特征提取結果與相同尺寸的上采樣結果進行特征融合,以契合不斷上采樣過程中對于上下文特征的需求,首先,通過內積計算二者的相關性程度,其次,利用歸一化操作得到注意力評分,最后,通過層之間的加權求和獲取上下文信息,實現顧及上下文信息的特征融合。相對于傳統的全局信息融合方法,本研究可以充分利用編碼與解碼階段各個卷積模塊提取的特征圖信息,提高對深層網絡中目標區域的關注度。
對于卷積神經網絡而言,不同深度對應不同層次的語義特征,淺層網絡的分辨率高,可以學習到更多的細節特征,目標位置準確但語義信息較少,而深層網絡分辨率低,可以學習到更多的語義特征,但目標位置比較粗略。由于林地在遙感影像中分布面積不同,這也導致了林地相對于遙感影像中的其他地物具有更明顯的尺度特征,網絡在解碼過程中通過不斷上采樣可以獲取到多尺度特征,但一般網絡中,只對原始特征進行單層次加權輸出預測,輸出沒有進行物理組合,雖然在一定程度上能夠獲取部分多尺度信息,卻無法充分利用編碼與解碼過程構成的特征金字塔結構信息,不能進行充分的特征融合。

為解決這一問題,本研究建立了一種深度多尺度聚合結構用于林地特征的提取(圖3)。將上采樣的結果與不同金字塔層級的特征圖譜進行合并操作,得到新的表征能力更強的多層級輸出特征圖譜,并通過合并操作得到最終預測結果。通過這樣的連接,每一層預測所用的特征圖譜都融合了不同分辨率、不同語義強度的特征,且該方法僅在原網絡基礎上進行特征輸出,幾乎不會增加額外的計算量和時間。

數據集是驗證深度學習模型是否有效的關鍵,但由于數據集的限制使得深度學習在該領域并沒有較好的應用,因此,筆者構建了一個新的遙感影像數據集用于林地提取。林地信息提取數據集構建過程見圖4。全部數據集標注大約用了2個月的時間,在數據集建立過程中主要面臨著2個方面的挑戰。首先,林地與草地、耕地等植被區域具有一定的相似性,使得標注更加困難;其次,由于地物復雜度高,尺度變化性大,影像中既包括大面積的林地也包含大量小區域林地;最后,在完成數據集初步標注之后,進行了多次檢查與完善,最終形成1個可以用于林地信息提取的數據集。由于原始圖像尺寸較大,為便于訓練,將影像裁剪為256×256像素圖像,在數據集制作過程中采用隨機裁剪、隨機旋轉、模糊及隨機噪聲等操作進行數據增強操作,這可以進一步減少過擬合以及提高網絡的泛化能力,最終可用于訓練的數據集包括9 048張訓練影像、1 296張驗證影像和1 460張測試影像。

2.2.1 參數設施 所有訓練及測試都是在TensorFlow的深度學習框架Keras上進行的,在帶有Win10系統,NVIDIA GeForce RTX 3090 24 G的GPU上實現的,神經網絡在訓練過程中需要人工設置部分超參數以使其可以獲得較優的試驗結果,經過反復的調試驗證,本研究獲取了最優的超參數設置,迭代次數為200,訓練次數為8,初始學習率為0.005,最小學習率為0.000 01,縮減因子為0.9。在訓練過程中通過監測損失函數的值,在連續5次迭代之后性能依舊沒有改善,即損失函數沒有降低,則將學習率變為原來的0.9。
2.2.2 損失函數 訓練過程中損失值是計算當前批次所有樣本的平均損失,它可以在反向傳播時對平均損失計算出的梯度進行權重更新。然而,如果訓練數據集出現正負樣本數量比例不平衡情況,計算出的平均損失中負樣本所占比例過大,訓練出來的模型會傾向于只預測負樣本,并且負樣本的預測概率非常高,回傳的梯度也很大,且遙感影像中林地明顯存在樣本不平衡的問題,這樣會導致模型檢測性能降低。因此,本研究在二進制交叉熵損失函數的基礎上引入了類別平衡因子w,如式(1)所示,該損失函數可以通過減少樣本中負樣本類別損失函數權重,增加樣本中正樣本的類別損失函數的權重,以加強模型對正樣本的關注度,減小對負樣本的關注度。
(1)
式中:L為平均損失函數值;yi={0,1},表示像素類別的真實值;pi∈(0,1),表示像素類別的預測概率值,w為平衡因子,設置為0.6,N代表輸入像素總數。
為定量評價本研究方法并將其與現有網絡模型進行對比,選用常用的5種評價標準,包括IOU (Intersection Over Union)(式2)、準確率 (Accuracy)(式3)、F1評分(式4)、精確率 (Precision,P)及召回率(Recall,R)(式5)。其中IOU可以兼顧到誤檢和漏檢,已經成為了語義分割的標準,F1評分是基于精確率P與召回率R的指標,能夠計算模型對于召回率與精確率的平衡程度,也作為本研究的重要評價標準。此外,Accuracy作為全局精度評價方法也將其加入其中。為準確分析提取結果,通過不同顏色比較提取的林地像素與真實地面的分類結果(表1)。
(2)
(3)
(4)
(5)

表1 像素分類結果說明
2.4.1 定性分析 為了全面呈現本研究方法在不同類型區域的林地檢測結果,本研究從場景密度、林地面積等不同要素影響下的結果進行可視化展示,結果見圖5,場景類型從上至下趨向復雜,地物密集程度也不斷增加,林地結構則包括小面積的稀疏林地,也包括大面積的密集林地。
由圖5-a、圖5-b可知,對于小面積環境較為復雜的林地區域,本研究方法基本可以準確地檢測出林地的范圍,且存在較少數量的誤檢(藍色)和漏檢(紅色)區域,而PSP-Net及UNet與本方法的差距主要體現在誤檢方面,且檢測得到的林地結果完整性較低,而SegNet和FCN-8s與本方法在可視化效果上差異較為明顯,不僅漏檢較為嚴重,且存在大面積的誤檢情況。隨著林地面積的不斷增加,各種方法對于林地的提取結果也皆有所提高,這是由于林地面積變大之后,其特征更加明顯也更容易被提取,由圖5-c、圖5-d可知,對于大面積的林地每種方法皆取得了更好的效果,但從可視化結果中也可以看出,相對于PSP-Net及UNet,盡管效果差距不大,但本研究方法對于邊界細節方面具有更好的效果,尤其對于大面積林地內部的完整性表達方面具有較好的效果,而PSP-Net及UNet則存在大量的空洞,此外對于其中摻雜的部分小面積林地也可以有效提取,如圖5-d的左上角區域,而SegNet和FCN-8s與本研究方法在大面積林地區域的可視化效果上差異較為明顯,不僅存在大量的誤檢(圖5-c)且存在大面積漏檢(圖5-d)。通過初步的定性可視化展示,可知本研究方法在對比的多種方法中可以獲得更好的效果。
2.4.2 定量分析 為了使比較結果更加可靠,本研究對各種結果進行了定量分析, 在相同數據及電腦性能的條件下林地提取結果與其他深度學習方法的定量評估結果見表2。通過比較該值可得出結論:本研究方法在提取遙感影像中的林地方面具有最佳的性能,與其他算法相比,IOU值提高了2.49~15.32百分點,F1評分提高了4.28~11.83,與此同時,整體精度、正確性、召回率也明顯高于其他網絡,此外,由于Precision和Recall存在著相互制約的關系,如何平衡二者以獲得更好的提取結果也是評判模型好壞的重要因素,從表3可以看出,本研究方法中P值和R值差異為2.80百分點,而其他方法差異為4.01~12.61百分點,這也進一步證明本研究方法對于二者的平衡具有更好的效果。


表2 不同方法的林地提取結果精度對比
為有效提取遙感影像中林地信息,CNN作為一種流行的深度學習算法仍在不斷探索之中,本研究所提出網絡結構中的殘差網絡、編碼與解碼過程中的上下文信息融合以及最終的深度多尺度聚合在林地提取過程中有著重要的作用。因此,為了進一步證明每個模塊在模型中的作用,在相同數據下進行了消融試驗,將本研究中的卷積主干作為基線和先后添加了不同的關鍵組件進行對比,以檢查每個組件的貢獻,表3分別從5個指標評價了各種消融試驗,其中Accuracy提高了4.26~6.81百分點,F1評分提高了1.88~3.43,IOU提高了1.49~5.12百分點,可以清楚地看出,本研究方法中的每個模塊對于最終的結果都是有益的。
2.5.1 殘差網絡 神經網絡對于影像深度特征的提取程度決定了最終提取結果的優劣。因此,首先分析了殘差網絡優點,為此,訓練了一個不含有殘差的神經網絡模型,直接通過普通卷積作為特征提取的基線結果,另一個則是包含有殘差的網絡結構模型,由表3可知,通過聚類特征約束,Accuracy、F1及IOU分別獲得了6.81百分點、3.43、5.12百分點的明顯提升,通過這種控制變量的方法,說明本研究所利用的殘差網絡可以有效提取影像的深度特征。
2.5.2 顧及上下文信息的特征融合 在特征融合階段,傳統融合方法缺乏對于目標區域的關注,對于深層次特征表達程度不高,而本研究通過考慮上下文信息,進一步提高了編碼與解碼過程中的信息融合度,提高了網絡的非線性表達能力。在該部分中,利用普通的聚合結構對本研究所提出的方法進行替換,從表3可以看出,通過顧及上下文信息的特征聚合,Accuracy、F1及IOU分別獲得了4.26百分點、3.05、1.49百分點的精度提高,顧及上下文信息的特征融合將有助于網絡特征表達性能的進一步提升。
2.5.3 深度多尺度聚合 如何有效融合多尺度特征一直是遙感影像地物信息提取所需要解決的問題,為避免多層加權輸出所導致的特征損失,本研究網絡通過物理聚合的方式保存不同尺度下的所有特征,此外,與一般的3層多尺度輸出不同,著重考慮了影像中林地更多的尺度表達,建立了具有四層的尺度輸出結果,這種增益效果也是明顯的,如表3所示,Accuracy、F1及IOU分別獲得了5.45百分點、1.88、2.87百分點的精度提升。這也證明該部分的加入是完全必要的。

表3 本方法中不同模塊的消融試驗結果
為了進一步證明該方法的抗干擾能力,分析了遙感圖像中的各種干擾。圖6-a紅色框為耕地,其光譜特征與視覺上的林地相似,圖6-b、圖6-c中紅色框則包含有暗色水體,其光譜相似性表達與林地具有相似性,此類干擾是林地提取過程中一個極具挑戰性的問題,然而,該方法可以有效地避免這些特征的干擾。此外,圖6-d中的紅色框中林地內部包含有部分裸地,林地內部特征表達復雜,但本研究方法依舊可以較為完整地提取出完整的林地范圍。此外,圖6中不同區域的林地光譜特征表達具有明顯的差異性,這也進一步驗證了本研究方法對于林地提取具有較好的抗干擾能力。
近年來隨著深度學習的發展,CNN作為一種有效的方法被用于遙感影像中的地物信息提取。本研究提出了一種顧及多尺度上下文信息的高分影像林地信息提取方法。首先,從遙感影像深層次特征提取入手,利用殘差網絡提取影像的深層次特征;其次,通過建立顧及上下文信息的特征融合算法進一步將編碼與解碼過程中的特征進行充分融合,以提高網絡對于上下文信息的提取能力,增強網絡對于目標區域的關注度;接著,考慮到林地面積影響導致的更大的尺度差異,建立了深度多尺度聚合預測結構。最后,對于神經網絡訓練過程中樣本不均衡的問題,在損失函數中引入了類別平衡因子,以獲取更好的林地檢測結果。為證明方法的有效性,建立了一個新的遙感影像林地提取數據集,在建立的數據集上進行了4種優秀的深度學習方法用于遙感影像中的林地檢測,包括PSP-Net、UNet、SegNet、FCN-8s,通過定性分析和定量分析證明了本研究方法的優越性。另外,最后的消融試驗證明了本研究所提出的各個結構的重要性,并對影像中林地提取常見的干擾進行了分析。

隨著遙感技術的發展,高分辨率遙感影像的數據量將不斷增大,數據獲取也會更加容易,且應用會更加廣泛,今后的研究將繼續深入研究利用深度學習進行林地信息提取,以期進一步提高方法的精度。