










摘要:針對傳統全卷積神經網絡無法實現高分影像耕地精確提取的問題,以高分二號遙感衛星影像為數據源,采用融合殘差結構和多種注意力機制的改進U-Net網絡模型(RMAU-Net網絡模型)對研究區的耕地進行精細提取。使用耕地樣本對RMAU-Net網絡模型進行訓練,并用訓練后的網絡模型對測試集影像中的耕地進行提取。為了驗證RMAU-Net網絡模型提取耕地的效果,選取DeeplabV3+、PSPNet、U-Net 3種傳統的全卷積神經網絡模型與RMAU-Net網絡模型進行對比分析。結果表明,RMAU-Net網絡模型提取的精確率、召回率、交并比、F1 Score分別為90.36%、90.78%、82.57%、90.57%。與DeepLabv3+、PSPNet和U-Net網絡模型相比,RMAU-Net網絡模型效果最佳。RMAU-Net網絡模型為耕地精細提取提供了新的思路與方法,為農作物面積監測和產量估算等實際應用提供基礎數據支持。
關鍵詞:高分影像;耕地提?。簧疃葘W習;注意力機制;殘差結構;RMAU-Net網絡模型
中圖分類號:TP751" " " " "文獻標識碼:A
文章編號:0439-8114(2023)08-0182-07
DOI:10.14088/j.cnki.issn0439-8114.2023.08.029 開放科學(資源服務)標識碼(OSID):
High resolution image farmland extraction based on RMAU-Net network model
YUAN Penga, WANG Kea, XIAO Jianb
(a.College of Hydrology and Water Resources;b.College of Computer and Information, Hohai University, Nanjing" 210098, China)
Abstract:In order to solve the problem that the traditional full convolutional neural network could not achieve accurate extraction of cultivated land from high-resolution image, this study used the high-resolution 2 remote sensing satellite imagery as the data source, and used the improved U-Net network model (RMAU-Net network model) that integrated residual structure and multiple attention mechanisms to extract the cultivated land in the study area. The RMAU-Net network model was trained by using cultivated land samples, and cultivated land was extracted from the test set images using the trained network model. In order to verify the effect of RMAU-Net network model in extracting cultivated land, three traditional full Convolutional neural network models, DeeplabV3+, PSPNet and U-Net, were selected for comparative analysis with RMAU-Net network model. The results showed that the accuracy, recall, Intersection over Union, and F1 score of the RMAU-Net network model extraction were 90.36%, 90.78%, 82.57%, and 90.57%, respectively. Compared with DeepLabv3+, PSPNet, and U-Net network models, the RMAU-Net network model performed the best. RMAU-Net network model provided new ideas and methods for precise extraction of cultivated land, and provided basic data support for practical applications such as crop area monitoring and yield estimation.
Key words: high-resolution imaging; extraction of cultivated land; deep learning; attention mechanism; residual structure; RMAU-Net network model
耕地是人類賴以生存的基本資源和物質條件,是糧食生產等農業活動的根基[1],保護18億畝耕地紅線是實現糧食安全的前提[2]。農作物識別、長勢檢測和估產等方面的研究必須依托于可靠的耕地數據集。耕地地塊的提取研究是實現精準農業的基礎和前提。同時,及時準確地獲取耕地面積和空間分布信息是解決產量估算、土地利用規劃和農業生產管理等問題的關鍵。因此,耕地提取研究具有重要的科研價值和經濟價值[3-5]。
傳統實地調研獲取耕地信息的方式費時費力,實時性較差,利用高分辨率遙感影像分類是一種快速且有效的耕地提取方法。由于耕地種植農作物的多樣性導致同物異譜現象嚴重[6],提取耕地特征面臨極大挑戰。傳統機器學習方法,如最大似然[7]、隨機森林[8]和支持向量機[9]等都是基于像元分類,往往會出現椒鹽現象,導致耕地提取精度相對較低。近年來,深度學習方法通過訓練大量樣本數據,可自動提取主要特征,并實現自動化信息提取。相對于傳統方法,深度學習方法對于復雜多變的情況具有更好的魯棒性,已在計算機視覺等領域取得良好成效。同時,在遙感圖像領域也被廣泛應用,在人工坑塘[10]、房屋建筑物[11]、水體[12]、道路[13]等地物要素提取中取得良好的效果。當前,有學者已經開展了基于深度學習和高分辨率遙感影像提取耕地的研究。有學者利用WorldView-3影像[14]和DeepLabv3+模型[15]提取天津市寶坻區的耕地,并與傳統的機器學習方法對比,結果表明,基于深度學習的耕地提取方法總體精度提高了19.18%;Zhang等[16]提出了一種改進的金字塔場景解析網絡模型,實現了在大尺度上進行耕地的高精度自動化提??;陳玲玲等[17]提出了一種輕量級耕地圖斑提取模型(LWIBNet),并采用數學形態學算法進行后處理。通過與傳統模型和經典FCN模型對比,LWIBNet模型比傳統模型的Kappa系數提高了12%。
盡管深度學習技術在遙感影像耕地提取方面已被證明可行,但是高分辨率遙感影像中的耕地光譜特征和紋理特征因耕地類型、作物種類和生長階段的差異而存在同物異譜等問題。因此,傳統全卷積神經網絡提取耕地的特征難度較大,耕地信息難以精確提取?;诖?,本研究以高分二號遙感影像數據為數據源,使用融合殘差結構和多種注意力機制的改進U-Net網格模型(RMAU-Net網絡模型)對耕地進行精細提取,并與U-Net、PSPNet和DeepLabv3+全卷積神經網絡模型提取結果對比,以驗證模型的有效性與優越性。
1 U-Net網絡模型
U-Net[18]的整體結構如圖1所示。U-Net是由對稱的兩部分組成,前半部分是特征提取(編碼器),后半部分是上采樣(解碼器)。由于該網絡的整體結構類似于英文字母U,因此被命名為U-Net。在編碼器階段,每個下采樣模塊由2個3 px×3 px的卷積層和一個2 px×2 px的最大池化層組成??偣灿?個下采樣模塊,每個模塊都會對前一個模塊的特征圖進行卷積操作,使其通道數翻倍。卷積操作后,特征圖的寬度和高度保持不變。池化層使用2 px×2 px的最大池化操作,每個池化層將圖像的寬度和高度減半。在解碼階段,將3 px×3 px的卷積層替換成" "2 px×2 px的卷積層,并采用反卷積對每階段的特征圖上采樣。此外,跳躍連接是U-Net網絡的特點,這種連接方式連接了編碼器和解碼器不同階段的特征圖,不僅保留了高層語義信息,還將其與低層細節信息相結合,從而彌補因降采樣引起的細節信息丟失,提高分割的精度。
2 RMAU-Net網絡模型
本研究提出了一種融合殘差結構和多種注意力機制的改進U-Net網絡模型,即RMAU-Net網絡模型,該模型的整體結構分為編碼器、空洞空間卷積池化金字塔(Atrous spatial pyramid pooling,ASPP)結構、解碼器3個部分(圖2)。編碼器的主干特征提取網絡參考ResNet50[19]模型的結構,在編碼器每層中融入殘差模塊,每個殘差模塊由3個深層結構的殘差單元構成,有效加深特征提取網絡的深度,進一步提升網絡提取耕地特征信息的能力。在最大池化之后,引入卷積塊注意力模塊(Convolutional block attention nodule,CBAM)[20],通過CBAM中的通道注意力模塊和空間注意力模塊加強地物特征提取,抑制其他無效特征,讓模型忽略無關的背景信息,從而更關注影像中的目標區域。在網絡的中間層采用ASPP結構,ASPP采用不同膨脹率的空洞卷積提取多尺度信息,避免因耕地邊緣不連續而導致提取不準確。在解碼器中,為了解決跳躍連接過程中存在無效語義信息的問題,首先使用自注意力模塊來抑制低維特征中的無效語義信息,然后將其與高維特征連接,以提高耕地提取的準確性。
2.1 下采樣結構
遙感圖像不同于普通的光學圖像,具有復雜的光譜特性,在特征提取過程中會出現無效特征,如果能使模型關注重點目標區域,便可以抑制無效特征,提升模型精度,而注意力機制的本質就是讓模型忽略無關的背景信息,從而更加關注圖像中的重點目標區域。通過對不同通道和不同區域賦予各自的重要性權重,可以幫助模型識別出特征圖的重要空間信息和通道信息,抑制對背景區域的關注,幫助模型融合重要的特征信息。因此,本研究設計如圖3所示的下采樣結構,在特征提取網絡中引入CBAM模塊,CBAM中的空間注意力模塊(Spatial attention,SA)提取特征圖中的空間特征信息;通道注意力模塊(Channel attention,CA)提取特征圖中的通道特征信息。在下采樣時,首先將最大池化層獲得的特征圖通過CA模塊,得到的通道特征信息與池化結果相乘,得到融合特征,然后將融合特征通過SA模塊,進一步得到空間特征信息,再將空間特征信息與融合特征相乘得到CBAM提取的最終特征,最后將最大池化提取的特征與CBAM提取的最終特征進行相加融合。
CBAM模塊中的通道注意力模塊將輸入特征分別通過最大值池化以及平均值池化操作,得到的特征再經過相同的全連接網絡層改變其通道維度,計算公式如下:
式中,[McF]表示通道注意力模塊輸出結果;[AvgPoolF]表示平均池化;[MaxPoolF]表示最大池化;[Fcavg]表示平均池化結果;[Fcmax]表示最大池化結果;[σ]表示Sigmoid函數;MLP表示全連接網絡層;F表示輸入特征;[W0]和[W1]表示輸入的共享參數。
將通道注意力模塊輸出的特征圖作為本模塊的輸入特征圖,首先對特征圖進行基于通道的最大值池化和平均值池化,然后將2個池化結果進行通道維度的拼接,再將拼接結果進行卷積操作以降維至1個通道,最后應用Sigmoid函數生成空間注意力特征,計算公式如下:
式中, [MsF]表示空間注意力模塊輸出結果;[σ]表示Sigmoid函數;[f7×7]表示濾波器大小為7 px×7 px的卷積運算。
2.2 自注意力模塊
圖像語義分割任務中,通過引入自注意力機制,可以有效獲取上下文信息,從而提升模型的分割性能,因此,自注意力機制被廣泛應用于圖像語義分割任務中。針對圖像的語義分割,自注意力機制可以從通道和位置2個維度分別構建相應的注意力機制。為了有效利用低維特征信息,抑制低維特征中的無效語義信息,使網絡專注于提取耕地的特征,提高耕地提取的精度,本研究在網絡的低維特征向高維特征連接過程中設計了自注意力模塊[21],該模塊結構包含通道注意機制(CAM)和位置注意機制(PAM)2個部分,如圖4所示。PAM和CAM在自注意力模塊中并行操作,將特征圖分別送入CAM和PAM中處理,并將處理特征圖進行相加操作得到最終的注意力特征圖。
PAM的結構如圖5所示,通過主干網絡得到特征[X∈RC×H×W],C表示輸入特征的通道數量, H和W分別表示特征的高和寬,將特征[X]通過卷積操作得到矩陣[K]、Q和V,其中[K,Q,V∈RC×H×W],將K矩陣進行維度轉換和轉置,得到[K∈RN×C],[N=H×W],同時將Q改變形狀成[Q∈RC×N],將[K]與[Q]做矩陣乘法,然后使用Softmax函數計算位置注意力特征[S∈RN×N],計算公式如下:
式中,[Sji]表示第i個位置對第j個位置的影響因子;[K′i]表示矩陣[K]第i個位置元素,[Q′j]表示矩陣[Q]第j個位置元素。進一步將矩陣[V]的形狀變成[V∈RC×N],將[V]與[S]的轉置矩陣相乘后重新改變形狀成[RC×H×W],同時將其與可學習的縮放參數[α]相乘并與輸入特征[X]相加得到最終的特征[E1]。位置注意力圖選擇性地聚合上下文信息,采用加權求和的方式計算每個位置的最終特征,其中權重由位置注意力圖確定。這種聚合方式使相似的語義特征相互促進,并保持語義一致性。因此,位置注意力機制是一種有效的機制,可以在不同位置的語義特征之間建立聯系,以提高模型的表現。
CAM的結構如圖6所示,先將特征[X]的形狀轉變成[X∈RC×N]后,再與[X]的轉置矩陣相乘,結果通過Softmax函數得到特征[A],計算公式如下:
式中,[Aji]表示第i個通道對第j個通道的影響因子,[X′i]表示[X]矩陣的第i個位置的元素值;[XTj]表示[X]的轉置矩陣的第j個元素值,對A進行轉置后與[X]做矩陣乘法,將乘法結果的形狀變換成[RC×H×W]后,相乘一個可訓練參數[β],再與輸入特征[X]相加得到最終的特征[E2]。通道注意力模塊通過對所有通道特征和原始通道特征進行加權求和的方式,得到每個通道的最終特征,其中權重由通道注意力圖確定。其可以讓不同通道之間的語義信息相互影響,從而增強特征表示。
3 試驗設置
3.1 數據預處理
研究區位于常州市新北區,研究區內有耕地、建設用地、河流等地物類型,地物復雜多樣。試驗選用高分二號(GF-2)遙感影像提取研究區的農業耕地,GF-2衛星搭載了全色相機和多光譜相機,全色波段波譜范圍為0.45~0.9 mm,分辨率為0.8 m,多光譜波段分別有藍、綠、紅、近紅外4個波段。首先,對全色影像和多光譜影像進行輻射校正和幾何校正,將0.8 m的全色波段和3.2 m的多光譜波段進行融合,拼接生成0.8 m分辨率的新北區影像圖。其次,使用ArcMap軟件對新北區的耕地進行標注,以5 120 px ′5 120 px大小選取50塊區域,按照4∶1劃分訓練集和測試集。最后,將數據集裁剪為 512 px×512 px的訓練樣本。為了提高模型的訓練準確性,試驗中采用數據增強的方式,包括旋轉、水平翻轉和垂直翻轉。通過數據增強成功將訓練數據的數量擴展到12 000張。
3.2 評價指標
本研究采用精確率(Precision,Pr)、召回率(Recall,Re)、F1 Score和交并比(IoU) 4個評價指標對試驗結果進行精度評價,使用ROC曲線和PR曲線衡量模型表現的性能。ROC曲線橫坐標為假陽性率(FPR),縱坐標為真陽性率(TPR)。PR曲線橫軸代表召回率, 縱軸代表精確率。各個評價指標的計算公式如下:
式中,TP代表真正類(True positive)的數量;TN代表真負類(True negative)的數量;FP代表假正類(False positive)的數量;FN代表假負類(False negative)的數量。
3.3 訓練過程
試驗采用PyTorch深度學習框架對模型進行訓練和測試,硬件環境為64位Ubuntu 20.04操作系統,CPU為Intel(R) Xeon(R) W-2255,內存為64 GB,顯卡為英偉達GeForce RTX2080Ti;試驗采用Poly學習策略,設置初始學習率為0.001,并使用Adam優化器進行優化。在訓練過程中,批量大小設置為4,損失函數為交叉熵損失函數,采用高斯初始化方法對權重進行初始化。數據集訓練設置了100個迭代周期(Epoch)。網絡模型在60個Epoch附近基本收斂,如圖7所示,訓練的損失值和交并比趨于收斂。每隔5個Epoch保存一次模型參數,并通過比較train loss和val loss獲得最佳的模型參數。
4 結果與分析
4.1 對比試驗
為了驗證本研究提出的RMAU-Net網絡模型提取耕地的效果,選取了DeeplabV3+、PSPNet、U-Net 3種傳統的全卷積神經網絡模型與RMAU-Net網絡模型進行對比分析。為了進行可視化分析,列舉了4種方法在耕地測試集上的部分提取結果,如圖8所示。從整體提取效果分析,4種方法都能準確提取絕大部分的耕地,但針對耕地邊界細節信息的提取,RMAU-Net網絡模型表現更出色,更接近標簽圖像。
3種經典模型與RMAU-Net網絡模型都準確提取影像A中的大部分耕地,但在紅色矩形所標示的區域內,經典方法均出現了誤提,即錯將部分植被誤分為耕地。PSPNet、DeepLabv3+網絡模型的誤提情況較嚴重,U-Net網絡模型出現少量誤提,而RMAU-Net網絡模型僅出現1處誤提,且提取的耕地邊界與標簽圖像較匹配。影像B中分布大量形狀規則的耕地,PSPNet網絡模型出現大量漏提,提取的部分地塊不夠完整,U-Net、DeepLabv3+網絡模型出現少量的漏提,RMAU-Net網絡模型沒有出現漏提現象,提取的地塊完整且邊界清晰。影像C是密集的耕地區域。針對密集耕地區域地塊的邊界,PSPNet、DeepLabv3+網絡模型不能精確提取,U-Net、RMAU-Net網絡模型能精確提取部分地塊邊界,但對于密集分布的小地塊邊界,提取的效果欠佳。綜合分析,相較于PSPNet、U-Net、DeepLabv3+網絡模型,RMAU-Net網絡模型出現誤提耕地情況較少,耕地提取的效果最好。使用RMAU-Net網絡模型提取新北區的耕地,耕地提取的效果如圖9所示。
4.2 定量分析
為了進一步定量分析不同的模型耕地提取的效果,計算了各模型在耕地測試集上預測的精確率、召回率、F1 Score和交并比,如表1所示。
由表1可知,RMAU-Net網絡模型在耕地測試集的提取效果最佳,精確率達90.36%,召回率達90.78%,F1 Score為90.57%,交并比為82.57%,4個評價指標均優于其他3個模型,表明RMAU-Net網絡模型耕地提取的精度最高。相較于次優模型DeepLabv3+,精確率提高了0.68個百分點,召回率提高了0.14個百分點,交并比提高了1.66個百分點,F1 Score提高了1.42個百分點。研究表明,本研究提出的RMAU-Net網絡模型能夠提高耕地提取的精度。
5 小結
針對傳統全卷積神經網絡無法實現高分影像耕地精確提取的問題,本研究基于高分二號遙感影像,使用RMAU-Net網絡模型對耕地進行提取,并與DeepLabv3+、PSPNet、U-Net網絡模型進行對比。常州市新北區的耕地提取結果顯示,RMAU-Net網絡模型耕地提取效果最佳,其精確率、召回率、交并比、F1 Score分別為90.36%、90.78%、82.57%、90.57%,本研究方法能夠提高耕地提取的精度。后續還將使用RMAU-Net網絡模型對不同地區的耕地進行精細提取,以驗證RMAU-Net網絡模型方法的有效性與優越性。
參考文獻:
[1] 何 蔓, 張軍巖. 全球土地利用與覆蓋變化 (LUCC) 研究及其進展[J]. 國土資源, 2005(9): 22-25.
[2] 鄭明雪,沈祥成,羅治情,等. 類城市路網空間中面向平原農業應用的耕地地塊邊界提取研究[J]. 湖北農業科學, 2022, 61(23):184-189.
[3] 蔡志文, 何 真, 王文靜, 等. 基于多源國產高分衛星時空信息的米級分辨率耕地提?。跩].遙感學報,2022,26(7):1368-1382.
[4] 韓衍欣, 蒙繼華. 面向地塊的農作物遙感分類研究進展[J]. 自然資源遙感, 2019, 31(2): 1-9.
[5] 吳 晗,林曉龍,李曦嶸, 等. 面向農業應用的無人機遙感影像地塊邊界提?。跩]. 計算機應用, 2019, 39(1): 298-304.
[6] 李倩楠, 張杜娟,潘耀忠, 等. MPSPNet和UNet網絡下山東省高分辨耕地遙感提取[J].遙感學報,2023,27(2):471-491.
[7] JULIEN Y, SOBRINO J A, JIMENEZ-MUNOZ J C. Land use classification from multitemporal Landsat imagery using the yearly land cover dynamics (YLCD) method[J]. International journal of applied earth observation and geoinformation,2011,13(5): 711-720.
[8] HERNANDEZ I E, SHI W. A random forests classification method for urban land-use mapping integrating spatial metrics and texture analysis[J]. International journal of remote sensing, 2018, 39(4): 1175-1198.
[9] 李昌俊, 黃 河, 李 偉. 基于支持向量機的農業遙感圖像耕地提取技術研究[J]. 儀表技術, 2018 (11): 5-8.
[10] 楊先增, 周亞男, 張 新, 等. 融合邊緣特征與語義信息的人工坑塘精準提取方法[J]. 地球信息科學學報,2022,24(4): 766-779.
[11] 王振慶, 周 藝, 王世新, 等. IEU-Net 高分辨率遙感影像房屋建筑物提取[J]. 遙感學報, 2021, 25(11): 2245-2254.
[12] 何紅術, 黃曉霞, 李紅旮, 等. 基于改進U-Net 網絡的高分遙感影像水體提取[J]. 地球信息科學學報, 2020, 22(10): 2010-2022.
[13] YANG X,LI X, YE Y, et al. Road detection and centerline extraction via deep recurrent convolutional neural network U-Net[J]. IEEE transactions on geoscience and remote sensing,2019,57(9):7209-7220.
[14] DU Z, YANG J, OU C, et al. Smallholder crop area mapped with a semantic segmentation deep learning method[J]. Remote sensing, 2019, 11(7): 888.
[15] CHEN L C, ZHU Y, PAPANDREOU G, et al. Encoder-decoder with atrous separable convolution for semantic image segmentation[A].Proceedings of the European conference on computer vision[C]. Berlin: Springer,2018.801-818.
[16] ZHANG D,PAN Y, ZHANG J, et al. A generalized approach based on convolutional neural networks for large area cropland mapping at very high resolution[J]. Remote sensing of environment, 2020, 247.DOI:10.1016/j.rse.2020.111912.
[17] 陳玲玲, 施 政, 廖凱濤, 等. 基于卷積神經網絡的高分遙感影像耕地提取研究[J].農業機械學報,2022,53(9):168-177.
[18] RONNEBERGER O,FISCHER P,BROX T.U-Net:Convolutional networks for biomedical image segmentation[A].International con?ferenceon medical image computing and computer-assisted inter?vention[C]. Munich:Springer,2015.234-241.
[19] HE K, ZHANG X, REN S, et al. Deep residual learning for image recogition[A]. Proceedings of the IEEE conference on computer vision and pattern recognition[C]. Piscataway:IEEE,2016.770-778.
[20] WOO S,PARK J,LEE J,et al. CBAM: Convolutional block attention module[A]. Proceedings of the European conference on computer vision [C]. Berlin: Springer,2018.3-19.
[21] FU J, LIU J, TIAN H, et al. Dual attention network for scene segmentation[A]. Proceedings of the IEEE conference on computer vision and pattern recognition[C]. Piscataway:IEEE 2019.3146-3154.
收稿日期:2023-04-05
基金項目:國家自然科學基金項目(41771358);廣東省水利科技創新項目(2020-04);中央高?;究蒲袠I務費專項(B210202011)
作者簡介:袁 鵬(1996-),男,四川南江人,在讀碩士研究生,研究方向為遙感圖像信息提取與應用,(電話)18705172729(電子信箱)599471929@qq.com;通信作者,王 珂(1982-),男,河南原陽人,教授,博士,主要從事空間關系理論、遙感數字圖像處理的研究,(電話)18951847187(電子信箱)kewang@hhu.edu.cn。