趙晉陵 詹媛媛 王 娟 黃林生
(1.安徽大學農業生態大數據分析與應用技術國家地方聯合工程研究中心, 合肥 230601; 2.安徽大學電子信息工程學院, 合肥 230601)
中國是傳統農業大國,城鎮化的快速發展和人口數量的不斷增加,使得糧食的供給壓力不斷增加。作物生長、覆蓋度、種植面積估算是農業監測的重要內容[1],其中及時、準確地獲取作物的空間分布和種植面積是調整農作物種植結構的重要依據。依照傳統的方法,層層上報統計或者抽樣調查[2],既浪費大量的人力物力,且效率較低,存在人為誤差,無法實現動態監測。
遙感技術以其大面積同時觀測、低成本、時空動態監測等優勢被廣泛應用。目前,用于作物種植面積監測的影像有高、中、低分辨率影像,黃健熙等[3]以時序MODIS數據作為數據源提取冬小麥的空間分布,但由于數據源為中低分辨率遙感影像,不能很好地滿足應用需求;李曉慧等[4]利用多時相Landsat-8 OLI影像,基于光譜角填圖結合決策樹分類方法提取農作物分布情況,總體精度達到85.34%;趙葉等[5]基于Landsat-8 OLI影像,利用HSV閾值劃分方法區分冬小麥和非冬小麥,實現了河南省中南部冬小麥種植面積提取;李長春等[6]使用多生育期的Sentinel數據,采用隨機森林算法對河南省扶溝縣冬小麥進行提取;王冬利等[7]基于GF-1衛星數據以歸一化植被指數(Normalized difference vegetation index,NDVI)為判別指標,利用非監督分類方法對河北省辛集市的冬小麥進行提取。傳統的監督分類方法和非監督分類方法只能提取作物圖像的紋理和顏色結構等特征對作物種植區進行分類,不能提取更高層語義特征,魯棒性較差,分類結果不理想。
近幾年來,深度學習在圖像處理、自然語言處理、數據分析等領域取得了大量關鍵性突破[8-9]。目前,很多學者也在嘗試將深度學習應用到遙感領域,探究其在遙感分類中的適用性[10-12]。FU等[13]利用FCN網絡對高分辨率遙感影像中的道路、植被、建筑物、水體進行分類識別,正確分割精度大于85%;HUANG等[14]利用Sentinel-2遙感影像,對SegNet進行改進,對河南省新蔡縣的花生種植面積進行提取,測試精度達到83.3%;CHEN等[15]對SegNet進行改進,用于遙感影像中建筑物的提取,在Inria數據集上進行測試,整體表現較好;ZHU等[16]利用GF-2和BJ-2遙感影像,對多時相遙感圖像進行分塊融合,利用Deeplabv3+網絡對甘蔗田進行提取,準確率達到94.32%;DU等[17]基于多時相Landsat數據,利用U-Net網絡對美國阿肯色州的水稻進行分類,模型表現較好;ZHENG等[18]利用GF-2遙感影像,用U-Net網絡對5種類型地物進行分割,測試總體精度達到82.27%。其中,U-Net網絡因模型較小、參數量少被廣泛應用,但U-Net因多次降采樣與上采樣會引起邊緣信息丟失問題,李萬琦等[19]在U-Net中加入SE模塊用于數值地表模型(Digital surface model,DSM)與RGB圖像融合的圖像語義分割。為避免因融合不同數據導致的數據丟失及引入噪聲問題,本文提出一種基于深度學習的小麥種植區域分類方法。利用Landsat-8 OLI衛星數據為實驗數據,進行預處理后,標注小麥種植區制作標簽數據集。基于Pytorch平臺搭建改進U-Net分割模型,對測試影像進行分類,從而獲得分類結果。采用GF-6數據和Sentinel-2數據作為對比驗證數據,以驗證不同分辨率下冬小麥種植區域提取的效果。
選取河北省石家莊市中部的正定縣和藁城區增村鎮作為研究區(圖1)[20]。其中,正定縣位于38°6′~38°22′N,114°23′~114°43′E,藁城區位于37°51′~38°18′N,114°39′~114°59′E。研究區屬溫帶半濕潤半干旱大陸性季風氣候,大部分地區四季分明。年平均氣溫為12.9℃,年平均降水量為550 mm。耕地是本區域最主要的土地利用類型,冬小麥是最主要的糧食作物之一。
本研究主要獲取了Landsat-8、哨兵二號(Sentinel-2)和高分六號(GF-6)3種衛星遙感數據,相關波段信息見表1。Landsat-8衛星攜帶陸地成像儀(Operational land imager,OLI)和熱紅外傳感器(Thermal infrared sensor,TIRS)。本文使用OLI數據,OLI陸地成像儀以空間分辨率30 m(全色波段為15 m)在9個光譜波段捕捉地球表面的圖像,成像寬幅為185 km×185 km。河北省冬小麥大多于10月播種,次年6月收割,整個發育時期一般分為播種期、出苗期、分蘗期、越冬期、返青期、拔節期、抽穗期、灌漿期和成熟期9個階段,根據冬小麥的物候特征,處于灌漿期時長勢較好,而其他作物尚未播種或剛播種,此時冬小麥與其他地物差別較大,能夠實現小麥種植區高精度分割提取,因此本文獲取遙感影像數據日期均選擇小麥灌漿乳熟期,即5月中下旬左右。在地理空間數據云(http:∥www.gscloud.cn/)下載Landsat-8 OLI河北省石家莊正定縣和藁城區的增村鎮2019年5月20日的影像。本研究主要用波段2、3、4、8。

表1 選用的衛星影像相關波段信息Tab.1 Band information of selected satellite imagery
Sentinel-2是一顆重訪周期為5 d的高分辨率多光譜成像衛星,搭載一臺多光譜成像儀(Multi-spectral imagery,MSI),包括2顆衛星(2A和2B)。以空間分辨率10、20、60 m在13個光譜波段捕捉地球表面的圖像。本文使用的哨兵數據為Sentinel-2的Level-1C數據產品,來源于歐洲航天局的數據共享網絡(https:∥scihub.copernicus.eu/dhus/#/home),下載2019年5月28日拍攝的哨兵二號遙感影像,本文主要用Sentinel-2A的波段2、3、4。
GF-6衛星配備了一臺2 m全色/8 m多光譜高分辨率相機(PMS)和一臺16 m多光譜中分辨率寬幅相機(WFV),具有高分辨率和寬覆蓋等特點,PMS觀測幅寬90 km,WFV觀測幅寬800 km。實驗選取2019年5月6日的高分影像,本研究主要用GF-6 PMS的波段B1、B2、B3。
利用ENVI(Environment for visualizing images)軟件分別對獲取的Landsat-8 OLI影像、Sentinel-2A影像和GF-6 (PMS)影像進行預處理,預處理步驟包括:輻射定標、大氣校正、圖像鑲嵌與裁剪和波段合成等,并對Landsat-8 OLI影像進行影像融合處理[21]。使用Gram-Schmidt Pan Sharpening方法將Landsat-8 OLI 15 m全色影像和30 m多光譜影像進行融合,得到分辨率為15 m的Landsat-8 OLI多光譜影像。
選取正定縣和增村鎮范圍內的影像作為原始數據源,其中,正定縣包含10個鎮的3種不同分辨率的遙感影像(Landsat-8 OLI、Sentinel-2、GF-6),每種衛星在每個鎮上各獲取1幅遙感影像,分別各獲得10幅遙感影像,增村鎮包含1幅遙感影像(Landsat-8 OLI)。首先,利用ArcGIS 軟件打開遙感影像,在原始影像上勾畫小麥區域矢量,并以PNG格式輸出生成標簽,其中小麥類為白色,其像素為1,非小麥(背景)為黑色,像素為0。同時將原始遙感影像保存為JPG格式輸出,再將原始影像數據和標簽數據隨機裁剪為256像素×256像素,原始影像數據與標簽數據文件名一一對應,同時進行了數據增強操作[22]:原始和標簽圖像旋轉90°、180°、270°;原始和標簽圖像沿Y軸進行鏡像操作;對原始影像進行模糊處理、對原始影像進行調光處理、對原始影像進行加噪操作(高斯噪聲、椒鹽噪聲)。將正定縣和增村鎮的影像分別作為訓練數據與測試數據,以Landsat-8 OLI訓練數據為例,將正定縣Landsat-8 OLI訓練數據隨機裁剪為2 000個256像素×256像素的圖像-標簽對,經過數據增強至5 000個圖像-標簽對,并按照9∶1劃分訓練集和驗證集,另外將增村鎮Landsat-8 OLI測試數據裁剪為294幅256像素×256像素的圖像。數據制作流程如圖2所示。

圖2 實驗數據制作方法Fig.2 Production method of experimental data
U-Net采用對稱的編碼器-解碼器結構,如圖3所示,首先編碼器部分由4個卷積層組成,每個卷積層有兩個尺寸為3×3的卷積核。相鄰卷積層通過最大池化操作進行下采樣,通過多次卷積和池化來提取特征信息。對應地,其解碼器也相應通過轉置卷積進行4次上采樣將特征圖恢復到原圖分辨率。同時使用跳躍鏈接的方式將高級語義特征與淺層特征相融合,保留了更多的信息。遙感影像與醫學圖像相比往往具有更復雜的場景,目標尺度大小不一、分布不均衡,為了更好地利用特征圖中的有效信息,可以選擇注意力機制結構,抑制無用信息的利用,增加重要信息的權重,提高模型的預測性能。為了更準確實現小麥區域的提取,本文引入了SE(Squeeze and excitation)模塊[23]。

圖3 U-Net架構示意圖Fig.3 Schematic of U-Net structure
壓縮(Squeeze)和激勵(Excitation)是模塊中的兩個關鍵操作,其模塊結構如圖4所示。壓縮操作對尺寸為H×W×C的特征圖進行全局平均池化,壓縮為1×1×C向量。激勵操作使用一個全連接神經網絡,對壓縮之后的結果做一個非線性變換,將該操作得到的結果作為每個通道的權重。

圖4 SE模塊結構示意圖Fig.4 Schematic of SE module
圖4中,U為輸入特征圖,尺寸為(H,W,C),H、W、C分別為高、寬和通道數。首先將第c維特征圖uc進行壓縮操作(記為Fsq),輸出zc,計算式為
(1)
式中i、j——特征圖在空間維的坐標
將所有特征圖經過壓縮操作輸出記為z。將z進行激勵操作(記為Fex),結果為s,計算式為
s=Fex(z,w)=σ(w2,δ(w1,z))
(2)
式中w、w1、w2——全連接層中的權重
σ、δ——Sigmoid和ReLU激活函數

(3)
式中Fscale(uc,sc)——標量sc與特征uc之間的對應通道乘積
改進后的網絡整體架構圖如圖5所示。實驗輸入圖像尺寸為256×256×3,輸入圖像通過兩個3×3的卷積操作,然后是一個校正線性單元(ReLU)和一個2×2最大池化操作,步長為2,用于下采樣。在每層激活函數前加入BN(Batch normalization)層[24],抑制過擬合,提升訓練穩定性。與文獻[19]相比,在編碼和解碼路徑中每2個3×3卷積層后均添加SE模塊,它通過模型學習自動獲取每個特征通道的重要性,降低特征表達能力較弱的通道,加強特征表達能力強的通道。添加注意力模塊如圖6所示。下采樣后的特征圖再經過擴張路徑中的上采樣得到高分辨率的特征圖。將低層特征圖與高層特征圖相結合,用于恢復特征信息,提高分類精度。在最后一層使用Softmax作為分類層,利用一個1×1卷積將每個64分量特征向量映射到所需的類數,將圖像分割為2類,一類為背景,另一類是小麥區域。

圖5 SE-UNet架構示意圖Fig.5 Schematic of proposed SE-UNet structure

圖6 注意力模塊Fig.6 Attention blocks
采用平均像素精度(Mean pixel accuracy,MPA)與平均交并比(Mean intersection over union,MIoU)作為小麥分割的評價指標[25]。指標越大,表示模型分割效果越好。設數據集中可供分割的對象類別為k,則總的類別為k+1,其中1代表背景。本實驗包括小麥和背景兩類。
實驗環境為Intel Xeon Gold 6248R處理器,192 GB內存,NVIDIA Quadro P4000顯卡,GPU加速庫采用CUDA 10.0,深度學習框架使用Pytorch。模型訓練中,選擇Adam optimizer函數作為參數優化器,采用交叉熵函數作為模型訓練的損失函數,初始學習率為0.000 1,訓練迭代次數為100,步長為8。
為了驗證本文方法,選取SegNet、Deeplabv3+、U-Net作為對比模型,其中3個對比模型與SE-UNet均使用相同訓練數據和測試數據,使用平均像素精度和平均交并比作為評價方法的指標。利用訓練好的網絡模型對測試集中的數據進行預測,基于3個數據集不同預測模型對應的評價指標如表2所示。實驗均以Landsat-8藁城區增村鎮影像為測試集,以3種不同分辨率的正定縣各鎮影像構成訓練集分別進行模型訓練,GF-6、Sentinel-2訓練集構成方法與Landsat-8一致,以GF-6作為訓練影像在增村鎮Landsat-8測試集上不同模型預測結果如圖7所示;以Sentinel-2作為訓練影像在增村鎮Landsat-8測試集上不同模型預測結果如圖8所示;以Landsat-8作為訓練影像在增村鎮Landsat-8測試集上不同模型預測結果如圖9所示。由于Landsat-8、Sentinel-2和GF-6 3種數據的分辨率分別為15、10、8 m,所以圖中分辨率較高的小麥區域結果會比分辨率較低的區域大。在實驗結果中,選擇2幅具有代表性的結果圖,一幅為小麥較多,另一幅為小麥較少,且建筑物、裸土區域較多。從預測結果來看,SegNet分割方法明顯存在錯分漏分問題,分割結果圖在較多地方出現零散的預測部分,分割結果不太理想。Deeplabv3+的分割結果圖相對于其他方法明顯較為圓滑,小麥區域大面積的連在一起,不能很好地展現小麥田地棱角形狀,小麥區域的邊緣信息缺失嚴重。Deeplabv3+在用于識別建筑物等較大對象時效果較好,但用于識別冬小麥時,由于冬小麥種植區域的像素塊內細節變化不大,可供利用的信息較少,不能很好地應用于小面積的田狀、塊狀物的提取。U-Net整體效果表現較好,但依然存在部分邊緣信息缺失問題,尤其是當小麥區域較少、裸土或建筑物較多情況時,通過加入SE模塊,突出關鍵特征,使得分割結果有較明顯的改善,緩解了復雜環境條件下少分、錯分問題的發生。

表2 不同模型分類效果對比Tab.2 Comparison of classification results by using different models %

圖7 基于GF-6數據不同模型預測增村鎮小麥區域Fig.7 Prediction of wheat areas in Zengcun Town based on different models from GF-6 data

圖8 基于Sentinel-2數據不同模型預測增村鎮小麥區域Fig.8 Prediction of wheat areas in Zengcun Town based on different models from Sentinel-2 data

圖9 基于Landsat-8數據不同模型預測增村鎮小麥區域Fig.9 Prediction of wheat areas in Zengcun Town based on different models from Landsat-8 data
整體來看,本文提出的方法在基于3個不同數據訓練模型的測試效果都優于其他方法,MPA和MIoU均為最高,以Landsat-8影像模型預測的MPA、MIoU分別達到89.88%和81.44%,以Sentinel-2影像模型預測的MPA、MIoU分別達到88.38%和76.15%,以GF-6影像模型預測的MPA、MIoU分別達到86.37%和75.03%。因分辨率不同的緣故,導致Sentinel-2和GF-6的預測小麥區域會偏大,以Landsat-8標簽來計算MPA和MIoU會有所偏差,但從預測結果看,整體小麥區域位置基本沒有較大偏差,從而驗證了預測結果的真實性。
圖10為增村鎮Landsat-8整體預測圖,基于Landsat-8影像訓練數據,SE-UNet方法預測的增村鎮整體結果如圖10c所示。部分小面積小麥區域以及夾雜其他作物的地方,出現少量少分情況,但從整體效果來看,該模型表現較好。

圖10 增村鎮Landsat-8整體預測結果Fig.10 Landsat-8 overall prediction results of Zengcun Town
(1)針對傳統遙感分類方法的缺陷,采用深度學習方法進行研究,在U-Net網絡中添加注意力模塊,充分地考慮了特征的不同通道間的信息,改善小麥種植區的邊緣分割效果。
(2)利用不同分辨率的遙感影像對提取結果進行驗證,基于3種不同分辨率的預測模型測試結果均表現較好,與對比實驗方法相比,MPA、MIoU指標均為最高。其中,以正定縣各鎮的Landsat-8影像為訓練數據模型預測的MPA、MIoU分別達到89.88%和81.44%,實驗結果表明其在遙感影像小麥提取方面的可行性,但人工標注樣本始終會存在一些誤差性,后續將繼續完善數據集,并嘗試分類器模型集成學習策略,進一步提高遙感影像小麥區域提取的精度和效率,以應對更加復雜的應用場景。