魯新新,張麗,郝夢潔,阿迪力·亞森,蔣青松
(塔里木大學信息工程學院,新疆 阿拉爾 843300)
衛星遙感技術具有快速、簡便、宏觀、無損及客觀等優點,經過幾十年的快速發展,目前已經廣泛應用于農業生產領域的各個環節。作物生長狀況的及時獲得和解譯是開展現代精準農業的基礎。衛星遙感技術于農業作物信息的獲取有較為明顯的優勢[1]。
對于利用遙感圖像來對地面農業地類進行解譯,國內許多學者已經進行了數十年的研究。分類方法日趨增多,大致可以分為監督分類和非監督分類,分類精度也愈來愈高。而作為遙感農業分類研究的數據來源,遙感圖像的分辨精度也經歷了從低分辨率(NOAA AVHRR以及國產風云氣象系列)到中高分辨率(Landsat系列等)再到高分辨率(高分系列等)。近些年來衛星傳感器種類不斷增多、技術不斷迭代,如基于高光譜、多角度、微波、熱紅外遙感等更多種類且高質量的遙感數據可以為我們所用[2]。早期的低分辨率遙感圖像主要運用于大范圍的國土遙感檢測,等到中高分辨率遙感圖像出現以后,區域性的詳細地類監測以及分類才得以迅速發展起來的。李曉東等[3]以鎮賚縣為試驗區,設計了基于多時相遙感數據的農田分類提取方案。該算法的總體分類精度為94%;次年,兩位學者又在此地區利用Landsat 8遙感數據構建多維分類特征數據集對試驗區進行土地覆被分類研究,提取了11種土地利用類型。最終多維變量組合方案的總體分類精度為 95.50%[4];劉煥軍等[5]基于時間序列 Landsat 5 和Landsat 7系列遙感數據,結合實測作物產量數據,進行了棉花產量遙感預測模型研究。研究表明基于Landsat遙感數據的植被指數時序準確反映了棉花整個生長期的長勢情況;在Landsat遙感數據預處理的基礎上提取歸一化植被指數(NDVI)等5種植被指數,并通過主成分分析,劉云鵬等[6]基于最大似然、隨機森林等機器學習算法,結合小班數據,對各算法的分類效果進行精度評價;黃健熙等[7]基于GF?1 WFV影像數據,研究東北地區玉米種植面積提取算法,研究表明隨機森林較其它分類算法分類效果更好,這對東北地區作物的分類算法優選具有重要參考意義;其它針對中高分辨率遙感圖像以及相關處理指數的研究仍然不在少數[8?9],其中特別是基于 Landsat系列遙感數據的研究十分豐富[10?14]。另外近些年來,由于深度學習的興起,將深度學習算法應用于遙感數據分類提取的研究也日趨增多[15?18]。
以上學者基于各種遙感圖像數據進行了多種方向多種方法的分類研究,且都取得了一定的研究成果。但長期以來,雖然作物分類算法日益豐富,提取精度也隨著算法優化而不斷提升。但這些研究多集中于不同算法的提取精度比較或者對單個算法的優化上,對于其他維度,如作物不同生育期階段的研究較少。
棉花整個生育期從出苗開始大致可劃分為苗期、蕾期、花鈴期和吐絮期四個階段,一般認為花齡期的面積提取效果最佳,但針對阿拉爾墾區還需具體地區具體分析。另外,為了可以更靈活地在棉花整個生育期內都可以進行及時面積提取工作,本研究將從四個生育期階段出發,分別給出各個階段的最佳面積提取算法,以便更好地為棉田面積估計和產量估計服務。
綜上分析,南疆地區是棉花種植的主產區,對棉田面積提取以及相關應用有較大的需求。本研究將以南疆典型地區阿拉爾墾區為研究區,基于Landsat系列遙感圖像,從生育期和分類方法兩個角度入手,來尋求南疆棉田不同生育期階段面積提取精度的算法最優解。
研究區域位于南疆阿拉爾墾區,該地區隸屬于新疆建設兵團。范圍北至天山南麓,南至塔克拉瑪干沙漠北部邊緣,經度處在東經80°30'至81°58'范圍之內,緯度范圍為北緯40°22'至40°57'之間。東西相距約281 km,南北范圍約180 km。該地區屬于南疆典型氣候區,氣候類型為暖溫帶大陸性干旱氣候,墾區雨量稀少,冬季少雪,地表蒸發強烈,年均降水量為40.1~82.5 mm。作物以棉花為主,紅棗等水果蔬菜有少量種植。

圖1 阿拉爾墾區所處新疆區位及遙感影像
本文使用的遙感圖像主要來源于中科院所屬的地理空間數據云網站和USGS(美國地質調查局)官網的Landsat 8系列遙感圖像,該系列數據多光譜波段分辨率為30 m,全色波段分辨率為15 m,共包含11個波段(OLI陸地成像儀包含9個波段,TIRS熱紅外傳感器提供2個波段),單景掃描范圍為185 km×185 km[19]。
依據表1中阿拉爾墾區棉花生育期階段的日期劃分,本研究采用的遙感數據產生日期分別為2017年5月24號、6月10號、7月27號、9月28號。

表1 阿拉爾棉花生育期不同階段時間區間
此前已經根據南疆地區棉花四個生育期(苗期、蕾期、花鈴期和吐絮期)時間范圍下載好需要使用的遙感圖像,所有遙感圖像云量均小于10%。隨后將下載的阿拉爾地區遙感數據分別解壓,由于下載的遙感圖像產品等級為L1T(幾何精校正數據產品),需要利用ENVI 5.3進行全色和多光譜波段融合以提高分辨率(后期將與無融合的多光譜波段進行面積提取精度比較)、輻射定標和大氣校正。隨后利用已有的阿拉爾地區的shp格式邊界文件制作掩膜文件,并對已預處理圖像進行掩膜提取。
1.4.1 劃分類別
Landsat 8系列遙感圖像的6、5、4波段用于農業作物地類的分類,首先將實地對應的各種地類標注,再根據已標注的地類對其它影像區域進行目視解譯。由于主要是對棉田進行精度研究,所以對于其他作物地類直接合并為其他地類。本次共分為六大地類:棉花、其它作物、建筑物、水體、自然植被、裸地。
1.4.2 興趣點選取
每個類別共選取200個左右的興趣點,依據訓練集與測試集3:1的比例,訓練集分配150個左右,測試集分配50個左右。
為了本次興趣點的選取,已預先在阿拉爾墾區內實地采集了100多處樣本點,覆蓋了全部的地類類型。除了實地采集,也使用谷歌地球參與解譯遙感圖像,對一些地類進行目視解譯。為了使分類效果更加的準確,棉花四個生育期遙感圖像使用相同的訓練集進行訓練,相同的測試集進行精度測試??紤]到各個地類的季節變化情況有所差別(如水體的季節變化),水體的興趣點選擇在苗期,此時阿拉爾地區河流處于枯水期,為棉花整個生育期內水體范圍最小時期;自然植被同樣選擇在苗期影像來進行興趣點的選取,這樣可以保證四個生育期階段;棉花和其它作物選擇使用波段6、5、4進行組合的圖像來進行目視解譯,此波段組合適合用來分類植被作物;裸地在花鈴期遙感影像上來選取,此時自然植被、作物進入旺盛期,水體范圍接近全年極大值,進行裸地的分類不會出現標記的興趣點在其它時期出現類別錯誤的問題。表2給出了訓練樣本的可分離度。

表2 訓練樣本可分離度
表2數據表明,興趣點樣本的可分離度范圍在0至2之間,一般大于1.9時可認為樣本較好,小于1.8時則需要對部分樣本點點進行重新選擇。由表1可知,每個類別之間的可分離度均大于1.8,且大多數大于1.9,這表明選取的訓練樣本之間可分離度較好,可以用于本研究使用的遙感圖像的分類訓練。
在面積提取算法選擇方面,由于根據已有的研究,單純使用非監督分類方法效果不佳[19],所以本次分類研究只選取了四種較為常用的監督分類算法,即:隨機森林、最大似然、人工神經網絡和支持向量機。
總體精度:指被正確分類的類別像元數與總類別個數的比值。
生產者精度:是指被正確分類的類別像元數與該類別真實參考總數的比率[20]。
用戶精度:是指被分類器正確分到A類的影像像素總數與全部被分為A類的像元總數比率[20]。
提取面積絕對誤差比:是指將分類后的棉田像素總量提取出來轉化為公頃數,與實際棉田面積做差,兩者之差與實際棉田面積之比的絕對值。
不少文獻對landsat 8本身的15 m全色波段融合多光譜以進行分類精度對比的研究表明,在棉花全生育期內,融合后精度較融合前精度都有顯著提高。下面就苗期(5月24號)分別利用最大似然及神經網絡對融合前后的精度作簡單驗證。表3為兩種類型的多光譜遙感數據的精度對比(面積單位為hm2):

表3 融合多波段與普通多波段精度對比
通過表3中兩類多光譜遙感圖像棉田面積提取精度的對比,可以看出兩者都存在其他地類被錯分為棉田的現象。融合成的15 m分辨率影像,最大似然和神經網絡兩種算法的面積提取絕對誤差比分別為0.56%和10.99%,被錯分的面積相對比較少。作為對比,普通多波段的面積提取絕對誤差比為31.62%和10.14%,被錯分為棉田的面積較多,相較融合多光譜的誤差精度有大幅度降低,尤其是采用最大似然算法。因此,綜合表3中精度比較結果,對于使用的其它遙感影像都將進行融合圖像處理。
基于Landsat 8融合多光譜遙感影像基礎上,運用各個分類算法對遙感數據進行分類,其中神經網絡的調節參數為訓練步長/訓練次數;隨機森林的調節參數為決策樹數量。根據兵團農業統計年鑒的數據,可知2017年阿拉爾地區棉花種植面積為1.007×105hm2,提取各個分類算法結果中的棉田像素并換算為種植公頃數,與實際值進行對比,來選取最佳面積提取算法。圖2是以苗期為例,展示了各個分類器的棉田提取效果。

圖2 苗期各類算法提取棉田分布比較及最佳分類器分類細節
從圖中可以較為直觀地對比出苗期各個算法的棉田分類結果在研究區空間維度的差異。而且就研究區中北部提取細節來看,其它分類器提取效果較差,有較多的地類被錯分為棉田,最大似然的提取效果最佳,棉田分布對比實地考察分布狀況較為符合。
從圖3中顯示的面積誤差比數據來看,苗期分類算法結果與實際誤差最小的算法是最大似然分類,提取面積為100 095.052 hm2,誤差比為0.56%;在神經網絡算法方面,訓練迭代次數處于1 000時,面積誤差相對較小,學習率為0.2時,達到了神經網絡參數調節的面積誤差最小值,即10.99%;另外,隨機森林對決策樹數量的調整不太敏感,隨著數量的提升,誤差有微小的降低,在200時最低為18.07%。故此,在苗期使用最大似然分類來提取棉田面積效果最佳。

圖3 棉田生育期各階段算法面積提取絕對誤差比匯總
從上面的蕾期誤差精度結果表來看,對比各個算法以及其調節參數的精度結果,最大似然分類算法的誤差比精度結果最好,其誤差比為5.75%,而且其訓練速度最快,但相較苗期的面積提取誤差比有明顯提升;在神經網絡方面,隨著訓練次數的增加,神經網絡存在明顯的過擬合現象,且對比苗期的提取精度誤差更高,在學習率為0.2,迭代次數為1 000時取得了誤差比的最小值18.23%;隨機森林方面,參數調節依然不明顯,最好誤差比為30.32%;綜上,在棉花蕾期最佳的面積提取算法仍以最大似然為最優。
就蕾期而言,神經網絡算法最優的面積提取精度誤差比達到了6.54%,且總體精度較苗期及蕾期有較大的提升;隨機森林對參數調節仍不太敏感,最佳誤差比(決策樹數:100)為16.26%;最大似然分類誤差比為9.37%;支持向量機誤差比13.06%。故花鈴期最優面提取算法為神經網絡(學習率/迭代次數:0.1/500),誤差比為6.54%。
比較吐絮期的面積提取算法誤差比精度,神經網絡算法方面,在學習率為0.3,迭代次數為1 000時取得了最佳面積提取結果,誤差比為18.37%;隨機森林對參數調節敏感性較差,最佳誤差比為21.77%,決策樹數量為100;最大似然和支持向量機面積提取誤差比分別為8.97%和22.16%。故此,在棉花吐絮期進行棉田面積提取算法的選擇時應優先選取最大似然分類。
以上分別就各個生育期棉田面積最佳提取算法進行了討論,如考慮對全生育期精度進行比較,以選取生育期內最佳算法,基于四個生育期的最高精度,應選取苗期的最大似然為最佳,其誤差比為0.56%。究其原因,苗期的棉田與其它作物的發育狀態差異較大,且自然植被也尚未進入旺盛期,對棉田面積提取的影響也較小。
對阿拉爾墾區棉花不同生育期階段的Landsat影像進行預處理,而后利用最大似然、神經網絡、支持向量機以及隨機森林四種算法及相應參數調節進行分類,提取棉田面積并進行精度對比,得出如下結論:在阿拉爾棉花苗期和蕾期進行棉田面積提取時使用最大似然分類為最佳提取算法;花鈴期使用神經網絡(速率/迭代次數:0.1/500)為最佳提取算法;吐絮期棉田最佳面積提取算法則為最大似然。隨機森林中決策樹數對面積提取精度影響不太敏感;支持向量機的精度結果表現不佳,相較最大似然和神經網絡的最佳提取誤差比,在四個生育期階段誤差比都相對較高。
在算法的選擇方面,受限于計算硬件,本研究中使用的仍是在遙感領域使用較多的機器學習分類算法,如最大似然和支持向量機等,這些算法主要基于像元進行分類,對于其他潛在特征無法充分利用。對于近幾年出現的基于卷積網絡的新興分類算法(FCN、SegNet和DeepLab等)沒有進行對比研究,雖然對于這些算法的分類精度目前尚不明朗,但近幾年該領域的研究十分活躍,相信未來該方向研究將更加深入。
在遙感影像的特征利用方面,利用影像紋理和各種植被指數來輔助進行分類以實現更精確的分類精度,但考慮到Landsat系列遙感圖像為中等分辨率影像(融合后影像分辨率為15 m,仍屬中等分辨率),對象紋理不夠清晰,紋理細節利用效果可能不佳,精度提升不明顯。另外,由于時間倉促及硬件局限,植被指數(如NDVI)未作為精度提取的手段。通過對目前大量遙感領域學者研究重點和高質量文獻研究內容的分析,利用這些植被指數輔助遙感圖像分類及面積提取將是遙感領域的一個重要方向。