羅 桓,李衛國,景元書,徐向華,陳 華
(1.南京信息工程大學應用氣象學院,江蘇南京 210044;2.江蘇省農業科學院農業信息研究所,江蘇南京 210014)
農作物種植面積和空間分布等信息的準確獲取,對農業部門進行長勢監測和產量估測有重要支撐作用,農作物種植面積精確提取一直是農業遙感學術界研究熱門的問題[1-3]。基于遙感的農作物種植面積計算機自動分類[4]提取主要有兩種方法:非監督分類與監督分類[5]。非監督分類是先利用遙感影像中像元光譜特性的相關和相似性進行分類,再使用地物類型經驗知識來對各類別進行確定的分類方法。非監督分類的分類速度快,但耗費的人力多,又由于同物異普譜、異物同譜現象存在,常使地物類別與實際地物類別的分類結果產生較大的誤差。監督分類是利用訓練樣本結合智能分類器進行分類,由于訓練樣本是結合實地考察進行選取,可確保其分類結果與實際結果有較高的吻合程度,較好地減少非監督分類的誤差[5]。在進行監督分類時,由于影像中地物種類較多,選取的訓練樣本數量不足,有時無法囊括所有的地物種類(稱為小樣本問題),也會出現一定程度的錯分或漏分。傳統的監督分類方法如最大似然法、最小距離法,對大數據樣本的依賴性很強,在使用小樣本數據分類時,會因為本身算法不穩定,出現錯分現象[6]。支持向量機(support vector machine,SVM)作為近年來監督分類方法中一種新的智能學習分類方法,在樣本信息有限時,依靠其本身的穩定性、學習能力和泛化能力,能夠保證分類分割面為最優分割面,可大大減少小樣本和分類器過學習等問題[6]。如Zhu等[7]研究表明,SVM分類法在處理衛星遙感數據時,分類精度較高,分類速度較快。Foody等[8]研究認為,SVM分類在面對小樣本數據時,其處理效果相當良好。董金芳等[9]利用SVM支持向量機法來對濕地進行遙感提取,精度達到98.76%。李夢穎[10]利用SVM支持向量機來對Landsat-8影像進行森林類型的識別分析,可較好地對闊葉林、針葉林、針闊混交林進行識別,分類精度達到 89.58%。馬鵬鵬[11]利用SVM分類對小樣本的水稻害蟲進行分類,有效識別了水稻害蟲。
冬小麥作為是我國江淮地區的主要糧食作物,其種植信息的準確、快速獲取對縣級農業部門制定生產管理措施有重要意義。目前通過遙感手段提取冬小麥種植面積的方法頗多,而有關使用SVM法對冬小麥種植面積提取的研究較少。本研究借鑒前人在農作物面積提取的研究方法[12-14,21],以江蘇省鹽城市大豐區為研究區域,通過計算影像的最佳波段指數,基于試驗樣方內訓練樣本,使用SVM分類法,采用不同的核函數進行影像分類,尋求最優分類核函數,并用最優核函數進行SVM分類,以實現冬小麥識別和種植面積的提取,在以期為江淮麥區縣域冬小麥種植面積的精確提取提供方法參考。
研究區域選擇在位于江蘇省東部的鹽城市大豐區(120°13′~120°56′E,32°56′~33°36′N),屬于北亞熱帶季風氣候區,年平均氣溫15 ℃,常年降水量1 058 mm,日照2 255 h。大豐總耕地面積占江蘇省各區縣之首,人均耕地面積0.12 hm2,且每年經開發灘涂能新增耕地約2 667~3 333 hm2。冬小麥、水稻都屬于當地的主要糧食作物。
遙感影像數據采用Landsat-8衛星影像數據,下載自USGS。Landsat-8衛星于2013年發射,搭載OLI陸地成像儀,在全球農、林、畜牧業等方面有著廣泛的應用。Landsat-8衛星影像共包含9個波段,其影像多光譜波段30 m×30 m空間分辨率,全色波段15 m×15 m空間分辨率,影像成像寬幅185 km×185 km。對影像前7個波段和全色波段使用GS光譜銳化方法(gram-schmidt spectral sharpening)進行影像融合,得到空間分辨率為15 m×15 m的融合影像。融合影像波段信息如表1所示。
選用2018年4月28日衛星影像。當日衛星過境時,大豐區天氣晴朗、無云,冬小麥正處于揚花期,油菜處于蕾苔期,樹木等植被處于返青期。
在Envi5.1軟件中對遙感影像進行輻射定標和FLASHH大氣校正,得到真實地物反射率。在Envi4.7中使用Image to Image幾何校正法進行幾何校正[15]。采用已擁有的帶有投影坐標的江蘇省影像作為幾何校正參考影像,使用多項式幾何校正模型,利用經過實地GPS定位的地面控制點進行校正,將校正精度維持在0.5個像元內。然后利用大豐區行政規劃矢量文件進行裁剪,得到大豐區遙感影像。

表1 Landsat-8衛星融合影像波段信息Table 1 Iimage band information from Landsat-8 satellite
最佳波段指數(OIF)由美國查維茨提出,通過綜合考慮各波段所包含的信息量和各波段之間相關性,進行最佳波段選擇,保留主要的波段信息,使影像所呈現的信息量最大,從而在分類時進一步增加影像的分類精度[16]。其計算公式為:
(1)
式(1)中Si為第i個波段的標準差,Rij為i、j兩波段的相關系數。計算結果Band5近紅外波段(0.525~0.600 μm)、Band4紅波段(0. 630~0.680 μm)、Band3綠波段(0.845~0.885 μm)三個波段組合(5-4-3波段)的OIF指數最大,因此選取此組合波段進行遙感影像顯示。
支持向量機(support vector machine,SVM)由Vapnik提出,為近幾年應用前景較好的一種新興的統計學機器分類法。其核心思想是對于線性可分的數據,通過尋找最優分隔面來對數據進行分隔,能夠最大程度地將待分樣本分隔,且保證分隔距離最大。而對于非線性可分數據時,基于線性可分思想,將原始數據映射致高維線性空間之中,在高維空間中尋找最優分隔面,使各樣本之間的離散程度最大[17]。支持向量機能夠很好地解決小樣本、非線性、高維數等問題,具有很強的泛化能力[18]。
通過解SVM的基本數學公式得出最優分類函數:
(2)

線性核函數(Linear):K(xi,xj)=(xi·xj)
(3)
多項式函數(Polynomial):K(xi,xj) = (γ(xi·xj) +r)d,γ> 0
(4)

(5)
Sigmoid 核函數:K(xi,xj) = tanh[γ(xi·yj) +r],γ> 0
(6)
式(4)中γ為Gamma系數,d為多項式系數,r分別為徑向基和Sigmoid 核函數里的偏移值
試驗樣方主要用于地物樣本的確立。使用Juno SB(美國)GPS接收機進行樣方的建立及其內部不同地物信息的采集,在大豐區共建立20個大小近似400 m×400 m試驗樣方,樣方間距大于3 km,隨機分布,樣方內包含冬小麥、樹木、其他植被(油菜、蔬菜等)、建筑、水體等地物信息,試驗樣方在大豐的分布如圖1a所示。圖1b為大豐區大中農場附近采集的一個樣方信息。隨后利用試驗樣方,進行樣本的選取,在20個試驗樣方內選取其中的12個樣方作為監督分類訓練樣本,剩余8個樣方作為后期精度驗證樣本。為檢驗SVM分類使用樣本數據時的分類效果,依據地物樣方分布圖(圖1b)確定冬小麥、樹木、建筑(包括房屋、道路)、其他植被(包括油菜、蔬菜)、水體(包括湖泊、魚塘、河流)5類地物類型。樣本選取結果如表2所示。
采用支持向量機法、最大似然法和最小距離法三種監督分類方法,對相同訓練樣本分別進行冬小麥種植面積提取。最大似然法為通過求取每個像元與相應的歸屬類別之間的最大概率,對像元進行分類的方法[20]。最小距離法為通過求取未知類別向量與已知類別樣本向量中心點的距離,將非樣本像元歸屬到距離最短那一類別中的分類方法[21]。

圖1 大豐區GPS采集樣方點分布(a)和樣方信息(b)

表2 訓練樣本和驗證樣本Table 2 Training and testing samples
基于樣本選取的結果,使用Envi5.1軟件中的ROI可分離性(computer ROI separability)工具來計算各種類間的可分離性。根據參考文獻,樣本分離性定義為計算兩類別間最小錯誤機率等價的最大機率距離量。樣本間可分離性值應處于1.8以上。當可分離性過小時,應當重新選取樣本或將樣本合并處理[20]。由表3可知,選取的五類地物樣本的可分離性值均在1.9以上,樣本可分離性較好。其中,冬小麥與建筑,冬小麥與水體,其他植被與水體的可分離性值均達到2.0。

表3 不同類型地物特征分離度Table 3 Divergence of different features
對SVM中的4種核函數分類結果進行比較,選取分類效果最好的核函數。使用Envi5.1監督分類工具箱中的SVM,根據表4進行四種核函數的參數設置,基于最佳組合波段(5-4-3波段)的大豐區域遙感影像,結合訓練樣本進行SVM分類,生成分類影像。在生成的分類影像當中剪取具有代表性的影像區域,結果如圖2所示。

表4 不同類型核函數名稱及參數Table 4 Name and parameters of kernel function
從分類結果來看,4種核函數分類得到的地物種類空間分布基本一致。Linear線性(圖2a)、Polynomial多項式(圖2b)和Sigmoid(圖2c)核函數對冬小麥、水體、建筑的分類效果良好,RBF徑向基(圖2d)核函數的分類結果中存在少量冬小麥和其他植被錯分的現象。通過與圖1b樣方信息進行比較,總體來看,4種核函數方法能夠較好地將冬小麥從影像中提取出。使用檢驗樣本建立混淆矩陣,得到4種核函數的分類精度(表5),且均達到95%以上,其中Linear線性核函數(圖2a)的總分類精度和Kappa系數均為最高,分別達到 98.56%和0.980 9。因此,選用線性Linear核函數為SVM的最優分類核函數。
根據上述結果,選取Linear線性核函數進行SVM分類,利用最佳波段組合(5-4-3波段)的大豐區遙感影像進行冬小麥種植面積提取,并與最大似然法、最小距離法的提取結果進行比較,結果(圖3)表明,SVM分類法對大豐區冬小麥進行了充分提取,最大似然法和最小距離法提取的冬小麥較為稀疏,存在冬小麥錯分漏分情況,最小距離法提取效果最差。大豐區北部的三龍鎮、方強鎮、上海農場,西部的劉莊鎮、西團鎮,南部的小海鎮、大橋鎮等鄉鎮的冬小麥種植較多,且這些地區還存在油菜、蔬菜、樹木、人工綠地等植被。在上述地區,SVM分類法對冬小麥提取的優勢明顯,可見冬小麥田、道路的輪廓較為清晰,提取效果較好。而最大似然法和最小距離法在缺少大量樣本的支持下,分類器算法對于本試驗樣本的適應性較差,出現冬小麥錯分漏分,導致對大豐東北部和南部冬小麥種植面積的提取效果較差。對于大中農場和華豐農場,SVM和最大似然法的冬小麥提取結果相差不大,最小距離法提取效果稍差,這主要是因為該地區為作物類型較單一,多為冬小麥,因此三種方法都能夠對冬小麥較好地提取。從SVM提取結果來看,冬小麥主要分布于大豐的北部、西南和東南地區。其中,北部地區的三龍鎮、方強鎮種植面積較多。西南地區劉莊鎮、西團鎮、小海鎮、白駒鎮、草堰鎮等種植面積較大。東南地區大中農場、華豐農場、大橋鎮、草廟鎮等種植面積較大。對于冬小麥種植面積大的地區,應加大農業管理資金投入,建設高效的農業生產管理基地,能夠方便冬小麥加工生產的統一化管理。而大豐中部新豐鎮、南陽鎮、裕華鎮等地區冬小麥種植較為少,分布稀疏,主要是與這些地區城鎮房屋、工業企業較集中有關。

a:線性 Linear;b:多項式 Polynomial;c:Sigmoid;d:徑向基 RBF

表5 4種核函數分類精度Table 5 Classification accuracy of four kinds of kernel functions
使用Arcgis軟件對SVM、最大似然法、最小距離法提取的冬小麥種植面積進行統計,根據當地農業部門提供的2018年冬小麥實際種植面積78 720 hm2,計算冬小麥種植面積提取精度。利用檢驗樣本建立混淆矩陣,檢驗分類精度。結果(表6)表明,SVM所提取的冬小麥種植面積為 71 834.6 hm2,種植面積精度較高,達到 91.25%,比最大似然法和最小距離法分別提高 20.88%和50.86%。同樣,SVM的分類精度和Kappa系數較高,分別達到98.55%和0.98,比最大似然法分別提高16.74%和0.15,比最小距離法分別提高24.35%和0.20。可見使用線性作為SVM核函數在處理樣本數據時,其本身分類算法的學習和泛化能力較強,分類精度和冬小麥面積提取精度要好于傳統的監督分類方法,能夠滿足農業部門的農作物監測需求。

圖3 大豐區冬小麥種植面積分布

表6 分類精度評價Table 6 Classification accuracy evaluation
目前,關于農作物種植面積的提取方法的研究存在很多。監督分類作為遙感分類方法中的主要方法之一,應用廣泛[5]。在使用監督分類法時,樣本和監督分類器是監督分類中最主要的兩個部分[19]。本研究對采用江蘇大豐區經過處理的 15 m×15 m分辨率Landsat-8影像,在所建立的20個試驗樣方內進行樣本選取,既保證了影像的分辨率,又確保了樣本的準確性。結合使用新興的智能分類器SVM分類法,最終得到的分類精度和冬小麥提取精度均較高。該方法為江淮區域縣域的冬小麥種植面積提取提供技術支持,也為當地的冬小麥進一步的監測指導提供條件。
運用SVM分類方法最終提取的冬小麥種植面積為71 834.5 hm2,提取精度達到了91.25%,但是仍然有部分冬小麥像元錯分漏分。這可能是由于在使用SVM進行分類時,僅采用了影像的光譜特征,對于同物異譜、異物同譜現象仍然無法較好解決。要想更好地解決此問題,下一步可以通過將地物光譜特征與紋理特征相結合進行分類[19]。其次,冬小麥真實種植面積因條件限制無法進行精確統計,而當地農業部門所提供的種植面積數據也會存在誤差,如何更好地消除這些誤差也是今后值得關注的問題。最后,影像的分辨率也會對分類結果造成影響。由于影像分辨率過低,會造成一個像元中包括多類地物。影像分辨率越高,影像像元也能夠更好地代表相應的地物,因此采用更高分辨率的影像也將會是接下來研究的主要內容[22]。