陳西亮+張佳華+艾天成



摘要:棉蚜是棉花的主要害蟲之一,目前主要通過田間調查的方式進行測報。將262個調查點的棉蚜危害數據平均分成測試集和驗證集,用3種方法進行支持向量機分類器參數優化,結果表明粒子群算法效果最好,精度達到了82.035 9%,最優參數c=5.435 4、g=15.023 3。用該參數構建分類模型來識別樣點數據空間插值后區域內的蚜蟲危害,最后結合TM數據提取的棉田分布得出了江漢平原三湖農場棉蚜危害程度的空間分布,取得了很好的效果,對以后的作物蟲害研究工作具有很好的指導意義。
關鍵詞:棉蚜;支持向量機;粒子群算法;江漢平原;空間分布
中圖分類號: S127;S435.622+.1 文獻標志碼: A
文章編號:1002-1302(2016)09-0157-06
棉花是人們重要的生活資料。目前,棉花不僅僅是我國主要的紡織原料,也是醫學、化學以及國防工業的重要原料。因此,棉花生產和糧食生產一樣在國民經濟中占有重要地位,然而我國棉區遼闊,自然條件千差萬別,耕作制度復雜,引發的棉蟲種類也越來越多。棉蚜作為最主要的害蟲之一,不僅造成了棉花減產,同時也嚴重危害棉花的品質,從而造成經濟上的巨大虧損。棉蚜大數量高密度的繁殖現狀除了與自身性質有關外,還受溫度、濕度、土壤養分等多種環境因素的影響。因此,為了有效控制棉蚜的危害,及時、準確、大面積監測和預測未知區域棉蚜的發生情況是有效展開防治工作的前提,同時對避免棉蚜危害造成棉花減產有重要的作用。傳統的棉蚜危害監測預報方法采用田間定點調查或隨機調查的方式,借助放大鏡、顯微鏡等工具或直接用肉眼判別棉蚜并統計數量,這種方法雖然直觀、簡便,但需要投入大量的人力和物力、效率低下,并且調查點有限,不能反映整個空間的分布。遙感技術和地面數據的結合正好能彌補這一缺陷,能有效地實現大面積作物病蟲害的監測。在國外,Muhammad等利用衛星影像分析了小麥條銹病的空間影像特征,將其從正常生長的區域分開來,實現了小麥病害的識別[1]。Mirik等對俄國麥蚜脅迫下的冬小麥冠層光譜反射特征進行了分析,提出了蚜蟲的準確估測還需依靠相應的光譜指數[2]。我國學者盧小燕在棉花蚜蟲危害主要生育期測試不同危害程度棉葉的光譜,經過分析指出434~727 nm可作為棉葉蚜蟲的敏感波段,648 nm 可作為棉葉蚜蟲的最佳波段[3]。郭永旺等對衛星遙感與四波段野外輻射計在麥蚜災害監測中的使用情況進行了研究比較,結果表明四波段野外輻射計有很好的實用性[4]。
從國內外已有的研究情況來看,應用遙感手段研究作物病蟲害主要有水稻二化螟、三化螟、稻飛虱、小麥蚜蟲、東亞飛蝗以及地下害蟲等。害蟲侵害作物后,植被的生理或生化組分發生變化,直接表現出來的現象就是光譜發生變化,從而可以直接觀測作物的光譜變化來分析病蟲害情況。通過棉蚜危害及其環境因子的間接反演病蟲害的研究并不多見,因此利用遙感數據和地面數據結合來間接反演棉蚜危害的方法具有很大的研究潛力。本研究利用地面測量數據和遙感數據結合來實現對湖北省三湖農場2004年棉蚜危害程度空間分布的反演,從而為更大地區棉蚜災害空間反演提供了可靠的理論依據。
1 研究區與數據源介紹
1.1 研究區概況
三湖農場,位于江漢平原四湖地區湖北省江陵縣境內,始建于1960年9月,國土面積61 km2,其中耕地33.33 km2、林地11.33 km2、精養魚池1.33 km2,總人口1.5萬人,轄3個生產大隊26個生產小組,是湖北省農業現代化首批試點單位和棉花產業化示范樣板建設單位,是國家確定的長江流域優質專用棉生產基地。
該地區屬北亞熱帶季風濕潤氣候區,具有四季分明、熱量豐富、光照適宜、雨水充沛、雨熱同季、無霜期長等特點。全年日照時數1 827~1 897 h、平均氣溫16~16.4 ℃、無霜期246~262 d、平均降水量900~1 100 mm,得天獨厚的自然環境和氣候為棉花生長提供了充足條件。
1.2 棉花生育期和棉蚜生活習性介紹
三湖農場地區棉花一般在4月中下旬育苗,5月出苗移栽,6月中下旬至7月初現蕾開花,7月末至8月初裂鈴吐絮,9月裂鈴吐絮收獲,10月末至11月拔稈[5]。根據棉花的生長過程、棉蚜發生時期的不同可將棉蚜分為苗蚜和伏蚜。苗蚜發生在出苗到現蕾以前,個體大,深綠色,適宜偏低溫度,氣溫超過27 ℃時繁殖受到抑制,蟲口迅速下降;伏蚜主要發生在7月中下旬到8月份,伏蚜即夏型蚜,黃綠色,體型小,適宜偏高的溫度,在17~28 ℃下大量繁殖,當平均氣溫高于30 ℃時,蟲口才迅速減退。棉蚜1年發生10~30代,具有繁殖速度快、適應性強、種群數量大、群聚性等特性。在適合的溫度條件下,經過4、5 d就可以發育為成蟲,成蟲進行孤雌生殖,且繁殖量大,在適合的溫度下1 d就可以產10多頭,在植物旺盛生長季節、溫度15~30 ℃條件下最適合蚜蟲生長發育。
1.3 數據源介紹
本研究所使用的數據包括地面實測數據和遙感數據。地面數據收集是指各個地面樣點一系列數據的收集,地面實測數據是2004年長江大學農學院的艾天成教授對三湖農場3 804 hm2 土地的262個土樣進行的養分普查數據,包括經緯度坐標、速效氮、速效磷、速效鉀和有機質的含量,2004年8月進行的蟲害調查數據。樣點的NDVI數據和溫度數據是長江大學農學院熊勤學教授用相應時相的MOD13Q1植被指數產品和MOD11標準地表溫度產品提取的,另外還結合MODIS數據用SEBAL(the surface energy balance algorithm for land)模型計算出研究區域地面蒸散,并提取樣點的蒸散量,蒸散值的大小可以反映出棉田的相對濕度。還用了TM數據提取三湖地區棉花種植區域,由于缺乏2004年8月份有效的TM數據,并且TM數據僅僅用來提取棉花的種植范圍,可以認為一個地區相鄰的年份耕作制度不會有很大的變動,最終選用了2003年9月2日的一景覆蓋三湖農場的TM數據。
1.4 數據預處理
1.4.1 調查點數據的空間插值 將調查點數據導入到ArcGIS中加上UTM投影用克里金插值法插值結果見圖2至圖9。
從圖2可以看出2004年8月份三湖區棉田的溫度情況:
整個三湖區的溫度都穩定在28.5 ℃左右,最低溫度在27.8 ℃ 左右,整體溫度差異不大,這可能是因為研究區內水塘多,水體蒸發順勢帶走部分熱量使溫度較周邊低,或是研究區內土壤含水量高,水的熱容量和熱導率較土高,每升高1 ℃ 需要吸收的熱量多,因此不宜升溫。從圖5中能夠清楚地發現調查區速效鉀的分布狀況:在調查區的西部、中部和南部土壤速效鉀的含量都不高,中部有些地區甚至只有50 mg/kg 左右,但在調查區最北部、東北部至東部都有明顯的差異,含量較高。從圖7可以看出調查區蒸散量的空間特征:圖中一片深黃色平展開來,反映出了該區域水汽蒸發較均勻,蒸散量是運用SEBALA模型計算出來的,它與土地凈輻射通量、土壤熱通量、輻射條件等都有密切的關系。NDVI是應用最為廣泛的用于指示植被生長狀態和植被覆蓋度的因子,從圖8可以看出調查區植被生長的優劣,大部分地區植被覆蓋度不高,而在調查區的西北部少部分地區作物覆蓋度極好。圖9反映了調查區的棉蚜危害程度空間分布特征:可以看出在調查區的中部、東部、南部大部分地區的棉蚜危害程度較輕,在調查區的東北部及西南部地區危害程度比較重,蚜蟲密度可高達1 000頭/株。
1.4.2 數據歸一化處理和重采樣 數據歸一化處理是數據挖掘的一項基礎工作,不同評價指標往往具有不同的量綱和量綱單位,這樣的情況會影響到數據分析的結果[6]。為了消除指標間的量綱影響,需要進行數據歸一化處理,以解決數據間的可比性。原始數據經過數據標準化處理后,各指標處于同一數量級,適合進行綜合對比評價。由插值數據可以看出各種數據的分布范圍極不均勻,并且單位也不一樣。速效氮和速效鉀的值比較大,分布范圍也大,其他數據分布范圍較小,因此要進行歸一化處理。本研究用min-max標準化,使結果值映射到0和1之間。轉換函數如下:
式中:xmax為樣本數據的最大值,xmin為樣本數據的最小值,x為原始數據的值,x*為歸一化后的值。本研究的調查點數據直接導入到Matlab中編程歸一化,插值數據導入到ENVI中用波段運算代入上式歸一化,為了保證插值數據和TM數據匹配,將插值數據的分辨率重采樣到30 m,投影也保持一致,最后將數據處理成Matlab可以識別的格式,并將樣點數據平均分成2組,一組作為測試集,另一組作為驗證集,代入進行參數優化。
1.4.3 棉蚜危害程度分級 參考前人的研究[7],根據蚜蟲密度將棉蚜危害程度分為4類:把蚜蟲密度<200頭/株的點認定為危害程度輕,200~<500頭/株的點認定為危害程度中,500~800頭/株的點認定為危害程度較重,>800頭/株的點認定為危害程度重。
2 研究方法
本研究將數據預處理后借助于Matlab的支持向量機加強版工具箱,用調查點數據進行支持向量機的參數最優化,然后用最優參數建立支持向量機模型,將插值的7個影響因子數據代入進行支持向量機分成輕、中、較重、嚴重4類。同時提取TM數據的NDVI,經分析NDVI值大于0.35的像元為棉田,因此以NDVI>0.35為閾值建立掩膜,將分類結果乘以掩膜數據就得到了三湖農場棉蚜危害程度的空間分布,掩膜外為建筑物和水體。
2.1 支持向量機分類法
支持向量機是由Vapnik首先提出的,可用于模式分類和非線性回歸。支持向量機的主要思想是建立一個分類超平面作為決策曲面,使得正例和反例之間的隔離邊緣被最大化。支持向量機的理論基礎是統計學習理論,更準確地說,支持向量機是結構風險最小化的近似實現。
2.1.1 線性可分情形 SVM算法是從線性可分情況下的最優分類面提出的。所謂最優分類面就是不僅能將2類樣本點無錯誤地分開,而且要使分類間隔最大[7]。
2.1.2 非線性可分情形 在實際應用中,通常數據在輸入空間并不是線性可分的,然而如果原始數據通過非線性映射(x) 可以被映射到高維特征空間,從而可以在新空間中定義1個超平面[8-9]。對于支持向量機的對偶和原始表示,決策函數為測試樣本和訓練樣本之間的內積組合形式。可以表示成:
式(4)只包含待分類樣本與訓練樣本中支持向量的內機運算,計算的復雜度并沒有增加,可見通過核函數映射是解決支持向量機線性不可分問題的一種很好的方案。常用的核函數有:線性核函數、多項式核函數、徑向基核函數和兩層感知器核函數,還可以自定義核函數。選用不同的核函數可能會導致分類或回歸的效果不一樣,本研究選用徑向基核函數,表達式如下:
由以上討論可知要使用Matlab的支持向量機工具箱完成棉蚜危害識別,就要確定訓練樣本的懲罰參數c和核函數參數g,不同的c和g分類精度是不同的。為了找到適合本研究的最佳支持向量機模型參數,在后面的研究中使用了網格搜索法、遺傳算法和粒子群算法進行參數優化。
2.2 支持向量機分類模型參數尋優
2.1.1 網格搜索法參數尋優 交叉驗證是用來驗證分類器性能的一種統計方法,基本思想是把原始數據進行分組,一部分作為訓練集樣本,另一部分作為驗證集。用訓練集對分類器進行訓練得到分類模型,再用模型來識別驗證集,將得到的分類精度作為分類器的性能指標[10-12]。通常都是用K-fold CV將原始數據分成K組,將每個子集分別做1次驗證,其余K-1組數據作為訓練集,這樣就得到K個分類模型,用這K個模型最終驗證集分類準確率的平均數作為分類器的性能指標,K一般取大于2的值。網格搜索法的基本原理是讓c和g在一定范圍內劃分網格并遍歷網格內所有點進行取值,對于一組取定的c和g值,利用K-fold CV方法在此參數下驗證分類的準確率,最終得到的分類精度最高的那組c和g作為分類的最優參數[13-14]。本研究中c和g的的取值范圍為[2-8,28],K取默認值5,c和g的步距設為0.5,利用Matlab支持向量機工具箱的SVMcgForClass函數進行網格搜索法參數尋優。
2.1.2 粒子群算法參數尋優 粒子群算法(PSO)由Kennedy和Eberhart在1995年提出,該算法模擬鳥群飛行覓食行為,鳥類捕食時每只鳥找到食物最簡單有效的方法是追隨當前距離食物最近的鳥周圍的區域。PSO是從這種生物種群行為特征中得到啟發并用于求解最優化問題的,算法中每個粒子都代表問題的1個潛在解,每個粒子對應著1個有適應度函數決定的適應度值。粒子的速度決定了粒子移動的方向和距離,速度隨自身及其他粒子的移動經驗進行動態調整,從而實現可解空間中的尋優[15-16]。本研究中的適應度值就是交叉驗證分類的準確率。
假設在一個D維的搜索空間中,由n個粒子組成的種群X=(X1,X2,…,Xn),其中第i個粒子表示為一個D維的向量Xi=(Xi1,Xi2,…,Xin)T,代表第i個粒子在D維搜索空間中的位置。根據目標函數即可計算出每個粒子位置xi對應的適應度值。第i個粒子的速度為vi=(vi1,vi2,…,vin)T,其個體極值為Pi=(Pi1,Pi2,…,Pin)T,種群的全局極值為Pg=(Pg1,Pg2,…,Pgn)。在每一次迭代過程中,粒子通過個體極值和全局極值更新自身的速度和位置,更新公式為:
式中:w為慣性因子,調節對解空間的搜索范圍。r1和r2是2個隨機數,取值范圍是(0,1),c1和c2是學習因子,經驗取值c1=c2=2,調節學習最大步長。
粒子群算法優化初始值進化代數設置為100,種群數量為20,c和g的范圍為[0,100],粒子和速度初始化對初始粒子位置和粒子速度賦予隨機值。初始化參數設置好后代入psoSVMcgForClass函數進行支持向量機分類器參數優化。
2.1.3 遺傳算法參數尋優 遺傳算法(GA)是模擬達爾文生物進化論的自然選擇和遺傳學機理的生物進化過程的計算模型,是一種模擬自然進化過程搜索最優解的方法,是由美國Michigan大學的Holland教授提出的。遺傳算法模擬了自然選擇和遺傳中發生的復制、交叉和變異等現象,從任一初始群體出發,通過隨機選擇、交叉和變異操作,產生一群更適應環境的個體,使群體進化到搜索空間中越來越好的區域,這樣一代一代地不斷繁衍進化,最后收斂到一群最適應環境的個體,求得問題的最優解[17-19]。
遺傳算法是從代表問題可能潛在的解集的一個種群開始的,而一個種群則由經過基因編碼的一定數目的個體組成,因此,第一步需要實現從表現型到基因型的映射,即編碼工作。初代種群產生后,按照適者生存和優勝劣汰的原理,逐代演化產生出越來越好的近似解。在每一代,根據問題域中適應度的大小選擇個體,并借助自然遺傳學的遺傳算子進行組合交叉和變異,產生出代表新的解集的種群。這個過程將導致種群像自然進化一樣,子代種群比父代種群更加適應環境,末代種群中最優個體經過解碼可作為問題近似的最優解。
遺傳算法有3個基本操作:選擇、交叉和變異。選擇的目的是為了從當前群體中選出優良的個體,使它們有機會作為父代繁衍子孫。根據各個個體的適應度值,按照一定規則從上一代群體中選出一些優良的個體遺傳到下一代,選擇的依據是適應性強的個體為下一代貢獻1個或多個后代的概率大。通過交叉操作可以得到新一代個體,新個體組合了父代的個體特性。將群體中各個個體隨機搭配成對,對每一個個體,以交叉概率交換它們之間的部分染色體。對種群中每一個個體,以變異概率改變某一個或多個基因座上的基因值為其他的等位基因,同生物界中一樣,變異發生的概率很低,變異為新個體的產生提供了機會。遺傳算法參數尋優的初始值設置和粒子群算法一致,代入gaSVMcgForClass中進行參數尋優。
3 結果與分析
3.1 參數尋優結果
圖10是以log2c 、log2g為x軸和y軸,以交叉驗證分類精度為z軸的網格參數優化結果的3D圖,精度值越大表示相應的參數c和g值越好。當驗證分類精度為80.814%時,得到最優參數c=16、g=11.313 7。圖11和圖12都是以進化代數為橫軸,適應度為縱軸的參數尋優適應度曲線。粒子群算法在進化代數為18左右時最佳適應度達到穩定,達到82.035 9%,最優參數c=4.020 3、g=20.652 4。遺傳算法進化代數在20左右時最佳適應度達到穩定,最佳適應度最大值為81.437 1%,最優參數c=5.435 4、g=15.023 3。經比較可知粒子群算法參數尋優的精度最高,可將該組c和g值用于支持向量機分類器的構造。
3.2 TM數據提取棉花種植區結果
圖13是用TM數據NDVI值大于0.35為掩膜提取的三湖農場棉田的種植分布。TM數據2、4、3波段組合形成的假彩色圖,農田清晰可見。三湖農場是長江流域優質專用棉生產基地,在8月末9月初的時候可以認為農田里種的作物全是棉花。圖13中的黑色背景是用掩膜剔除的建筑用地和水體。
3.3 支持向量機法提取三湖農場蚜蟲危害程度分布的結果
以地面調查的262個樣點為訓練樣本,選取徑向基核函數,利用粒子群參數尋優得到的優化值c=4.020 3、g=20.652 4 進行支持向量機分類器的構造,得到分類模型。以空間插值并且歸一化后的溫度、速效氮、速效磷、速效鉀、有機質、蒸散量和NDVI共7個因子數據形成待分類樣本,用構造好的分類模型識別待分類樣本得到棉蚜危害的分布,再用“3.2” 節中建立的掩膜數據乘以分類數據就剔除了非農田的影響(圖14)。
由圖14可以看出三湖農場中部和東部的棉花長勢較好,受蟲害較輕,受蟲害嚴重的主要集中在西部和西南部;棉蚜危害程度的空間分布整體趨勢與直接用蚜蟲密度調查點數據空間插值得到的情況一致。
由以上分析可知,本研究所用的方法能很好地反演出三湖農場棉花受蚜蟲危害程度的空間分布,由于獲取的樣本點有限,導致樣點數據的空間插值范圍也有限,最終只能局限在三湖農場地區進行蟲害情況反演。在以后的研究中可以將該方法推廣到更大的區域和其他種類的作物,另外該方法只能利用溫度、速效氮、速效磷、速效鉀、有機質的含量、蒸散量和NDVI的綜合效應來識別蟲害,并不能明顯地反映出每一種因子對棉蟲的影響。如果能結合逐步回歸分析的方法,找出主要的影響因子以及每個因子的權重,就能利用更少的地面數據進行大面積的蟲害反演,進一步提高效率。
參考文獻:
[1]Muhammed H H,Larsolle A. Feature vector based analysis of hyperspectral crop reflectance data for discrimination and quantification of fungal disease severity in wheat[J]. Biosystems Engineering,2003,86(2):125-134.
[2]Mirik M,Michels Jr G J,et al. Reflectance characteristics of Russian wheat aphid (Hemiptera:Aphididae) stress and abundance in winter wheat[J]. Computers and Electronics in Agriculture,2007,57(2):123-134.
[3]盧小燕. 棉花蚜蟲單葉高光譜特征識別研究[J]. 新疆農墾科技,2010,6(1):32-35.
[4]郭永旺,金曉華,楊建國,等. 麥蚜災害遙感監測技術應用研究[J]. 植保技術與推廣,2001,21(3):3-5.
[5]蘇榮瑞,熊勤學,耿一風,等. 利用多時相HJ-CCD影像監測江漢平原南部地區棉花和中稻種植面積[J]. 長江流域資源與環境,2013,22(11):1441-1448.
[6]王新志,陳 偉,祝明坤. 樣本數據歸一化方式對GPS高程轉換的影響[J]. 測繪科學,2013,38(6):162-165.
[7]丁世飛,齊丙娟,譚紅艷. 支持向量機理論與算法研究綜述[J]. 電子科技大學學報,2011,40(1):2-10.
[8]顧亞祥,丁世飛. 支持向量機研究進展[J]. 計算機科學,2011,38(2):14-17.
[9]張 策,臧淑英,金 竺,等. 基于支持向量機的扎龍濕地遙感分類研究[J]. 濕地科學,2011,9(3):263-269.
[10]鄧 蕊,馬永軍,劉堯猛. 基于改進交叉驗證算法的支持向量機多類識別[J]. 天津科技大學學報,2007,22(2):58-61.
[11]韓 萌,丁 劍. 基于交叉驗證的BP算法的改進與實現[J]. 計算機工程與設計,2008,29(14):3738-3739.
[12]胡局新,張功杰. 基于K折交叉驗證的選擇性集成分類算法[J]. 科技通報,2013,29(12):115-117.
[13]王健峰,張 磊,陳國興,等. 基于改進的網格搜索法的SVM參數優化[J]. 應用科技,2012,39(3):28-31.
[14]王 鵬,朱小燕. 基于RBF核的SVM的模型選擇及其應用[J]. 計算機工程與應用,2003,39(24):72-73.
[15]張建科,劉三陽,張曉清. 改進的粒子群算法[J]. 計算機工程與設計,2007,28(17):4215-4216.
[16]張 丹,韓勝菊,李 建,等. 基于改進粒子群算法的BP算法的研究[J]. 計算機仿真,2011,28(2):147-150.
[17]李良敏,溫廣瑞,王生昌. 基于遺傳算法的回歸型支持向量機參數選擇法[J]. 計算機工程與應用,2008,44(7):23-26.
[18]王克奇,楊少春,戴天虹,等. 采用遺傳算法優化最小二乘支持向量機參數的方法[J]. 計算機應用與軟件,2009,26(7):109-111.
[19]萬 源,童恒慶,朱映映. 基于遺傳算法的多核支持向量機的參數優化[J]. 武漢大學學報:理學版,2012,58(3):255-259.