薛 原,吳 愛
(江蘇省徐州環境監測中心,江蘇 徐州 221000)
農業在國民經濟中占有舉足輕重的地位,但由于小農化和肥料的不合理,使得農業的發展受到多種因素的制約。在發達國家,精準農業施肥是一種以農業生產為特征的,以信息技術和知識管理為基礎的現代農業生產方式。通過對土地和作物的實時動態進行分析,從而達到降低成本獲得更高效益的目的,使農業資源和農業生產力得到最大限度的提高,以達到減少浪費、增加產量、避免農業生態風險的目的。
土壤是作物生長的基礎,土壤屬性信息是作物生產過程中不可忽略的一項重要內容。它包含了土壤有機質、有機碳、氮、鐵、錳、團聚體、礦物等特征,能夠快速、高效地提取和反饋土壤各階段的土壤信息,為區域作物針對性的施肥提供依據。氮是植物的重要組成部分,其影響了蛋白質、核酸、葉綠素、酵素等的合成,對植物的光合作用發揮著重要作用。通過對土壤全氮快速、精確地檢測,可以為農業生產提供技術支撐,并能有效地促進農田土壤的有效管理,提高氮素的利用率。
利用高光譜遙感技術可以快速、反復地獲取相同區域的土壤信息,是一種準確、快速獲取農田土壤屬性信息的有效方法。實驗室高分光光度法是一種非破壞性的測量技術,它可以通過對土壤的反射性和土壤的物理特性對土壤進行分析,并對土壤進行化學成分分析和掃描,從而得出土壤有機質、N、P、K、水分等各種指標。該技術的快速、無破壞性,為進一步闡明光譜數據的數學方法和對土壤中TN含量的快速監控,提供了一種有效的手段。
高光譜遙感技術是二十世紀八十年代發展起來的。隨著遙感技術、傳感器技術、空間技術和計算機技術的飛速發展,遙感技術逐漸進入了以高光譜遙感技術為主導的時代。尼加提卡斯木等人利用兩頻譜指標和偏最小二乘回歸理論,通過對光譜數據的頻譜分析,提出了一種新的土壤有機質高光譜估計模型;國外學者通過兩頻段優化算法對新的土壤有機質進行了頻譜參數的優化,從而得到了一個更精確的高光譜估計模式;國內學者張瑤[1]等根據標準化頻譜指標和偏最小二乘回歸,建立了土壤有機質二維關聯分析和估計模式;學者崔玉露[2]等通過556 nm、1 642 nm和2 491 nm的頻譜信息,通過標準化頻譜指數轉換,得到了R2=0.829的最優預測模式。
目前,許多學者對其進行了深入探討,但大多數的模型都有一定的時間和空間上的限制,而且由于土壤類型和地理位置的不同,采用的模型也有很大的差別。用離散小波方法對876個澳大利亞的土壤樣品進行了頻譜分析,建立了隨機樹(RF)、支持向量機(SVM)、神經網絡(BPNN)等,其中SVM模型的預測準確率最高;學者方臣[3]等采用 PLSR方法和SMLR方法,對美國的165個玉米表面樣品和697個樣品進行了PLSR和 SMLR模型,對亞熱帶紅壤中的全 N進行了分析,得到了較好的結果。過去,高光譜技術主要是以點對面為主,而對地塊地力的長期監測則少有研究。
光譜數據的預處理方法分為兩個部分,分別是去噪和數據轉換。各種本源的反射率有很大的差別,并且有基線平移、傾斜等現象,這是由于土體的粒徑和裝填密度的不同而引起的。利用高光譜預處理技術可以有效地對高光譜中的噪聲進行篩選,避免了數據的冗余,增強了模型的魯棒性。利用一次差分轉換技術,可以有效地減弱土壤背景的干擾,增強波段之間的差別,增加了土壤中的某些波段反射率和土壤中營養成分之間的關系。采用11點光順法對測量環境、樣品研磨、篩選等因素進行了平滑處理[2]。
為驗證本文所建立的土壤全 N含量預測模型的準確性,將15種預處理技術與頻譜指標相結合,對土壤鹽分反演進行了優化。利用相關分析方法,對不同頻段的反射和土壤中的總氮含量進行了分析,選擇420~444 nm、480~537 nm的相關系數為420~444 nm,480~537 nm。計算后的反射率與全氮含量之間的相關關系表明,MSASI的平均、極大值比其他三個指標都要高。在此基礎上,選取了平均與極大值相結合的方法,選取了最終82個波長,并將其應用于不同的頻譜參數。利用該模型建立了土壤全 N和特征波段的線性模型,并將其進行了預處理,將測量結果作為參數,利用IBM SPSS統計方法進行了回歸分析。
反向傳播神經網絡是一種分布式的處理數學模型,它能夠模擬大腦神經的神經活動,通常包含輸入層、隱含層和輸出層。將每個波長的響應值輸入到輸入層,然后用神經網絡求取其加權和,利用非線性函數求出被測濃度的估計值,然后輸出到輸出層。具體的,研究者可以通過反向神經網絡模型對大量樣本進行學習,提取所有學習樣本關于氮含量的特征值,并建立相應神經網絡節點。而后,當輸入檢測樣本時,通過預處理及歸一化等運算操作,對其氮含量特征值進行統計與比對。如果該特征值在神經網絡置信區間內,將賦予該樣本約定的較高權重;若特征值不在置信區間,將賦予樣本較低權重。通過對多組樣本進行運算后,對測試樣本進行加權和運算,最后對估算值進行估算,可利用模糊算法提升結果的魯棒性和準確性。
偏最小二乘法(PLSR)是一種將多元線性回歸與最小二乘回歸相結合的方法。通過對所抽取的主分量進行判定,判定自變量是否能夠顯著地改善估計性能,能夠解釋多個高光譜特征之間的相互關系,在剔除多余數據的情況下,保持最大貢獻率的數據,有效地使用簡化信息構建了預測模型。在進行最小二乘分析前,將資料進行主分量分解,以求出對因變量解釋力最大的綜合變項,以改善主成分與因變量之間的關聯度,并克服多元相關所帶來的負面效應。在主成分選擇1,2,3,6時,R2值為0.22,0.32,0.37,0.69,最后用最大的6個主成分進行最小二乘分析。
有國內學者采用多元線性回歸模型、神經網絡回歸模型、偏最小二乘法對62份樣品進行了統計,對其中31份樣品進行了檢驗,并對82個特征頻帶進行了檢驗。選取確定系數R2、均方根誤差 RMSE(Root Mean SQUARE Error)、相對平均偏差 RPD(Relative Percent Deviation)以進行最優模型的篩選。R2愈大,RMSE愈小,則表示模式估計的準確度越高,RPD>2則說明該模式的估計能力好,1.4< RPD<2時,該模式的估計能力為中等,若 RPD<1.4,則說明該模式的估計能力及一致性都不 佳。
多變量線性回歸也稱為最小二乘,它利用最小二乘法來估算系數矩陣。在62個模型樣本中,使用多變量線性回歸(2)神經網絡后向擴散神經網絡(BPNN)是一種分布式的處理數學模型,其主要內容有輸入層、隱含層和輸出層。將每個波長的響應值輸入到輸入層,然后用神經網絡求取其加權和,然后利用非線性函數求出被測濃度的估計值,最后輸出到輸出層。可選擇Logsig函數作為神經網絡模型的非線性函數。光譜數據集是輸入層,在滿足訓練精度的條件下,網絡將會持續地進行網絡測試,直到網絡達到一定的測試精度才能被確定為一個模型。
由于色譜中包含C-H、N-H、O-H等基團的有機物質,故常被用在有機物質中。由于土壤中的 N元素以有機結合態為主,與有機質的關系非常密切,因此,它的靈敏波段分布范圍與上述規律相符,可以利用高光譜技術對其進行快速分析。通過對350~540 nm、670~920 nm范圍內的光譜反射率進行了初步的模擬,一階差分譜與土壤總氮有良好的相關性。本研究采用420~444,480~537,618~626,801~804,1 248~1 249,1 322,1 410~1 412,1 566~1 568 nm等,從數理統計的觀點來看,相關系數越高,這個波段選擇的價值就越大,對后續的建模工作也就越有利。選擇了相關系數大于0.4的連續頻段,與崔玉露等人的結論類似。土壤中的全 N含量反射率受區域和土壤類型的顯著影響,而太湖桃園黃棕壤的土壤中鐵錳含量高、錳含量高。崔玉露等人的研究發現,在可見光頻段,大部分的土壤吸收特性都與鐵氧化物有關。學者方臣等的結果也表明,在300~580 nm的區域,鐵譜響應較高,鐵譜帶的近紅外區可以達到1 300 nm。
高光譜數據的光譜信噪比低,光譜信息與被測特征之間的線性不相關,且光譜間的多重相關性很強,光譜易受外界環境的影響。所以,必須進行特征波長的選取,也就是最好的建模參數組合,以獲得最小誤差和最精確的估計模式。本論文在選擇敏感頻段的基礎上,對復雜數據進行有效剔除,并對其進行有效提取,以最大程度地保持特征頻帶,避免了冗余數據對操作的負擔。通過對土壤全 N的頻譜響應特性和相關關系,對不同類型的土壤全N進行了頻譜轉換,利用三種模型建立了相應的數學模型。
5.2.1 模式法的缺點和優點
利用最小二乘法進行多因素線性回歸,可以有效地減少有效信息的丟失。偏最小二乘法是將主分量分析引入最小二乘回歸,以便于數據的降維,但二者都存在著不能處理非線性關系的缺點,而神經網絡模型可以通過三個層次的訓練來提高數據的準確率。在本論文中,樣本的數量很少,使得模型的處理能力和冗余度不能得到很好地利用。
5.2.2 模型的精度和有效性
在偏最小二乘法回歸中,RMSE值仍需進一步改善。因此,雖然這些模型的估計結果都很好,但是仍有一些不足之處需要在以后的研究中加以修正。在建立BPNN模型的過程中,輸入神經元的數量越多,模型的性能越好,網絡神經算法就越復雜。在玉米生長季,R2值較大,RMSE值偏小,這與選擇的敏感性頻段相關。玉米季的9個敏感頻帶比小麥的季節敏感區要多,因此在分析時可以獲得更多的資料。雖然BPNN的樣本數目很小,但是BPNN的模型準確率與張瑤等人的結果是一樣的。
這三種模型在不同地區的應用效果都比較理想,可以為土壤全 N的快速、準確診斷提供依據,為精確的農業生產和有效的土地利用提供技術支撐。另外,可利用衛星遙感圖像等資料,對土壤營養狀況進行動態監控和反饋。
5.3.1 影響高光譜反射率的幾個因素
在實際建模過程中會出現大量的異常樣品,大致可以劃分為高光譜測定的異常和化學測試的異常。導致這些異常的原因有:由環境造成的異常光譜,例如儀器檢測器的背景變化、樣品的溫度、濕度的大幅變化,儀器本身的不穩定以及個別零件的老化;還有樣品本身造成的光譜異常,例如質地不均勻,水分控制不嚴格;由于基本數據造成的樣品異常,如當使用錯誤的參考方法或樣品混雜時,則會造成樣品與樣品的近紅外光譜不相符。
5.3.2 高光譜和反應的研究
有研究結果表明,同齡夏玉米與冬小麥的光譜反射率存在較大的差異,在236天的生長期內,玉米秸稈的腐化程度已趨于穩定,脂肪性降低,羧基含量升高。由于秸稈不斷分解,殘渣中剩下的大部分是單寧、木素,具有較好的穩定性,不易降解,腐爛的時間也較長。但玉米生長期為90天,在收獲期間,麥稈分解速率達到48.88%-59.95%,且秸稈中易于降解的物質如淀粉、蔗糖、有機酸等具有豐富的碳源和能量。
作物秸稈與玉米不同季節土壤樣品之間的高光譜反射率有一定的差別,通過對其機制的探討,結果表明:玉米季節的土壤樣品之間的 IR譜也有很大的差別。因為在腐化的過程中,各基質成分和含量會有一定的損失。因此,小麥秸稈的活性會對土壤的紅外反應產生一定的影響。土壤顯微組織學的研究表明,小麥生長季節的土壤中存在著大量不均勻的、破碎的顆粒,這是由于玉米秸稈的腐朽程度比較高,已經完全分解,只剩下木質素、纖維素、單寧等造成的。就農作物秸稈自身來說,其易降解的水溶性物質、粗蛋白含量高,但不易降解的纖維素、木質素含量低;在1 969、2 377、2 215 nm的高光譜范圍內,不同作物的土壤表現出了明顯的差異。有研究表明,在1 710 nm、2 100 nm和2 350 nm處反射率與半纖維素、纖維素、木質素含量有很大關系。學者方臣發現,在2 100-2 300 nm的農作物殘渣中,木質素和纖維素含量顯著,而在2 100~2 300 nm時,玉米秸稈的反射比在2 100~2 300 nm時表現得更好,表明小麥秸稈中纖維素和木質素含量更高。
另外,小麥、玉米期土壤高光譜反射率存在較大差異的原因之一是作物的生長時期。小麥在每年的五月收割,玉米一般在九月末到十月上旬收割,而本地的雨水則以六月到九月(一年中75%)為主。土壤濕度較高,對小麥和稻草的分解效果較好,所以九月的土壤的反射性與六月份不同。土壤成分和水文資源的整體差異很有可能是導致小麥、玉米不同季節土壤高光譜反射率存在差異的一個重要原因,這也為季節性資料的建立奠定了基礎。長期固定施肥方式對土壤的總氮水平無明顯影響,但在收獲階段,其反射譜反應存在差異。試驗區采用了稻草還田,前一季的秸稈直接用于土壤。由于不同作物的秸稈成分和腐熟期的氣候存在很大的差別,因此,在討論的輪作系統中需要按作物類型對資料進行分類。