張榆霞, 李寶磊, 施 擇,萬國盛
1.云南省環境監測中心站, 云南 昆明 650034 2.云南大學信息學院, 云南 昆明 650091
土壤重金屬污染給世界各地帶來嚴重的環境和健康問題[1]。土壤中重金屬的空間分布圖被廣泛應用于識別污染源、預測污染趨勢以及控制潛在的污染風險。山區水域、懸崖和山谷等自然條件給土壤均勻采樣帶來了巨大的困難。根據客觀實際條件,利用有限采樣點的樣品測試數據,獲得精準的土壤重金屬空間分布圖,對于進一步進行空間評價、分析和預防環境污染非常有意義。為此,探索采樣稀疏、采樣點分布不規則的情況下,如何獲得精確穩定的插值結果顯得至關重要。
目前廣泛應用于土壤性質空間插值的方法主要有反距離(IDW)[2]、普通克里格(OK)[3]和徑向基函數神經網絡(RBFANNs)[4]插值法。基于幾何學意義的IDW插值方法忽略了土壤重金屬含量高度復雜的非線性特征而導致精度不高。 基于統計學意義的OK插值法雖然得到了廣泛的應用,但其應用的假設條件和采樣要求[5],使其不能很好地描述具有非線性系統特征的土壤性質空間分布。近年來,許多學者將人工神經網絡較強的非線性映射能力應用于土壤性質的空間分布研究中[6],并取得了較理想的結果,但由于人工神經網絡的學習過程具有隨機性,會降低其插值結果的穩定性。為此,研究引入了一種集成徑向基函數神經網絡(IRBFANNs)模型,用以提高山區土壤重金屬濃度插值的精確性和穩定性?;谠颇鲜〕凼心喜可絽^表層土壤中重金屬錳和釩的樣品測試數據,進行了3種不同等級采樣密度下的IDW、OK、RBFANNs和IRBFANNs插值法比較實驗研究。
集成技術的基本思想是通過訓練多個神經網絡,并將其預測結果進行平均以期消除誤差,提供更精確、穩定的預測[4]。IRBFANNs預測需要2個步驟:首先在使用該模型之前用Bagging[7]方法對總訓練數據重復取樣獲得不同的子訓練數據集,用以訓練各個RBFANNs模型,并通過式(1)計算各個模型的權重;然后把預測點信息Xin(被預測點的經度、緯度、臨近5個采樣點采樣值組成的輸入向量)輸入到各個RBFANNs模型,通過式(2)計算IRBFANNs模型的輸出。
(1)
(2)

以云南省楚雄市南部以及周邊地區為試驗區。該區域系云貴高原中部,紅河水系與金沙江水系分水嶺地帶,地跨100°59′E~101°52′E,24°1′N~25°3′N,面積達9 938.641 5 km2,山地是該區域主要的地貌。地勢西北高、東南低,海拔為556~3 657 m,海拔落差達3 101 m。土壤主要為紫色土、水稻土、紅壤和黃棕壤。該區域河溝縱橫、山地海拔落差大的特點給采樣點布設帶來較大難度。以該區域內42個采樣點的土壤重金屬錳和釩檢測值為研究數據。在實驗之前,所有數據都做了歸一化處理,其分布滿足標準正態分布。
為了比較IDW、OK、RBFANNs和IRBFANNs插值法插值的精確性和穩定性及其受采樣密度的影響情況,基于42個采樣點數據進行了A、B、C 3項實驗,分別隨機選取41、26和16個測試樣本子集,以保證研究結果的廣泛適用性。每項實驗中都進行了100次獨立的隨機測試,每次測試中都記錄預測誤差的均方值(RMSE)用于統計分析。IDW插值法通過預測點周圍10個采樣點的歐氏距離以及采樣值進行預測;OK插值法通過使用Matlab工具箱中的dace函數實現,回歸模型和相關函數分別為Regpoly2和Corrgauss, 相關函數的初始參數theta是10;RBFANNs通過使用Matlab工具箱中的newrb函數實現,其中采用“試錯法”確定的錳和釩的最優散布常數分別為0.3和0.05,其他參數使用工具箱提供的默認參數;在IRBFANNs中,每個子訓練集都是通過使用Bagging算法從總訓練數據中隨機重復抽取80%數據生成。
插值性能的評價指標RMSE如式(3)所示:
(3)
式中,n為檢驗數據集中的檢驗數據的個數,z*(xi)為插值方法對采樣點xi處土壤重金屬含量的預測值,z(xi)為采樣點xi處采樣獲得的土壤重金屬含量的真實值。RMSE值越小則預測誤差就越小,插值精度就越高;RMSE值的波動范圍越小,則插值算法的穩定性就越高。
圖1展示了100個測試實驗中得到的RMSE統計量。

圖1 RMSE箱圖圖例
由圖1可見,該箱圖描述了統計數據的中值、上五分位值、下五分位值、最大值以及最小值。中值越小則算法的插值精度就越高,上、下五分位值的差越小,則誤差波動范圍就越集中,算法的穩定性就越強。
4種方法在3種采樣密度下對土壤中錳和釩元素總量的預測實驗結果如圖2和圖3所示。

圖2 錳RMSE箱圖

圖3 釩RMSE箱圖
2.1.1 采樣密度對插值性能的影響
由圖2和圖3可見:①4種方法中,RMSE指標的中值都隨著訓練數據的減少而增加,說明4種方法的精確度隨著采樣密度的降低而降低,并且RMSE指標的上下五分之一分位值之間的差值隨著訓練數據的減少而減少,這是由于訓練數據減少時模型的精確度下降,預測誤差都偏大,導致RMSE值的范圍減小。②各類方法性能下降的程度不一致。相比較而言,IDW和OK方法的RMSE中值隨著訓練數據的減少具有較明顯的增加,這說明IDW和OK方法的精確度易受采樣密度的影響。RBFANNs方法的RMSE中值的增加幅度沒有IDW和OK方法明顯,但是其上下五分之一分位值之間的差值遠遠大于其他方法,說明受采樣密度降低的影響,RBFANNs方法的精確度雖然下降得不是那么明顯,但是穩定性有明顯的下降。③在所有方法中,隨著采樣密度的降低,IRBFANNs方法的RMSE中值上升幅度最小,上下五分之一分位值之間的差值變化不大,說明IRBFANNs精確度受采樣密度的影響較小且能保證插值的穩定性。
總之,雖然隨著訓練數據的減少,所有方法的預測性能都有所下降,但IRBFANNs的RMSE中值增加最少,特別在訓練數據數目為16時,IRBFANNs的RMSE中值以及上下五分之一分位值之間的差值都是最小的,這表明IRBFANNs方法應用在采樣點密度稀疏的情況時,精確度和穩定性優于其他方法。
2.1.2 不同方法插值性能比較
觀察圖2和圖3,同一個項目,不同方法之間的實驗結果表明:
1)訓練數據數目最多(項目A,41點)時,同一種元素各個方法的RMSE中值和上下五分之一分位值之間的差值差異不大,表明訓練數據數目最多時,各個方法的差異不是很明顯。而OK方法獲得最小的RMSE中值,其他方法獲得的RMSE中值略大于OK方法,這說明采樣密集時,基于地理統計學的OK方法表現出眾。由圖3可見,在釩的實驗中,IRBFANNs方法的RMSE中值以及上下五分之一分位值之間的差值明顯小于RBFANNs方法,這說明集成有助于提高基于神經網絡方法的插值精度和穩定性。
2)當訓練數據數目為26點時,各個方法獲得的中值以及上下五分之一分位值差值差異相對于項目A趨于明顯。傳統的IDW和OK方法,RMSE中值以及上下五分之一分位值差值最小。而基于RBFANNs方法獲得的中值以及上下五分之一分位值之間的差值都較大,這說明傳統神經網絡方法的精確度、穩定性不如其他傳統方法。
3)當訓練樣本減少到16點時,傳統的IDW和OK方法獲得的中值以及上下五分之一分位值之間的差值均比RBFANNs方法小,但比IRBFANNs方法大。這說明采樣密度稀疏時,集成神經網絡方法的精確度和穩定性優于其他方法。IRBFANNs方法在RMSE中值以及上下五分之一分位值之間的差值都明顯小于RBFANNs方法,這一結論與項目A、B一致。這進一步說明集成有助于提高基于神經網絡方法的插值精確度和穩定性。所有方法中,IREBANNs方法獲得最小的RMSE中值以及上下五分之一分位值之間的差值,這表明IRBFANNs方法應用在采樣點密度稀疏的情況時具有較好的插值精確度和穩定性。
總之,樣本點最多時,各種方法的插值精確度和穩定性差異不大,傳統OK和IDW方法略優于其他方法。樣本點適中時,各個方法的插值精確度和穩定性差異趨于明顯,各個方法對于不同的元素表現不一致。樣本點最少時,各個方法的插值精確度和穩定性差異明顯,IRBFANNs優于其他方法,其插值精確度和穩定性都最好。
綜上所述,訓練數據減少時,所有模型的預測精確度和穩定性都有不同程度下降,并且各種方法對于不同的元素下降程度不同;對于所有元素樣本點最少時,盡管各種方法的性能都有明顯的下降,但是IRBFANNs方法插值精確度和穩定性都優于其他方法。
為了更直觀地觀察各個方法的插值效果,圖4顯示了錳元素基于4種方法,在不同采樣密度條件下的插值結果空間分布。
2.2.1 采樣密度對插值效果的影響
由圖4可見,同一個方法,隨著采樣點的減少,各個方法獲得的空間分布圖的分辨率降低,其所描述的空間分布情況變得模糊。但是各個方法性能降低的程度有所不同。相比較而言,隨著采樣密度的降低,傳統的IDW和OK方法獲得的插值空間分布圖的分辨率、細節描述性有明顯的下降?;谏窠浘W絡的RBFANNs和IRBFANNs方法,獲得的空間插值分布圖所描述的空間分布情況和質量,受采樣點減少的影響較小,細節保留較為完整。
2.2.2 不同方法插值效果比較
由圖4可見,樣本點最多時,IDW方法雖然提供了一個確定的錳元素含量插值表面,但是插值空間分布圖粗糙,所描述的空間分布情況缺乏空間連續性,這可能是由于樣本點較集中區域中,離插值點極近的樣本點對該插值點的估計值影響特別大,而孤立樣本點對各個方向插值點的作用是穩定的逐漸衰弱的。
OK方法獲得的插值空間分布圖多斑點,顏色差異性較小,其描述的空間分布情況平滑,缺乏細節信息,可見OK方法受樣本點非均勻分布的影響容易產生孤島效應,其插值的結果缺乏合理性。
與OK方法相比,RBFANNs方法獲得的插值空間分布圖描述了更多的空間差異性,并且從圖中還可以看出該元素的空間分布趨勢,這在OK方法獲得的插值空間分布圖中是很難觀察出來的。RBFANNs方法較IDW和OK方法,在錳元素空間差異細節性描述以及空間分布趨勢方面又有一定程度的提高,但是該方法獲得的插值數據的范圍與樣本數據范圍(標準正態分布)不一致,插值數據最大值和最小值遠遠高于或者低于樣本數據的最大值和最小值,這是由于RBFANNs的插值表面極易受邊緣效應的影響,研究區域的邊緣插值結果往往偏大或者偏小,造成插值結果不穩定。
IRBFANNs方法獲得的插值空間分布圖不僅平滑并具有較好的連續性,極少有斑點,空間變異明顯,且插值數據范圍與樣本數據范圍相一致,可見其能夠合理詳細地描述元素空間分布的局部細節以及分布趨勢。同樣的采樣密度下,樣本點適中和樣本點最少時,通過觀察所有元素的插值空間分布圖,可以得出與樣本點最多時相一致的結論。
綜上所述,IRBFANNs插值方法能夠有效合理地描述土壤重金屬空間分布的空間變異性的細節和空間分布趨勢。與其他插值方法相比,IRBFANNs在樣本點較少的情況下能夠獲得質量相對較好的土壤重金屬空間分布圖。這與“2.1節”中的統計分析結論相一致。
使用IRBFANNs插值方法,可以提高土壤重金屬含量空間插值的性能。通過誤差統計和插值可視化分析,與傳統插值方法相比較,該方法在采樣密度稀疏的情況下,產生預測誤差的均值、中值以及上下五分位值都最小,表明在樣本點數量減少時,IRBFANNs算法能夠獲得最好的插值精確度和穩定性,據此獲得了更準確的區域重金屬分布及趨勢圖,從而提高山區土壤重金屬分布預測性能。
[1] Alloway B J, Ayres D C. Chemical principles of environmental pollution[M]. Florida: CRC Press, 1997.
[2] Tomczak M. Spatial interpolation and its uncertainty using automated anisotropic inverse distance weighting (IDW) cross validation /jackknife approach[J]. Journal of Geographic Information and Decision Analysis,1998,2(2):18-30.
[3] Oliver M A, Webster R. Kriging: a method of interpolation for geographical information systems[J]. International Journal of Geographical Information System,1990,4(3):313-332.
[4] 劉思聰.B/S 結構的云南省土壤重金屬空間插值分析系統[D].昆明:云南大學,2012.
[5] 王政權.地統計學及在生態學中的應用[M]. 北京:科學出版社,1999.
[6] 何勇,張淑娟,方慧.基于人工神經網絡的田間信息插值方法研究[J].農業工程學報,2004,20(3):120-123.
[7] Breiman L. Bagging predictors[J]. Machine learning,1996,24(2):123-140.