張釗熔 ,石海蘭
(1.自然資源部退化及未利用土地整治工程重點實驗室,陜西 西安 710021;2.陜西地建土地工程技術研究院有限責任公司,陜西 西安710021;3.陜西省土地工程建設集團有限責任公司,陜西 西安 710075;4.陜西省土地整治工程技術研究中心,陜西 西安 710021)
受自然來源和人為活動引起的土壤重金屬污染由于污染面積擴大、危害加劇等成為一個全球性污染問題。因此,土壤重金屬污染的現狀、來源和修復受到了各國學者、相關環保機構以及政府和民眾的密切關注[1-3]。近些年來,我國政府多次主導國內土壤污染狀況調查(全國土壤污染狀況調查,土壤地球化學調查等),調查結果表明,作為土壤污染物的重金屬污染已經嚴重影響了部分地區的土壤安全,對當地農作物和居民身體健康有著極大的危害[4-5]。重金屬作為污染物進入土壤,不能由自然環境的自凈能力去除,只能在土壤介質的條件下由一種重金屬化合物轉變為另一種重金屬化合物或受土壤溶液的影響在水平或垂直方向遷移。因此,土壤中的重金屬污染物在自然環境的條件下不能有效地去除,對生態環境的危害具有長久性。農田中的重金屬污染物可以通過作物種植時的根系間作用進入到作物體內,自農作物根部向地上部分運移,最后在作物可食用器官累積,對糧食的安全生產造成隱患。當人食用重金屬污染的糧食和環境暴露等途徑將重金屬攝入體內,將引起人體重金屬中毒[6]。因此對土壤重金屬污染的空間分布特征進行研究,是了解土壤重金屬污染和著手修復治理的前提。現今對土壤重金屬污染空間分布特征的研究是通過實地調查取樣、室內化驗。但是由于經費、樣品代表性、采樣方式等原因,所得的土壤重金屬含量數據出現是否有代表性、且數據不連續等問題,這必然影響土壤重金屬污染物的實際空間分布與模型擬合間的準確性。因此,土壤重金屬的空間分布含量預測及影響因素一直是國內外環境學者研究的熱點問題[7-9]。現今土壤重金屬污染物含量預測不再僅僅是定性地研究土壤重金屬含量分布特征,而是定性與定量建模相結合的系統性研究。首先,這一研究方法能對空間上土壤重金屬含量得到較準確的預測。其次,通過一段時間內的多次采樣監測,也能夠對未來某一階段或某一時間點的重金屬含量作出預測[10]。較為準確的土壤重金屬含量分布模型能夠讓研究者和相關工作者了解該地區土壤重金屬含量變化及其主要影響因素,這對區域土地合理規劃、土壤修復治理、農業生產管理等問題具有重要的參考價值。
現階段對土壤重金屬含量預測的研究方法主要有兩類:一是遙感高光譜反演[11-12];二是通過土壤理化性質(土壤粒級、pH值、腐殖值、有機碳含量)、污染源方向、污染源距離、地面坡度等條件下的反演[13-14]。這兩種技術的理論方法是相似的,遙感光譜反演是將含重金屬的土壤光譜與高光譜遙感獲得的土壤光譜信息通過建模擬合聯系起來;土壤理化性質、污染源方向、坡度等條件下的反演同樣是在同一樣點將這些因素與土壤重金屬含量通過建模或者算法擬合聯系起來。兩種方法最終都是通過這種聯系來預測反演其他點位的土壤重金屬含量。對于這兩個方向的學者做了很多研究[15-17],本論文主要綜述幾種通過土壤理化性質等條件下的土壤重金屬含量預測模型或算法,討論模型間的優缺點和適應性,以期推動土壤重金屬空間分布模型在土壤重金屬分布特征中的研究與實踐應用。
多元線性回歸是一種傳統的統計學方法,可以同時綜合多個變量,從多元數據中獲取信息。在實際應用中,某一事物的變化總是由多種因素共同影響的結果,為了明確這些影響因子對這一事物的影響權重以及通過這些因子來預測事物發展變化,進而引入了多元線性這一統計分析方法理論。多元線性回歸模型是研究一個因變量和多個自變量之間關系的理論和方法[18-20]。多元線性回歸模型的構建,有未標準化和標準化兩個模式。未標準化回歸模型是使用原始數據的回歸模型。在其他因素保持不變的情況下,它能切實反映自變量每變化一個單位對因變量的影響程度。由未標準化回歸模式建立的模型,可以直接對因變量進行預測得出結論。標準化回歸系數是將自變量和因變量的數據消除量綱、數量級等處理后,構建的回歸模型。使得不同變量間的關系清晰,可相互對比,進而確定自變量對因變量的影響大小。標準化回歸系數的絕對值越大,則認為對因變量的影響就越大。
多元線性回歸模型已頻繁應用于土壤重金屬空間分布研究,根據其理論,多元線性回歸不僅能構建土壤重金屬預測的回歸方程,同樣能確定影響土壤重金屬含量的幾種因素間的相對重要程度。早在1989年,胡永定就開始使用多元線性回歸來預測土壤中的重金屬含量[21]。近些年來,這一方面的研究也越來越多,同時也有學者著重于多元線性回歸對土壤重金屬來源分析。Zeinab Salim等人在巴基斯坦喜馬拉雅山麓采樣主成分和多元線性回歸分析了對道路灰塵、土壤和植被中的重金屬來源,認為主要來源為長距離的大氣輸送、濕沉降、母巖釋放、車輛排放以及其他大氣來源[22]。Zhao等人采用主成分分析和線性回歸分析了公園粉塵中的Pb來源,其主要來源于煤燃燒、土壤母質和施肥以及交通,各項來源占比與Pb同位素示蹤來源占比相吻合[23]。
為了滿足具有空間屬性的數據處理分析,1981年,空間自回歸模型建立。目前,該模型已經開始應用于具有空間屬性數據的多個研究領域[24-26]。空間回歸模型將分析中的假設(獨立性、隨機性)弱化,然后進行求解加入空間距離,根據空間距離來加權,距離越近權重越高。
空間回歸模型的一般形式為[27]:

式中:y為因變量;x為自變量;β為自變量x相關的參數向量;ρ為空間滯后項w1y的系數;λ為空間誤差項的回歸系數;w1、w2為與因變量和殘差的空間自回歸過程相關的權重矩陣;ln為殘差的空間自相關系數。
空間回歸模型有三種OLS、SLM、SEM。OLS(普通線性回歸模型):由于OLS不考慮空間上相鄰區域變量的互相影響,w1、w2前面的系數 ρ、λ 都為 0。
SEM(空間誤差模型):系數 ρ=0,λ≠0;表明某一空間對象上的因變量與同一對象上的自變量有關,還與相鄰對象的自變量、因變量有關。
SLM(空間滯后模型):系數 ρ≠0,λ=0,空間滯后模型是考慮因變量的空間相關性。即,某一空間對象上的因變量不僅與同一對象上的自變量有關,還與相鄰對象的因變量有關,通常把變量的前期值,即帶有滯后作用的變量稱為滯后變量,滯后變量分為滯后解釋變量與滯后被解釋變量[28]。
霍霄妮等人研究認為空間自回歸模型能夠很好地解釋重金屬含量與其影響因素間的相關關系[29]。Wu等人研究認為空間滯后模型優于多層線性回歸模型。空間滯后項的顯著系數表明Pb和Cd的空間變化依賴于它們周圍的觀測。研究結果強調了重金屬的空間自相關性,以及內在因素和環境變量對這些金屬空間變化的影響,揭示了空間回歸模型在識別重金屬影響因素方面的有效性[30]。
構建理念源自生物神經網絡的人工神經網絡(神經網、連接模型)[31],由神經元、節點之間的權重等結構組成。每個節點都有相對應的函數稱為激勵函數。任意兩節點之間的連接都可以通過信號的加權值(也稱為權重)完成[32]。神經網絡上層的神經元通過傳遞函數與下層神經元連接,同層神經元之間沒有連接,學習樣本提供給神經網絡后,神經網絡首先進行正向傳播。如果輸出結果與目標值的誤差超出預期,則正向傳播過程轉為反向傳播過程,誤差信號沿原鏈路返回。通過改變每一層神經元的權重來減少誤差,這種誤差反向傳播修正不斷進行,網絡對輸入模式的響應精度不斷提高,最終達到適用的精度[33]。神經網絡因此具有學習、統計、歸納等能力。換言之,通過數理統計神經網絡能夠像人類一樣進行簡單判斷,這比現代一些邏輯推理運算更準確[34]。
人工神經網絡已經頻繁應用于環境生態污染研究中,侯藝璇等用BP神經網絡預測模型對小麥、水稻、油菜籽及蔬菜可食部分Cd含量預測,劃分得到4種作物適宜種植區[35]。Ihuaku Anagu等認為神經網絡模型能夠較好地以土壤基本性質來估算土壤重金屬吸附[36]。秦夕淳在土壤Cd含量預測研究中發現,不同參數和不同模型下,神經網絡的預測結果是不同的[37]。樊寧將BP神經網絡與情景分析法相結合對燃煤電廠周邊土壤重金屬含量進行未來預測,預測精度較高[38]。
多元線性回歸在土壤重金屬含量的預測,可以先將影響因素標準化,確定各影響因素影響力占比,然后使用未標準的回歸系數,做多元回歸方程,對回歸方程進行檢驗,從而對因變量預測。但是采用傳統回歸模型來進行土壤重金屬含量及其影響因素間相關關系的分析,該方法的理論假設前提是數據本身在統計上是獨立的且均勻分布[39],而土壤重金屬含量作為空間數據的一種往往具有一定的空間依賴關系,即空間性,若采用傳統的回歸模型,通常會忽略空間相關的影響而產生偏差[29]。空間回歸可更好地解釋地理事物的空間關系。土壤空間位置與各種重金屬的含量之間,以及污染程度與不同重金屬含量之間均存在高度復雜的非線性映射關系[40]。神經網絡可以綜合考慮土壤環境質量模糊性及各污染因素的權重,循環地對權重值進行調整,使輸出誤差平方和達到最小值,使得計算預測結果更具科學性[41-42]。
現今土壤重金屬含量空間預測研究模型多樣,還有一些其他方法理論,例如:空間數據分析(ESDA)、地統計學及空間插值分析、空間隨機模擬等。各種不同模型對土壤重金屬空間含量的預測精確性是不同的,故而今后可能在需要對比不同的土壤重金屬含量預測模型來探討各模型的優劣性。其次,算法模型并不是一成不變的,可以收集前人經驗結合自己的學識對模型進行改良和創新。