蘭 淼,楊 斌,宋 強,陳弘揚,周鵬飛,莊紅娟,方 兵,張世文*
(1.安徽理工大學 地球與環境學院,安徽 淮南 232001;2.安徽理工大學 空間信息與測繪工程學院,安徽 淮南 232001)
土壤重金屬的侵襲與累積是一種十分普遍的現象,人類活動將重金屬帶到土壤中,致使土壤中重金屬含量明顯高于背景值,并且造成現存或潛在的土壤質量退化、生態環境惡化的現象,而礦區土壤在常年礦產開采加工以及運輸過程中更易受到重金屬污染。鎘(Cd)在自然界中普遍存在,其含量的增加可能會導致鋁、銅、鋅、錳、鉛等元素的高環境風險,通過潛在的地表或地下水的浸出,或通過這些元素更高的生物可給性;Cd的毒性較大,且難以自然降解、清除,容易累積在土壤中;此外重金屬Cd可通過植物根部吸收,對生態系統及人體健康構成威脅,因此,監測礦區土壤中Cd的含量勢在必行。
傳統重金屬檢測大多采用野外采樣-室內分析的方法,耗時耗財,無法較好地獲取空間上重金屬的污染情況。近年來高光譜以其動態、高效等優勢已廣泛應用于環境、地質、土壤等多個領域,為快速獲取土壤理化信息提供了新的思路。國內外學者在土壤反射率與土壤參數之間運用多種方法建立了數學估算模型。Kemper等對Aznalcollar受污染的土壤利用可見-近紅外光譜實現對6種金屬元素的回歸分析預測;解憲麗等選擇江西貴溪銅冶煉廠污染區,分析了9種重金屬元素與可見-近紅外光譜之間的相關性;龔紹琦等利用光譜一階微分變換,采用逐步回歸方法建立了3種重金屬預測模型并得到較高精度;Meng Xiangtian等利用14張高光譜圖像采用離散小波變換對原始反射率和光譜一階微分進行分解重構,采用隨機森林、支持向量機和BP神經網絡算法,建立區域尺度有機碳預測模型;Shen Qiang等對湖北大冶鐵礦采用間接反演的方法實現復墾土壤重金屬Cu的空間分布;陳元鵬等采用偏最小二乘與粒子群算法相結合的方法,對工礦復墾區土壤重金屬反演,主要障礙因子Cd取得較高精度;Hong Yongsheng等利用連續小波變換結合隨機森林模型反演土壤有機碳,并得到局地尺度上土壤有機碳空間分布模式;Wei Lifei等采用穩定競爭自適應加權采樣算法結合逐次投影算法解決光譜數據冗余,使用重組青蛙跳躍算法優化后的徑向基神經網絡模型得到較高預測精度,以上都說明高光譜對重金屬預測具有可行性。
前人在土壤重金屬估測方面做了大量的研究并取得了較好的預測結果,但多集中于重金屬含量的估測,并未分析模型在不同濃度下的預測能力。研究針對礦山開采過程中造成或潛在造成的土壤重金屬Cd污染,以粵北南嶺某礦區為例,通過傳統檢測方法測定研究區土壤Cd含量;利用ASD Field Spec 4型便攜式高光譜儀進行土壤反射率測定,分析不同光譜指標與Cd含量的相關性;篩選敏感波段,采用偏最小二乘和隨機森林建立礦區土壤重金屬Cd含量估算模型,分析不同Cd含量區間對建模精度的影響,探討利用高光譜遙感技術快速檢測土壤Cd含量的可行性,為礦區土壤重金屬高光譜反演提供方法和理論支持。
研究區位于廣東省韶關市境內(112°50′~114°45′E,23°5′~25°31′N),位置及采樣點如圖1所示。該區域地處五嶺山脈南麓,北江中上游地區,全境在大地構造上處于華廈活化陸臺的湘粵褶皺帶。韶關市屬中亞熱帶濕潤型季風氣候區,年平均氣溫18.8~21.6 ℃,年均降雨1 400~2 400 mm,地形以山地丘陵為主,河谷盆地分布其中。平原、臺地面積約占20%,境內河流主要屬珠江水系北江流域,以湞江為干流,自北向南貫穿全境。地勢北高南低,土壤類型以紅壤為主。韶關市作為“中國有色金屬之鄉”,有“中國鋅都”稱號,境內礦產資源豐富。該地區的開采歷史最早可追溯到千年之前,近年來由于大量私人和小集體不合理的開采,使得廢棄后的礦窿成為了地下水的主要污染源,富含重金屬的裸露山體,經雨水的沖刷,不斷析出酸性水,最終對土壤造成污染。

圖1 研究區位置及采樣點圖
研究土樣采自廣東省韶關市某金屬礦區。2020年7月通過GPS精確定位采樣點,共采集樣本點73個。對每個采樣點,按梅花形收集5個子集,再混和成一個組合樣本。將采集的土壤自然風干,去除礫石及動植物殘體后,將土樣平均分為兩份,一份用于測定土壤重金屬Cd含量,一份用于采集高光譜數據。其中,土壤重金屬Cd含量采用王水提取-電感耦合等離子體質譜法(ICP-MS)測定,土壤光譜反射率采集使用美國ASD(Analytical Spectral Devices)公司生產的Field Spec 4便攜式地物光譜儀。該儀器的光譜測量范圍是350~2 500 nm,包含了可見光-近紅外全部范圍,兩次采樣的間隔為1 nm,共有2 150個波段。由于光譜容易受到外界光線的影響,因此實驗選在無光的暗室中進行,光源為12 V、50 W的燈泡,數據使用25°裸光纖鏡頭獲取。實驗前將儀器先通電預熱半小時,實驗過程中將土壤樣本均勻平鋪在直徑100 mm、高20 mm的玻璃盛樣皿中,使用黑色絨布為背景墊在盛樣皿下方。光源與樣本的直線距離為60 cm,與水平方向夾角45°。鏡頭位于樣品正上方10 cm,與樣品垂直。為保證數據的準確性,測試之前去除輻射強度中暗電流的影響,然后以白板進行定標,為防止測量過程中其他因素影響數據準確性,每測量10個樣本進行一次白板校正。每個樣本采集20條光譜曲線,剔除噪聲較大的曲線,取平均值作為該土樣的實際反射光譜數據。
光譜數據獲取過程中,由于外界環境的影響以及光譜儀在不同波段對能量響應上的差異,會導致光譜曲線存在一些噪聲。噪聲主要來自高頻隨機噪聲、基線漂移、樣本不均勻、光線散射等,因此,對光譜數據進行預處理就顯得尤為必要。實踐表明,對光譜曲線進行平滑,可以去除信號內的少量噪聲,得到平滑的光譜波形。如果噪聲的頻率較高且量值不大,用平滑的方法可在一定程度上降低噪聲。研究采用卷積平滑(Savitzky-Golay)方法對光譜曲線進行平滑,將得到的結果作為原始數據。
研究表明,通過不同的數學變換可以減少土壤母質、成土條件、質地、表面粗糙度、微聚體、濕度等土壤本身屬性的影響及大氣溫度、濕度、組分和電磁特性等外界因素干擾,有效地消除了基線和背景干擾,提高了部分波段的分辨率和靈敏度,使重疊樣本得到分離,進一步提取了原始數據中差異不顯著的光譜信息,使得光譜特征更加明顯。研究主要對土壤反射率(Reflectance,R)進行以下變換:倒數變換(Reciprocal Transform,RT)、對數變換(Logarithm Transform,LT)、一階微分(Frist Derivative,FD)、二階微分(Second Derivative,SD)、歸一化變換(Normalization Transform,NT)、倒數對數變換(吸光率,Absorbance Transformr,AT)、倒數對數一階微分(ATFD)及倒數對數二階微分(ATSD)。
(1)微分技術。光譜微分技術是一種在遙感數據處理中特別有應用前景的分析方法。光譜微分技術對不同的背景、噪聲有去除作用,特別是比較容易去除以“加”的形式混入光譜信號中的噪聲,還可以消除基線和其他背景的干擾,分辨重疊峰,提高分辨率和靈敏度。一般認為,可用一階微分處理去除部分線性或接近線性的背景干擾,二階微分可消除平方項噪聲的影響,因而其在實際應用中較為有效,其公式如下:


λ
為每個波段的波長;R
(λ
)和R
(λ
-1)分別為波長λ
和λ
-1處的光譜反射率;R
(λ
)和R
(λ
-1)分別為波長λ
和λ
-1處的一階微分光譜;R
(λ
)為波長λ
處的二階微分光譜;Δλ
為波長λ
-到λ
的間隔,視波段波長而定,波長λ
-2到λ
的間隔及波長λ
+2到λ
的間隔為2Δλ
。(2)初等變換。采用初等函數對光譜數據進行變化處理叫做初等變換,也稱簡單變換。實際應用表明,初等變換一般不能有效提高變換后光譜數據與研究對象間的相關性,但為研究組合變換方法提供了基礎,可根據具體問題,通過對比試驗獲取最佳組合變換方法。
經過以上數據預處理,從73個土壤樣本中隨機選擇52個作為建模樣本,21個作為檢驗樣本用來檢驗模型精度。
(1)偏最小二乘算法。偏最小二乘(Partial Least Squares Regression,PLSR)是一種基于主成分分析的多變量建模方法,通過將光譜數據進行分解,去除其中無效的噪聲干擾,同時分解重金屬含量數據,消除其中無用信息。在分解光譜數據的同時考慮了重金屬含量數據的影響,將數據分解與回歸并為一步。在計算每一個主成分前將光譜數據的得分矩陣與重金屬含量數據的得分矩陣交換,使得光譜數據主成分直接與重金屬含量數據關聯。
(2)隨機森林算法。隨機森林(Random Forest Regression,RF)是Breiman 2001年提出的一種利用多棵決策樹對樣本進行訓練并預測的機器學習算法,是眾多決策樹的集合。采用Bootsrap重抽樣方法隨機抽樣構建不同的分類模型,再用它們構成一個多分類模型系統,以多數投票法確定最終分類結果。對異常值和噪聲具有較高的容忍度,通過引入“隨機性”來處理“過擬合”,因此具有較高的泛化能力。
(3)精度檢驗。模型的驗證主要選用決定系數(Coefficient of Determination,R)和均方根誤差(Root Mean Squard Error,RMSE),計算公式如下:



對本次測定的73個土樣的重金屬Cd含量進行統計如表1所示。將檢測結果與國家相關標準及廣東省背景值對比,發現超過72.6%的土壤樣點Cd含量高于農用地土壤污染風險管控標準,含量最大值點位超過背景值145倍。研究區Cd含量最大值達到4.95 mg/kg,最小值為0.04 mg/kg,平均值為1.11 mg/kg。從土樣的平均值來看,Cd含量超過背景值30倍。根據單因子指數法測算,該區域Cd的污染指數為重度污染。Cd含量變異系數為101.14%,通常認定變異系數反應離散程度,且當100%<變異系數時,為強變異性,可能是由于采樣點受采礦區擾動程度不同,土壤Cd含量差異較大。因此,該地區應加強土壤重金屬動態監測,為發現并控制土壤重金屬污染提供依據。

表1 土壤樣本Cd含量描述性統計


圖2 不同Cd含量土壤光譜曲線和連續統去除光譜曲線
r
=-0.
496),SD與Cd含量相關性最高值略低于FD但總體相差不大,最高的波段為1 945 nm(r
=-0.
467)。ATFD與ATSD的相關性沒有FD和SD那么突出,變化趨勢與FD和SD相似,均在正負之間波動,相關性最高的波段分別為758 nm(r
=0.
466)和2 387nm(r
=-0.
487)。綜上所述,在9種微分指標中一階微分變化與Cd含量相關性最好,為最優光譜指標。
圖3 Cd含量與土壤光譜的相關系數圖
R
和RMSE
檢驗,結果如表2所示。
表2 不同土壤反射率變換形式模型回歸結果
從模型的回歸效果看,兩種模型的預測能力差異較大,偏最小二乘的R
介于0.
14~0.
61,RMSE
介于0.
69~1.
11;隨機森林的R
介于0.
13~0.
86,RMSE
介于0.
40~1.
09。不同預處理變換方法對模型的預測結果有較大的影響,與相關性結果類似,經過初等變換的光譜曲線預測能力較差,所建立模型的R
均小于0.
50,只能較為粗略地估計Cd含量的高低,無法準確預測含量值;經過微分變換的光譜曲線預測能力有較高的提升,所建立模型的R
最大值超過0.
80,能夠較為準確地預測土壤Cd含量。擬合效果最好的是FD-RF所建立的模型,R
為0.
85,RMSE
為0.
40,NT變換效果最差。基于FD-RF法建立的高光譜模型的預測值與實際值的散點圖如圖4所示。由圖4可見,樣本點與1∶1的線很近,說明用此方法建模預測能力高,對土壤Cd含量具有較好的解釋能力。
圖4 基于FD-RF法土壤Cd含量實測值與預測值散點圖
R
與RMSE
作為最終的評價指標,研究結果如表3所示。
表3 不同Cd濃度區間回歸模型統計
從模型的回歸效果看,模型對不同Cd濃度的預測能力不同,其中預測能力較高的濃度區間為Cd~Cd,平均值為0.80~1.20 mg/kg,R
均超過0.
80,RMSE
均小于0.10 mg/kg;預測能力較差的濃度區間為Cd,平均值為1.60 mg/kg,R
=0.
64,只能粗略地估計Cd含量值高低。綜上所述,當樣本濃度平均值變化小于20%時,模型的預測能力較為穩定;當樣本濃度平均值變化介于20%~40%時,模型的預測能力下降,當超過40%時,只能粗略估計含量高低,無法準確預測。礦區土壤環境復雜,常年的煤炭開采活動對土壤重金屬的空間分布產生較大的影響,不同的土地利用方式使得土壤重金屬Cd在一定的區域內發生變異性較大的現象,過高的Cd含量可能對人體造成潛在的危險,因此快速監測土壤Cd含量對于礦區土壤治理具有重要意義。高光譜遙感近年來以其快速、無損、低成本等特點已廣泛應用于土壤屬性預測。研究以廣東省韶關市某礦區為研究對象,利用偏最小二乘與隨機森林算法實現土壤Cd含量預測,并對模型進行了適應性分析。
由于Cd在土壤中含量較低,導致土壤光譜反射率與Cd含量的相關性較低。經過不同的光譜變換可以有效放大波光譜中差異不顯著的信息,并去除外界因素引起的噪聲,進而提升土壤光譜反射率與Cd含量的相關性,但總體上均沒有超過0.5。本研究中,與偏最小二乘相比,隨機森林具有更好的預測能力,這可能是由于光譜信息與土壤Cd含量之間不僅存在著線性關系,還存在非線性關系,這與陳亦凡的相關研究結果相近。土壤光譜特征是土壤系統與外部環境交互的綜合反映,不同的成土母質、粒徑大小、有機質含量高低都會影響土壤光譜曲線的形狀。在實際模型驗證中發現,某些含量較低的樣本的預測濃度存在虛高現象,這可能是由于Cd含量較低,其光譜特征被其他土壤成分掩蓋,這與彭杰等的研究結果較為一致。通過對比Cd含量在不同濃度下的預測能力可以發現,所建立的模型在不同濃度區間的預測能力不同。在Cd~Cd區間范圍內的預測能力較高,在Cd的預測能力最低,與全樣本相比,當樣本濃度平均值變化小于20%時,模型的預測能力較為穩定;當樣本濃度平均值變化超過40%時,模型的參數需要重新調整。這可能是由于當Cd濃度變化過大時,土壤理化性質差異性也變大,影響模型預測精度。近年來,隨著不同國家與地區建立的不同尺度的土壤高光譜數據庫,積累了大量的土壤光譜基礎數據,這為研究提高模型預測適用性提供了數據基礎。研究通過偏最小二乘和隨機森林算法實現了礦區土壤Cd含量預測,并將樣本分成不同的濃度區間,探討了濃度變化對模型的影響。該思路為今后檢測土壤屬性參數提供了理論支持。
基于本研究實驗數據,采用偏最小二乘和隨機森林方法建立廣東某礦區的土壤重金屬Cd含量的高光譜反演模型,重點研究了不同Cd含量下光譜曲線差異以及不同光譜處理方法對建模精度的差異,探究了不同Cd濃度區間對建模精度的影響,明確了運用微分處理方法可以有效提升模型預測精度。結果表明:
(1)Cd含量與光譜反射率呈負相關,Cd含量增加會導致反射率下降,但不會影響特征波段與吸收峰的位置。通過對原始光譜數據進行不同方式的處理,可以有效地去除噪聲的影響,提高相關性。其中一階微分效果最佳,在1 406 nm處達到最大值,相關系數r
=-0.
503。(2)基于不同回歸方法建立回歸模型,預測效果最佳的模型為FD-RF,模型的預測值與實測值的R
=0.
83、RMSE
=0.
40,對于理化性質差異較大的土壤,非線性模型的預測能力優于線性模型。當樣本濃度平均值變化小于20%時,模型的預測能力較為穩定;當樣本濃度平均值變化介于20%~40%時,模型的預測能力下降,當樣本濃度平均值變化超過40%時,只能粗略估計含量高低,無法準確預測。