江曉宇 李福生 王清亞 郝 軍 徐木強 羅 杰
(1.東華理工大學核資源與環境國家重點實驗室, 南昌 330013;2.東華理工大學核技術應用教育部工程研究中心, 南昌 330013;3.長江大學資源與環境學院, 武漢 430100)
能量色散X射線熒光(Energy dispersive X-ray fluorescence, EDXRF)光譜儀是一種間接定量分析儀器,可對多種重金屬元素進行快速同步分析[1],除了能無損檢測外,EDXRF因其體積小、質量輕、分析速度快及準確度高而廣泛應用于野外現場分析中[2-3]。近幾年,EDXRF已經成為地質、鋼鐵、石油、環境和醫學等領域的首選儀器[4]。在獲取X射線熒光光譜的過程中,儀器本身(如SSD探測器和采集板)產生的統計漲落所帶來的噪聲干擾以及X射線管出射譜中連續軔致輻射造成的背景干擾噪聲是高頻信號,基線變化是低頻信號。基線問題是一個相對復雜的問題,理論上很難研究出一種完美的方法來處理基線問題。通常直線用于連接信號峰的兩端,以直線為基線,在此基礎上進一步計算峰面積或峰高。如果直線不符合實際基線,則計算就會產生誤差。
近年來,研究人員提出了各種基線校正方法,例如小波變換[5-7]、多項式擬合[8-9]、傅里葉變換[10-13]、形態學[14]和懲罰最小二乘[15]。其中,懲罰最小二乘算法因其在光譜背景扣除中的高效率和簡便性而被廣泛采用。1922年,懲罰最小二乘由WHITTAKER[16]首次提出,并用作數據平滑,隨后研究人員在懲罰最小二乘算法的基礎上進行了很多改進[17-21]。雖然改進的基于懲罰最小二乘算法的基線校正方法在近紅外光譜領域取得了一些良好的實驗效果,但在X射線光譜分析領域的具體應用效果還有待進一步研究和探討。
本文選擇5種懲罰最小二乘(或其改進)算法,結合PLS技術分別對土壤樣品中的鉛、砷元素建立X射線熒光光譜定量分析模型,并對比分析模型的相關指標,選取最適合X射線熒光光譜基線校正的算法,然后采用選好的PLS模型分別與神經網絡(BP)[22-24]和支持向量機(SVR)[25-27]所建立的模型進行對比分析,以選擇較優的土壤中X射線熒光光譜定量分析模型,以期為土壤污染調查分析提供技術支持,也為懲罰最小二乘算法在X射線光譜領域的研究應用提供理論基礎。
主要儀器:TS-XH4000型便攜式X射線熒光光譜儀,浙江泰克松德能源科技有限公司;SDD探測器,能量分辨率為125 eV,美國Amptek公司;球磨儀,江蘇宜興丁蜀浩強機械設備有限公司;樣品杯(聚乙烯),尺寸為Φ3 cm×1 cm,單開口,帶固定麥拉膜的頸圈;麥拉膜,厚3.6 μm,寬7.6 cm,美國Chemplex公司。
本實驗中,共計樣品89個,其中野外采集土壤樣品30個(江西省鄱陽湖地區),另外59個為國家土壤標準樣品,其中20個水系沉積物標準物質(GSD)和39個土壤標準物質(GSS系列),樣品來源多樣,且基本覆蓋了全國大部分土壤質地。樣品采集和制備方法嚴格按照土壤環境質量標準(GB 15618—2018)中的技術規范執行。將采集的土壤樣品自然風干,除去土壤樣品中沙石、草屑、動物碎片等明顯的異物,使用四分法取2份,1份用于實驗分析,1份備用。將國家標準認證樣品和實驗分析的土壤樣品均勻填入瑪瑙缽體中,在球磨儀上研磨5 min后,取出粉末過200目篩子。將處理后的土壤樣品使用便攜式XRF分析儀在管壓35 keV、電流40 μA和時間90 s下,采集土壤X射線熒光光譜數據,測量時每個樣本測量3次,3次移動不同位置,取平均值作為光譜數據,共獲取樣品在0~45 keV范圍內共2 048個通道的光譜信息。
Kennard-Stone(K-S)算法[28]作為樣本劃分方法將光譜原始數據的69個樣品作為訓練集,20個樣品作為預測集。
1.3.1懲罰最小二乘算法
假設y為原始光譜信號,長度為N。用z表示擬合基線的向量,長度也為N。則懲罰最小二乘方法中z對y的保真度F為
(1)
式中yi——y在通道i時的信號強度
zi——z在通道i時的信號強度
ωi——權重
ωi可以表示為對角線矩陣W
(2)
擬合的基線z的粗糙度R表示為
(3)
對于原始數據保真度和擬合基線數據粗糙度之間的平衡,采用保真度權重和平滑參數來調節,可以描述為
Q=F+λR=W‖y-z‖2+λ‖Dz‖2
(4)
式中D——2階差分矩陣
λ——平滑參數
Q——綜合變量,表示原始基線與擬合基線保真度與粗糙度間的平衡

z=(W+λDTD)-1Wy
(5)
因此,式(2)、(5)是懲罰最小二乘算法的基本形式。該算法的核心思想是如何選擇合適的平滑參數λ和權重向量W。其中,加權方案一直受到大家的關注和重視。一般來說,非峰值區域的權重應接近于1,峰值區域的權重應接近于零。
1.3.2算法實現
根據實驗,所有基于懲罰最小二乘(或者改進)算法的程序都在計算機上使用Matlab 2016b編寫。懲罰最小二乘(或者改進)算法的基本實現步驟為:
(1)輸入原始X射線熒光光譜數據y。
(2)加載最優參數:最大迭代次數Itermax、平滑參數λ和初始化權重ω。
(3)迭代次數從t=1開始,對權重ω進行初始化ω1=[1,1,…,1],則權重矩陣W為對角矩陣,Wt=1=diag(1,1,…,1)。
(4)將初始權重ω1代入式(5),通過懲罰最小二乘擬合基線數據zt。
(5)計算X射線熒光光譜與擬合基線之間的殘差信號d=y-z,標準差σ和估計權重ω。
(6)判斷是否滿足迭代終止條件或者達到最大迭代次數,若不滿足轉步驟(5),否則轉至步驟(7)。
(7)迭代終止,輸出最優基線z并計算校正后的光譜y。
采集到的土壤原始X射線熒光光譜數據包含儀器操作、土壤背景和散射效應等引起的噪聲和無關信息,因此在對光譜數據進行操作之前,需要對光譜進行平滑去噪處理,有助于消除干擾因素。以國家土壤標準物質GSS-7為例,采用信噪比(SNR)作為去噪效果評價指標,去噪處理采用以下方法:樣品顆粒分布不均勻及顆粒粒徑產生的散射影響,使用多元散射校正法(MSC)消除。光譜平滑去噪采用小波變換進行處理,小波基函數選取sym4,計算不同分解層數下的SNR,結果見表1。可以看出,光譜信號在分解層數為7層時,去噪效果最好,效果見圖1,其信噪比為19.712 7 dB。

表1 sym4小波函數在不同分解層數時的去噪結果
以國家土壤標準物質GSS-7為例,5種基線校正方法擬合得到基線如圖2所示。從圖2中可以看出,DRPLS算法對基線有較好的擬合效果,所得的估計基線能夠更好地擬合本底,估計基線與X射線熒光光譜的真實基線最為接近,可以精確擬合土壤實際光譜目標元素特征峰附近的基線,且基線校正后的本底扣除最為明顯。而ASLS、ARPLS和LRSPLS算法所得估計基線存在著不同程度的位置偏低現象,從而低估了土壤樣品實際光譜的基線,而這一現象也間接證明了ASLS、ARPLS和LRSPLS的加權方案總是受到實際光譜噪聲的影響。另外,AIRPLS算法的估計基線沿著底部信號中間穿過,而不是沿著X射線熒光光譜真實基線的底部,這將造成校正后光譜向下凹起,進而導致譜強度偏小,小峰無法識別,從而影響對X射線熒光光譜的后續分析,特別是定量分析結果的準確性。
為了更具體地比較不同方法對實測光譜信號擬合的效果,刪去校正后光譜特征峰區域的數據,然后求取信號方差。方差越小,說明校正后信號的基線越平緩,擬合效果越好,去除特征峰后信號的方差如表2所示。
由表2可以看出,與其他4種方法相比,DRPLS算法在土壤樣品實測數據中得到的方差最小,為1.52×10-3,說明DRPLS算法在樣品非特征峰區的基線不會太高或太低,校正后的基線最平緩,波動最小,擬合效果最好。綜上所述,該方法可以有效地去除XRF譜的基線,為后續定量分析模型的精度提高提供了保障。

表2 去除特征峰后信號的方差
利用原始數據和使用5種處理方法對土壤樣品X射線熒光光譜進行基線校正處理后的光譜數據繪制校準曲線,分別基于PLS建模,進行鉛和砷元素的定量分析,結果見圖2和表3。由表3可以看出:不同算法基線校正處理對PLS模型精度的影響差異明顯,6種光譜基線校正方法中,鉛的預測集R2最大為0.982,最小為0.912;RMSECV和RMSEP最大分別為0.233 mg/kg和0. 239 mg/kg,最小分別為0.113 mg/kg和0.056 mg/kg。圖2表示2種元素的5種基線校正方法的校正效果,從圖2和表2中均可看出,AIRPLS的效果最差,經基線扣除后的RMSECV和RMSEP 最大,且低于無基線處理的PLS模型。圖2b的DRPLS基線校正的結果表明,經基線校正處理后,原始光譜的基線有較明顯改善。根據表2和表3可以看出,DRPLS基線校正后的模型訓練集和預測集R2、RMSECV和RMSEP均有提高,且主成分數也減少,改善了模型的精度。結合表2、3和圖2并從多個指標綜合考慮,相比較其他幾種基線校正方法,可以得出DRPLS基線校正處理方法對PLS模型精度改善最好,但也可以看出不是所有的懲罰最小二乘基線校正算法均對PLS模型精度有改善,有可能對模型產生負影響。

表3 基線校正后的結果
為了驗證該最優算法在不同模型中對定量分析的影響,將鉛和砷元素作為定量分析對象,用本實驗所用便攜式X射線熒光光譜儀對土壤樣品(共89個)進行檢測,每個樣品測量3次,對應的計數率取平均值,與其相應的標準值(CRMs)進行PLS、BP和SVR建模,以模型決定系數(R2)和預測均方根誤差(RMSEP)作為評價標準,對不同模型建模的預測結果進行評價。
評估最佳PLS、BP和SVR模型的實際預測能力是利用預測集中的20個未知樣本進行的。采用DRPLS對土壤重金屬鉛和砷的光譜基線校正后進行PLS、BP和SVR建模,20個預測集預測值與實測值的擬合結果見圖3~5。鉛和砷的預測值和實測值的R2和RMSEP見表4,通過對比分析R2和 RMSEP,可以得出DRPLS-SVR具有最佳回歸效果,鉛和砷的R2分別為0.998和0.993,RMSEP分別為0.015 mg/kg和0.596 mg/kg,相比較于無任何基線校正處理,SVR不僅在精度方面有較大的提升,比DRPLS-BP在時間性能方面也有所提高,且與DRPLS-PLS相比具有更好的泛化性能和預測效果。

表4 2種重金屬的預測值和實測值的擬合結果
綜上所述, SVR比PLS模型和BP模型更適用于土壤重金屬濃度的測定,因為SVR模型具有較高的準確性。
經DRPLS基線校正處理后結合SVR建模的預測值與實測值(均值,n=3)的結果如表5所示,從表5可以看出,DRPLS基線校正后鉛和砷的預測值和實測值的相對標準偏差(RSD)范圍分別為0.56%~4.35%、0.61%~4.85%,未經處理相對標準偏差范圍為0.67%~15.1%、1.16%~13.5%,基線校正后的元素相對標準偏差均小于10%,相對誤差(RE)基本小于5%。可見采用DRPLS基線校正預處理后,建立的SVR模型對2種重金屬元素具有良好的預測效果。優化后方法實測值與標準值也更接近,符合土壤環境監測技術規范里的要求,所以,采用算法處理后的儀器擁有更好的精密度和準確性,儀器檢測水平得到極大提升。

表5 DRPLS背景扣除前后SVR建模的預測結果與實際值
此外,DRPLS基線校正算法能在去除基線漂移的同時保留光譜的有效信息,從而提升了光譜定量分析的準確性,進一步驗證了該算法可以有效應用于實際X射線熒光光譜處理,并取得了較好的效果。
(1)研究選取了89個土壤樣本,采用手持式XRF儀獲取土壤重金屬原始光譜,并對原始光譜采用sym4小波基進行小波變換平滑去噪處理。結果表明,在分解層數為7層時,去噪效果最好,信噪比最高,達到了19.712 7 dB。
(2)對比了土壤重金屬光譜的無基線校正處理以及ASLS、LRSPLS、ARPLS、AIRPLS、DRPLS等基線校正方法的處理效果。結果表明,與其他5種方法相比,DRPLS算法在土壤光譜中的方差最小,為0.001 52,說明DRPLS算法校正后的基線波動最小,擬合效果最好。
(3)采用DRPLS算法基線校正后的光譜分別采用 PLS、BP和SVR進行定量建模分析,結果顯示SVR回歸得到的建模效果最好,鉛和砷預測值和實測值的R2分別達到0.998和0.993。