姜寧超, 景敏,2*, 司冰琦, 賀兆南, 韓亨通, 陳曼龍,2
(1.陜西理工大學機械工程學院, 漢中 723000; 2.陜西省工業自動化重點實驗室, 漢中 723000)
石油類產品社會生產活動中的廣泛應用,但是在其運輸過程中,由于各種不可控因素導致進入農田等土壤環境,并造成嚴重的污染[1]。土壤中的石油類污染物主要集中在表層及淺層,破壞土質結構,造成土壤質量下降[2]。石油類產品及其系列產品流入土壤中,嚴重危害周圍生態環境,也很大程度上阻礙土地的可持續發展[3]。因此,為了分析土壤中成分已知的機油污染物的含量問題,提出一種新的機油污染物濃度檢測方法進行分析,這對后續被污染土質修復等具有重要意義。
由于土壤自身復雜的結構,對其中石油類污染物檢測分析有一定的困難。由于近年來微電子技術、材料以及激光技術的進步,熒光檢測技術得到了快速發展。作為一種新興檢測方法,熒光光譜分析方法是一種快速、無損的檢測方法。與使用傳統檢測方法相比,其具有靈敏度高、響應時間短、對樣品無破壞性等優點[4],目前已被廣泛應用于對土壤、水等環境中烴類污染物的檢測。
王書濤等[5]利用三維光譜結合交替懲罰四線性分解 (alternating penalized quadratic linear decomposition,APQLD)對痕量多環芳烴(polycyclic aromatic hydrocarbons,PAHs)進行準確的測定濃度。崔耀耀等[6]利用重構的三維光譜和偏最小方差判別分(partial least squares discriminant analysis,PLS-DA)相結合,對水體中的航空煤油、柴油、汽油和潤滑油進行正確地識別。Pelta等[7]利用高光譜成像技術對不同污染狀況下的土壤中石油碳氫化合物(petroleum hydrocarbon compounds,PHCs)的含量進行有效的分析檢測。夏延秋等[8]利用貪心算法、遺傳算法對潤滑油紅外光譜波段篩選,并結合極限學習機(extreme learning machine,ELM)建模,提高了對潤滑油地定性定量分析效率。韓嘉慶等[9]基于近紅外光譜分析技術,提出了具有迭代保留信息變量的隨機蛙跳(randomized frog hopping with iteratively preserved information variables,IRIV-RF)波長選擇算法結合偏最小二乘回歸(partial least squares regression,PLSR)建模,提高了農機潤滑油污染濃度預測性能。李婧等[10]基于拉曼光譜分析結合長短期記憶(long short-term memory,LSTM)神經網絡的方法,對潤滑油中冷卻液的濃度進行預測,實驗結果表明:提高了預測效率。張志剛等[11]基于隨機森林預測模型,提高了公路隧道CO含量的預測精度。陳志坤等[12]應用數據缺損重構法消除瑞利散射,結果表明:該方法是有利于消除瑞利散射的。楊仁杰等[13]將二維熒光相關譜結合多維偏最小二乘(multidimensional partial least squares,N-PLS),對土壤中蒽和菲進行有效分析。李愛民等[14]利用三維熒光光譜結合多維化學計量方法檢測對土壤中蒽、芘、菲3種多環芳烴的檢測是可行的。劉曉星等[15]通過Fisher判別函數構建化學指紋模型,對中東原油和非中東原油進行正確識別。Passoni等[16]基于拉曼光譜檢測技術,采用二次距離判別分析結合主成分分析(principal component analysis,PCA)對汽車潤滑油進行光譜差異鑒別,使得拉曼無損判別評價成為可能。谷艷紅等[17]利用平行因子分析(parallel factor analysis, PARAFAC)結合交替三線性分解 算法(alternating trilinear decomposition,ATLD)建模,提高了對土壤中的機油、潤滑油和柴油的檢測效率。實驗結果表明了有一定的檢測精度。程朋飛等[18]研究表明,通過三維熒光光譜結合交替殘差三線性化算法(alternating residuals trilinearization,ART)對0#柴油、97#汽油和煤油的膠束溶液進行有效的預測。
機油濃度預測分析是一種常見的機油質量檢測方法,其基本原理是通過對機油樣品的物理性質和化學成分進行分析,預測其濃度信息。傳統預測分析方法不能有效處理非平穩信號、無法適應多尺度信號、對信號要求高等不足。因此,提出選取小波峭度為特征的預測分析方法,對3種機油進行濃度預測分析。
為了驗證對土壤中機油成分已知,濃度未知的機油濃度預測的可行性,提出以小波峭度為特征參數,利用熒光光譜分析方法與回歸算法分別建立4種預測模型,并驗證預測精度。這對于及時發現和處理土壤中的機油濃度問題,土壤污染檢測和環境保護具有重要的研究和應用價值。
機油不同系列或相同系列不同型號之間,因為其生產工藝和含有不同添加成分,使得機油的成分有所差別。因此不同機油含有不同的熒光團,受光照激發后,其熒光光譜則表現出不同的特征峰。某一油類污染物質在激發光作用下產生的熒光光譜的形狀與分子躍遷的能級有一定的關聯,不同種類的油類物質,其形成的光譜形狀不一致,因此可利用熒光光譜法對待測的機油污染物的種類與含量進行檢測,如圖1所示。

圖1 3種機油的熒光光譜Fig.1 Fluorescence spectra of three oils
圖1所示的光譜曲線是齒輪油、摩托車機油、發動機油取相同濃度時,在365 nm激發光照射下的產生的熒光光譜曲線。由圖1可知,360~370 nm有熒光尖峰,分析可知該處是光源365 nm波長的熒光強度。而熒光光譜主要集中在波長400~650 nm的范圍,齒輪油的熒光峰位置位于407 nm處,發動機油熒光峰位置位于540 nm處,摩托車機油熒光峰位置位于417 nm處。綜上所述,由圖1中的熒光光譜曲線可以看出,不同品牌的機油表現出不同的熒光特性,其激發產生的熒光峰強度以及對應的波長中心位置也不同。可見,光譜曲線可以作為機油濃度預測的依據。
小波峭度參數是一種作為分析信號中非高斯性質的統計量,它可對于信號中的突變點或非線性特征進行檢測。在機油熒光光譜分析中,小波峭度可用于檢測光譜信號中的峰值和谷底,進而可以用于對機油濃度信號進行預測分析。小波峭度計算每一組n維向量[n1,n2,…,n1 000]的小波峭度,用這個小波峭度反映這組n維向量的信息。然后用這個小波峭度作為特征去建模。
引入小波峭度參數可以進一步提高機油濃度預測分析的準確性和穩定性。通過對不同濃度的機油樣品進行測量,并提取小波峭度參數作為特征向量,結合回歸算法對機油樣品的濃度進行預測,從而實現機油質量的快速檢測。
由于石油類產品污染物在近紫外區域有較強的吸收,而紫外光源作為理想的檢測光源,具有單色性好,光束擴散小,可以近似看作平行光等優點。因此,利用紫外光源均勻照射樣品表面,激發產生的熒光經光纖傳輸至光譜儀顯示熒光光譜,最終傳至計算機負責控制與數據處理來獲取機油污染物特征信息。實驗系統結構如圖2所示。

圖2 實驗系統結構圖Fig.2 Structure diagram of test system
實驗所采用的激發波長為365 nm的紫外LED光源,光譜儀選用長春新產業光電技術有限公司的Aurora 4000型光纖光譜儀,采用3 648像素的CCD(charge-coupled device)線性陣列探測器,分辨率是0.02 nm,光譜探測范圍是200~1 100 nm采樣間隔1 nm,狹縫為10 μm,分辨率是0.75 nm。實驗所用的輔助設備包括電子秤、聚光透鏡、帶刻度滴定管、土壤篩、10 mL石英比色皿、暗室環境箱等。
實驗所用土壤樣本采集于實驗中心車間附近,經烘干,30目實驗標準篩過篩、研磨等步驟后,去除土壤中的大顆粒雜質,使土質干燥細膩。實驗所用機油來自市場,選取洛生L-CKC220齒輪油、APSIN 10 W-40發動機油、捷豹200 SF MA 15W-40摩托車油3種。實驗土壤經天平稱取等質量10 g土壤,分別與3種機油單獨混合并搖勻,樣本濃度范圍為0.01~1 mL/g(以間隔0.01 mL/g逐步添加),各制備100組樣本,共計300組樣本。此外,為了減小實驗模型預測誤差,均采集3次數據,共計900組實驗數據,以此模擬土壤機油污染濃度的變化過程。
實驗在采集污染機油的熒光光譜過程中避免樣本中有氣泡產生,由于機油樣本中存在氣泡會使得光譜采集過程中產生光散射等情況,降低光譜數據分類檢測的精度。因此,對所有實驗樣本均靜置3~5 min,等待氣泡排出后再進行光譜數據獲取。本實驗以機油濃度作為自變量進行建模預測分析。如圖3所示。

圖3 實驗土壤樣本Fig.3 Experimental soil samples
為了對土壤中成分已知的樣品機油濃度進行預測,實驗制備各300組不同比例的濃度混合樣本,選取前240組作為訓練集樣本組進行校正訓練,后60組作為待測集樣本組進行濃度預測。利用小波峭度作為特征的回歸算法建立的回歸模型進行不同油種之間的濃度預測分析。
在對利用回歸算法建立回歸模型并對所選用的小波峭度特征參數進行分析。通過對參數小波峭度在光譜曲線中的的分布做直方圖,并利用高斯擬合的手段保留曲線。如圖4所示。

圖4 特征參數小波峭度分布圖Fig.4 Wavelet kurtosis distribution of characteristic parameters
由圖4可知,橫軸表示小波峭度的取值范圍,它是無量綱參數,縱軸表示小波峭度集中分布出現的頻率。從圖4中可知,齒輪油、發動機油、摩托車機油的小波峭度主要集中在0~40其頻率達到最大,而在40~50,齒輪油的有少量分布。通過對3種機油的特征參數的擬合分析,反映3種實驗機油光譜信號幅值概率密度函數陡峭程度。
可以看出,其中摩托車機油的頻率強度是0.1,其次是齒輪油的頻率強度,達到0.05,再次是發動機油的頻率強度達到0.025。綜上所述,小波峭度特征在一定程度上表征了齒輪油、發動機油、摩托車機油的在光譜曲線上的分布特性。
3.2.1 隨機森林回歸模型預測結果分析
為了預測10 g樣本土壤中3種機油的濃度,實驗選取齒輪油、發動機油、摩托車機油各300組機油樣本數據,樣本濃度為0.01~1 mL/g的范圍,每種機油樣本選取前240組為訓練集,后60組為測試集。對L-CKC220齒輪油、APSIN 10 W-40發動機油、捷豹200 SF MA 15 W-40摩托車油,利用隨機森林回歸模型預測濃度。預測結果如圖5~圖7所示。

圖5 齒輪油預測結果Fig.5 Forecast results for gear oil

圖7 摩托車機油預測結果Fig.7 Forecast results for motorcycle oil
在圖5~圖7中,橫軸為真實濃度,縱軸為預測濃度。藍色虛線為預測濃度等于真實濃度,訓練集和測試集數據點越接近藍線,表明預測越準確。可以看出,紅色測試集點的分布和綠色訓練集點的分布主要集中于基線兩邊,可以看出,該模型對3種機油濃度預測的結果,訓練集和測試集數據點分布集中,其中有少量異常數據的分布較為分散,分析原因,是由實驗系統環境以及實驗人員的主觀性造成的。實驗結果表明,回歸模型對于土壤機油的濃度預測是可行的。
由圖5~圖7可知,在含有小波峭度的隨機森林回歸算法預測結果當中,齒輪油測試集數據與訓練集數據主要集中在最佳預測直線的兩側,其中含有小波峭度的訓練集數據點和測試集數據點主要分布在最佳預測直線兩側,有少量測試集數據點分布較為分散。無小波峭度預測當中,測試集數據點相較于含有小波峭度的數據點分散程度更大。由上述3種機油的預測圖示結果,可以得出含小波峭度的預測結果相比無小波峭度的預測結果更接近真實值。
綜上所述,實驗結果表明,提出的小波峭度參數可以提高齒輪油、發動機油和摩托車機油的濃度預測精度。
3.2.2 隨機森林回歸模型預測結果評價
通過隨機森林回歸模型對齒輪油、發動機油、摩托車機油樣本濃度進行預測,如表1所示。

表1 隨即森林回歸模型預測結果
表1中,模型評價指標均方根偏差(root mean square deviation,RMSD)是衡量觀測值與真值之間的偏差,其值反映兩者之間的距離,RMSD越低,預測集數據點距離直線越短。模型相關系數RP是一個統計量,表示兩個變量之間的線性相關程度,數值越大,表示模型的擬合效果越好。
通過表1中模型相關系數和均方根偏差的數據分析,對齒輪油、摩托車油和發動機油,含小波峭度的回歸模型的相比無小波峭度的回歸模型預測的RP和RMSD分別提高了1.2%、2.2%、1.9%和14.9%、32.4%、16.8%。因此,含有小波峭度參數的模型預測結果優于無小波峭度的模型預測結果,在一定程度上也驗證了該特征參數在回歸模型濃度預測中的具有較好的預測能力。
3.2.3 3種機油的模型預測精度分析
利用真實濃度與加入小波峭度特征前后的濃度預測,選取濃度為0.01~0.3 mL/g的齒輪油、發動機油、摩托車油各30組數據,誤差規定在7%以內,并對3種機油的預測精度進行分析。如圖8所示。

圖8 隨機森林模型預測結果Fig.8 Prediction results of random forest model
在圖8中,分別對齒輪油、摩托車機油和發動機油的預測準確率進行分析。通過對3種油的預測濃度值與真實濃度值的對比分析,可以看出數據的分布程度,其數據主要集中在真實值兩側分布,有少量預測數據點分布距離真實值較為離散,可以看到每種機油的含有小波峭度的濃度預測結果相比于無小波峭度的濃度預測結果預測的準確率更高。如表2所示。

表2 隨機森林預測精度結果
由表2可知,每種機油選取30個樣本(樣本濃度為0.01~0.3 mL/g),選取含有小波峭度的預測精度相比無小波峭度的預測精度,對齒輪油、摩托車機油、發動機油的濃度預測精度分別提高了6.67%、6.66%、9.96%;表明小波峭度特征在不同油種的濃度模型預測中可以提高的預測精度。
3.2.4 多回歸模型濃度預測精度分析
常用回歸分析算法有線性回歸、隨機森林[19]、Robust、Adaboost[20]、GBDT(gradient boosting decision trees)、決策樹[21]、支持向量機等,為了驗證選取的小波峭度參數在其他算法的適用性,對每種算法選取30組數據進行濃度預測驗證,將預測誤差規定在7%以內,并對預測結果進行對比分析。如表3所示。

表3 多回歸模型預測精度對比Table 3 Comparison of prediction accuracy of multiple regression models
由表3可知,通過對每種機油選取的30個樣本中,Adaboost預測模型選取小波峭度相比無小波峭度的預測精度,對齒輪油、摩托車機油、發動機油的濃度預測精度分別提高了10%、3.33%、3.33%;GBDT預測模型選取小波峭度相比無小波峭度的預測精度,對齒輪油、摩托車機油、發動機油的濃度預測精度分別提高了3.33%、6.67%、6.67%;決策樹預測模型選取小波峭度相比無小波峭度的預測精度,對齒輪油、摩托車機油、發動機油的濃度預測精度分別提高了3.34%、6.66%、6.67%。
綜上所述,基于小波峭度特征的3種回歸模型對于機油的濃度預測均有提升,表明基于小波峭度對于機油污染物濃度預測精度提高,具有一定的有效性。
3.2.5 多回歸模型預測結果分析
在機油污染物濃度預測分析中,常用回歸分析算法有線性回歸、隨機森林[19]、Robust、Adaboost[20]、GBDT、決策樹[21]、支持向量機等,為了驗證選取的小波峭度參數在其他算法的適用性,對每種機油選取300組數據進行濃度預測,并對樣本集進行劃分,選擇240組為訓練集,60組為測試集。利用小波峭度作為回歸模型的輸入,并將多個回歸模型預測結果進行對比分析。如表4所示。

表4 多回歸模型預測結果對比
由表4可知,通過Adaboost算法、GBDT算法和決策樹算法構建回歸模型對齒輪油、發動機油、摩托車機油進行濃度預測。通過評價指標RP和RMSD分析可知,Adaboost回歸模型對齒輪油、摩托車機油、發動機油,分別提高了1.1%、0.6%、1.2%和5.9%、0.5%、4.0%;GBDT回歸模型對齒輪油、摩托車機油、發動機油,分別提高了1.7%、0.2%、1.9%和14.8%、0.8%、15.0%;決策樹回歸模型對齒輪油、摩托車機油、發動機油,分別提高了0.4%、0.6%、0.5%和2.6%、0.2%、3.1%。因此,可以看出,選取小波峭度的模型預測相比為選取小波峭度的模型預測,在Adaboost、GBDT、決策樹回歸模型當中均有提高,其中GBDT回歸模型對于3種機油濃度預測的效果最優,表明小波峭度在對機油濃度預測精度的提高具有一定的有效性。
綜上所述,實驗數據表明,小波峭度在多個回歸預測模型中是可行的。因此提出以小波峭度參數對于土壤中機油濃度預測分析具有較好的預測性能。
(1)建立基于反射光譜的污染物機油濃度檢測系統,提出以小波峭度作為量化參數并構建基于熒光光譜分析的隨機森林回歸預測模型,并對回歸模型方法的分析結果進行了評估。實驗結果表明,通過隨機森林回歸模型對齒輪油、摩托車機油和發動機油的RP和RMSD進行分析,分別提高了1.2%、2.2%、1.9%和14.9%、32.4%、16.8%;對齒輪油、摩托車機油、發動機油的濃度預測精度分別提高了6.67%、6.66%、9.96%。因此,表明小波峭度在機油濃度預測中可以有效地提高預測精度,具有良好的預測性能。
(2)通過Adaboost算法、GBDT算法和決策樹算法預測模型進行測試和驗證,得到了較好的預測結果,并與傳統的機油濃度預測方法相比,具有更好的預測性能和較低的誤差率。
(3)提出基于小波峭度的機油表層污染物濃度的預測方法,可以拓展到土壤表層其他污染和環境檢測領域,為保障農業農作物生長和土壤環境,提供重要的理論支持和技術指導。此外,還可以進一步研究該方法的優化和改進之處,以提高模型預測精度和可靠性。