彭奕博,焦龍,李棟,沈瑞華,鐘漢斌,熊迅宇
西安石油大學化學化工學院(陜西 西安 710065)
巖性識別是儲層描述、地層評價、石油鉆井等應用領域的重要研究內容[1-2],準確、高效地識別巖性具有很大的實用價值[3]。巖性識別問題一直以來是國內外研究的熱點,目前傳統的巖性識別和分類方法主要分為兩種:一是通過薄片鑒定或手標本鑒定的方法,還包括重磁技術、地震技術等其他輔助識別手段,在工程中可以快速提供初步的識別結果[4-5],這些方法存在準確率低、識別效率低等問題;二是通過元素測試和礦物測試的方法,其中掃描電子顯微鏡、X 熒光技術和紅外光譜等是目前比較常用的手段[6],但這些方法難以同時滿足高效率和高精度的要求[7-8]。因此,建立一種快速有效的巖性識別方法有著重要的意義。
高光譜是一種將成像技術與光譜技術相結合的無損檢測技術,具有圖譜合一、分辨率高、信息量大等特點[9],在環境監測[10]、食品安全[11]、農業生產[12]以及地質遙感[13-14]等領域取得了廣泛的應用。高光譜技術可以對選定波長的樣品進行成像,能夠準確反映出所測樣品的物理和化學信息[15]。由于高光譜數據波段數量多、信息量大以及相似度極高,所以會存在數據冗余的問題,因此在進行分析時往往需要與計算機技術相結合,從而達到更好的效果[16]。隨著計算機技術的快速發展,采用高光譜結合機器學習的方法可以有效地進行地物識別和分類[17]。Su等[18]將高光譜圖像特征與神經網絡技術相結合,實現了對不同礦物種類的識別;Chen等[19]采用標準正態變換、一階微分的方法對高光譜數據進行預處理,建立了基于卷積神經網絡(CNN)的煤巖分類模型,識別準確率達到94.60%。因此可以推測利用高光譜技術結合機器學習算法實現巖性識別是可行的。
本文將高光譜技術與隨機森林(random forest,簡稱RF)和偏最小二乘判別分析(partial least square-discriminant analysis,稱簡PLS-DA)方法相結合。首先,采集3類巖石的高光譜,然后利用標準正態變換、多元散射校正、SG 平滑濾波和一階微分對數據進行預處理,最后分別將預處理前后的巖石光譜數據作為輸入變量結合隨機森林算法和偏最小二乘判別分析,試圖建立一種快速有效的巖性識別方法。
研究采用的樣本由四川盆地川南開采區提供,選取3類巖石樣本共360個,均為灰色且外觀相似,其中火山巖、砂巖和石灰巖各120個,代表性巖石樣本如圖1所示。

圖1 代表性巖石樣本
高光譜采集實驗如圖2所示,包括FieldSpec4型便攜式地物高光譜儀(ASD公司,美國)、樣品臺、采樣探測器和計算機。可以采集到350~2 500 nm 波長范圍內的光譜,每個光譜數據的采集時間為0.2 s,光譜分辨率為10 nm。

圖2 高光譜實驗示意圖
在進行光譜采集實驗之前,需提前預熱光譜儀20 min,并通過標準白板校準獨立光源的光譜。將巖石樣品水平放置在樣品臺上用于收集光譜圖像,樣品臺板采用純黑色氧化鋁制成,不反射任何光線,可大大減少反射光對巖石光譜成像的干擾。此外為了提高光譜的穩定性,以3 次平行測定所得光譜的算數平均值作為樣品的原始光譜數據。3類巖石樣本共采集360個原始光譜數據。
研究所用的高光譜數據均由高光譜儀配置的ViewSpecPro 軟件得到,數據處理及建模均由Matlab2019b 完成。全部計算在配置了Intel(R)Core(TM)i7-12700HCPU的個人計算機中進行。
標準正態變換(standard normal variate,簡稱SNV)是一種常用的光譜預處理方法,主要用于消除巖樣由粒徑大小不均、表面散射變化等因素對光譜實際反射率的影響[20]。其原理是將原始光譜數據轉換為標準正態分布的變量。需要注意的是,SNV 方法適用于光譜數據的整體預處理,而不適合于單個樣本的預處理。
SG平滑濾波(Savizkg-Golag,簡稱SG)是一種基于多項式擬合的平滑算法,其原理是利用多項式擬合來平滑數據。具體來說,SG平滑濾波將原始數據看作是一個多項式函數的離散采樣,然后通過對這個多項式函數進行擬合,得到一個平滑后的曲線。其最大的特點在于濾除噪音的同時可以確保信號的形狀、寬度不變,同時可以用于消除設備操作過程中的隨機噪聲,提高信噪比[21]。在SG 平滑濾波中,多項式的階數和窗口大小是兩個重要的參數,它們決定了平滑的程度和平滑后曲線的形狀。研究中設置的階數為2,平滑窗口為21。
多元散射校正(multiplicative scatter correction,MSC)是一種常用于光譜數據預處理的算法之一,可以有效地消除由于散射水平不同帶來的光譜差異,從而消除由于在光譜測量過程中散射水平的不同帶來的光譜差異,增強光譜與數據之間的相關性。
一階微分(first-order differentiation,FD)能夠通過導數的方法來觀察光譜的變化率,在一定程度上可以消除基線平移、平緩背景干擾的影響。
隨機森林是一種監督式學習算法,適用于分類和回歸問題。隨機森林是在決策樹的基礎上構建的,它是由許多決策樹組成的集成模型。它的核心思路是,當訓練數據被輸入模型時,隨機森林并不是用整個訓練數據集建立一個大的決策樹,而是采用不同的子集和特征屬性建立多個小的決策樹,然后將它們合并成一個更強大的模型。隨機森林通過對多個決策樹的結果進行組合,可以增強模型的學習效果。
偏最小二乘判別分析是一種數據降維及分類算法。PLS-DA是基于偏最小二乘回歸算法的基礎上,通過引入類別信息,進行數據分類技術。PLSDA不僅可以用于解決高維數據處理中維度災難問題,在分類和預測問題中也表現優秀,尤其適用于小樣本、高維數據的建模問題。
混淆矩陣作為評價模型結果的一種方法,可用于評價模型的分類性能。表1為分類任務的混淆矩陣,每一列代表了預測值,每一行代表了真實值。通過混淆矩陣可以計算分類器的準確率(Accuracy)、精密度(Precision)、回收率(Recall)和F1值等指標。

表1 混淆矩陣
在模型分類效果的評價中,通常采用F1值和準確率兩個評價指標[22-23]。F1值是精密度和回收率的調和平均數,如果只考慮精密度或者回收率都不能作為評價一個模型好壞的指標,所以使用F1值來兼顧兩者。如表1 所示,TP表示正確地把正樣本預測為正;FN表示錯誤地把正樣本預測為負;FP表示錯誤地把負樣本預測為正;TN表示正確地把負樣本預測為負。基于表1 獲得的TP、TN、FP和FN,分類任務的準確率、精密度、回收率和F1 值可分別表示為式(1)~(4):
巖樣反射高光譜曲線在特征上的差異是判別巖樣的直接根據[24]。不同巖樣物質組成屬性的差異性影響了高光譜曲線的特征,表現為巖樣在不同波段的特征吸收谷。
3 類巖樣的全波段高光譜反射率曲線如圖3 所示。從圖3中可以看出,3類巖石樣品的高光譜曲線趨勢大致相同,說明不同巖樣內部的礦物組成種類大體相似。但光譜吸收位置和吸收形態的不同,表明其化學成分含量存在差異,這可能是受到地表風化、巖石結構和表面顏色等外在因素的影響[25]。通過分析可以看出,3 類巖樣高光譜特征曲線波形復雜,難以通過吸收特征直接進行巖性的準確識別,因此,需要通過隨機森林與高光譜數據相結合建立分類模型對巖性進行識別。

圖3 巖樣的高光譜反射率曲線
在光譜采集的過程中,通常會存在光譜散射、基線旋轉和基線平移等問題[26]。為了減少這些因素對巖性識別準確率、精密度和回收率的影響,有必要對巖石樣本的原始光譜進行預處理。
采取隨機抽樣的方法,將360 個樣品的光譜按照4∶1∶1 的比例劃分訓練集、驗證集和測試集。訓練集用來訓練模型,驗證集用來選擇最佳模型參數,測試集用來測試模型的分類效果。
在隨機森林模型中,通過調整決策樹的數目從而使模型達到最佳的分類效果[27]。以10~100 作為決策數目選擇范圍,將巖石原始光譜和預處理后的數據作為輸入變量,以巖性作為輸出變量,采用隨機森林算法和偏最小二乘判別分析建立了巖性識別模型。
不同預處理方法結合隨機森林和偏最小二乘判別分析的模型識別準確率結果見表2。從表2 可以看出,基于原始光譜建立的RF和PLS-DA模型已經取得了較好的識別效果,驗證集識別準確率均達到了85.00%以上;相較于原始光譜,數據預處理對模型識別準確率有著不同程度的影響,因此選擇合適的預處理方法可以有效提高模型的識別效果。另外,RF模型的平均識別準確率高于PLS-DA模型的平均識別準確率,其中SG-RF模型的識別效果最佳,驗證集的識別準確率達到89.17%。因此,選擇SG-RF模型作為最佳的巖性識別模型。

表2 不同預處理方法結合分類模型的識別準確率%
為了更好地評價模型的識別能力,將測試集準確率和F1值作為模型的綜合評價指標,表3為不同預處理方法建立的RF模型測試集分類準確率及對應的F1值。結果表明,經SG處理后建立的RF模型識別準確度最高,測試集識別準確率達到了93.33%。

表3 不同模型巖樣對應的F1值
此外,火山巖、砂巖和石灰巖在每個模型中對應的F1 值見表3,F1 值越高,代表模型對該類巖石識別效果越佳。從表3 可以看出,經4 種數據預處理后可有效提高模型對各類巖性的識別能力。其中,SG-RF模型對每類巖石樣品都取得了最佳的識別效果,對石灰巖和火山巖的識別能力最好,對應的F1 值均達到了90.00%以上。以上結果表明,經SG預處理后建立的隨機森林模型,具有很高的識別能力和穩定性。因此,將SG-RF模型作為最佳的巖性識別模型。
研究中建立的巖石高光譜分類方法,可以實現對不同巖性的有效識別。通過采集巖石樣本的高光譜數據,分別采用4 種方法對巖樣的原始光譜進行預處理,并結合隨機森林和偏最小二乘判別分析算法建立巖性識別模型。研究結果表明,基于SG平滑濾波預處理后建立的隨機森林模型識別效果最佳,測試集準確率達到了93.33%,同時對各類巖石對應的F1值也最高。由此可見,高光譜結合隨機森林方法應用于巖性識別具有良好的可行性,且結果準確可靠,方法快速簡便,這為巖石定性分類研究提供了一種新的方法。