








摘要: 針對傳統巖性識別方法在處理測井曲線缺失、準確性以及模型可解釋性等方面的不足,提出了一種基于MSCNN?GRU 神經網絡補全測井曲線和Optuna 超參數優化的XGBoost 模型的可解釋性的巖性識別方法。首先,針對測井曲線在特定層段丟失或失真的問題,引入了基于多尺度卷積神經網絡(MSCNN)與門控循環單元(GRU)神經網絡相結合的曲線重構方法,為后續的巖性識別提供了準確的數據基礎;其次,利用小波包自適應閾值方法對數據進行去噪和歸一化處理,以減少噪聲對巖性識別的影響;然后,采用Optuna 框架確定XGBoost算法的超參數,建立了高效的巖性識別模型;最后,利用SHAP 可解釋性方法對XGBoost 模型進行歸因分析,揭示了不同特征對于巖性識別的貢獻度,提升了模型的可解釋性。結果表明,Optuna?XGBoost 模型綜合巖性識別準確率為79. 91%,分別高于支持向量機(SVM)、樸素貝葉斯、隨機森林三種神經網絡模型24. 89%、12. 45%、6. 33%?;贠ptuna?XGBoost 模型的SHAP 可解釋性的巖性識別方法具有更高的準確性和可解釋性,能夠更好地滿足實際生產需要。
關鍵詞: 巖性識別,多尺度卷積神經網絡,門控循環單元神經網絡,XGBoost,超參數優化,可解釋性
中圖分類號:P631 文獻標識碼:A DOI:10. 13810/j. cnki. issn. 1000?7210. 20240144
0 引言
巖性數據在地質研究工作中至關重要,如地層格架建立、沉積環境分析、儲層評價與建模等。其中,巖性識別和分類是核心。通過巖性識別和分類獲取儲層信息,可為油氣勘探與開發提供科學依據[1?4]。
傳統的測井巖性識別多是根據交會圖法[5],然而該方法主要依賴于地質學家的經驗和知識,并且通常需要大量的時間和人力資源,難以滿足現代石油勘探與開發的要求[6?9]。為了提高識別結果的準確性和效率,研究人員利用機器學習技術進行巖性識別,包括支持向量機[10?11]、決策樹[12]、隨機森林[13]等。它們通過從海量數據中學習、推斷模式和規律,能夠自動化地進行巖性識別[14]。然而,這些方法普遍采用單一的學習器進行學習,不能對錯誤樣本進行二次學習,對巖性識別具有一定的局限性。
近年來,Chen 等[15]使用基于決策樹的集成學習模型XGBoost(eXtreme Gradient Boosting,極端梯度提升)進行巖性識別,彌補了因單一學習器學習而導致低準確率的不足。然而,XGBoost 模型在時間和資源方面消耗較大,缺乏對超參數的系統優化。Dev 等[16]同樣采用了XGBoost 進行巖性識別,通過實驗分析表明該模型在巖性識別中具有優勢。但是,手動調整XGBoost 模型超參數過程耗時耗力,很難確定哪些參數在訓練過程中對模型的性能產生了影響。因此,本文提出了使用Optuna 框架進行XGBoost 超參數優化的方法。Optuna 使用貝葉斯優化算法,可以快速地找到最佳超參數組合,節省了時間和計算資源。它不僅可以找到最優的超參數,還能提供每個超參數的相對重要性。
然而,由于機器學習模型在內部進行的復雜計算過程和決策規則難以被外部理解和解釋,模型的預測結果缺乏可解釋性。為了解決這一問題,研究人員提出了一些提高機器學習模型可解釋的方法[17]。其中,Yang 等[18]使用沙普利附加解釋(Shap?ley Additive Explanations,SHAP)方法對決策路徑機器學習模型進行可解釋性分析,分別從全局和局部角度研究了不同特征對模型中典型決策路徑的影響。Wu 等[19] 基于支持向量回歸(Support VectorRegression,SVR)和生成對抗網絡(Generative Ad?versarial Network,GAN)相結合的模型,采用SHAP 方法解釋了抗壓強度的輸入變量的重要性和貢獻,提高了模型的可信度和適用性。但是,SHAP方法在測井巖性識別方面應用的報道較少。因此,本文針對測井巖性識別問題,提出了基于Optuna 框架優化的XGBoost 模型和SHAP 可解釋性的測井巖性識別方法。首先,針對缺失部分的測井曲線提出了一種基于多尺度卷積神經網絡(Multi ? ScaleConvolution Neural Network,MSCNN)與門控循環單元(Gated Recurrent Unit,GRU)神經網絡相結合的網絡模型,其中MSCNN 在提取局部特征時,允許在不同尺度下捕捉特征信息;GRU 神經網絡有助于捕捉測井數據中的時序特性。然后,建立Optuna?XGBoost 神經網絡模型進行巖性識別。最后,為解決“ 黑盒”性質導致其難以解釋模型預測結果的問題,利用SHAP 方法對Optuna?XGBoost 模型進行歸因分析。本文方法旨在為測井巖性識別領域提供新的思路和方法,推動后續相關研究的深入發展。