










摘要:巖性識別是儲層評價中的一項重要工作。隨著機器學習方法的不斷發展,巖性的智能識別也成為熱門研究方向。隨鉆測井技術目前已經得到了廣泛的應用,但是受限于高溫高壓的鉆井作業條件,隨鉆測井儀器只能測得少量測井參數。由于隨鉆測井參數較少,直接輸入機器學習模型無法充分挖掘其中的信息。對此,本文將隨機樹嵌入引入隨鉆測井資料的巖性識別。該方法將低維隨鉆測井數據通過二叉樹編碼并轉化為高維稀疏特征,利用升維后的數據進行訓練從而提升機器學習模型的判別能力。對比實驗結果表明,使用隨機樹嵌入的隨機森林方法具有最佳的識別效果,準確率和F1值較直接使用隨機森林分別提升了3.16%和3.25%,且優于梯度提升樹、極隨機樹和粒子群優化支持向量機算法。
關鍵詞:機器學習;隨機樹嵌入;隨機森林;巖性識別;隨鉆測井
doi:10.13278/j.cnki.jjuese.20230193
中圖分類號:TE121
文獻標志碼:A
0引言
巖性識別是儲層評價和地質建模的一項基礎性工作,對油藏描述和油氣勘察具有重要意義3]。傳統巖性識別方法主要通過測井交會圖結合專家經驗進行,而隨著人工智能技術的發展,巖性智能識別成為趨勢5]。測井曲線中包含豐富的地質信息,以測井參數為輸入,多種機器學習方法已經被應用于測井巖性識別工作并取得很好的識別效果8]。瞿曉婷等利用多層反向傳播神經網絡在復雜儲層巖性識別方面取得了較好的應用效果;孫巋利用改進最鄰近分類算法有效提高了潛山巖性識別精度;徐晗等使用隨機森林(random forest, RF)算法進行了非開挖實時鉆井條件下的地層巖性識別;Han等提出了多標簽數據增廣級聯森林,構建了有效預測火成巖巖性、巖相和儲層流體的多標簽預測模型。
隨鉆測井在鉆井過程中實時測量地層的測井參數。隨鉆測井技術可以減少泥漿侵入對測井參數的影響,并且可以指導地質導向,進行儲層實時評價14]。但是由于高溫高壓的復雜井下鉆井條件,且隨鉆測井儀器受鉆鋌限制,所以通常只能測得少量關鍵的測井參數。對比傳統巖性識別使用的常規測井數據,隨鉆測井數據參數少,直接使用機器學習方法難以深入挖掘測井參數與巖性之間的非線性響應關系,測井參數的特征工程研究亟需展開。目前,針對測井參數方面的研究也有很多進展:Ren等使用主成分分析和改進模糊決策樹進行了巖性識別研究;Wang等使用線性判別分析輔助神經網絡進行成巖相預測。但是上述方法的研究對象都是常規測井數據,且方法都是進行降維操作,無法有效應用于隨鉆測井巖性識別任務。
針對上述問題,本文提出了一種基于隨機樹嵌入(random tree embedding, RTE)的隨鉆測井巖性識別方法。RTE使用二叉樹對低維數據進行重新編碼,完成無監督的特征轉換,將低維數據映射至高維稀疏的特征空間,有利于分類模型的進一步判斷。具有相似思路的支持向量機(support vector machine, SVM)算法20]使用核函數將數據映射至高維空間并尋找最佳分割平面。本文對比了使用RTE前后的RF算法、梯度提升樹算法(gradient boosting decision trees, GBDT)和極隨機樹(extremely randomized trees, ET)算法,以及粒子群優化(particle swarm optimization, PSO)的SVM(PSOSVM)算法,以證明RTE使用低維測井數據進行巖性識別的有效性,為隨鉆測井巖性識別的實際生產應用提供新思路。
1研究方法
1.1隨機森林與極隨機樹
RF和ET都是基于決策樹的集成算法22],都由一系列決策樹構成,準確性高且泛化能力強,在包括巖性識別的各研究領域已經得到了廣泛的應用。
RF使用bootstrap采樣方法,有放回地采樣并不斷構建大量子集,并在子集中訓練決策樹,使得決策樹之間是多樣的,以保證RF模型具有較強的泛化能力。首先,構造一棵分類與回歸樹(classification and regression tree, CART),以最佳Gini指數進行葉節點的分割并不斷生長。Gini指數(CG)的計算如下:
式中:K為樣本類別數;pk為樣本屬于第k類的概率。
ET具有更強的隨機性,不進行隨機采樣和最佳分裂點選擇,而是隨機選擇特征進行劃分,構建更大規模的基分類器以減小方差。
最終,訓練得到的所有決策樹的預測結果以投票的形式輸出。通過對弱學習器(單一決策樹)的集成,強學習器可以獲得更加優秀的性能。
1.2梯度提升樹
GBDT是基于Boosting和CART的集成算法。與Bagging策略不同的是,Boosting的基模型間存在聯系。在層級訓練過程中,每一層的基模型都會對前一層的錯分樣本賦予更高權重。令樣本為{xi,yi}(i=1, 2, …,n),迭代次數為M。GBDT的關鍵是使用損失函數的負梯度擬合殘差,常用的損失函數為對數似然損失函數:
1.3粒子群優化的支持向量機
SVM的目的是尋找一個最優超平面進行樣本劃分,所以本質上是一種二分類算法。目前,多分類SVM常采用“一對一”或者“一對多”的策略進行多類別分類。SVM算法定義的函數距離ξ為
SVM對超參數敏感,特別是懲罰參數C和核函數參數γ,故確定最優超參數是獲得優秀分類性能的關鍵。
PSO是一種成熟的智能優化算法,采用模擬鳥類捕食的方式,每一個粒子表示一個可能解并對應適應值。隨著粒子速度和位置的更新,適應值同時更新,并獲得個體極值和群體極值,即最優解位置。使用PSOSVM是一種成熟穩定的參數優化策略,可以使得算法獲得更高的分類性能。
1.4隨機樹嵌入
RTE是一種無監督的特征轉換方法,通過二叉樹編碼將原本低維非線性特征映射至高維稀疏空間以改善分類器性能。與RF相似,使用bootstrap采樣構建子集,并訓練一系列無監督的二叉樹索引。對于每一個樣本實例,都可以表示為每棵二叉樹葉節點的索引,RTE索引過程如圖1所示。最終,將索引編碼進行拼接,轉化得到稀疏高維的新特征。在完成所有樣本的索引編碼后,以新的矩陣形式輸出,且此矩陣的維度μ可以表示為
1.5本文方法
由于隨鉆測井數據的低維特征,本文使用RTE對原本低維的數據進行特征轉換,即對數據特征進行升維以提升基線模型的分類能力。將RF、ET和GBDT作為基線模型評估RTE的有效性;將PSOSVM作為一種適用于低維數據的模型進行對比。
2數據處理與模型構建
2.1數據分析與預處理
為驗證本文方法的可行性,我們選用來自珠江口盆地某研究區五口解釋井內的1 681個巖性樣本進行實驗。該研究區內巖性被劃分為五類,分別是泥巖、砂巖、粉砂巖、微晶灰巖和藻礁灰巖。其中,泥巖樣本784個,砂巖樣本144個,粉砂巖樣本237個,微晶灰巖樣本169個,藻礁灰巖樣本347個。圖2顯示了本次研究的所用數據的樣本量,其中泥巖樣本占比較大,數據呈現不均衡分布。所有樣本數據均來自同一研究區,服從相同的數據空間分布。由于隨鉆測井儀器的限制,僅有自然伽馬(GR)、電阻率(Rt)、密度(DEN)和井徑(CAL)四個測井參數構成整體樣本。樣本進行隨機劃分,70%作為訓練集,30%作為測試集。
2.2模型構建
文中所有模型的參數設置都進行了優化以保證模型具有較好的應用效果。其中,網格搜索和交叉驗證法用于確定RTE、RF、GBDT和ET的超參數;而對比的SVM算法對模型超參數的選擇更加敏感,故我們使用了PSO對C和γ進行調整。各模型的超參數見表1。
2.3模型評價標準
巖性識別的本質是分類問題。為了對分類模型性能進行全面的評價,將準確率(A)、精確率(P)、召回率(R)和F1分數四種指標作為評價的標準。這些評價指標可以綜合反映出模型性能的優劣,每一個指標值越高則模型效果越好。模型評價指標的表達式如下:
混淆矩陣可以直觀地反映模型對每種類別的識別情況,常用于分類模型的性能評估。混淆矩陣為一個N×N階矩陣(N為類別數),行為預測結果,列為真實結果,每一列中的數值代表真實樣本被預測為某一樣本的比例,對角線上的數值代表了每種類別的準確率。
3結果與分析
3.1隨機樹嵌入效果
由于隨鉆測井獲得的參數少,直接使用無法達到較好的效果。RTE將原本低維的隨鉆測井數據重新進行二叉樹編碼,并映射至高維的稀疏空間,這將更有利于模型的深入挖掘。為了更直觀地展示模型的數據分布,圖3使用主成分分析進行數據降維,并以第一和第二主成分繪制了數據分布圖。從數據原始分布(圖3a)中可以看到,巖性數據間的重疊較多,樣本邊界較為模糊。從RTE升維后的主成分分布(圖3b)中可以看到數據分布發生了很大的變化:對比原始分布,巖性間的邊界更加清晰,且相同巖性樣本間的分布更加緊密;這將有利于模型的學習與分類。
3.2對比初始分類器
圖4和表2展示了三種常用的集成分類器(RF、GBDT和ET)在使用RTE前后的實際使用效果。使用RTE升維后,所有模型的使用效果均得到明顯提升,驗證了該方法的有效性。其中:RF的實際使用效果在三種模型中最佳,初始準確率達到84.36%,在應用了RTE后,RTE+RF準確率為87.52%,提升了3.16%,且F1提升了3.25%;ET+RTE的效果改善最明顯,準確率的提升達到了7.32%;GBDT+RTE也有較明顯的效果提升,各項評價指標增幅都在1.4%以上。這些結果均表明,RTE的升維方法可以有效地用于提升基礎分類器對低維數據的分類準確率,這使得隨鉆測井巖性識別的精確度有了明顯改善。
3.3對比PSOSVM
進一步地,將識別效果最佳的RF+RTE與PSOSVM進行對比。PSOSVM過程見圖5。最終,SVM的優化參數為:C=7.06,γ= 0.23。PSOSVM的實驗結果準確率為86.34%,優于RF、GBDT和ET模型。可見,SVM較常規機器學習模型,在較低維參數的隨鉆測井巖性識別中能夠獲得更好的分類效果。RF+RTE的整體準確率較PSOSVM高1.18%,且巖性識別的整體效果更佳。
圖6為PSDSVM和RET+RF預測結果的混淆矩陣,對混淆矩陣的分析可以進一步獲得每一種巖性的具體預測情況。混淆矩陣的縱坐標表示樣本的真實巖性,橫坐標表示預測巖性,理想狀態下(即所有預測結果均為正確的狀態)的對角線單元應均為100%。可以看到PSOSVM的巖性預測效果并不穩定,特別是粉砂巖的召回率僅有73.44%,粉砂巖樣本更易被錯誤地預測為泥巖;在砂巖的預測中PSOSVM表現出一定優勢(圖6a)。而RF+RTE的預測準確率更加均衡,在泥巖、粉砂巖和微晶灰巖的預測中效果均優于PSOSVM,且整體準確率更高;同時可以發現,即使是在巖性樣本不均衡的情況下,RF+RTE的預測效果表現也是非常均衡的,可見樣本不均衡的影響對該方法的干擾較小(圖6b)。
3.4實際應用效果
為了可以更加直觀地顯示各個模型的實際應用效果,選取了一口實際井進行可視化實驗。選取井段深度為2 138.0 ~ 2 202.5 m,五種巖性均有相應的發育。圖7是實際應用各方法巖性識別結果的可視化。通過對比發現,RF+RTE的識別效果較其他模型更好,更接近實際的巖性解釋情況;特別是在黑色虛線區域,對比模型均表現不佳,巖性識別效果易出現混淆,而RF+RTE模型仍能具有較良好的表現。
4結論
1)隨鉆測井受實際條件限制,測得的測井參數較少,直接使用機器學習模型進行巖性識別效果不理想。隨機樹嵌入方法可以將低維的隨鉆測井數據重新編碼至高維稀疏的空間,從而提升模型的使用效果。
2)對比實驗結果表明,隨機樹嵌入方法可以有效提高隨鉆測井巖性識別機器學習模型的準確率。其中,隨機樹嵌入的隨機森林方法效果最佳。
3)進一步對比粒子群優化支持向量機算法,隨機樹嵌入的隨機森林模型性能表現更加穩定,為隨鉆測井的巖性精確識別提供了一種新方法。
參考文獻(References):
1.Zhu X Y, Zhang H B, Ren Q, et al. An Automatic Identification Method of Imbalanced Lithology Based on Deep Forest and K-Means SMOTE. Geoenergy Science and Engineering, 2023, 224: 211595.
2.Han R Y, Wang Z W, Wang W H, et al. Lithology Identification of Igneous Rocks Based on XGboost and Conventional Logging Curves: A Case Study of the Eastern Depression of Liaohe Basin. Journal of Applied Geophysics, 2021, 195: 104480.
3.Wang W H, Wang Z W, Han R Y, et al. Lithology Classification of Volcanic Rocks Based on Conventional Logging Data of Machine Learning: A Case Study of the Eastern Depression of Liaohe Oil Field. Open Geosciences, 2021, 13(1): 12451258.
4.付光明,嚴加永,張昆,等.巖性識別技術現狀與進展. 地球物理學進展, 2017, 32(1): 2640.
Fu Guangming, Yan Jiayong, Zhang Kun, et al. Current Status and Progress of Lithology Identification Technology. Progress in Geophysics, 2017, 32(1): 2640.
5.張強,李家金,王毛毛,等.基于改進主成分分析法的測井曲線巖性分層技術. 吉林大學學報(地球科學版), 2022, 52(4): 13691376.
Zhang Qiang, Li Jiajin, Wang Maomao, et al. Logging Curve Rock Layering Technology Based on Improved Principal Component Analysis. Journal of Jilin University (Earth Science Edition), 2022, 52 (4): 13691376.
6.王恒,姜亞楠,張欣,等.基于梯度提升算法的巖性識別方法. 吉林大學學報(地球科學版), 2021, 51(3): 940950.
Wang Heng, Jiang Yanan, Zhang Xin, et al. Lithology Identification Method Based on Gradient Boosting Algorithm. Journal of Jilin University (Earth Science Edition), 2021, 51(3): 940950.
7.牟丹,張麗春,徐長玲,等.三種經典機器學習算法在火山巖測井巖性識別中的對比. 吉林大學學報(地球科學版), 2021, 51(3): 951956.
Mou Dan, Zhang Lichun, Xu Changling, et al. Comparison of Three Classical Machine Learning Algorithms for Lithology Identification of Volcanic Rocks Using Well Logging Data. Journal of Jilin University (Earth Science Edition), 2021, 51(3): 951956.
8.楊朝義,朱乾坤,揭紹鵬,等.云南普朗銅礦井孔測井資料綜合應用. 物探與化探, 2023, 47(1): 1421.
Yang Chaoyi, Zhu Qiankun, Jie Shaopeng, et al. Comprehensive Application of Borehole Log Data of the Pulang Copper Deposit, Yunnan Province. Geophysical and Geochemical Exploration, 2023, 47(1): 1421.
9.瞿曉婷,張蕾,馮宏偉,等.面向復雜儲層的非均衡測井數據的巖性識別. 地球物理學進展, 2016, 31(5): 21282132.
Qu Xiaoting, Zhang Lei, Feng Hongwei, et al. Lithology Identification for Imbalanced Logging Data on Complex Reservoirs . Progress in Geophysics, 2016, 31(5): 21282132.
10.孫巋.基于改進KNN算法的潛山復雜巖性測井識別方法. 特種油氣藏, 2022, 29(3): 1827.
Sun Kui. Logging Identification Method of Complex Lithology in Buried Hill Based on the Improved KNN Algorithm. Special Oil amp; Gas Reservoirs, 2022, 29(3): 1827.
11.徐晗,姚孔軒,程丹儀,等. 基于非開挖隨鉆檢測系統與隨機森林的地層巖性識別. 地質科技通報, 2021, 40(5): 272280.
Xu Han, Yao Kongxuan, Cheng Danyi, et al. Stratigraphic Lithology Identification Based on No-Dig Logging While Drilling System and Random Forest. Bulletin of Geological Science and Technology, 2021, 40(5): 272280.
Han R Y, Wang Z W, Wang W H, et al. Multi-Label Prediction Method for Lithology, Lithofacies and Fluid Classes Based on Data Augmentation by Cascade Forest. Advances in Geo-Energy Research, 2023, 9(1): 2537.
12.滕建強,邱萌,楊明任,等. 基于門控循環單元神經網絡的測井曲線預測方法. 油氣地質與采收率, 2023, 30(1): 93100.
Teng Jianqiang, Qiu Meng, Yang Mingren, et al. Logging Curve Prediction Method Based on GRU. Petroleum Geology and Recovery Efficiency, 2023, 30(1): 93100.
13.楊超超,王紅發,張顏伊,等. 隨鉆測井地質導向技術在水平井鉆井中的應用. 測井技術, 2022, 46(5): 625631, 637.
Yang Chaochao, Wang Hongfa, Zhang Yanyi, et al. Application of Geosteering Technology Based on Logging While Drilling in Horizontal Well. Well Logging Technology, 2022, 46(5): 625631, 637.
14.陳剛,汪凱斌,蔣必辭,等. 隨鉆測井中巖性識別方法的對比及應用. 煤田地質與勘探, 2018, 46(1): 165169.
Chen Gang, Wang Kaibin, Jiang Bici, et al. Comparison and Application of LWD Lithology Identification Method. Coal Geology amp; Exploration, 2018, 46(1): 165169.
Ren Q, Zhang H B, Zhang D L, et al. Lithology Identification Using Principal Component Analysis and Particle Swarm Optimization Fuzzy Decision Tree. Journal of Petroleum Science and Engineering, 2023, 220: 111233.
Wang Y, Lu Y. Diagenetic Facies Prediction Using an LDA-Assisted SSOM Method for the Eocene Beach-Bar Sandstones of Dongying Depression, East China. Journal of Petroleum Science and Engineering, 2021, 196: 108040.
Geurts P, Ernst D, Wehenkel L. Extremely Randomized Trees. Machine Learning, 2006, 63(1): 342.
15.張濤,李艷萍,劉曉宇,等. 基于自適應粒子群優化最小二乘支持向量機的深層變質巖測井巖性識別. 地球物理學進展, 2023, 38(1): 382392.
Zhang Tao, Li Yanping, Liu Xiaoyu, et al. "Lithology Interpretation of Deep Metamorphic Rocks with Well Logging Based on APSO-LSSVM Algorithm . Progress in Geophysics, 2023, 38(1): 382392.
16.蘇賦,馬磊,羅仁澤,等. 基于改進多分類孿生支持向量機的測井巖性識別方法研究與應用. 地球物理學進展, 2020, 35(1): 174180.
Su Fu, Ma Lei, Luo Renze, et al. Research and Application of Logging Lithology Identification Based on Improve Multi-Class Twin Support Vector Machine . Progress in Geophysics, 2020, 35(1): 174180.
17.王光宇,宋建國,徐飛,等. 不平衡樣本集隨機森林巖性預測方法. 石油地球物理勘探, 2021, 56(4): 679687.
Wang Guangyu, Song Jianguo, Xu Fei, et al. Random Forests Lithology Prediction Method for Imbalanced Data Sets. Oil Geophysical Prospecting, 2021, 56(4): 679687.
18.侯賢沐,王付勇,宰蕓,等. 基于機器學習和測井數據的碳酸鹽巖孔隙度與滲透率預測.吉林大學學報(地球科學版), 2022, 52(2): 644653.
Hou Xianmu, Wang Fuyong, Zai Yun, et al.Prediction of Carbonate Porosity and Permeability Based on Machine Learning and Logging Data. Journal of Jilin University (Earth Science Edition), 2022, 52 (2): 644653.
Breiman L. Random Forests. Machine Learning, 2001, 45(1): 532.
19.李曦,范翔宇,王兆峰,等. 基于PSOSVM的測井巖性識別方法研究:以南圖爾蓋盆地K油田古生界(Pz)儲層為例. 地球物理學進展, 2022, 37(2): 617626.
Li Xi, Fan Xiangyu, Wang Zhaofeng, et al. Logging Lithology Identification Method Research Based on PSOSVM: A Case Study of Paleozoic (Pz) Reservoir in K Oil Field, South Turgay Basin, Kazakhstan . Progress in Geophysics, 2022, 37(2): 617626.