楊占偉,姜振學,梁志凱,吳 偉,王軍霞,宮厚健,李維邦,蘇展飛,郝綿柱
(1.中國石油大學(北京)油氣資源與探測國家重點實驗室,北京 102249;2.中國石油大學(北京)非常規油氣科學技術研究院,北京 102249;3.中國石油西南油氣田公司頁巖氣研究院,成都 610051;4.中國石油大學(北京)理學院,北京 102249)
近年來,隨著非常規油氣領域探索的不斷深入,頁巖油氣勘探開發已然成為全球油氣資源勘探的熱點方向。有機質碳含量(TOC)作為評價烴源巖生烴潛力及預測儲層油氣“甜點區”的關鍵性指標,對于頁巖氣勘探開發以及資源評價具有指導意義,但其值準確性受到地質條件復雜程度及測定方法差異等一系列因素的影響。目前,盡管地球化學方法被認為是測量TOC 含量最受歡迎的方法,但有些缺陷可能會影響結果的可靠性,例如,不能覆蓋大范圍的深度,成本高且耗時。此外,由于樣品長時間暴露在空氣中,測量往往不準確,這增加了游離有機物被氧化和逸出的機會。利用測井資料預測TOC 含量也是常用手段,其常規方法有多元回歸法和ΔlogR法,但這2 種方法都存在一定缺陷[1-3]。多元回歸法將TOC 含量與一系列測井參數之間建立多元回歸關系,但因TOC含量往往受多種地質因素的影響,且與各因素間存在著復雜的非線性關系,常規的回歸方法難以表達其內在聯系,預測效果難以達到要求[4-7]。ΔlogR法通過將對數坐標的電阻率曲線與算術坐標的聲波時差曲線疊加,以非烴源巖段調準基線計算幅度差Δ logR[8-9],該方法需要設定有機碳背景值(泥巖普遍含有一定量的有機碳)、成熟度參數及人為對準多個非烴源巖基線,操作復雜、誤差較大,對于異常點處理并沒有系統的標準,人為主觀性較強[10-11]。如今隨著人工智能領域與各個學科相互交叉融合,機器學習方法在地質領域得到了一系列的應用,通過引用不同的人工智能算法實現對烴源巖TOC 含量的準確預測[12-14]。常用的機器學習方法主要包括神經網絡、支持向量機、極限學習等[15-17]。為了進一步提高預測精度,國內外學者通過結合具體研究區特點,不斷優化算法,降低預測誤差[18]。王貴文等[19]使用BP 神經網絡模型對塔里木盆地臺盆區寒武系—奧陶系烴源巖進行了TOC 含量預測,取得了較好的效果;蔣德鑫等[20]對珠江口盆地陸豐凹陷文昌組烴源巖與TOC 含量建立多元回歸模型、人工神經網絡模型和曲線疊合模型,并分析了3 種模型的預測效果及適用條件。Johnson 等[21]使用改進的神經網絡模型對澳大利亞坎寧盆地烴源巖TOC 含量進行了預測并達到了基本精度要求。上述方法雖取得了一定效果,但預測精度還有待提高,且在不同地區適用性不同,針對四川盆地尚未提出有效預測方法。
以川南五峰組—龍馬溪組為例,首先采集該地區多口井的測井曲線及實測TOC 含量數據進行建模,然后利用主成分分析法對收集的測井資料進行預處理,建立并訓練基于BP 神經網絡模型和基于梯度提升決策樹(Gradient Boosting Decision Tree,GBDT)的預測模型,并將這2種模型應用于生產井的TOC 含量預測中驗證其準確性,以期為該區TOC含量預測提供新思路,為后續勘探開發提供依據。
四川盆地位于上揚子臺地西北部,在龍門山—大巴山臺緣坳陷和滇黔川鄂臺褶帶中間,是經歷多期復雜構造運動后形成的疊合深層盆地。在奧陶紀晚期,受到南部黔中隆起、西部川中隆起以及東部雪峰古隆起的相互作用,四川盆地逐漸由早中奧陶世廣闊海域逐漸轉變為被東南西三面隆起包圍的半局限性海域,沉積主體也演變為半局限淺海相和深水—半深水陸棚亞相[22-23]。
根據川南長寧、瀘州等地區頁巖氣勘探開發資料顯示,該地區下古生界海相黑色富有機質頁巖廣泛發育,4 500 m 以淺的五峰龍馬溪組成為黑色泥頁巖具有分布范圍廣、有機質(TOC)含量高、成熟度高等一系列優點,已經成為了我國南方海相頁巖氣主力開發層系,2020 年產量已達200 億m3,該層位頁巖氣資源量達到3.7 萬億m3,可采資源量達200 億m3,具有極高的勘探開發價值。本次研究所涉及的區域主要為長寧和瀘州地區,所涉及的地層主要為五峰組—龍馬溪組頁巖層系。
本次研究中井徑和地層電阻率等一系列測井數據、實測TOC 含量數據均來源于中國石油西南油氣田公司頁巖氣研究院,測試儀器為碳硫分析儀KLT-005,測試溫度為16~18 ℃。為改進常規地球化學方法測定TOC 含量時樣品長時間暴露在空氣中導致測量不準確的弊端,本次樣品密閉取心,封閉保存,并通過調研前人對于研究區TOC 含量的測定結果,與實測值進行比對,確保了測試的準確性。為了減弱個別參數不準確對模型精度的影響,采用主成分分析法對收集到的各項測井數據進行優選,得到新的輸入變量,并分別代入BP 和GBDT預測模型中進行訓練,調整各項參數使模型均方根誤差達到最小,利用建立的預測模型對不同頁巖氣井進行TOC 含量的預測。
主成分分析法的主要原理是利用降維的方法,以丟失較少的信息為前提,把多個相互關聯的參數轉化為幾個綜合性參數的一種多元統計方法。利用此方法轉化、生成的綜合性參數稱為主成分,其中每個主成分都是原始變量的線性組合,且各個主成分之間互不相關,利用此方法得到的主成分相比初始變量數據具有更為簡潔準確的性能[24-27]。
進行主成分分析,首先需要將原始數據進行標準化處理,以此來消除量綱所帶來的影響。假設進行主成分分析的指標有m個:x1,x2,x3,…,xm,評價對象共有n個,其中第1 個評價對象的第j個指標的取值為x1j,通過此方法可將原始數據排列為矩陣
將各個指標值xij轉換為標準指標:
其中
其次建立變量之間的相關系數矩陣R,其中
式中:rij=1,rij=rji,rij是第i 個指標與第j個指標的相關系數。
計算相關系數矩陣R的特征值λ1≥λ2…≥λm≥0,及對應的特征向量u1,u2,um,其中
由特征向量組成m個新的指標變量。式中y1是第1 主成分,y2是第2 主成分,…ym是第m主成分。
最后確定主成分個數:
式中:αk為各個主成分的貢獻率;αP為主成分y1,y2,…,yp的累計貢獻率。
當累計貢獻率αP大于或等于80%~85% 時,選擇其相對應的前p個指標變量作為主成分分析得到的主成分,用這p個主成分替代m個初始變量指標,更加簡便準確。
收集川南長寧、瀘州等地區多口井的測井曲線及龍馬溪組17 口井627 組實測TOC 含量數據,分別將一系列不同測井參數和其對應的TOC 含量進行相關性分析,優選出相關性較高的7 個測井參數:聲波時差(AC)、井徑(CAL)、補償中子(CNL)、補償密度(DEN)、自然伽馬(GR)、無鈾伽馬(KTH)和地層深電阻率(RLLD),作為評價分析TOC 含量的影響因子[28]。
在創建預測模型時,僅使用任何單一測井參數均無法準確預測TOC 含量,為了達到準確得到TOC含量與各個測井曲線間的非線性映射關系的目的,對以上7 組測井參數進行主成分分析,計算相關系數矩陣,其中相關性系數越靠近1,則表明測井參數間的相關性越好,反之則相關性越差,結果如圖1所示。
圖1 輸入特征變量關聯度分析表Fig.1 Correlation analysis of input characteristic variables
分析計算得到各成分對于7 個測井參數信息的貢獻率和累計貢獻率(表1)。
表1 主成分特征值及貢獻率Table 1 Eigenvalues and contribution rate of the principal components
將貢獻率從高至低排列,前4 個主成分的累計貢獻率達到了86.505%,依據累計貢獻率大于85%的原則,選取前4 個主成分作為新的輸入變量,應用于建立TOC 含量計算模型中。表2 為主成分的因子載荷矩陣,反映各指標對主成分載荷的相對大小和作用方向。
表2 主成分的因子載荷矩陣Table 2 Factor loading matrix of the principal components
利用表2 和4 個主成分初始特征值,計算得到新的輸入變量y1,y2,y3,y4公式:
經過主成分分析得到了新的4 個綜合變量y1,y2,y3,y4,各個綜合變量之間相互獨立,每個綜合變量都包含前述7 個測井參數信息,但各有側重。根據各個系數大小可以看出,y1主要反映了AC和CAL的信息;y2主要反映了DEN和GR的信息;y3主要反映了KTH的信息;y4主要反映了CNL和RLLD的信息。
BP 神經網絡是一種按照反向誤差進行傳播的多層前饋網絡,利用學習信號正向傳播和誤差逆向傳播雙重作用機制來對數據進行訓練。BP 算法是以網絡誤差平方為目標函數、采用梯度下降法來計算目標函數的最小值[29-30]。通過正向傳播,隱含層可通過內部計算獲取輸入向量的輸出值,輸出層則會在隱含層的基礎上進行計算,進而得到輸出值。當進行反向傳播時,首先需要計算出輸出層所得到的輸出值,若獲得的輸出值達不到預期效果,則會重新將數據導入輸入層,再通過不斷修改輸入層與隱含層,隱含層與輸出層的連接強度和閾值,直到使誤差控制住預期范圍內,訓練則會停止[31]。經過此方法訓練好的神經網絡則具有很強的非線性映射能力和柔性的網絡結構。
本文建立的BP 神經網絡主要包含輸入層、隱含層和輸出層三部分結構。模型借助Matlab軟件編寫模型程序,并使用工具箱中newff 函數創建神經網絡,再利用經過主成分分析法降維后得到的4 個新的綜合性參數y1,y2,y3,y4作為模型的輸入變量,將實測得到的TOC 含量作為模型的輸出變量,隱含層的傳遞函數選擇tansig 函數,輸出層傳遞函數則選擇pureline 線性函數,隱函數節點數計算公式如下:
式中:k為樣本數,個;M為隱含層神經元的數量,個;n為輸入層神經元的個數;i為取值0~n的正整數,當i>M=0。
樣本數為627,選取隱含層神經元個數M=15,最終確立的網絡結構為4×15×1 的3 層BP 神經網絡模型,為使算法達到較快的收斂速度和較高的訓練精度,網絡訓練采用rainlm 函數,神經網絡模型具體相關參數如表3 所列。利用學習后的神經網絡模型對測試集進行識別,通過計算誤差率,分析訓練模型準確率,具體拓撲圖如圖2 所示。
表3 BP 神經網絡模型相關參數Table 3 Relevant parameters of BP neural network model
圖2 BP 神經網絡模型拓撲圖Fig.2 Topological diagram of BP neural network model
GBDT 是一種具有出色預測能力的機器學習模型。通過回歸樹將計算值與目標值之間的殘差進行快速歸類分析,并利用逐步提升算法不斷減小殘差,使得計算值逐漸逼近目標值[32-34]。這種方法不僅能靈活處理各種類型的數據,還能在極短的調參時間下,達到較高的預測精度。由于回歸樹會對不同的殘差值進行不同處理,即使樣本中有錯誤樣點,訓練結果也不會受到太大影響。此外,模型還可通過調整參數和使用更多回歸樹來挖掘出數據之間的對應關系,使其具備較好的泛化能力。GBDT算法的核心是在多次基礎模型中,利用損失函數的負梯度值作為該輪基礎模型損失值的近似值,并通過這一近似值來構建下一輪的基礎模型,能使目標函數的求解更為簡便。GBDT 算法的實現步驟如圖3 所示。
此模型利用Python 語言編寫模型程序,并借助機器學習庫內Sklearn 模塊來進行建模分析。模型主要調節參數為Boosting 框架參數和弱學習器參數[35]。其中Boosting 框架的重要參數主要包括:最大迭代次數、權重縮減系數、損失函數等;弱學習器的主要參數包括:最大特征數、決策樹最大深度、葉子節點最少樣本數等。為了使得預測模型取得較好的效果,在建立模型前,需對模型參數進行調整。選擇參數時,迭代次數過小,容易出現欠擬合的情況;學習速率過小,則需要更為復雜的迭代過程和更大的計算量;過大的葉子節點深度會出現模型過擬合現象。因此,采用交叉驗證的方法來確定合理的參數體系,參數選取原則主要是利用準確率判斷模型擬合的好壞,通過不斷調整合適的參數以達到較高的準確率,模型具體參數如表4 所列。
表4 GBDT 模型相關參數Table 4 Relevant parameters of GBDT model
具體建模操作流程如下:
(1)輸入。
訓練數據集:
損失函數:
式中:Y為實測TOC 質量分數,%。
(2)初始化弱分類器。
對損失函數進行求導,令其導數為零,得到使損失函數達到極小值的常數c。因此初始化時,c值可取訓練樣本標簽值的均值,即
計算損失函數的負梯度值,即:
式中:i為樣本數,個,i=1,2,…,627;m為迭代次數,即生成的基礎模型的個數,m=1,2,…,M。
利用上式得到的數據集(yi,rmi)來擬合下一輪的基礎模型,訓練得到模型的回歸樹ft(y),計算每個葉子節點Rmj,j表示葉子節點數,j=1,2,…,J,并計算每個葉子節點Rmj的最佳擬合值rmj,使得其損失函數達到最小。
則
結合前m-1 輪基礎模型,可得到最終模型:
對川南五峰組—龍馬溪組17 口井627 組實測數據分別按照訓練樣本70%、驗證樣本15%、測試樣本15%的比例進行劃分,即439 組數據作為訓練樣本,94 組數據作為驗證驗本、94 組數據作為測試樣本。BP 神經網絡模型與GBDT 模型對于TOC含量的預測結果如圖4 所示,2 種模型對于TOC 含量的預測效果均較好,GBDT 模型的綜合效果要好于BP 神經網絡,其預測值整體偏離TOC 含量實測值程度較小,相關性更高,達0.90 以上。
圖4 2 種模型訓練及預測結果Fig.4 Training and prediction results of two models
分別計算兩者對于627組數據預測與真實TOC含量之間的誤差(圖5),GBDT模型整體誤差更小,絕大部分誤差值均在0.5 范圍內,由此認為GBDT模型在預測TOC含量方面更具優越性。
圖5 2 種模型預測誤差結果Fig.5 Prediction errors of two models
根據上述的2 種TOC 含量預測模型,利用川南長寧CNX202 井五峰組—龍馬溪組131組測井數據對頁巖氣TOC 含量進行預測。將經過主成分分析的數據輸入訓練好的模型中,如圖6 所示,BP 模型測試樣本的預測值與實測值相關性為0.761,GBDT模型測試樣本的預測值與實測值相關性為0.970。
圖6 2 種模型預測預測結果Fig.6 Prediction results of two models
以長寧CNX202 井為例,綜合對比上述2 種預測模型與傳統ΔlogR法對于TOC 含量的預測效果(圖7)可知,2 種預測模型的預測精度均高于傳統ΔlogR方法。
圖7 川南長寧地區CNX202 井五峰組—龍馬溪組TOC含量綜合對比圖Fig.7 Comparison between predicted and measured TOC content of Wufeng-Longmaxi Formation of well CNX202 in Changning area,southern Sichuan Basin
為了更加準確地評價3 種預測方法的優劣,采用平均誤差、平均誤差率、均方根誤差等3 種誤差指標進行對比(表5)。根據對比結果顯示,BP 神經網絡和GBDT 預測模型各誤差指標參數均小于傳統ΔlogR法,GBDT 預測模型表現出更高的準確度。
表5 3 種模型誤差指標對比Table 5 Comparison of error indexes of three models
(1)優選出相關性較高的聲波時差(AC)、井徑(CAL)、補償中子(CNL)、補償密度(DEN)、自然伽馬(GR)、無鈾伽馬(KTH)和地層深電阻率(RLLD)等7個測井參數作為評價TOC 含量的重要影響因子,利用主成分分析方法,將這7 個測井參數轉化為4個綜合指標,增加了計算精度和計算效率,減少計算冗余。
(2)在川南長寧地區五峰組—龍馬溪組采用BP 神經網絡模型和GBDT 模型預測TOC 含量,訓練樣本與測試樣本的預測值與實測值相關性均超過0.80,擬合效果均良好,GBDT 模型預測精度更高,其預測值與真實TOC 含量值的相關性達0.90以上,預測誤差更小,627 組樣本數據中絕大多數的誤差值在0.5 以內,表現出更穩定的優勢。
(3)BP 神經網絡模型和GBDT 模型均能較好的預測川南長寧地區五峰組—龍馬溪組TOC 含量,預測效果均好于常規ΔlogR方法,其中GBDT模型預測結果與實際測試值偏差更小,該方法在瀘州、長寧等地區有廣闊的應用前景。