杜睿山,李宏杰,孟令東
(1.東北石油大學 計算機與信息技術學院,黑龍江 大慶 163318;2.油氣藏及地下儲庫完整性評價黑龍江省重點實驗室,黑龍江 大慶 163318)
在處理巖石工程時,脆性被認為是一個重要的巖石參數。例如,在天然氣和石油工程領域,評估井筒穩定性以及評估水力壓裂作業的性能需要充分了解巖石脆性。巖石脆性是指巖石在發生很小變形即破壞的性質,是井筒穩定性評價和水力壓裂評估的參數之一[1]。在非常規油氣勘探開發過程,特別是頁巖和致密砂巖油氣,儲層脆性評價和預測更是不可或缺的研究內容[2]。
脆性的定義已經提出了很多,但由于工程中需要的目的不同,脆性的測量和識別仍然沒有統一的規則。目前測井數據評價巖石脆性的方法可以分為以下幾類:基于脆性礦物含量的脆性評價、基于巖石力學參數的脆性評價和基于應力-應變曲線的脆性指數評價。現在應用較為廣泛的是基于巖石力學參數的脆性指數評價,其計算需要楊氏模量和泊松比等彈性參數,而參數的計算需要橫波測井和巖性-密度測井,由于測井服務成本高,傳統上不采用,因此有時需要從局部經驗擬合方程粗略計算彈性參數,這可能會給最終的脆性結果帶來較大的誤差。另外,由于巖石的脆性特征是在一定的地層條件下的巖石不同礦物組成、結構和物理力學性質的綜合結果[3]。因此,想要全面體現巖石的脆性特征,需要綜合考慮多條測井曲線。
近年來,巖石脆性已被許多地質力學領域的研究者廣泛研究,大量研究使用機器學習(ML)和人工智能(AI)技術來解決科學和工程領域的相關問題。一些學者也比較傾向于建立基于數據的脆性關系,具體的測井曲線或儲層屬性與脆性指數的關系。部分學者的研究中,已證實了脆性指數與一些常規測井曲線具有良好的關系。在一些頁巖氣儲層中,礦物學脆性與自然伽馬/光電吸收截面指數(自然伽馬與光電吸收截面指數比)、孔隙度、縱波時差等之間存在良好的關系[4-6]。時賢等人[7]利用人工智能技術預測了巖石脆性,并在論文中說明礦物學信息和測井信息的結合有助于更好地擴展有限的礦物學數據,同時反映井下情況。袁思喬等人[8]基于多測井曲線利用層次分析法對脆性指數進行了預測。葉亞培等人[9]基于常規測井數據,利用PCA-BPNN的方法對脆性指數進行了預測,實驗結果表明,該方法具有較高的準確性。
根據前人的研究表明,利用常規測井曲線去預測脆性指數是可行的,因此,該文利用機器學習和深度學習的方法進行脆性預測,基于巖石力學參數楊氏模量和泊松比構建的脆性數據集,建立常規測井參數與脆性指數的關系模型,準確地將脆性指數與測井參數關聯起來。這種關聯的優勢在于:可以使用廉價且相對簡單的預測技術來估計整口井的脆性指數,而且大多數井的測井輸入數據都可以在整口井中獲得,而不需要收集額外數據。
之前的一些研究承認機器學習技術在解決工程問題方面的適用性,但仍有一些技術未被使用或幾乎未被用于預測巖石脆性指數[10]。前人的研究幾乎都是利用傳統機器學習方法或者統計學習方法,雖然可以建立常規測井曲線與脆性指數的模型,但是未能考慮測井曲線的序列特征,因此可能會帶來一定的誤差。該文選取雙向長短期記憶神經網絡,因為其可以綜合考慮過去和未來信息,使得序列信息在模型中一直傳遞下去,從而更能保證結果的有效性。
該文基于常規測井曲線數據,選取多條測井曲線數據為輸入,以脆性指數為輸出,首次將雙向長短期記憶神經網絡引入到脆性指數預測中,采用CNN-BiLSTM-AM神經網絡進行實驗,構建出常規測井曲線和脆性指數的關系模型,對儲層巖石的脆性指數進行預測與分析,并和多種機器學習方法進行對比,以驗證該模型的優越性。借助Pearson相關系數分析,研究了各測井曲線對脆性的敏感性等級。利用這些變量,比較了若干種機器學習模型和文中所提模型的性能。從神經網絡模型獲得的脆性數值結果揭示了CNN-BiLSTM-AM在預測過程中的高精度和高效率,這有助于使用現有的實驗數據進行更好的脆性預測。
CNN(卷積神經網絡)的局部感知和權值共享可以大大減少參數的數量,從而提高模型的學習效率。CNN主要由三部分組成:卷積層、池化層和全連接層[11]。每個卷積層包含多個卷積核,其計算公式見公式(1)。對卷積層進行卷積運算后,提取數據的特征。然而,提取的特征維數非常高。所以為了解決這個問題,降低網絡訓練的成本,在卷積層之后增加了一個pooling層來降低特征維數。
lt=tanh(xt*kt)+bt
(1)
其中,lt為卷積后的輸出值,tanh為激活函數,xt為輸入向量,kt為卷積核的權值,bt為卷積核的偏置值。
2.2.1 LSTM
常規的RNN會發生梯度消失或者梯度爆炸問題[12],導致不收斂,從而致使網絡預測效果不佳。為此,后來的學者對其進行了改良,LSTM通過添加3個門來控制不同時序對后續信息的影響同時使用隱狀態和細胞狀態傳遞信息,使得LSTM能夠綜合局部信息和序列信息[13]。
圖1是常見的長短期模型記憶單元,主要由遺忘門、輸入門和輸出門這三個門組成。

圖1 LSTM 網絡重復單元結構
每個門的具體公式如下所示:
ft=σ[Wf(ht-1,xt)+bf]
(2)
it=σ[Wi(ht-1,xt)+bi]
(3)
Ct=ftCt-1+itCtt
(4)
Ot=σ[Wo(ht-1,xt)+bo]tanhCt
(5)
式中,ft是t時刻遺忘門的輸出,ht-1為前一時刻的隱狀態,xt為當前時刻的輸入,Ot是t時刻輸入門的輸出;Ctt是t時刻tanh層的輸出;Ct為t時刻的細胞狀態,it是t時刻輸入門的輸出,Wf、bf是遺忘門的權重和偏置;Wi、bi是輸入門的權重和偏置;Wo、bo是輸出門的權重和偏置。
2.2.2 BiLSTM
BiLSTM(雙向長短期記憶)神經網絡由兩層獨立的LSTM層構成(如圖2所示),一層前向LSTM和一層后向LSTM,是對LSTM的改進,BiLSTM可以綜合考慮歷史信息與未來信息,所以較普通LSTM有更好的效果。

圖2 BiLSTM示例圖
注意力機制(Attention Mechanism)的主要思想來源于人類視覺注意的過程[14]。AM選擇性地關注一些比較重要的信息,忽略不重要的信息,可以分配信息的重要性。
如圖3所示,AM的計算過程一般分為三個階段:(1)相似度計算階段;(2)歸一化處理階段;(3)注意力加權求和階段,每階段具體公式如下:

圖3 AM流程
St=tanh(Whht+bh)
(6)
(7)
(8)
其中,Wh為AM的權值,bh為AM的偏置,ht為輸入向量,Wh、bh為各層的共享權值,v為注意值。
CNN具有關注視線中最明顯的特征的特點,因此在特征工程中被廣泛應用。BiLSTM具有按時間序列展開的特點,在時間序列分析中應用廣泛。AM具有將時間序列數據的過去特征狀態添加到輸出結果的重要特性。
根據CNN、BiLSTM和AM的特點,充分發揮各自的優勢,該文提出了一種基于CNN-BiLSTM-AM的巖石脆性預測模型。模型結構如圖4所示,主要結構有CNN、BiLSTM、AM,包括輸入層、CNN層(一維卷積層、池化層)、BiLSTM層(正向LSTM層、反向LSTM層)、AM層、輸出層。

圖4 CNN-LSTM-AM模型
(1)輸入層:對脆性數據集進行切片處理,并將處理好的數據作為CNN層的輸入。
(2)CNN層:其有共享權重和局部感知等特點,這意味著CNN具有獨特的優勢。該文使用卷積和池化操作從測井曲線序列數據中提取特征。
(3)BiLSTM層:該層由正向LSTM和逆向LSTM組成。與LSTM相比,BiLSTM可以雙向提取測井曲線序列信息,更好地收集來自CNN的數據的正向和反向依賴關系,對特征信息進行選擇性記憶和遺忘,學習測井信息隨深度的變化趨勢和前后相關性,有效防止梯度消失或爆炸。
(4)AM層:注意力層可以對特征進行進一步的信息篩選,對不同的特征賦予不同的權重,有選擇地從模型訓練過程中學習特征和關鍵信息,過濾無用信息,從而提高模型預測的準確性。
(5)輸出層:輸出AM層加權求和的預測結果,然后將測試集輸入訓練好的模型進行預測,生成脆性指數預測結果。
該文研究的一種基于CNN-BiLSTM-AM的脆性指數預測模型具體流程如圖5所示。

圖5 CNN-LSTM-AM流程
(1)采集區域內井的數據,構建出基于巖石彈性參數的脆性指數數據集。
(2)對測井數據進行處理,并且進行Pearson線性相關性分析以及XGBoost特征重要性分析,篩選特征,提升模型預測的精度以及速度。
(3)劃分步驟二中歸一化后的數據集,按照7∶3的比例劃分為訓練集和測試集。
(4)利用前饋傳播計算輸出本次迭代的預估值,然后再反向計算每個神經元的誤差項值,經過Adam優化參數后繼續訓練模型。
(5)將訓練步數作為終止條件,若達到終止條件,則返回最優結果,否則繼續步驟四。
實驗環境:實驗在Windows平臺進行,計算機具體配置如下:處理器為酷睿i7-9700K,顯卡為英偉達GTX2070和16G內存條,所提模型基于python深度學習框架。
實驗數據集來源于勝利油田某井的常規測井數據,脆性指數是基于巖石力學參數楊氏模量和泊松比計算而來的,具體計算公式如式(9)所示:
(9)
其中:
(10)
(11)
式中,BI0為巖石脆性指數;ΔEs為楊氏模量;ΔPRs為泊松比;Es為靜態楊氏模量106psi(1psi=0.006 894 8 MPa);PRs為靜態泊松比,無量綱。
該文收集了完整的測井數據集,包括聲波時差(AC)、井徑(CAL)、密度(DEN)、中子(CNL)、伽馬射線(GR)、自然電位(SP)和深度側向測井(LLD)等曲線。其中LLD測井曲線表示地層電阻率,主要受地層流體和飽和度控制,與巖石力學性質無關,因此首先剔除LLD測井曲線。其次,通過分析實測BI(脆性指數)值與相應的測井數據之間的關系,選擇合適的測井參數進行脆性評價是模型構建的關鍵步驟,因為輸入參數與脆性指數值密切相關的測井數據可以準確地預測脆性指數值。以Pearson相關系數為關鍵指標,考察脆性對測井曲線的線性依賴程度,具體的Pearson相關系數計算公式如下:
(12)

從圖中6可以看出,除了SP與BI無明顯的線性相關性,其余曲線都與BI有著或多或少的相關性。AC、CNL、CAL與BI呈負相關性,且AC、CNL與BI的負相關性較大;DEN、GR與BI成正相關,其中部分結果可以從巖石物理角度加以說明。
AC、CNL、DEN曲線與脆性指數有著重要的關系,因為巖石孔隙度的增加會導致巖石脆性的降低。總有機碳(TOC)含量高的頁巖會產生較高的伽馬射線值,前人研究表明,有機質主要富集在硅質頁巖和碳質頁巖中,由于存在適量的石英和碳酸鹽礦物,這類巖石具有較高的BI值,因此,BI高的巖石通常具有較高的GR[9]。本數據集中,SP曲線雖然與BI無明顯的線性相關性,但SP與巖石孔隙度相關,也是一個十分重要的參數。從以上可以看出,本研究所選取的測井曲線幾乎都是與BI有著重要的物理關系。
雖然CAL、GR、SP與BI的線性相關性并不明顯,但是不排除它們之間有著非線性關系,因此有必要進一步分析。采用XGBoost方法進行特征重要性分析,XGBoost可以找到特征和目標之間的非線性關系,其在分裂時會使用最高信息增益的特征作為分裂條件。當某一個特征多次被用來構建決策樹,其重要性就會越高,經XGBoost排序后的重要性如表1所示。

表1 特征重要性排序
考慮到特征之間可能存在線性相關性較高的特征,即冗余特征,因此對兩兩測井參數之間進行Pearson相關性分析,圖6可以看到測井曲線之間的線性關系。AC與CNL曲線相關性程度高達0.824,根據Pearson相關系數定義,AC與CNL具有強相關性,對模型最終結果有著幾乎相同的影響,因此,舍棄CNL。再結合XGBoost特征重要性排序結果,CAL、SP和GR得分較靠前,也屬于重要參數。因此將AC(聲波時差)、CAL(井徑)、DEN(密度)、GR(自然伽馬)、SP(自然電位)作為神經網絡的輸入參數,這樣可以避免規模過大的問題,保證更快的運行速度和更高的精度。

圖6 皮爾遜相關系數
本研究的主要目的是利用常規測井資料對儲層脆性指數進行預測。因此,將測井曲線作為網絡的輸入,而將脆性值作為網絡的輸出。考慮到每一種測井曲線的量綱不一,所以要進行無量綱化處理,通過歸一化轉換將數據集中的數據縮放到一個區間。采用常用的min-max歸一化方法,將數據線性縮放到0~1之間的值:
(13)


表2 數據集部分數據

表3 神經網絡超參數選擇情況
之后是數據集的劃分,將數據集以7∶3的比例劃分為訓練集和測試集。因此在這個模擬中,大約70%的數據用于訓練,30%用于測試。為了評價預測結果,以均方誤差(MSE)和均方根誤差(RMSE)作為性能指標。表達式如下:
(14)
(15)
其中,yi為測量數據,f(xi)為預測數據,n為用于訓練或測試神經網絡的樣本個數。
為了保證實驗公平,對涉及到的神經網絡模型統一采用Adam優化器優化內部參數。Adam是一種基于低階矩自適應估計的隨機目標函數一階梯度優化算法,該算法易于實現,計算效率高,內存需求小。Adam通過優化目標函數,也適用于BiLSTM神經網絡,其目標是找到一組使均方誤差最小化的參數[15]。
在CNN-LSTM-AM模型實驗過程中,需要對神經網絡的超參數進行調整,以保證神經網絡的性能盡可能最優,影響模型效果的超參數主要有四個:批處理參數、訓練步數、學習率以及激活函數。超參數優化最常用的是人工搜索,人工搜索需要耗費較大的時間和精力。若通過正交試驗法獲得最優組合超參數,將耗費大量的資源和時間,并且不能確保得到的超參數組合是最優解。因此,該文選取經典群智能算法-粒子群算法進行超參數優化。
經粒子群尋優后,當批處理參數為32,訓練步數為50,學習率為0.005,隱層神經元個數為64時,模型效果最好。
為了進一步驗證文中模型在脆性預測中的效果,選取集中傳統機器學習方法進行對比,并與文獻[9]提出的方法進行了對比。同時為了減少實驗誤差,將模型運行10次,取平均值為最終預測結果,因測試集數量較多,不好進行觀察,所以選擇了部分測試集的預測進行結果展示,預測結果對比如圖7~10所示,橫坐標是測試集的數量,縱坐標是脆性指數。

圖7 SVR預測結果

圖8 隨機森林預測結果

圖9 PCA-BPNN預測結果

圖10 CNN-BILSTM-AM模型預測結果
總體來說,CNN-BiLSTM-AM模型得到的低偏差說明了其具有較好的預測能力。雖然傳統的機器學習算法在預測過程中不如CNN-BiLSTM-AM強,但是它們仍然可以被認為是一種較為可靠的脆性預測方法。
在訓練和測試過程中,CNN-BiLSTM-AM在MSE和RMSE誤差方面(見表4)都比傳統機器學習模型表現更好。實驗結果表明,該模型在預測巖石脆性精度方面要更加優于傳統機器學習模型,符合實驗的預期成果。傳統方法忽略了測井曲線內部信息的關聯,BiLSTM可以有效地考慮上下文信息,因此會比傳統的方法更為精確,另外,在雙向長短期的基礎上添加了一維卷積進行特征提取,同時也添加了注意力機制,可以有針對性對地給特征分配權重,從而有更小的誤差。

表4 各模型的MSE和RMSE
該文討論了傳統的機器學習模型和CNN-BiLSTM-AM模型在預測頁巖儲層脆性方面的應用,得出了以下結論:
(1)CNN-BiLSTM-AM模型選取多條常規測井曲線作為輸入變量,脆性指數作為輸出變量,成功地對巖石脆性進行了準確、可靠的脆性指數預測,為儲層脆性預測提供一種新途徑。
(2)傳統的機器學習模型和CNN-BiLSTM-AM模型都可以進行脆性預測,但是CNN-BiLSTM-AM模型的誤差小于其他模型,并且該文運用相關系數矩陣分析等數據挖掘技術有助于提取特定數據集的最重要和最相關的特征。
(3)建立的CNN-BiLSTM-AM模型較為復雜,所以運行速度比其他模型慢,仍可以進一步對其進行優化,提升預測的速度和效率。