武中原,張 欣,張春雷,王海英
(1.中國地質大學(北京)數理學院,北京 100083;2.北京師范大學統計學院,北京 100875;3.北京中地潤德石油科技有限公司,北京 100083)
巖性的準確識別是復雜碳酸鹽巖儲層精細表征和綜合評價的基礎和前提。地層巖性信息獲取的方式主要有鉆井取心、巖屑錄井及井壁取心等手段,鉆井取心成本的高昂和巖屑錄井的不精確,使得測井巖性識別方法的研究備受關注[1-3]。測井巖性識別主要是通過建立測井參數與巖石類型之間的映射關系,并利用該映射去識別未取樣井段的巖石類型。隨著模式識別、統計學習和機器學習等方法的發展,越來越多的數學理論和計算機算法被應用到巖性識別模型的建立過程中,如主成分分析[4]、決策樹[5-6]、支持向量機(SVM)[7]、樸素貝葉斯[8],SOM 模糊識別[9]和神經網絡[10]等方法。這些方法假定巖性及其與測井參數之間的關系在深度上是彼此獨立的,忽略了巖石在沉積和成巖過程中存在的空間上的序列相關性問題。其識別結果常出現深度序列上無法精確表征巖石地質特征的情況或出現地層中不存在的巖石序列組合等現象。
對巖石序列特征的早期表征是由Elfeki[11]等以馬爾科夫鏈理論為基礎,采用不同巖石類型之間的轉移概率矩陣形式進行表達。后來袁照威等[8]在綜合巖石類型與測井參數之間的關系時,結合了混合高斯模型和最大期望算法進行了參數的學習。其中,隱馬爾科夫(HMM)[1,12]較為常用,可以融合巖性在深度上的序列相關性及其與測井參數之間的關系,但是在巖石類型轉移階次的確定、不同階次序列相關性的精確學習等方面依然存在不足。深度學習中的循環神經網絡(RNN)模型可以通過自循環結構的學習,使序列相關信息得到很好地保留。該方法應用到巖性識別過程中能夠充分表征巖性內在的沉積模式以及不同測井參數對巖性測量和表征方面的承載尺度問題。長短期記憶神經網絡(LSTM)是常用的循環神經網絡之一,解決了RNN 梯度爆炸和梯度消失的問題[13]。通過在自循環單元中引入門結構,使測井參數信息能夠在LSTM 中長期傳遞下去,從而使得LSTM 在綜合考慮數據的鄰域信息和歷史信息后,有效提取到數據的序列變化信息。
人工神經網絡通過構建分層結構,自動提取出輸入輸出之間的非線性函數關系。BP 神經網絡是最常見的人工神經網絡,具有典型的分層結構,通常包括輸入層、隱含層和輸出層(圖1)。BP 神經網絡中的基本單元是神經元,每一層的每一個神經元只與相鄰層的所有神經元相連接,而同層的神經元則互不連接。隱含層的每個神經元對上一層的所有神經元輸出進行線性求和,然后經過激活函數輸出到下一層的每個神經元,作為下一層的輸入。隨著BP 神經網絡不斷進行正向傳遞和反向傳播,網絡權重也不斷進行調整,最終達到較優的預測效果。

圖1 BP 神經網絡結構示意圖Fig.1 Structure diagram of BP neural network
傳統的BP 神經網絡隱含層神經元互不相連,且使用固定數量的計算步驟產生固定大小的輸出,在處理可變大小的序列數據上限制較大。RNN 通過遞歸連接的每一層網絡的內部節點,使得數據在時間維度上傳遞,實現了數據序列性的有效學習(圖2)[14-17]。

圖2 RNN 及其展開示意圖Fig.2 RNN and its development diagram
由RNN 中循環單元的計算式[式(1)]可知,RNN 在所有時間維度上實現參數共享,使得網絡模型得到簡化,同時能夠學習任意長度的序列數據。

式(1)中:xt是t時刻的輸入;ht為t時刻的隱狀態;wih,bih是輸入層與隱狀態間的權重和偏置;whh,bhh是隱狀態與隱狀態之間的權重和偏置。
常規的RNN 容易發生梯度爆炸和梯度消失[18],導致網絡預測效果不佳。為此,Hochreiter 等[13]提出LSTM,并由Graves 等[19]對其進行了改良。相較于RNN 較為簡單的循環單元,LSTM 通過添加3個門層來控制不同時序對后續信息的影響,同時使用隱狀態和細胞狀態傳遞信息,使得LSTM 能夠綜合局部信息和序列信息。圖3 是常見的LSTM 網絡重復單元,主要包含3 個門層:遺忘門、輸入門、輸出門。在LSTM 神經元的每個時刻,神經元的輸入包括前一時刻的細胞狀態和隱狀態以及當前時刻的輸入。首先是當前時刻輸入和前一時刻隱狀態,依次通過遺忘門和輸入門,完成細胞狀態的更新,然后根據更新后的細胞狀態和輸出門,完成隱狀態的更新。

圖3 LSTM 重復單元結構Fig.3 LSTM recurrent unit structure
遺忘門:根據當前時刻的輸入和前一時刻的隱狀態決定細胞狀態中要忘記的信息

輸入門:根據當前時刻的輸入和前一時刻的隱狀態決定哪些新信息要添加到細胞狀態

根據遺忘門和輸入門的輸出,對細胞狀態進行更新

輸出門:根據當前時刻輸入信息和前一時刻隱狀態的合并以及更新后的細胞狀態,對隱狀態進行更新

式中:ft是t時刻遺忘門的輸出;Ot是t時刻輸入門的輸出;是t時刻tanh 層的輸出;Ct為t時刻的細胞狀態;it是t時刻輸入門的輸出;Wf,bf是遺忘門的權重和偏置;Wi,bi是輸入門的權重和偏置;Wo,bo是輸出門的權重和偏置。
在LSTM 中,由于序列維度的存在,使得網絡結構本身比較復雜,因此不需要過分堆疊循環層。如圖4 所示,首先通過對測井資料的分析選擇出對巖性敏感的測井參數,并對其進行均值方差標準化預處理,去除量綱的影響,同時使用One-Hot 編碼將巖性數據數字化,然后構建包含LSTM 層和全連接層的巖性識別模型。

圖4 巖性識別模型Fig.4 Lithology identification model
由于巖性識別是多分類問題,網絡使用交叉熵作為損失函數對網絡學習進行評估。同時使用Adam優化器進行網絡學習,不同于常用的隨機梯度下降,Adam 優化器能夠在迭代過程中自適應調整學習率從而顯著提升網絡學習速度。為防止網絡發生過擬合,使用dropout 學習策略提升其泛化能力。
本次研究數據為蘇里格氣田東部地區奧陶系馬溝組馬五段復雜碳酸鹽巖儲層,屬于海相沉積地層,因受沉積和成巖等因素的影響,巖石類型復雜多樣。鉆井取心和巖屑錄井顯示,主要巖石類型有石灰巖、白云質灰巖、泥質灰巖、白云巖、灰質白云巖和泥質白云巖等6 種,其中灰質白云巖和白云質灰巖是主要的含氣儲層。
通過對巖性和測井資料的分析[20-21],選取對巖性較為敏感的聲波時差、自然伽馬、光電吸收截面指數、密度、深側向電阻率和補償中子等6 種測井參數。以55-010 井為例,對石灰巖、白云質灰巖、泥質灰巖、白云巖、灰質白云巖和泥質白云巖等6 種巖性的箱形圖進行分析。由圖5 可知,不同測井屬性對巖性的響應特征存在明顯差異??傮w來說,泥質巖性的自然伽馬較高[圖5(a)],而非泥質巖性的自然伽馬較低且重合在一起,因此通過自然伽馬可以有效劃分出含泥質較多的泥質灰巖和泥質白云巖。同時泥質灰巖的聲波時差[圖5(b)]和光電吸收截面指數[圖5(c)]均較高,則可以進一步通過聲波時差和光電吸收截面指數來劃分泥質灰巖和泥質白云巖,而光電吸收截面指數對于白云巖和灰質巖的區分則更為明顯。白云巖的光電吸收截面指數基本小于3.2 b/e,而灰質巖則相反。從圖5 可以看出,由于數據中一些噪聲點的影響,導致個別巖性測井參數取值區間較大,甚至超出正常值,該情況主要影響了箱形圖的極值情況,對中位數及上下四分位數影響均較小,因此為進一步統計有實際意義的測井參數響應特征,將第90 百分位數及第10 百分位數作為實際巖性響應范圍的上下限(表1)。

圖5 蘇里格氣田蘇東地區55-010 井巖性及其測井參數箱形圖Fig.5 Box diagram of lithology and logging parameters of well 55-010 in eastern block of Sulige gas field
綜合測井參數箱線圖(圖5)、巖性測井參數統計表(表1)和巖性間高區分度敏感參數統計表(表2),得出以下結論:①不同巖性的各測井參數響應特征雖各不相同,但存在一定程度的重疊,即測井參數對不同巖性響應的敏感性差異較大。②各測井參數對石灰巖響應特征的變化范圍較小,其光電吸收截面指數較高,補償中子和自然伽馬則較??;白云質灰巖和泥質灰巖的光電吸收截面指數取值范圍差異較大,其他參數變化范圍則相近;泥質灰巖和泥質白云巖的自然伽馬值均高于25 API,且聲波時差的變化范圍較大;各巖性的深側向電阻率變化范圍較為接近;白云巖的光電吸收截面指數較低,且密度取值較高。③由表2 可知,不同巖性對應著不同的高敏感性參數,單一的測井參數只能粗略實現部分特定巖性的劃分,只有綜合考慮巖性對所有測井參數的響應特征,才能實現所有巖性的有效識別。

表1 蘇里格氣田蘇東地區不同巖性測井參數響應特征(10%~90%)Table 1 Response characteristics of different lithology logging parameters in eastern block of Sulige gas field

表2 蘇里格氣田蘇東地區不同巖性之間高區分度敏感參數Table 2 High-sensitivity parameters between lithologies in eastern block of Sulige gas field
本次研究網絡模型運行平臺如下:Windows10 64 位操作系統,Intel Core i7-8700 CPU @3.2 GHz,16 GB 內存,Nvidia GeForce GTX 1050 顯卡,運行環境為python3.6,keras(tensorflow 后臺)框架。在LSTM 網絡模型建立過程中,對巖性識別效果影響較大的網絡參數主要有迭代次數(epoch)、批樣本個數(batch)和時間步長(time-step)等。為此,在建模過程中先分析這3 個網絡參數的影響。
epoch 是網絡使用全部訓練集訓練所用的次數,其對網絡的最終訓練結果有很大影響。訓練次數過少,網絡就不能完全提取出數據的特征信息,即網絡欠擬合,從而導致網絡的預測結果較差。epoch 過多,則網絡可記住訓練集中個別樣本的特征,即網絡過擬合,從而導致網絡在訓練集中預測效果較好而在測試集上預測效果較差,即網絡的泛化性較差。通過控制其他變量不變而改變訓練次數,并通過交叉熵損失函數評估網絡??梢钥闯觯弘S著epoch 增加,網絡模型的損失值迅速下降,表明網絡在快速學習,當epoch 達到1 000 時,損失曲線已基本穩定,表明網絡已經充分學習。
batch 是指每次進行網絡訓練時所傳入的訓練集樣本個數。由于深度學習中的數據量較大,一般要采取小批量處理的方法。由于每次傳入數據后都會更新網絡權重,所以相較一次傳入全部數據,小批量訓練網絡的速度更快。但是,過小的batch則會使網絡學習變得過于隨機,過大的batch 則需要更多的epoch。本次在固定其他參數的前提下,調節batch,并通過巖性識別準確率評估batch 對網絡訓練的影響效果,可以看出,當batch 小于32 時,準確率較高,而隨著batch 的進一步增大,準確率迅速下降,因此選擇batch 為32。
time-step 是指使用多少組測井曲線數據來預測當前時刻的巖性。如果time-step 過小,則由于輸入信息過少,使得網絡只能根據附近時刻的信息來預測當前時刻,忽視了序列信息的連續性。如果time-step 過大,由于不同測井段的巖性特征和孔隙特征變化,導致訓練集中包含與當前時刻無關的信息,從而既加大了網絡的訓練時間,又影響了預測效果。于是,在保證其他各參數不變的前提下,調節time-step,通過巖性識別準確率來評估time-step對網絡訓練的影響。由圖6 可看出,當time-step 為4 時,準確率較高,而隨著time-step 的增大,準確率則在96%左右波動,因此選擇time-step 為4。

圖6 網絡模型參數選擇Fig.6 Parameter selection of network model
從蘇里格氣田蘇東地區選取42-12 井、44-7 井、49-13 井共計3 122 個樣本點和57-04 井共計1 355個樣本點作為訓練數據,其中前3 口井的石灰巖、白云質灰巖、泥質灰巖、白云巖、灰質白云巖和泥質白云巖的樣品個數分別為272 個、314 個、335 個、590 個、596 個、1 015 個。分別采用KNN、樸素貝葉斯、決策樹、SVM,HMM 和LSTM 進行訓練學習,并在測試集上進行分類預測,從而評估模型的巖性識別效果。
表3 為KNN,樸素貝葉斯、決策樹、SVM,HMM,LSTM 這6 種算法的巖性識別效果,傳統模式識別方法KNN 和樸素貝葉斯的巖性識別準確率平均值低于90.00%,決策樹、SVM 和HMM 相比之均有顯著提高,而采用LSTM 的平均巖性識別準確率可達97.12%,巖性識別效果優異。從巖性識別效果來看,傳統機器學習方法對不同巖性的識別效果差異較大,尤其對石灰巖及其過渡巖性的識別效果較差,導致整體正確率較低。而LSTM 的識別準確率則相對平穩,僅對石灰巖的識別準確率為80.95%,對其他巖性的識別準確率均在97.00%以上。相較于傳統的機器學習方法,LSTM 模型更好地學習到了巖性數據的空間結構特征,從而有效提升了巖性識別效果。

表3 蘇里格氣田蘇東地區57-04 井不同方法的巖性識別準確率Table 3 Lithology identification effect by different methods in well 57-04 in eastern block of Sulige gas field
圖7 為部分實際錄井巖性與不同巖性識別模型預測對比圖,表4 采用混淆矩陣定量分析準確率及召回率,并以此對比LSTM 算法的改進效果??梢钥闯觯琇STM 的預測結果與錄井巖性基本一致。召回率較低的白云巖樣本數目較少,導致其錯分的樣本對召回率影響較大,除白云巖外整體召回率在93.00%左右,實現了各巖性的有效召回。誤分巖性基本為相鄰的過渡巖性,且白云巖主要被誤分為灰質白云巖,這2 種巖性轉換較為頻繁,導致LSTM在巖性轉換過程中容易發生誤分。

圖7 蘇里格氣田蘇東地區57-04 井不同方法的巖性識別結果Fig.7 Lithology identification results of well 57-04 in eastern block of Sulige gas field

表4 蘇里格氣田蘇東地區57-04 井LSTM 巖性識別混淆矩陣Table 4 LSTM lithology identification confusion matrix of well 57-04 in eastern block of Sulige gas field
為了進一步展示LSTM 模型對于巖性數據的序列特征學習能力,表5 為不同巖性識別方法的一階狀態轉移數目矩陣??梢钥闯觯篕NN 的識別結果中石灰巖發生了過多的自轉移,同時大量的白云質灰巖和泥質灰巖的自轉移沒有被預測到,從而導致巖性識別效果較差,這也說明了KNN 這類傳統方法局限于點對點的識別,忽略了巖性序列的局部信息和序列的整體變化情況;傳統的序列統計方法HMM 雖然能夠考慮到巖性數據的序列性,但同時也假定巖性序列相互獨立,從而使得預測結果有所偏差,使得在泥質灰巖的預測誤差較大。LSTM 與鉆井數據的轉移基本一致,表明LSTM 模型預測巖性時充分考慮到巖性序列的沉積模式,使得巖性預測結果與實際地質情況相符。

表5 蘇里格氣田蘇東地區57-04 井不同巖性識別方法一階狀態轉移數目Table 5 Number of first-order state transitions for different lithology identification methods in eastern block of Sulige gas field
為進一步說明該方法的泛化能力,基于上述過程,選擇55-010 井開展巖性識別,其識別結果如表6 所列。從表6 可看出,LSTM 模型仍然具有較高的識別精度,也體現了LSTM 模型具有較強的泛化性。

表6 蘇里格氣田蘇東地區55-010 井不同方法的巖性識別準確率Table 6 Lithology identification accuracy of different methods of well 55-010 in eastern block of Sulige gas field
(1)LSTM 模型有效地反映了巖性序列的時序空間特征,有助于巖性識別效果的提升。相對于傳統方法無序點集的學習識別,LSTM 算法的巖性識別模型從測井數據的序列出發,有效捕捉到了巖性沉積模式和測井參數承載尺度信息,實現了測井序列和巖性序列的整體匹配。
(2)與決策樹、樸素貝葉斯、KNN,SVM,BP 神經網絡等方法對比顯示,基于LSTM 模型的巖性識別方法更加精確,準確率可提高1.40%~12.25%,并對白云巖及其過渡巖性識別效果更好,同時對主要含氣儲層灰質白云巖和白云質灰巖的召回率和準確率均達到93.00%以上,解決了實際生產需求。
(3)LSTM 模型對于測井數據具有良好的適用性,通過引入3 個門層,保證了信息傳遞的持續性,實現了自動提取測井數據的序列特征,挖掘空間結構,進而有效提升了巖性識別的精度,對于數據挖掘具有重要意義。