尚福華,盧玉瑩,曹茂俊
(東北石油大學 計算機與信息技術學院,黑龍江 大慶 163318)
測井曲線作為連接地震與地質的橋梁和紐帶,在測井資料解釋和反演過程中發揮著至關重要的作用,但是在實際測井過程中時常會因為儀器測量或者井眼原因等造成部分測井曲線失真或缺失,然而重新測井不僅成本較高,且對已經完井的井眼難以實現。為解決該問題,廖茂輝等人[1]提出基于多元回歸分析的測井曲線重構方法,然而由于地質情況的復雜性很難用確定的函數表達[2],故該方法通常精度較低;蔡大偉等人[3]提出了一種基于視覺原理的曲線重構方法;Salehi等人[4]利用多層感知機預測了密度測井和電測井曲線,可接受的精度和使用常規測井數據是其所提出的智能模型的突出優點;金永吉等人[5]針對測井曲線重構問題,提出利用遺傳算法對傳統神經網絡的拓撲結構、權重和閾值進行優化,有效克服傳統神經網絡的冗余結構和局部最小化趨勢等缺點;王俊等人[6]提出了利用門控循環神經網絡重構聲波時差測井曲線的方法,預測準確度較高,但重構的測井曲線與真實曲線之間亦存在一定的偏差;張東曉等人[7]構建了串級長短期記憶神經網絡用于重構測井曲線,該方法生成的曲線兼顧了測井信息隨深度的變化趨勢和前后關聯。但是,目前表現較為優異的測井曲線重構模型大多基于數據驅動,深度學習神經網絡模型與工程實踐的結合過于直接,很少參考具體的領域知識,事實上通過引入領域知識可以打破深度學習模型效果提升的瓶頸[8]。因此可參考測井領域知識提高測井曲線重構準確度。
長短期記憶神經網絡(LSTM)[9]通過三種“門”結構進行信息的傳遞,在循環神經網絡[10]的基礎上通過增加細胞狀態實現了長期狀態信息的記錄,對于具有長期依賴關系的樣本數據具有較好的分類效果。因此,提出基于改進LSTM神經網絡的測井曲線重構方法,在善于處理序列數據的LSTM網絡中引入測井領域知識和注意力機制構建DK-LSTM測井曲線重構模型。以大慶油田某工區水平井數據為例,根據已知水平井的測井曲線通過使用DK-LSTM測井曲線重構模型預測缺失的測井數據。
相關性分析指的是對測井曲線之間的相互依存關系進行分析,從而找出其內在關系。測井曲線數據之間不僅存在線性相關性,而且存在很大的非線性關系,基于大慶油田某工區三口水平井(分別為A、B和C井)的真實測井數據,假設聲波時差測井曲線(HAC)存在缺失,采用統計學Pearson相關系數進行測井數據之間的相關性分析。從圖1相關性分析結果不難看出,中子(CNL)、密度(DEN)、井徑(CAL)和電阻率(RT)與聲波時差(HAC)測井曲線之間的相關系數較高,其中井徑測井曲線與聲波時差測井曲線間存在最強的依賴關系,其他曲線與之則存在相對較弱的線性關系和非線性關系。

圖1 HAC與其他測井曲線之間的相關性
長短期記憶網絡(LSTM)是一種具有更為復雜和強大的漸變處理能力的循環神經網絡(RNN),在LSTM網絡中記憶單元c可以在某個時刻捕捉到某個關鍵信息,并可以將此關鍵信息保存一定的時間間隔[11],其保存信息的生命周期要長于短期記憶h,但又遠遠短于長期記憶,因此稱為長短期記憶,其可以有效地解決RNN的長程依賴問題[8]。
長短期記憶神經網絡的內部單元結構如圖2所示,其在簡單循環神經網絡的基礎上主要有兩方面的改進:其一,LSTM網絡引入門控機制來控制信息傳遞的路徑,三個門動態控制內部狀態應該遺忘多少歷史信息、輸入多少新信息以及輸出多少信息,整個網絡可以建立較長距離的時序依賴關系;其二,LSTM神經網絡通過引入一個新的內部狀態ct傳遞循環信息,并輸出給外部狀態ht,并記錄到當前時刻為止的歷史信息。主要通過下述公式進行計算:
(1)
ht=ot⊙tanh(ct)
(2)


圖2 LSTM網絡的循環單元結構
由于測井曲線的采樣間隔大多為0.125 m,并且測井數據中存在前后相關性,LSTM神經網絡可沿深度分別從前向和后向提取測井序列特征數據,充分利用前后序列中的依賴信息對聲波時差測井曲線進行預測。因此,LSTM是生成人工測井數據的理想模型架構。
領域知識(DK)是指某一個特定領域內的集合,該集合具體包括這一領域的相關概念、概念之間的某種關系以及對部分概念的約束[12]。測井領域知識涉及到的知識內容復雜,具有多種類型。可劃分為事實型知識、過程型知識、實例型知識和元知識[13]:
(1)事實型知識是指測井資料中的參數、模板和圖版等基礎信息;
(2)過程型知識是指在測井過程中的業務邏輯以及領域規則等;
(3)實例型知識是指概念的個體實例,例如某口井的數據;
(4)元知識是對上述幾種類型進行描述的知識。
結合專家經驗,針對測井曲線重構模型引入事實型知識。利用地層巖性特征指數(GS)作為過濾離散數據的優化策略,從而篩選得到高質量的訓練樣本并作為重構測井曲線的依據;在標準長短期記憶神經網絡模型中構建一個全連接模擬層添加測井領域知識約束,通過引入統計學Pearson函數分析中影響因子較大的測井領域知識對測井曲線重構模型添加先驗約束。據此,充分考慮到測井領域的先驗知識構建測井曲線重構模型以期提升模型的預測精度。
注意力機制通過構造一個簡單的注意力神經網絡,該網絡負責接收與注意力有關的輸入向量,從而達到對特征自適應關注的目的,進一步提高深度學習模型的特征提取能力[11]。注意力機制的神經網絡結構如圖3所示。

圖3 簡單的注意力機制網絡結構
其中,H為特征矩陣[h1,h2,…,hn],A是表示注意力機制所使用的輸入向量[a1,a2,…,am,…,an],en∈Rn,α是輸入特征矩陣H的注意力權重向量,r是表示特征矩陣H的加權和,是網絡最后的輸出特征[14]。下述公式是描述注意力機制神經網絡的函數:
(3)
α=softmax(WTM)
(4)
r=HαT
(5)
依據聲波時差測井曲線與井徑之間的強相關關系,在測井曲線重構模型中添加一個簡單的注意力機制神經網絡,通過該機制實現對特征的自適應關注,從而進一步對數據中存在的長期依賴關系建模,從而提高模型的特征提取能力。
為減小輸入測井曲線值異常造成的實驗誤差,采用z-score標準化方法對輸入數據進行歸一化處理,以保證測井曲線數據處于合適的范圍,有利于提高地層劃分準確度[6],即按照下述公式進行標準化:
(6)

DK-LSTM測井曲線重構模型主要包括DK-LSTM神經網絡和注意力機制兩部分,其中,DK-LSTM神經網絡是對長短期記憶神經網絡的改進,在網絡輸入層同時考慮測井曲線和地層巖性特征指數,并構建一個全連接模擬層用于引入測井領域知識中的先驗信息;此外,注意力機制作用于DK-LSTM神經網絡的輸出層,對HAC測井曲線數據中的長期依賴關系進行建模。
該模型包含一種改進的長短期記憶神經網絡DK-LSTM,其網絡結構如圖4所示,與標準的長短期記憶神經網絡的不同主要在于,通過改變網絡結構引入領域知識約束層,將測井領域先驗信息添加到重構模型中,約束層在本質上是對數據進行先壓縮再擴展,即做非線性變換。與此同時,結合相關性分析結果將部分特征再次輸入模型,以期提高模型的預測準確度。需要明確的是,其中知識約束層的神經元僅在結構上仿照測井曲線數據,并不參與模型的擬合與訓練。

圖4 DK-LSTM神經網絡結構
另外,基于聲波時差測井曲線對井徑的強依賴關系,DK-LSTM測井曲線重構模型在DK-LSTM神經網絡的末端添加一個簡單的注意力機制神經網絡。注意力機制作用在DK-LSTM單元的輸出層,用來模擬數據間的長期依賴關系,依據聲波時差測井曲線缺失的問題使用井徑測井曲線(CAL)構造輸入向量A,由注意力機制神經網絡可以即可得到特征向量H的注意力權重,并計算其權重加權和,相關原理如1.4節所述。DK-LSTM測井曲線重構模型算法流程如圖5所示。

圖5 DK-LSTM測井曲線重構模型算法流程
Step1:輸入測井曲線相關的序列數據,包括CAL、RT、DEN測井曲線和地層巖性特征指數(GS),采用z-score方法對數據進行標準化,并劃分數據集和測試集,對應圖5中的Input layer層。
Step2:將每個輸入傳入圖4的DK-LSTM神經網絡,訓練后得到特征向量H=[h1,h2,…,hn],對應圖5中的LSTM layer層。
Step3:在DK-LSTM神經網絡的輸出單元以端對端的形式添加注意力機制,根據任務構造井徑測井曲線向量A,利用公式(3)和(4)計算特征向量H的注意力權重值α=[α1,α2,…,αn],通過所得的注意力權重α利用公式(5)對所有特征向量H進行加權求和得到r,對應圖5中的Attention layer層。
Step4:預測輸出器位于DK-LSTM測井曲線重構模型的末端,為一個單層的全連接網絡,按照公式(7)、(8)進行計算,其中,Wp、Ws∈Rd×2d和bs=Rd均可在訓練期間通過學習獲得,對應圖5中的Output layer層。
hs=tanh(Wpr+Wshn)
(7)
(8)
實驗數據來源于大慶油田某工區的三口水平井(分別為A、B和C井),每口水平井均包含五條測井曲線,分別為電阻率(RT)、密度(DEN)、中子(CNL)、聲波時差(HAC)和井徑(CAL),分別選取測井曲線662 m~930 m數據段(采樣間隔為0.125 m)進行實驗。
基于測井領域知識對實驗數據進行篩選,引入地層巖性類別(GS)特征指數,通過設置不同巖性類別提取值,可對測井曲線數據進行劃分。為保證數據的充分性,需要通過對自定義提取值取進行分析,從而得出較為合理的提取值集合,并選擇該集合下的標記數據作為最終實驗數據[15]。
提取值的確定以地層巖性類別為基準,在各種類型的巖性區間(001、010、100)內,其中001代表泥巖,010代表粉砂巖,100代表細砂巖,以參考變化結果為依據,對所有設定提取值下的樣本標記結果進行統計,綜合考慮所有地層巖性類別篩選得到高質量的數據集。部分具有代表性的樣本數據如表1所示。

表1 部分學習樣本數據
結合大慶某工區的三口水平井數據的相關性分析結果設計三組實驗,分別根據兩口已知井的測井數據和地層巖性特征指數估計未知井缺失的聲波時差測井曲線。在模型的訓練過程中,把DK-LSTM神經網絡獲得的特征矩陣H添加到注意力機制的輸入中,在注意力機制神經網絡中根據HAC對井徑測井曲線的強依賴關系構造輸入向量A,從而獲得矩陣H的注意力權重,更加準確地預測未知測井曲線(HAC)。以本實驗中的數據和問題為例,由DK-LSTM測井曲線重構模型分別得到的三口水平井HAC測井曲線如圖6所示。
由圖6可以看出,采用DK-LSTM神經網絡模型進行測井曲線重構取得了較好的效果,其充分利用測井曲線之間的線性關系和非線性關系,很好地學習到測井曲線隨深度變化的特性,可以根據已知測井數據生成補全未知的曲線,基本能夠反映失真或缺失段測井曲線的變化趨勢。為證明DK-LSTM測井曲線重構模型的穩定性和準確度添加對比實驗,根據文獻[7]構建標準長短期記憶神經網絡(LSTM)和串級長短期記憶神經網絡(CLSTM)針對篩選后的數據樣本進行測井曲線重構。采用均方誤差(MSE)作為評價重構效果的標準,具體公式如下:

圖6 聲波時差測井曲線重構結果

(9)


表2 測井曲線重構精度MSE值
由表2可知,利用DK-LSTM測井曲線重構模型較標準長短期記憶神經網絡和串級長短期記憶神經網絡重構缺失或失真部分測井曲線的結果精度更高、定性更強。
經過仿真實驗表明,利用改進的長短期記憶神經網絡融合注意力機制很好地生成補全了聲波時差測井曲線,與標準長短期記憶神經網絡和串級長短期記憶神經網絡對缺失段測井曲線重構效果相比,DK-LSTM測井曲線重構模型具有較高的準確性和魯棒性。提出的基于改進的長短期記憶神經網絡生成人工測井曲線的方法精度較高且成本低,該方法有助于更全面地認識地層并創新鉆完井策略,為測井曲線重構提供了一種新思路。