基于門控循環單元網絡的低阻油層測井流體識別方法

2024-05-21 13:55:12龔宇劉迪仁

科學技術與工程 2024年12期

龔宇, 劉迪仁

(長江大學油氣資源與勘探技術教育部重點實驗室, 武漢 430100)

目的層段巖性主要表現為砂泥巖互層,高泥質含量使得電阻率測井測得的電阻率值較低。導致許多油層和油水同層的電阻率曲線幅度差不明顯,難以區分油水層。因此目的層段亟需一種精細且準確的流體性質識別方法。

目前已有大量學者針對不同地區的低阻油層的成因機理,提出了對應的識別方法。前人基于常規測井資料進行低阻油層流體識別的主要方法有圖版法和基于機器學習等算法的流體識別方法。陳明江等[1]、劉之的等[2]、白澤等[3]通過選取對含油氣性敏感的測井參數進行交會圖來識別低阻油層,這類方法簡單,快速,但只能適用于所在的研究區塊且比較依賴個人經驗。而機器學習中的諸多算法對常規測井曲線與含油氣性之間的非線性映射關系有較好的適應能力,被應用于如低阻油層的復雜儲層流體識別中,并取得了較好的效果。張銀徳等[4]利用支持向量機識別出了某油田的低阻油層。韓玉嬌[5]利用AdaBoost算法識別出了大牛地氣田的低阻氣藏。藍茜茜等[6]使用改進的前饋神經網絡有效識別出了車排子的低滲油層。周雪晴等[7]使用雙向長短期記憶神經網絡有效識別了鄂爾多斯盆地馬家溝組的氣層。門控循環單元網絡(gated recurrent unit,GRU)是循環神經網絡中的一種,具有較強的非線性映射能力,除了和傳統循環神經網絡(recurrent neural network,RNN)一樣能夠挖掘出數據在時間序列上的關聯性,還能有效解決因輸入測井數據序列過長導致的梯度消失或爆炸等問題。

基于此,提出的一種Smote-GRU的智能識別方法,首先利用少數類過采樣技術(synthetic minority oversampling technique, Smote)對油水同層和油層等少數類樣本進行過采樣建立均衡的數據集,利用均衡數據集訓練GRU模型后,再將預處理好的數據集輸入門控循環單元網絡中進行流體識別,提高了各類流體性質的識別精度,少數類樣本識別精度提升尤為顯著。

1 區域概況及流體響應特征分析

目的層段為館陶組和沙河街組,巖性主要表現為砂泥巖互層和大段砂巖。田立新等[8]首次用U-Pb測年實驗證明了該地區在沉積時期發生了火山噴發,在火山活動和后期構造應力的綜合作用下最終形成了孔隙-裂縫型的優質儲層。館陶組和沙河街組的儲層流體可將分為:干層、水層、油水同層和油層。用半小提琴圖來表示這4類流體性質的測井參數的概率密度分布和測井響應特征,圖1為除井徑外其他9個特征的小提琴圖,通過觀察半小提琴圖的密度分布來總結流體性質的測井響應特征(其中電阻率測井的縱坐標為對數刻度,其他測井參數縱坐標均為線性刻度)。半小提琴圖由左側的蜜蜂群圖和右側的小提琴圖構成。圖1中,小提琴的形狀表征了數據的密度分布狀態,小提琴“肚子”越寬,數據分布越密集。微觀上蜜蜂群圖能看出每個測井參數數據點的分布位置。宏觀上半小提琴在的縱坐標方向上的位置越高,則表示測井響應值呈高值。反之,位置越低則表示測井響應值呈低值[9-11]。

研究區塊大部分干層由于泥質含量較高,自然伽馬呈高值,主要分布在117.1～160.6 gAPI。又因其物性較差,深淺側向電阻率曲線幅度差不明顯,聲波時差和中子呈低值分別分布在264.8～352.1 μs/m和18.5%～30.1%,密度呈高值,主要分布在2.31～2.46 g/cm3。相較于干層,水層自然伽馬和深側向電阻率呈低值,聲波時差呈高值,密度呈低值;大部分油水同層和油層的自然伽馬也呈低值,部分油層因為含泥質或是砂泥巖的薄互層,自然伽馬值呈現較高值。油層的深側向電阻率主要分布在2.53～5.35 Ω·m,和干層的深側向電阻率范圍重合度極高,難以將干層和油層區分。從宏觀上來看,干層和油層的小提琴圖高密度區域的重合度也極高,也說明難以將兩者區分。同理油水同層與水層也較難區分[12-16]。表1為不同流體性質的常規測井響應特征,其中各個測井參數的范圍是上,下四分位點的數值所組成的區間,代表各類流體常規測井參數值的主要分布范圍。

表1 四類流體的常規測井響應特征

半小提琴圖可知油層AC,CNL,DEN曲線的數據表現為雙峰分布,其主要原因是研究區中有許多粉砂巖的致密儲層,相較于其他孔隙度較大的砂礫巖,此類油層的密度值相對較大,聲波時差值較小。使得油層密度均值比水層的高,聲波時差均值也比水層低。表2為8號井油層井壁取心的巖心照片和對應的物性曲線的測井值,與半小提琴圖的數據分布特征相吻合。油層與其他類型流體性質的測井參數數據的分布重合度較高,因此利用傳統的交會圖法和圖版法很難有效地識別流體性質。

表2 8號井油層井壁取心照片及物性曲線

2 原理方法

2.1 門控循環神經網絡模型原理

圖2 門控循環單元結構Fig.2 Structure of gated recurrent unit

Rt=σ(XtWxr+Ht-1Whr+br)

(1)

Zt=σ(XtWxz+Ht-1Whz+bz)

(2)

(3)

式(3)中:Wxh∈Rd×h和Whh∈Rh×h為權重參數矩陣;bh∈R1×h為偏置參數矩陣;⊙為哈達瑪積。

由此可以看出,GRU與其他傳統機器學習算法的不同之處,單元中的重置門起著傳遞歷史信息的作用。它可以用來降低與流體識別相關性低的歷史信息,甚至還可以直接丟棄無關的歷史信息。若重置門矩陣中元素越接近1,那么相對應的上一時間步的隱藏狀態所攜帶信息對該時間步下的預測權重越大;反之,重置門矩陣元素越接近0,權重則越小。當其中元素為全為0時表示該時間步丟棄所有的歷史信息。重置門的功能恰好能適應測井數據在深度列上的規律變化[17-19]。

當前時間步t的隱藏狀態Ht∈Rn×h計算公式為

(4)

式(4)中:A為元素全為1的矩陣。

2.2 數據預處理

目標區塊常規測井資料為測井常規九條曲線和一條光電截面吸收指數曲線,共10種。根據試油資料與測井資料聯合標定結論,對目標區塊的33口井進行綜合解釋,將區塊中的儲層分為干層、水層、油水同層和油層。具體為334個干層、161個水層、105個油水同層和77個油層,各類占比如圖3所示。測井資料中各種物理參數的尺度差異極大,而神經網絡模型往往對數據尺度也是極敏感的,會增加模型的訓練難度。因此需要對每一個儲層的各個物理參數進行歸一化。

圖3 四類流體性質餅狀圖Fig.3 Pie chart of four types of fluid properties

(5)

對于電阻率測井這般呈對數特征的參數需要先對每個數值求對數再歸一化。

(6)

(7)

式(7)中:R為0～1的隨機數。

原始數據中油層的僅占總數的11.4%,而干層占49.3%,樣本不均衡會導致訓練好的模型對干層的識別準確率會較高,而油層的準確率會很低,同理其他少數類儲層流體的識別準確率也會大大降低。下面以多數樣本集-干層為參考對象,對油層樣本進行過采樣的可視化,如圖4所示。

圖4 油層過采樣可視化Fig.4 Visualization of oversampling in the layer of oil

研究區塊常規測井資料有10條曲線,現用二維空間可視化過采樣的效果,在實際操作過程中則是在10維特征空間中進行的。另外,此采樣策略只針對訓練集的數據,最終使得輸入模型的訓練集干層,水層,油水同層和油層的比例為2∶1∶1∶1,使其變得相對均衡。用Smote算法沒有使訓練集數據完全均衡為1∶1∶1∶1的原因是,按照此比例采樣后,油層等少數類樣本集會生成許多噪聲點,會增大訓練集的復雜度,反而會降低模型的精度。

2.3 相關性分析

以儲層的流體性質為標簽,測井資料中的各種物理參數為算法輸入的特征。在訓練模型時,各個物理參數對模型預測流體性質的貢獻可能不同,也存在多個物理參數之間相關性很強的情況,為了減少模型的運算量及更好地訓練模型,亟需對各個物理參數之間的相關性進行分析,用皮爾遜相關系數來計算參數之間的相關性,計算樣本各參數之間的協方差和標準差后可得到兩個參數之間的皮爾遜相關系數r可表示為

(8)

參數之間的相關性系數如圖5所示,可以看出,RD和RS之間的相關性強,皮爾遜系數為0.98,幾乎可以認為兩者“共線”。將RD和RS兩條曲線同時輸入是不合適的,各參數與標簽的皮爾遜系數如表3所示。

表3 各測井參數敏感性分析

圖5 相關性熱力圖Fig.5 Heat map of correlation

深側向電阻率RD對儲層含油性的敏感度為0.215大于淺側向電阻率RS對儲層含油性的敏感度0.128,因此選擇RD作為輸入。RXO與標簽的相關性系數最低為-0.007,可以認為,RXO對目的層段的含油性不敏感對模型識別流體的貢獻很小。最后確定作為輸入的8條曲線為CAL、GR、PE、SP、RD、AC、CNL和DEN。

2.4 Adam優化算法和GRU網絡模型

Smote-GRU流體識別模型中是使用Adam算法來迭代尋找網絡的最優化參數的。Adam算法中的參數分別為:alpha、beta1、beta2和epsilon,盡管參數數量較少,但是對神經網絡模型的優化影響巨大。

epsilon使用默認值就能起到很好的優化效果,因此用控制變量法來調參時,只需對alpha、beta1和beta2進行改變,最終得到最優參數如表4所示。

表4 Adam尋優算法最優參數

各個測井參數的原始數據是隨深度變化的離散點,研究區塊的測井數據的為采樣間隔為0.1 m,因此將深度列視為“時間列”,自上而下地對K區塊的33口井的儲層測井數據進行提取,生成訓練序列。本文GRU神經網絡的流體識別模型如圖6所示。

Yt為不同深度下GRU層輸出的信號;Dropout為神經網絡中上一層神經與下一層神經斷開連接的比例,其主要作用是為了防止過擬合,提高模型的泛化能力;softmax為多分類問題中常見的激活函數

3 流體識別

將33口井中28口井的常規測井數據作為訓練數據,另外5口井的作為測試數據。利用訓練好的神經網絡模型預測儲層流體性質,并對識別結果進行綜合評價。混淆矩陣以n行n列的形式對模型的Precision(精確率)、Recall(召回率)、FScore(召回率與精確率的博弈)進行可視化。

(9)

(10)

式中:TP和FP分別為被預測正確和被預測錯誤的正樣本數;FN為被預測錯誤的負樣本數。

精確率和召回率兩者相互影響,相互制約,前者過高會導致后者偏低,反之后者過高也會導致前者偏低。此時,引入FScore作為綜合指標,FScore數值越大模型流體識別的精度就越高。

(11)

式(11)中:β為參數,若β大于1則表示召回率比精確率重要,β小于1表示精確率比召回率重要,β等于1表示召回率和精確率同樣重要,本文FScore中的β取1。

優化訓練數據集后Smote-RNN和Smote-GRU流體識別結果分別如圖7所示。圖7中,顏色較深的對角線表示四類流體性質的召回率,即Smote-GRU網絡干層識別正確占干層總數的0.94,同理水層為0.893,油水同層為0.854,油層為0.885,剩余部分是模型錯誤分類結果的占比。樣本優化后GRU網絡對4種流體性質的Precision、Recall和FScore如表5所示。對于少數樣本集(油層)的FScore為88.9%,多數樣本集(干層)的FScore為93.5%。水層和油水同層的FScore分別為87.7%和87.9%。結果顯示本文識別方法在保證了整體識別率的基礎上,對油水同層和油層的識別率也達到了理想預測結果。為了充分驗證基于序列數據模型對該區塊流體識別的應用效果比非序列數據模型效果好,對比包括均衡樣本后的Naive Bayes、支持向量機(support vector machines,SVM)、K近鄰(K-nearest neighbors,KNN) 3種傳統的機器學習算法模型。將Smote-GRU 4種流體性質的平均FScore指標與用Smote均衡樣本后的RNN、Naive Bayes、SVM和KNN模型的平均FScore指標對比如表6所示,結果顯示:RNN和GRU這類基于序列數據的流體識別模型精度比比非序列數據模型的精度高。

表5 均衡樣本后的GRU對測試集5種流體的識別結果

表6 不同流體識別模型的平均FScore標對比

顏色較深的對角線為四類流體性質的召回率

為了體現GRU對研究區塊流體識別的優勢,選取GRU和RNN識別結果差異明顯的層段進行可視化。將GRU和RNN預測的儲層流體性質與試油資料和解釋結論綜合標定的儲層流體性質[True Label:真實標簽(流體性質)]進行對比如圖8所示,選取的目的層段為6井中的1 126～1 164 m。

1～7號儲層分別為油水同層、干層、油水同層、油水同層、干層、油水同層、油水同層True Label為真實標簽(流體性質)

該井段試油結果顯示日產油46.1 m3,日產水57.8 m3,結論為油水同層。結合測井綜合解釋,地層測試和試油結論,標定儲層的真實流體性質作為“True Label”。將目的層段劃分為7個儲層,1～7號儲層為分別為油水同層、干層、油水同層、水層、干層、油水同層、油水同層。最后將RNN和GRU的識別結果與“True Label”做比較,RNN對1、4、6、7號儲層的流體識別錯誤。該區塊油水同層與水層的測井響應特征極為相似,人為解釋的難度相對較大,若模型對特征的敏感度未達到最優難免會將兩者錯分。分類問題可以抽象地理解為算法模型在提取數據特征后不斷迭代和學習各類流體性質的測井響應特征,并計算出各個流體性質分類的n維度的決策面從而分類識別流體性質。若有兩類測井響應特征相近,算法模型發生錯分是難免的。但GRU的識別效果比RNN好,該結論也與表4的FScore標吻合。

為了進一步驗證Smote過采樣策略的優越性,在RNN和GRU迭代至最優狀態的情況下,以4種流體的FScore為評價指標,設置3個流體識別方法與本文識別方法做對照試驗,如圖9所示。3個對照組分別是:“不平衡樣本下RNN識別流體”“不平衡樣本下GRU識別流體”“Smote過采樣+RNN識別流體”。通過Smote算法過采樣后,不管是使用哪種網絡結構,少數類樣本的FScore都得到了顯著的提升。特別的是,GRU網絡模型下水層和油水同層的提升了9.2%和8.7%。油層的樣本最少,其FScore提升同樣顯著,油層FScore值由85.2%提升至88.9%。干層為多數類樣本,其FScore得到了小幅度的提升。另外,對照試驗表明同樣條件下GRU網絡模型下4類流體性質的FScoreRNN模型下的都要高,這表示GRU的非線性映射能力比RNN強。

圖9 對照試驗的FScore對比直方圖Fig.9 Comparison histogram of FScore values in control experiments

4 結論

研究區塊測井儲層流體識別中存在油層電阻率較低,嚴重依賴測井解釋人員的個人經驗,油水同層與水層,油層與干層、水層的常規測井響應特征相似從而識別困難等問題。以GRU網絡為基礎,同時采用Smote算法均衡樣本數據集,提出了一套對少數類樣本過采樣后再訓練GRU網絡模型的儲層流體識別方法。建立各個測井參數與流體性質之間的門控循環單元網絡模型,井區28口井作為訓練集,剩下5口井作為測試集。得出如下結論。

(1)GRU、RNN與Native Bayes、SVM、KNN對比可知,GRU和RNN的流體識別方法更加精確。證明在該研究區塊中,序列數據模型比傳統機器學習模型的識別效果好。

(2)Smote過采樣算法與GRU的有機結合,避免了網絡模型中梯度衰減或爆炸等問題。GRU相比與傳統的RNN,其非線性映射能力也更強,本文模型的FScore高達89.5%。對照試驗中油水同層和油層的識別精度明顯提高,證實了Smote算法處理樣本不均衡分類問題的優越性。該方法可為類似儲層樣本不均衡的井區低阻油層的流體識別提供參考。