符強,譚忠健,李鴻儒,郭明宇,劉志偉,苑仁國
1.中海油能源發展股份有限公司工程技術分公司(天津 300459)
2.中海石油(中國)有限公司天津分公司(天津 300459)
從已經發現的眾多潛山類型油氣藏來看,變質巖潛山約占潛山油氣儲量發現的四分之三,商業價值很大[1-3]。渤海油田在錦州25-1南構造、渤中19-6構造和渤中13-2構造等多個變質巖潛山中獲得了好的油氣發現,揭示了變質巖潛山在渤海油氣勘探發現中的巨大潛力。
當前對于變質巖潛山巖性的定名,主要依據實驗室巖石薄片鑒定結果結合常規測井曲線特征對變質巖巖性進行綜合定名[4-6],雖然效果顯著,但時效性差,成本較高。與實驗室專用的高精度ZSX Primus Ⅱ波長色散X 射線元素熒光光譜儀相比,現場主要選用簡易型能量色散型儀器EML-200 型和HB-X100型對現場巖屑進行元素分析,其特點是分析時間短,成本低,結構簡單,易于拆卸和搬運,特別適合錄井現場的作業環境。但相應的缺點也突出,受俄歇效應和基體效應影響,儀器對低原子序數(如Na元素)和低含量元素的測量精度較低,導致井間可對比性差[7-9],特別是對于由火山巖變質作用形成的非均質性較強的變質巖潛山來說,巖性識別精度更差。其次是缺少相應的變質巖潛山巖性判別圖版,行業內相對權威的TAS 圖版是基于礦物成分而非元素對火成巖巖性的判別[10]。最后是當前應用元素錄井對巖性的判別多是依據經驗,比如,陳穎等的塔河油田風化殼卡取難點及方法引用[11],陳然等的庫車坳陷博孜1201 井古近系鹽底卡層技術[12]。近年來,數據挖掘技術被廣泛應用在石油行業。它是一種建立在計算機技術基礎上的數學算法分析技術,通過統計、在線分析處理、機器學習、專家系統(經驗法則)等方式挖掘隱藏在數據中的人工不易察覺的規律和價值。它的優勢在于最大程度降低了人的主觀因素在判別結果中的權重,評價結果更加客觀且智能。近年來該方法在石油行業的成功案例不勝枚舉[13-16]。
井場元素錄井數據雖然在一定程度上反應了變質巖潛山巖性的信息,但還無法對變質巖潛山巖性給出準確定名,需要借助數據挖掘技術提高數據本身的價值。本文基于井場元素錄井數據,應用數據挖掘技術中的數據降維和隨機森林算法,建立巖性判別模型,以實現對變質巖潛山巖性的智能高效判別。
實施方法是基于實驗室薄片鑒定及測井數據的巖性結論,將井場元素錄井(XRF)數據按照巖性結論整理為初選樣本,再通過PCA(Principal Component Analysis)數據降維的方法精簡樣本,提高樣本的代表性,最后應用隨機森林算法形成訓練樣本決策樹,進而形成基于隨機森林算法的巖性判別模型,利用生成的判別模型對實際井資料進行分析,最終得出巖性判別結果(圖1)。

圖1 隨機森林巖性判別模型建立流程圖
以渤海渤中13-X 構造及渤中19-X 構造為研究目標,研究區潛山受構造及多期次巖漿侵入影響,儲層具有巖性及內部結構復雜多樣、縫—孔復合發育、非均質性強等特征,嚴重制約了儲層的深入認識。通過研究區渤中13-X 構造電測參數結合巖心及壁心實驗室薄片結論可建立綜合解釋巖電響應關系圖版(圖2),由圖2 可見,研究區不同巖性間的電學特征差異十分明顯。圖3 為該構造井場人員依據元素錄井數據結合經驗做出的巖性解釋剖面圖。從圖2、圖3 可見,研究區內實際巖性種類繁雜,測井可分出6 種,但井場工程師解釋巖性單一,錄井僅能識別2 種,雖發現了元素數據含量變化,卻無法據此對巖性進行細分判斷,使得井場巖性解釋不夠精確,無法滿足變質巖儲層快速評價和勘探決策的需求。

圖2 目標區BZ13-X構造巖電響應關系圖版

圖3 目標BZ13-X構造井場巖性解釋剖面圖
通過搜集研究區9 口井近600 個元素數據點,綜合實驗室薄片鑒定及區域不同巖性的測井曲線特征,將研究區巖性歸納為9 類:①二長片麻巖;②變晶花崗片麻巖;③堿長片麻巖;④斜長片麻巖;⑤混合花崗巖;⑥片麻質碎裂巖;⑦變粒巖;⑧閃長玢巖;⑨蝕變輝綠巖。
1.2.1 數據樣本建立
將上述9種巖性對應的現場元素數據處理形成初步樣本,樣本包括井場元素錄井技術所測得17種元素(Si、Fe、Al、Na、Ti、Mn、Ca、Mg、K、P、S、Cl、Ba、V、Ni、Sr、Zr)和對應的巖性分析結果。
1.2.2 樣本數據預處理
綜上所述,當前渤海應用的能量色散類EML-200型和HB-X100型元素錄井測量儀器對低原子序數(如Na元素)和低含量元素的測量精度較低,結合不同元素的含量情況,為了提高對變質巖潛山巖性的識別準確性,減少不準確元素對最終巖性判別模型的干擾,決定選取常見造巖礦物中具有代表性的7 種主元素,分別為Si、Al、Fe、Ca、Mg、Na、K(表1)。利用數據降維方法對該7 種元素進行降維處理,提取其中的主要敏感元素。

表1 元素數據與巖性的相關系數
1.3.1 基于PCA算法的元素錄井數據降維處理
1.3.1.1 數據降維原理及推導
PCA 算法是一種常見數據分析方式,常用于將包含冗余信息的高維數據轉化為包含原始數據所有主要信息的少量低維數據,即主成分分析。其核心是正交分解。通過選擇新的相互正交的空間基向量將若干可能具有相關性的數據變成一組無關變量的方式,用少數幾種最關鍵的主成分為代表,從而實現數據降維的目標[17-18]。
數學推導可以從最大可分性和最近重構性兩方面進行,前者的優化條件為劃分后方差最大,后者的優化條件為點到劃分平面距離最小,這里選擇方差最大的方式。PCA算法的典型步驟如下:
1)對原始數據矩陣進行標準化處理。假定原始數據樣本數為n,特征變量維數為p,生成矩陣X=(Xi1,Xi2,...,Xip)T,其中i=1,2,...,n,n>p,對樣本矩陣進行如下變換:
2)計算相關系數矩陣。通過公式(2)計算得到經過標準化處理后數據的相關系數:
并得到以下相關系數矩陣:
F=,其中p為參數個數,i,j為某個特征列的編號。
3)計算相關系數矩陣F的特征值和特征向量。計算矩陣F的特征值,并按特征值從大到小的順序進行排列,假定求得的特征值:λ1,λ2...,λp。對應的特征向量為Ai=(Ai1,Ai2,...Aip),i=1,2,...,p。
4)選擇重要的主成分,并計算主成分得分。由主成分分析可以得到p個主成分,但是在實際分析時,常根據各個主成分的累積貢獻率的大小選取前k個主成分,以達到數據降維的目的。取相關系數矩陣F的特征值的累積貢獻率達到一定值的前k個特征值所對應的特征向量組成特征矩陣P,即特征矩陣P=(Ai1,Ai2,...Aik)。
原始數據矩陣X乘以特征矩陣P,就得到了降維后的數據矩陣Q,即Q=XP
1.3.1.2 樣本數據降維處理
利用上述降維方法對選取的7種主元素進行降維處理(表1,圖4),選擇降維后第一個主成分相關的數據列A、B、D、G 為敏感性元素,分別為Si、Al、Na、K,其中Si和Al主要存在于硅鋁酸鹽,在變質巖礦物中的占比較大,Na和K分別主要存在于變質巖中的斜長石和鉀長石,這與研究區變質巖礦物組分也是吻合的。

圖4 PCA對7種元素進行數據降維處理結果
結合以上結論將初步樣本降維處理為表2,形成降維樣本數據。

表2 降維后的樣本數據質量分數及結果(部分)
從數據降維后的表2 中可以發現,每種巖性沒有特別的直觀特征,僅依靠個人主觀判斷無法將巖性進行細分,需要借助一種智能手段輔助進行巖性判別。本文選用數據挖掘技術中的隨機森林算法建立對變質巖潛山巖性的判別模型。
1.3.2 基于隨機森林算法的巖性識別模型建立
隨機森林算法是機器學習領域中的一種集成學習方法[19],它通過集成多個決策樹的分類效果來組成一個整體意義上的分類器(圖5)。隨機森林算法主要有兩大優勢:①分類準確度高;②算法學習過程快速且易于并行化[20-21]。

圖5 隨機森林分類示意圖
該方法是用隨機的方式建立一個森林,森林里有很多相互之間無關聯的決策樹。在得到森林之后,當新樣本輸入時,會在森林中的每棵決策樹進行一次分類和判別,系統會統計出判別結果,以出現頻率最多的為最終輸出結果。
通過樣本數據隨機選取和待選特征隨機選取構建隨機森林判別模型。①首先從m個對象數據的樣本文件(訓練數據)中進行有放回的抽樣,構造n個子數據集,然后利用子數據集構建決策樹,這些樣本組成了決策樹的訓練數據集。待選特征隨機選取即為子決策樹構建過程,與數據集隨機選取類似,隨機森林中的子決策樹的每一個分裂過程并未用到所有待選特征。②隨機選擇一定的特征值,然后再在隨機選擇的特征中選取最優特征,這樣能夠保證隨機森林中的每一個決策樹都不相同,提升系統的多樣性,進而提升分類性能。假設每個樣本數據均有k個特征,從所有特征中隨機選取i(i≤k)個特征,選擇最佳分割屬性作為節點建立決策樹,重復上述步驟即可構建m棵決策樹,進而形成隨機森林。
應用上述理論,將獲得的表3數據做訓練數據,以1~9號巖性作為決策樹分類模型,對數據降維后的樣本數據做隨機森林模型建立。建立好的模型可以用來進行新樣本的巖性判別,從而實現對區域內變質巖潛山巖性快速識別,減少了個人主觀因素對巖性判別結果的影響。

表3 實際資料處理符合率統計表
應用已經建立好的變質巖潛山巖性判別模型對目標區渤中19 構造內其余13 口井370 個元素樣品資料進行處理,將結果與相應的薄片鑒定結果進行對比,其中320 個符合,50 個不符合,整體符合率達86.5%,與現場錄井原始巖性剖面僅60%的準確率相比有很大提高。從圖6 可見,本技術方法在變質巖潛山復雜巖性識別上具有較好的實際應用效果。實際資料處理符合率統計見表3。

圖6 BZ19-B1井元素錄井資料處理剖面圖(4 088~4 122 m)
由圖7 分析可知,該方法能較好地識別變晶花崗巖、堿長片麻巖、混合花崗巖等,而對碎裂巖識別效果相對較差,其中未能識別的碎裂巖21 個,占不符合樣本的42%,這主要是由于碎裂巖屬于動力變質巖,其母巖與其他變質巖成分相似,因此識別準確率不高,可結合鏡下薄片,依據其母巖成分對碎裂巖巖性進行細分,以達到井場元素錄井數據可以識別的程度。此外,一部分識別錯誤存在于巖性變化處,其原因是元素錄井資料采樣間距為5~10 m,導致在靠近巖性界面處識別效果較差,可以通過空間插值的方法提高元素錄井數據間隔密度。

圖7 未能識別巖性分析統計圖
對于變質巖巖性的識別,行業界還沒有統一的標準,相對權威的火成巖巖性TAS 模型也是基于礦物,并沒有基于元素的巖性識別模型。本模型的建立一定程度上解決了特定構造內的變質巖潛山復雜巖性的識別問題,但有待改進,需要加入更大更全面的標準樣本,加大模型的覆蓋面,最終形成一套完整的、行業內相對認可的基于巖石元素數據的變質巖巖性分類及判別模型。
1)基于井場元素錄井數據,通過數據挖掘技術中的數據降維及隨機森林算法,以實驗室薄片鑒定結論做標定,建立對變質巖潛山巖性識別模型。該方法對研究區13 口井的巖性識別準確率達到86.5%,可以實現對變質巖潛山巖性的有效智能識別。
2)對于變質巖潛山巖性的識別依托于實驗室薄片鑒定的結論,部分巖性定名結論對于井場現有技術條件下較難區分,比如碎裂巖,需要根據其母巖成分進行進一步細分,以達到井場元素錄井技術可以判別的程度。