孫常凱,張云峰
(1.黑龍江省高校油氣藏形成機理與資源評價重點實驗室,黑龍江 大慶 163318; 2.東北石油大學 地球科學學院,黑龍江 大慶 163318)
地震屬性是利用數學手段對地震資料的幾何學、運動學、動力學及統計學等特征的一種表征形式,是地層信息和地質現象在地震資料中的反映[1]。不同巖性的地層在地震資料上的反映也不同,可以利用地震屬性來預測地層的砂體厚度。然而,地震屬性具有多解性,單一地震屬性受到多種地質因素的共同影響,同時單一的地震屬性難以全面地反映地層的特征,一個地質特征往往會在多個地震屬性中都有體現[2]。因此,在預測砂體厚度時,需要將多種與砂體厚度有著較強相關性的地震屬性結合起來。機器學習具有較好的解決非線性問題的能力,目前隨機森林[3]、神經網絡[4]和支持向量機[5]等機器學習方法均廣泛應用于砂體厚度的預測中。
LightGBM(Light Gradient Boosting Machine)是一個實現梯度提升決策樹(Gradient Boosting Decision Tree,GBDT) 算法的開源框架,由微軟發布[6]。它具有更快的訓練速度、更高的效率、更好的準確度以及更低的內存使用,并支持分布式、并行學習和GPU加速,以處理大規模數據。
支持向量機(Support Vector Machine,SVM)于1995年正式發表[7],在1996年被用于回歸問題[8]。作為一種新的機器學習方法,已逐漸成為國內外研究熱點之一[9]。該方法以統計學習理論和結構風險最小化為基礎,利用核函數將有限維的低維空間映射到高維空間,以尋找合適的劃分超平面來使樣本可分,以解決低維空間的非線性問題[10]。該方法在解決小樣本、非線性的問題上尤為合適,可以應對研究區樣本少、斷陷盆地砂體厚度變化復雜的問題[11]。
陸東凹陷位于開魯盆地陸家堡凹陷的東部,是發育于海西期褶皺基底上的中生代凹陷。凹陷受北北東向區域性斷裂控制,構造走向由近東西向轉北東向,具有南陡北緩、單斷式斷拗型的構造背景,即早白堊世以斷陷為主,而晚白堊世則以拗陷為主[12]。
陸東凹陷構造演化可分為強烈斷陷階段(義縣期)、快速沉降階段(九佛堂期)、穩定沉降階段(沙海期)、回返萎縮階段(阜新期)。其中,九佛堂期的快速沉降階段是由于陡坡帶邊界斷裂強烈活動、盆地快速下降造成的。九佛堂早期沉降中心在后河地區,到九佛堂組晚期湖盆逐漸擴大。
盆地基地為古生界石炭、二疊系變質巖,其上依次覆蓋中生界下白堊統義縣組、九佛堂組、沙海組、阜新組[13],如圖1所示。九佛堂組發育的半深湖—深湖相暗色泥巖沉積和近岸水下扇及扇三角洲沉積,形成了該區主要生、儲巖系。
層位標定是儲層預測研究的基礎,也是屬性分析的前提條件[14]。研究層位為九佛堂組,該層位由一個3級層序控制,可進一步劃分為低位體系域、湖侵體系域和高位體系域[15]。其中,高位體系域主要為近岸水下扇—半身湖沉積體系,以泥巖、頁巖為主,儲層物性差,主要視為烴源巖和頁巖油儲層;對于低位體系域,由于鉆遇義縣組的井較少,導致可獲得的低位體系域砂體厚度信息較少,難以進行模型訓練。因此,湖侵體系域為研究的目的層段,該體系域主要為扇三角洲—濱淺湖沉積體系。前后河地區九佛堂組體系域如圖2所示。

圖1 陸東凹陷綜合柱狀Fig.1 Comprehensive histogram of Ludong sag

圖2 前后河地區九佛堂組體系域Fig.2 Jiufotang Formation system tract in Qianhouhe area
整個陸東凹陷屬于典型兩洼夾一隆的構造格局,包括交力格、前后河和三十方地3個區塊,前后河地區位于交力格洼陷和三十方地洼陷之間,如圖3所示[16]。它包括前、后河斷裂背斜及廣發斷裂背斜3個構造帶,面積約170 km2,是陸東凹陷勘探的重要地區[17]。研究區東南部井網較密,而西北部井網較稀,難以僅用鉆井資料描述砂體分布規律。因此,需要利用地震屬性加以輔助。
研究利用Geoeast的GeoAttributeAnalysis子程序對研究層位進行地震屬性提取,共提取99種地震屬性,包括瞬時屬性、時窗及振幅屬性、子波屬性、功率譜屬性、自相關屬性、單頻屬性、層序地層統計屬性等。
砂巖厚度由井位錄井資料確定,結合提取的地震屬性,建立了樣本集。研究區共35口鉆穿湖侵體系域的井,因此樣本數量為35。
研究利用LightGBM來進行特征選擇。LightGBM屬于樹模型,可以用來評估特征的重要性[18]。如果一個特征被選為分割點的次數越多,那么這個特征的重要性就越強。依據這個原理,可以進行特征選擇。將所有地震屬性作為特征進行模型訓練,并留出30%的樣本檢驗是否過擬合。訓練得到的特征重要性見表1。其中,重要性為0的特征被省略。此時該模型的誤差見表2。

表1 初次特征選擇的特征重要性Tab.1 Feature importance of initial feature selection

表2 初次特征選擇的模型誤差Tab.2 Model error of initial feature selection
其中,MSE為均方誤差,RMSE為均方根誤差,MAE為平均絕對誤差,R2為決定系數。
可以看出,該模型發生了過擬合現象,將進一步進行特征選擇。經過多次模型后,最終特征選擇的結果見表3。

表3 最終特征選擇的特征重要性Tab.3 Feature importance of final feature selection
此時該模型的誤差見表4。
可以看出,此時模型的精度和泛化能力都較好。因此,選擇這7種屬性作為輸入特征來進行模型訓練,這7種屬性如圖4所示。然而,利用該模型得到的結果與實際地質情況不符,因而改用支持向量機進行預測,以發揮其在小樣本問題上的優勢。這7種屬性分別為振幅斜率(Amplitude Slope,AmpSlp)、瞬時帶寬(Instantaneous Bandwidth,IBand)、絕對振幅積分(Integrated Absolute Amplitude,IntAbsAmp)、相對層厚度(Thickness of Stratigraphic,ThkStrat)、單頻振幅(Single Frequency Amplitude)、單頻相位(Single Frequency Phase)、弧長(Arc Length)。

圖4 地震屬性圖Fig.4 Diagram of seismic attributes
振幅斜率是時窗間隔內道記錄振幅值隨時間變化率的平均,可以表示儲層中流體成分的變化、指示沉積環境以及識別斷層[19];瞬時帶寬是時窗數據內頻率分布范圍的統計量,地震波在油氣等高衰減介質中傳播時,會產生帶寬的變化[20];絕對振幅積分是時窗間隔內所有振幅絕對值之和,可以預測地層的巖性[21];相對層厚度為光滑后的反射強度取相鄰峰值之間的差值;單頻振幅與單頻相位是利用時頻分析技術對地震信號進行分頻解釋,提高解釋精度和可靠性,研究中選取的特征分別為30 Hz的單頻振幅和20 Hz的單頻相位;弧長是時窗內地震信號波形的弧長,它間接反映了地震信號的振幅與頻率[22]。
LightGBM屬于樹模型,數值的縮放不影響分裂點的位置,因此無需對數據進行標準化處理。不同于LightGBM,支持向量機需要對特征進行標準化處理。不同的地震屬性通常具有不同的量綱和數量級,而且不同地震屬性之間的差距可能很大。為了消除地震屬性之間的量綱和數量級對模型訓練的影響,包括研究使用的支持向量機在內的多數機器學習算法,需要對原始數據進行標準化處理。研究使用z-score法進行標準化。z-score也叫標準分數,能夠將不同量級的數據轉化為統一量度的z-score分值,使其具有可比性。其公式如下:
(1)
式中,x*為變換后的值;x為某一地震屬性的每個值;μ為該地震屬性的均值;σ為該地震屬性的標準差。
z-score變換后的地震數據符合正態分布,即均值為0,標準差為1[23]。
z-score標準化對數據分布有一定要求,正態分布的數據最有利于z-score標準化的計算,而非正態分布可能會導致z-score標準化的效果較差。繪制了7種屬性的直方圖來判斷其是否服從正態分布,如圖5所示。可以看出,除了瞬時帶寬屬性,其他屬性雖然不是嚴格正態分布,但都有一定的正態性。因此,需要對瞬時帶寬屬性進行Yeo-Johnson變換[24],使其在一定程度上符合正態分布,改善其標準化效果。Yeo-Johnson變換公式如下所示:
(2)
式中,λ根據最大似然估計求得。
變換后的IBand屬性的直方圖如圖5所示,可見其一定程度上符合了正態分布。
將標準化處理后的特征利用支持向量機進行模型訓練,核函數使用高斯核,使用網格搜索法進行超參數的優化。由于樣本集較少,使用十次十折交叉驗證法來避免過擬合。最終模型誤差見表5。
由表5可以看出,模型誤差較LightGBM模型大,但實際上卻更符合實際地質情況。

表5 訓練模型誤差Tab.5 Training model error
依據訓練模型得到的預測結果如圖6所示,經過了平滑處理。由圖6可以看出,東南部陡坡帶砂體最厚,該區域為研究區的沉積中心,也是研究區地層最厚的部分。砂體向北延伸,厚度逐漸減薄,至北部物源區又逐漸變厚。西部砂體相對較薄,西南部可見交力格地區砂體末端,被構造帶所阻擋。

圖6 預測砂體厚度Fig.6 Predicted sand body thickness diagram
利用LightGBM預測的砂體厚度如圖7所示。為方便對比,圖7與圖6的色標設置相同。

圖7 利用LightGBM預測的砂體厚度Fig.7 Sand body thickness predicted by LightGBM
由圖7可以看出,與SVM預測結果相比,LightGBM模型預測厚度下限更高而上限更低,更靠近組中值。造成這個結果,是由于基于LightGBM的模型在包括訓練集和測試集的樣本集上過擬合了,因此模型在訓練集和測試集上效果都很好,預測結果卻不符合實際地質情況。而該現象的本質原因是樣本集太小,且井位的分布范圍有限,而LightGBM通過 leaf-wise(best-first)策略[25]來生長樹,當樣本集較小的時候,可能會造成過擬合。通常可以利用超參數max_depth來限制樹的深度并避免過擬合,而研究選擇利用SVM來進行模型訓練,以發揮其在解決小樣本問題上的優勢。可以看出,基于SVM的模型在研究中表現更好,結果更符合實際地質情況。同時,雖然基于SVM的模型的誤差相對較大,但制圖時通常要進行平滑處理,削弱了異常值的影響,一定程度上減小了誤差。因此,研究最終選擇SVM算法進行砂體厚度的預測。
特征選擇在機器學習中有著重要意義。研究中,特征選擇是指從獲取的大量地震屬性中篩選出一個合適的子集作為訓練集和模型輸入。特征選擇的意義有3個方面[26]:①特征選擇加快模型的訓練速度。規模更小的地震屬性子集可以減少運算量,因而加快模型的訓練速度。②特征選擇可以改善模型的性能。特征選擇可以去掉無效的或者噪聲特征,有些地震屬性對模型訓練無益甚至有害。③特征選擇可以增強模型的可解釋性。研究中選擇的7個地震屬性均與砂體厚度存在直接或間接的聯系,能更好地理解模型訓練的過程和結果,提高模型的說服力并找到提升模型精度的方法。一些復雜的模型(如神經網絡)即使有著很高的準確性,但很難了解模型內部的細節和特征的重要性。
特征選擇主要分為3類:過濾式、包裹式和嵌入式[27]。過濾式是最簡單也最常用的方法,它不依賴于模型,直接將特征按照價值高低進行排序,而后選擇一定數量或比例的特征進行模型訓練。該方法有3種評價標準:①依據特征包含的信息量。該標準通常使用方差法來進行評估,如果特征方差較低,說明其對結果影響不大,可以舍棄。該方法需要先對特征進行標準化或歸一化處理才能相互比較,以消除數量級的影響。該方法可作為數據預處理,以減少計算開銷。②基于統計學理論。該標準的方法包括皮爾遜相關系數、斯皮爾曼相關系數等,根據計算結果確定相關性。③基于信息論。該標準的方法包括互信息、最大信息系數和Copula熵等,同樣根據計算結果確定相關性。過濾式方法不依賴于模型,因而無法針對特定模型選擇最合適的特征子集。同時在評價相關性時,特征之間相互獨立,一些相關性低但組合使用具有較高價值的特征會被舍棄。另外,保留特征的數量或比例也需要根據經驗或結果來調整。
包裹式方法是對于某一模型,在所有特征中選擇效果最好的特征子集,因為其計算量巨大,通常使用序貫選擇或啟發式算法,以減少計算開銷。但無論哪種方法,其計算開銷依然很大。
嵌入式方法是在訓練模型的同時完成特征選擇,該方法包括基于L1正則化的特征選擇和基于樹模型的特征選擇等。該方法有著過濾式和包裹式二者的優點,依托模型進行特征選擇的同時,大大減少了計算開銷。
本研究使用的LightGBM就是基于樹模型的框架。本工區地震資料品質低,地震波主頻為18 Hz左右,因此計算得到的地震屬性質量較差,各個地震屬性與砂體厚度的各種相關系數都不高。研究所選特征的部分相關系數見表6。可以看出,絕對振幅積分、相對層厚度、弧長等屬性具有較高相關性,而其余屬性,尤其是單頻振幅_30的相關性較低。如使用過濾式方法,前者會被選中,而后者會被舍棄。然而,后者在模型中也有著重要作用,如果舍棄會造成模型性能差。這說明了嵌入式方法的優越性。

表6 所選特征的部分相關系數Tab.6 Part of correlation coefficient of the selected feature
如上文所述,研究區地震信號主頻在18 Hz左右,地震資料品質低、分辨率差,影響了地震屬性的提取結果,進而影響了模型的預測精度。因此,若能提高地震資料的分辨率,如反Q濾波法[28],則可以進一步提高預測精度。
研究的目標層段為九佛堂組的湖侵體系域,工區并沒有對九佛堂組進行進一步的層序劃分,這在一定程度上影響了地震屬性的提取,進而影響了預測精度。
單一地震屬性在預測砂體厚度時具有多解性,難以進行準確預測。研究提出了基于LightGBM和SVM的地震多屬性砂體厚度預測方法,并通過對陸東凹陷前后河地區九佛堂組湖侵體系域的實際應用,驗證了該方法的可行性。結果表明,相比于常用的過濾式特征選擇方法,基于嵌入式的特征選擇方法得到的特征子集有著更好的效果。同時,基于SVM算法的模型在小樣本的條件下表現更好,結果更符合實際地質情況。因此,通過聯合LightGBM和SVM算法,可以有效提高砂體厚度的預測精度。