李彥尊 白玉湖 陳桂華 徐兵祥 陳 嶺 董志強
(中海油研究總院有限責任公司 北京 100028)
頁巖油氣主要賦存在微納尺度孔隙中,儲層致密、滲透性差,須采用長水平井多段壓裂才能實現商業開發。因此頁巖油氣產量遞減規律與常規油氣不同,表現為產量高峰出現在初始階段且初始遞減率高,之后長期低產[1-2],如美國Eagle Ford頁巖油氣田,單井峰值產量300~500 BOE/d,第1年遞減率高達70%~90%,5~6年后油氣產量維持在約40 BOE/d,這種生產特征給頁巖油氣產量預測帶來了挑戰。目前頁巖油氣產量預測方法主要包括遞減曲線分析方法(DCA方法)、解析模型法、數值模擬法等[3-4]。DCA方法通過數學模型對生產數據進行擬合,預測精度主要受生產歷史長短的影響[5-6];解析模型法基于滲流理論建立產能方程,多應用于單相流動、雙孔雙滲等條件下的油氣井滲流;數值模擬方法同樣基于滲流理論,可實現多相流動、多重滲流系統條件下的產能計算。但由于儲層描述的不確定性及真實滲流過程的復雜性,影響了上述方法的應用效果。
近幾年隨著人工智能技術的蓬勃發展,人工神經網絡等機器學習手段也越來越多地應用到油氣產量預測領域。在國內,囿于頁巖油氣數據較少,機器學習方法主要應用在常規油藏產量預測方面[7-9]。國外學者開展頁巖油氣產量機器學習研究時,目前多以測井、壓力數據等為基礎,水平段長度、壓裂液量等工程因素考慮較少[10-12]。為了考慮地質油藏工程等多方面因素對頁巖油氣產量的影響,本文以Eagle Ford頁巖某區塊數百口生產井的動靜態數據為基礎,探索人工神經網絡方法適用性,進而實現無生產數據條件下,不同地質、油藏、工程設計參數條件下的產量預測。
頁巖油氣產能影響因素眾多[13-15],且相互影響,各因素間非線性關系較強,常規分析方法難以建立起影響因素與產能的綜合關系[16-17]。人工神經網絡方法是一種基于生物神經網絡原理的機器學習算法,適用于多因素關系分析;該方法模型為多層結構,根據每層作用可分為輸入層、隱含層和輸出層,其中隱含層又可以包含多層結構。
該方法的基本原理是首先將數據通過輸入層傳遞至神經元:

式(1)中:X為初始輸入數組;x為樣本參數數據;j為參數類別。
數據經過神經元處理生成輸出值:

式(2)中:Y為神經元輸出值;f(x)為激活函數;w為權重系數;b為偏置系數;jmax為參數類別個數。
本文中激活函數采用sigmoid函數,即

通過大量數據樣本的學習訓練,不斷調整輸入層、隱含層及輸出層的參數,建立起目標參數與輸入參數之間的相互關系。這種方法不要求參數間關系明確,只要給出足夠的數據樣本,便可通過調整模型參數,最終實現目標參數的準確預測。頁巖油氣人工神經網絡產能預測技術流程如圖1所示,在這個過程中,人工神經網絡模型的構建、優化和訓練是實現參數預測的關鍵環節。

圖1 頁巖油氣人工神經網絡產能預測技術Fig.1 Shale gas and oil production prediction technology using artificial neural network
以Eagle Ford某產區414口生產井為研究對象,考慮參數與產量的相關性、全面性和可量化性,篩選整理出各井數據齊全的13個參數作為輸入參數,包括水平段長度、壓裂級數、垂深、壓裂段間距、每簇間距、每簇射孔、每級簇數、支撐劑量、壓裂液量、初始井口壓力、滲透率、孔隙度、TOC等,這些參數反映了儲層物性、含油氣性、壓裂改造、地層能量等與產能相關的多方面信息,能夠滿足本研究需要。對應單井的一組輸入特征向量為

式(4)中:i為樣本組數。
輸出參數為

式(5)中:y i1、y i2、y i3分別為第i組樣本的初始產量、遞減率、遞減指數。
采用z-score標準化方法對參數進行標準化處理,以消除數據量綱的影響,即

式(6)中:x′ij為標準化后的數據;xij為原始數據;為所有樣本同類參數的均值;n為樣本總數。
人工神經網絡模型的預測精度和可靠性主要受模型網絡結構、訓練函數適用性及訓練方法等影響。因此在模型調試過程中,需要對上述參數進行優化。
1)網絡結構優化。
當人工神經網絡模型結構設置較為合理時,能夠大幅度提高模型的訓練擬合精度。對于隱含層數、神經元數等參數,前人總結并給出了相應的經驗方法[18-19],但在本研究中,根據這些經驗方法所得到的模型擬合結果并不理想。因此在結構參數優化時,采用了試算對比的方法,通過調整層數和神經元數目,經過迭代計算,選取達到預期精度時最簡單的網絡結構為最佳模型結構,部分模型結構預測精度對比見表1。最終確定了人工神經網絡兩隱含層結構,第1層包含40個神經元,第2層包含8個神經元,擬合精度可達到99%。

表1 不同神經網絡模型結構下的擬合精度Table 1 Fitting accuracy of different neural network structure
2)訓練函數優化。
人工神經網絡的全局誤差是通過訓練函數控制的,對于模型的權值調整和訓練效果具有顯著影響。研究中結合頁巖油氣產能數據,對不同訓練函數的擬合預測精度進行了對比評價后,根據擬合和預測精度的大小,最終選取Levenberg-Marquardt算法(簡稱L-M算法)[20]作為產量預測模型的訓練函數。L-M算法是人工神經網絡中應用較為廣泛的非線性最小二乘算法,其迭代方程為

式(7)中:f為損失函數;α為在某方向上的損失速率;s為迭代步數;J f為損失函數f的雅各比矩陣;I為單位矩陣;λ為阻尼因子。
當阻尼因子λ較小時,該方法步長與高斯牛頓法類似;當λ較大時,該方法與梯度下降法類似。該算法針對頁巖油氣產能數據非線性強、關系復雜的特點具有良好的適應性,實現損失函數的較快收斂。
通常人工神經網絡訓練中訓練集和檢驗集是通過人為劃分且獨立存在,模型訓練中只使用訓練集,訓練好的模型用檢驗集進行檢驗,整體樣本覆蓋率較低。為了提高計算效率和樣本的覆蓋率,采用了交叉驗證方法進行模型訓練。交叉驗證方法的原理是將樣本分為m份,取其中1份為檢驗集,剩余m-1份為訓練集,通過不斷對樣本隨機抽樣參與訓練,最終篩選出達到預測精度的模型[21]。該方法使每個樣本均參與了模型訓練,對于樣本數據較少的情況具有良好的訓練效果。對簡單驗證法與交叉驗證法的訓練誤差進行了對比,結果見圖2,可以看出,與常規樣本選擇方法相比,交叉驗證法所訓練的模型檢驗誤差可控制在10%以內,大幅度提高了模型的預測精度。
同時為了避免模型訓練中局部訓練誤差減小、全局預測誤差增大的情況,本研究中提出將訓練精度和檢驗精度共同設置為篩選條件,模型優化篩選流程如圖3所示。當模型訓練精度達到要求之后,采用檢驗集對模型進行評價。如果檢驗集預測結果達不到精度要求,則調整參數重新對模型進行訓練,直到模型的訓練精度和檢驗精度共同達到90%以上為止。
通過上述過程,最終確定并優化人工神經網絡結構、訓練函數和訓練方法,分別建立和訓練了Eagle Ford研究區內初始產量、遞減率、遞減指數等產能參數預測模型。

圖2 簡單驗證法與交叉驗證法的訓練誤差對比Fig.2 Comparison of error between simple and cross validation

圖3 人工神經網絡模型優化篩選流程Fig.3 Model optimization flow of ANN
以美國Ealge Ford頁巖某區塊400多口井數據為樣本建立人工神經網絡方法模型,然后針對研究區內的5口生產井進行產量預測,其中1~4號井位于產油區,5號井位于產氣區,其生產井基礎數據見表2。這5口井分別在2011—2013年間投產,具有較長的生產時間,可以利用實際生產數據對人工神經網絡方法模型預測的結果進行檢驗。研究中將基于地質、油藏、工程參數的人工神經網絡模型預測結果、基于生產歷史數據的DCA分析結果和實際生產數據進行對比,以論證人工神經網絡方法的預測精度和方法有效性。
不同方法對遞減參數的預測結果存在較明顯的差異(表3)。因此,需要結合實際生產數據從遞減曲線形態和預測誤差等方面對預測結果進行評價。
圖4分別為各井實際產量數據、DCA法擬合產量與人工神經網絡法預測產量三者之間的對比。從日產量趨勢可以看出,DCA方法與人工神經網絡模型預測方法均能反映頁巖油氣早期產量快速遞減、后期產量遞減較慢的生產特征。2種方法預測結果差異主要體現在產量快速遞減階段:DCA方法預測的產量曲線初始產量高,曲率變化較快;人工神經網絡方法預測的產量曲線初始產量普遍較低,遞減較為緩慢。這主要是由于初始產量計算方法不同造成的。DCA方法在與實際產量進行擬合時,普遍將產量曲線的最高值作為初始產量,而人工神經網絡方法則是以開始生產后連續30 d的平均產量作為初始產量進行模型訓練,其值相對較小,但同時也減小了產量波動所帶來的預測誤差。從曲線形態上看,人工神經網絡方法預測的產量曲線能更好地反映產量變化的整體趨勢。

表2 美國Ealge Ford頁巖某區塊5口生產井數據Table 2 Basic data of 5 wells in Eagle Ford shale

表3 美國Ealge Ford頁巖某區塊5口生產井遞減參數預測結果Table 3 Prediction results of decline parameters of 5 wells in Eagle Ford shale

圖4 美國Ealge Ford頁巖某區塊5口生產井產油(氣)量及累計產量預測結果對比Fig.4 Comparison of prediction results of production and cumulative production of 5 wells in Eagle Ford shale
在累計產量曲線對比中可以看出,隨著預測時間的增加,2種方法預測結果差異逐漸增大,這種差異表明無論是人工神經網絡方法還是DCA方法,對頁巖油氣井中后期的產量預測均存在一定的不確定性。
表4為人工神經網絡方法5 a內年累計產量預測值與實際值對比,從表中可以看出,預測誤差普遍小于10%,且預測誤差隨時間逐漸增大。但在本研究中由于生產井后期實際產量比預測結果偏低,縮小了與預測產量的差距,5年累產預測誤差有所減小。同時產量波動對模型預測精度影響較大,如2號井,模型累計產量預測結果與實際相比,誤差達到了11%。從整體來看,在投產5年內本文模型產量預測具有較高的精度(>90%),能夠滿足布井方案評價、未投產井或投產時間較短情況下產量預測要求。

表4 人工神經網絡方法累計產量預測誤差Table 4 The error of accumulative production prediction by ANN method
1)利用美國Eagle Ford頁巖油氣區塊數據建立的人工神經網絡頁巖油氣產量預測新模型,考慮了多種因素對產能的影響,同時克服了油氣滲流理論的局限性,可以進行無生產數據條件下的產量預測,5 a內產量預測具有較高的精度,誤差在10%以內。
2)人工神經網絡等機器學習方法在頁巖油氣產量預測方面具有較大的推廣應用價值,能有效提高頁巖油氣產能評價工作效率和預測水平,在數據不斷豐富的基礎上,其預測精度和應用潛力仍會不斷提升。