楊雨希,譚成仟,李 航,侯 斌,潘景宇,鄭曉梅,付雨萱
(1.西安石油大學地球科學與工程學院,陜西西安 710065;2.陜西省油氣成藏地質學重點實驗室,陜西西安 710065;3.中國石油長慶油田分公司第八采油廠,陜西西安 710016)
致密油已成為全球石油地質領域研究的一大熱點,然而致密油聚集條件和聚集機理與常規油藏明顯不同,加上地質、開發、工程等諸多因素影響[1-2],使得致密油水平井開發存在產量遞減快、單井產能差、采出程度低等問題。對致密油水平井產能預測成為非常規油氣田開發規劃與部署的重要依據。通過機器學習對油井產能預測的研究已成為領域研究趨勢[3-7],但是對于油井初期產能預測的研究貢獻較少[8],本文將研究神經網絡對初期產能的預測。通過對致密油水平井相關資料分析出哪些因素會影響初期產能。使用DNN 模型進行預測。實例證明,該方法可以對致密油水平井的初期產能進行很好的預測。
深層神經網絡已經成為機器學習社區開發的主流策略。深層神經網絡作為多層無監督神經網絡,具有多個非線性映射的特征變換,可以對高度復雜的函數進行擬合。
函數f(x) 初始公式采用以下形式:
式中:w-隨機初始化權重;b-偏置。
模型隱藏層的激活函數采用sigmoid:
初始化線性函數之后模型開始前向傳播(圖1):
圖1 深層神經網絡模型
通過進行前向傳播,模型可以獲得預測值。為了衡量預測值和真實值之間的差異,以W 和b 作為變量構建損失函數。本研究選擇均方誤差(MSE)方法作為模型的損失函數:
本文的資料為Z 地區Z183 油藏長7 段,位于鄂爾多斯盆地的南部,主要為致密油藏。整體是以深湖-半深湖沉積為主的沉積環境,平均孔隙度僅為6.68%,主要集中在2%~10%,滲透率集中在0.05~0.20 mD。儲層多以巖屑長石砂巖、長石巖屑砂巖為主,總體上Z地區具有高石英、低長石的特點[9]。自2013 年開始建產至今,已開發水平井數量97 口,累計產油57.8 t,形成了以壓裂水平井為主體的致密油藏開發技術[10]。
實驗選用Z183 油藏25 口井相關資料,整理得出13 個影響因素。通過分析將這13 個因素分為3 大類。其中地質因素包括視儲能系數、滲透率、脆性指數;開發因素包括井距、水平段長、裂縫密度、返排率、返排時間、生產壓差;工程因素包括用液強度、加砂強度、砂比、總排量;影響致密油水平井初期產能因素數量眾多。為了避免某些因素對產能預測產生負相關影響,導致模型的準確率降低。通過熱力圖分析每個因素對水平井初期產能相關系數的強弱,篩選出影響初期產能具有正相關性的影響因素,為模型建立最優解(圖2)。
由圖2 可以看出,有8 個特征和初產水平有緊密的關系,那么數值篩選可以篩選出這8 個因素作為模型的輸入。
通過上節的數據分析,其中地質因素包括視儲能系數、脆性指數;開發因素包括井距、水平段長、裂縫密度;工程因素包括用液強度、加砂強度、總排量。提取8個相關因素。實驗將20 口井共160 個數據用于訓練,5口井共40 個數據用于測試。輸入神經元設為8 個影響產能的因素,隱藏層設為5 層,通過DNN 模型來進行訓練(公式1,公式3~6)。激活函數采用sigmoid(公式2),損失函數采用MSE(公式7)。
由于篩選過后的模型參數數量依然很多,因此,在訓練過程中加入dropout,用來減少模型對主要參數的依賴而忽視其他參數對數據的影響(下節會對dropout 的設置進行說明)。為了自適應調整學習率來改進梯度下降,優化器使用Adam 算法。
將訓練次數設置為1 000,每次訓練數量為5,dropout 設為0.3。測試了深層神經網絡和淺層神經網絡對訓練誤差的影響,結果見圖3、表1。
表1 不同隱藏層深層神經網絡的訓練誤差表
圖3 不同隱藏層深層神經網絡的訓練誤差:a.隱藏層為1;b.隱藏層為5;c.隱藏層為7
通過圖3a、圖3b 和表1 可以看出,深層神經網絡的訓練誤差能控制在5.000%以下而淺層神經網絡的訓練誤差變化幅度很大,基本上在5.000%以上,至于迭代4 000 次出現的異常會在下部分說明。
通過圖3b 和圖3c 展示了深層神經網絡的隱藏層為5 層和7 層的訓練誤差。可以看出隱藏層數量的增加會增加訓練的速度,在隱藏層為7 層時,訓練誤差的下降速度比5 層快4 倍,但是迭代次數繼續增加,7 層的訓練誤差波動很明顯,5 層雖也有波動但整體呈下降趨勢。不能更好的說明隱藏層數增加訓練效果好。
由圖4 可以看出,dropout 的設置對訓練誤差的影響,當dropout 設置為0 時,訓練誤差為14.000%。設置為0.1 時,訓練誤差達到最大16.300%。隨后逐漸降低達到訓練誤差的最小值7.410%。之后訓練誤差逐步增加。說明dropout 為0.3 時,模型的效果最好。
圖4 dropout 的設置對訓練誤差的影響
通過調整超參數來提高神經網絡性能,當學習率為0.01 時深層神經網絡和淺層神經網絡的測試誤差不再減少。
隱藏層為5 層時,測試誤差達到最小值為9.734%(圖5),模型的準確率為90.266%,模型為淺層神經網絡的測試誤差為10.260%,隱藏層為7 層時,測試誤差為10.340%。5 層的準確率相對淺層和隱藏層為7 層的模型高出20.000%。層數的增加并沒有使得準確率變高。對比5 層模型的訓練誤差和測試誤差,沒有出現較大的方差和偏差,說明5 層神經網絡模型沒有出現過擬合和欠擬合的現象,模型效果很好。
圖5 隱藏層為5 層時的測試誤差
實驗數據與開發模型的預測見圖6 中。在圖6 中,繪制了預測數據和實驗數據與總數據點的數據索引。從該圖中可以明顯看出,所開發模型的結果精確地遵循實驗數據的趨勢,這從目標數據和模型結果之間的驚人覆蓋顯而易見。因此,該模型用于預測Z 地區致密油水平井初產水平具有很高的可靠性。
圖6 初期產能訓練和測試數據集索引圖
深層神經網絡對致密油水平井的初期產能預測具有出色的魯棒性。特別是加入dropout 以后,模型性能極大改善,對模型不依賴影響力大的參數的適應性提高。使測試集的損失達到了90.266%。
致密油水平井初期產能影響因素按照重要程度為水平段長、加砂強度、裂縫密度、脆性指數、用液強度、總排量、井距、視儲能系數。預示著影響致密油水平井初期產能的影響因素主要在開發和工程方面,其次是地質因素。說明同一地區在地質因素相近的情況下,開發和工程因素是影響致密油水平井初期產能的重要因素。基于此效果,可以通過這些因素指導Z 地區致密油水平井的開發,獲取更高的產能。
通過上述實驗可以發現,通過開發因素、工程因素、地質因素是可以預測出水平井的初產水平,相對于其他人通過油井動態生產數據預測產能,該方法更加便捷,需要的數據少,更重要的是可以對剛開發的新井進行預測。對于模型在訓練迭代次數達到4 000 次時所產生的異常值,是因為數據集的數量少,導致模型的訓練誤差產生波動。
雖然這個模型對于致密油水平井初期產能的預測有著不錯的效果,但是通過熱力圖顯示的13 個影響因素對初產水平的預測仍然偏低,還需要更全面的影響因素數據參與到模型訓練中來,而且誤差的效果一般,這是因為數據集的數量少,訓練曲線波動依然很大。因此,可以通過增加數據達到更好的效果。
在這項研究中,設計了深層神經網絡來預測致密油水平井初期產能。該方法先將開發、工程、地質13 個影響因素作為參數,通過前期的數據分析得出影響Z地區致密油水平井初期產能的主要因素是工程因素和開發因素,篩選出8 個相關數值特征作為模型輸入參數。在訓練和測試過程中使用了200 個數據點,通過開發模型的統計和圖形評估表明該模型具有魯棒性,可以非常準確的預測致密油水平井初期產能。此外通過對比隱藏層數量來確定最佳模型。結果表明當隱藏層數量為5 層時,模型預測致密油水平井初期產能最準確,達到了90.266%。而其他數量的隱藏層模型的準確率在90.000%以下。總之,通過深層神經網絡來預測致密油水平井初期產能達到了很好的效果,在預測產能數據方面也表現出合理的誤差,證明了該模型不遜色于其他傳統方法。