劉新平 鄧 杰 楊鵬磊
(中國石油大學(華東)計算機科學與技術學院 青島 266580)
致密油藏是當今非常規油氣開采的主要來源之一,隨著近年鉆井水平和開發技術的進步,多數油田已采用水平井配合體積壓裂技術的開采方式來替換原有開發手段而達到增產和提高采收率[1]。在這樣的開采模式下,研究致密油水平壓裂井長時間持續高產的主要因素以及準確預測油藏產能,對后序致密油的高效開發具有重要指導意義[2]。
自Giger[3]1985 年首次論述壓裂水平井的產能問題之后,相繼出現了一系列的研究方法,這些方法大致可以分為兩類:一類是縱向預測,主要是以非達西滲流[4]為基礎推導出的產能公式,另一類是橫向預測,主要是用模式識別等數學方法來處理參數,從而建立產能預測模型。以非達西滲流為基礎的產能公式又可根據不同的油氣田開發階段、不同方法的適應性將產能評價方法分為解析法和數值模擬法[5]。解析法主要假設地層為均質、流體為單相滲流,對于早期開發井的部署具有一定的實際意義;數值模擬法在20世紀90年代才逐漸成熟,可以在精細油氣藏模型構建的基礎上,利用基礎的滲流理論對復雜的對象進行仿真模擬,但是該方法需要豐富的儲層、流體、動態的資料作為支撐才能達到好的應用效果。解析法和數值模擬法都有其特定的適用范圍,由于影響致密油產能的因素可為地層因素、原油物性因素、壓裂施工因素,而每一項因素中又存在多種子因素,且相關子因素又存在某種相關性,其中地層因素與原油物性因素又因不同區域存在較大差異,不能適用于多種地層,對每一口井的不同層位進行解釋時都需要選擇不同的經驗公式,極大地增加了預測的難度和準確性。
機器學習和深度學習[6]技術具有極強的數據挖掘能力,主要通過模式識別等數學方法來處理參數,從而建立產能預測模型。目前國內外學者已經開始應用機器學習方法進行產能預測和壓裂參數優化,LUO 等[7]利用井深、射孔厚度、孔隙度、含水飽和度、壓裂段數、壓裂液用量和支撐劑用量來建立神經網絡模型,得到第一年采油量與重要特征之間的關系;宛利紅[8]利用四種測井參數對致密油產能進行分析,建立了上述四種測井參數與采油指數的關系模型;王威[9]采用灰色關聯度分析法、復相關系數法和熵值法,分析了體積壓裂后初期產能與影響因素的相關程度,得到支撐劑用量,壓裂液用量,滲透率和地層壓力為重要影響參數;周于皓[10]基于循環神經網絡對縫洞型油藏的單井產能進行預測,學習到了油井產量的變化規律;WANG 等[11]對加拿大的Montney 儲層的3610 口壓裂水平井進行了分析,應用人工神經網絡、支持向量機等多種機器學習算法進行了預測評估。由于實際油田現場是以區域來劃分,各區域參數不一,單一模型的使用不完全滿足所有區域特征。
本文提出基于K-means 聚類分析與支持向量回歸的組合預測模型,通過主成分分析方法計算篩選后的地質類和原油物性類因素權重系數,對其特征進行賦權再聚類從而解決K-means 中歐式距離對所有特征貢獻程度一致的缺點[12];K-means聚類結果來代表地質類參數和原油物性類參數對產能的影響程度,聚類結果與壓裂類參數結合作為SVR[13~14]預測的訓練樣本[15]。通過實驗對比了相同數據下BP神經網絡模型,SVR 模型的表現情況,其結果表明,本文提出的組合模型具有較優的準確性和合理性,組合模型中先聚類的方式解決了不同區域地質與原油物性的差異影響,故提高了模型的精度從而滿足油田現場精度要求。
影響致密油水平井壓裂后產能的因素較多,總體分為三個類別:地質類特征、流體物性類特征、壓裂施工類特征。主要包括:地層密度、地層粘度、凝固點、含蠟、膠質、飽和壓力、溶解氣油比、總礦化度、滲透率、孔隙度、自然伽馬、段數、簇數、壓裂液用量、支撐劑用量等。
各種參數的度量單位不同,如:原油粘度(mPa·S),滲透率(mD)。為了便于不同單位或量級的指標能夠進行比較和加權,將數據統一變換為無單位(統一單位)的數據集,采用最大-最小標準化方法消除量:
式(1)中:x為數據清洗后的樣本數據,xmin,xmax為樣本數據中各參數的最大值和最小值,x*表示歸一化后的樣本數據。
過多的參數會提高模型的復雜程度,可能導致過擬合,影響程度較小的參數會降低模型的準確率,故對各類參數進行主控因素分析,按照相關性排序來篩選。本文采用灰色關聯分析方法來計算各個參數與產能的相關性。
通過灰度關聯分析算法,可得到特征值(子序列)與周期(母序列)關聯度大小的排序,關聯度越高則表示兩個因素變化的趨勢具有強一致性,即同步變化程度越高。子序列的各個指標與母序列的關聯系數計算方法如下:
式(2)中ρ為分辨系數,0 <ρ<1,若ρ越小,關聯系數間差異越大,區分能力越強,通常ρ取0.5;x0(k)和xi(k)分別表示母序列第k個數和子序列第i個特征值的第k個數;ζi(k)則表示第i個特征的第k個值與母序列第k個值的關聯系數。通過關聯系數來計算關聯度再進行最后的排序。其中關聯度得計算如下:
式(3)中ri為第i個特征與母序列的關聯度大小,n為樣本數量。基于計算結果,對所有ri進行排序即可得到關聯度排序。最終選取參數為
1)地質類參數:滲透率、孔隙度、聲波時差AL、自然電位GR、自然伽馬SP;
2)原油物性類參數:原油粘度、原油密度、含有飽和度、溶解氣油比、總礦化度;
3)壓裂施工類參數:支撐劑用量、壓裂液用量、段數、簇數、返排率;
最終選取以上15 個特征作為算法模型的數據集。
權重系數的大小與影響目標的重要程度有關,傳統K-means 聚類算法通過歐氏距離計算樣本的相似度,將數據所有的屬性特征均平等的對待,忽略每個特征的不同貢獻,導致樣本相似度計算的準確率不高。本文采用主成分分析算法計算地質類與原油物性類特征權重系數并賦值解決K-means中歐氏距離的硬聚類問題。表1 為通過主成分分析計算權重后地質類與原油物性類特征的權重系數,對賦權后的特征再生成新的樣本數據。
由于地質類參數與原油物性類參數屬于靜態參數,即同一區域油藏的地質和物性參數基本一致,故采用K-means聚類算法對賦權后的地質類與原油物性類樣本進行分類,得到的無監督分類結果代表影響程度再與壓裂施工參數結合作為SVR 的訓練數據,構建產能預測模型。
利用K-means算法在樣本集上對靜態參數(地質類參數、原油物性類參數)進行分類,以聚類結果代表不同區塊靜態數據對產能的影響程度。具體K-means算法步驟如下:
算法1 特征賦權后的K-means聚類算法
1)初始化,確定聚類數目K和初始化聚類中心;
2)計算各樣本特征賦權后距K個初始中心的距離,按照距離大小將樣本分配給最近的中心點,形成K個聚類。
式中Zik為樣本點,r為參數的權重系數,Zjk為聚類中心點。
3)計算每一類的均值,并以此為K個聚類新的聚類中心。
式中:Ci為樣本集和,mi為聚類中心,Zq為樣本。
5)重復步驟2),3)至E擺動很小,聚類結束,得到聚類結果。
基于SVR 的預測模型函數為F(x)=w?(x)+b,式中:w為權值向量,?(x)為聚類后的結果與地質類參數結合的新樣本,b為偏置向量。由于SVR 存在容忍偏差ε,于是SVR問題可形式化為
式(4)中C為正則化常數,Loss為損失函數:
為了確保大部分數據參與模型訓練,引入松弛變量ζi和ζi*,則優化為
由拉格朗日乘子法可得拉格朗日函數:
在KKT條件下,拉格朗日的對偶形式為
將其對偶形式求解獲得回歸函數為
式(9)中K(xi,xj)=?(xi)T?(xj)為核函數。在SVR 產能預測模型中,核函數K(x,x)的類型對模型的性能影響較大,可以通過比較不同核函數的性能情況來選擇最佳核函數類型。
應用單一模型在多因素影響下往往預測效果不夠理想,且地質類參數與流體物性類參數屬于靜態參數,為準確預測產能,本文將結合K-means 與SVR兩種機器學習模型,以充分發揮組合模型的優勢,構建流程如圖1所示。

圖1 組合模型構建流程圖
為了進一步驗證本文提出的基于K-means+SVR組合預測模型的準確性和可靠性,將該組合模型與單一模型SVR、BP 神經網絡模型進行預測對比。通過網格搜索算法尋找到SVR 模型最優參數C=1.17,g=1.8;基于K-means+SVR組合模型的部分預測結果如圖2所示,樣本擬合情況較好。

圖2 K-means+SVR預測結果部分展示
通過圖3 三種算法在測試集中部分井的預測結果與實際投產當年累計產油量的對比結果可以看出:K-means+SVR 組合模型的產能預測效果更貼合真實值,擬合效果更優。

圖3 算法預測結果對比圖
表2 為三種預測模型在均方誤差(Mean Squared Error,MSE)和平均絕對誤差(Mean Absolute Error,MAE)下的評估指標情況,其計算公式為

表2 預測模型評價指標
其中m為數據量,h(xi)和yi分別為預測值和真實值。
本文針對致密油藏情況復雜的一系列問題,通過主成分分析算法(PCA)計算各特征權重并賦值,從而解決了K-means中歐式距離的硬聚類問題;采用K-means聚類算法對數據樣本中靜態數據(地質類數據和流體物性類數據)以聚類結果代表不同區域影響程度,解決了不同區域間地質差異性問題,簡化了決策參數的數據類型,最終通過聚類結果和壓裂施工類參數結合后的樣本進行SVR 預測分析。采用本文方法的組合模型,避免了單一預測模型泛化能力差,預測精度不足等問題,通過實驗結果驗證其預測效果比常規SVR,BP 神經網絡模型更貼合實際產能,更能滿足現場施工的精度要求,且通過聚類的結果可以對不同區域的最優產能井的壓裂施工參數進行研究,從而對新井壓裂工藝設計的方案編制具有指導和借鑒意義。