
中圖分類號:TE933文獻標識碼:ADOI:10.12473/CPM.202405015
Jiang Minzheng,Zhang Qi,Wang Xinmin,et al.Pump detection period prediction of pumping well using blending ensemble model [J].China Petroleum Machinery,2025,53(5):10-17.
Pump Detection Period Prediction of Pumping Well Using Blending Ensemble Model
Jiang Minzheng'Zhang Qi1Wang Xinmin2Meng Bo'Zhou Yufeng1Dong Kangxing' (1.SchlofMechnicalScienceandEnginering,NorthstPetroemUniersity;aqngOilfeldProductionTecholoIsiute)
Abstract:A single model for predicting the pump detection period of pumping well is low in stability and accuracy.For improved prediction accuracy,a Blending ensemble model was proposed by efectively combining RF, GBDT,XGBoost and LightGBM algorithms.The LOF isolation detection method and normalization were used to preprocess the historical pump detection data from a block of Daqing Oilfield.A tree model based feature fusion screening method was used to screen out the main influencing parameters,and each of the above-mentioned four algorithms was compared with the Blending ensemble model forthe prediction accuracy.Finally,15O sets of new pump detection data were used to verify the prediction accuracy and generalization performance of the Blending ensemble model.The results show that the Blending ensemble model yields a greatly improved performance,with a goodness offit determination coefficient of 0.954.The model verificationusing 15O sets of new pump detection data demonstrates the goodnessof fit determination coeffcient of 0.947.Thus,the Blending ensemble method is verified effective and feasible.The research results provide reference for the production and management of oilfields.
Keywords:pump detection period prediction;Blending ensemble model; normalization;parameter optimization;field verification
0引言
有桿泵開采是目前世界上使用最普遍的一種采油方式,在中國使用有桿泵開采的井約占總井數的90%[1] 。抽油機在運行過程中,由于受到負載、腐蝕、井下工作環境等多種因素的影響,會出現偏磨、卡泵和疲勞破壞等現象。檢泵周期的合理預測可以減小抽油機井的故障發生率,提高油田生產效率[2-6] O
周平等分別創建了在偏磨情況下沖次、沖程、每日的產液量、含水體積分數的變化和檢泵周期的一元回歸方程,并創建了在這幾個因素同時作用下檢泵周期變化的多元回歸表達式。張戰敏[8]使用檢泵周期可靠性預測模型,構建了抽油機桿管泵系統失效的風險系數,由此可以判斷不同區域的檢泵風險級別,但無法確定抽油機井的檢泵周期。孟令凱通過靜力平衡理論、能量磨損理論建立桿管磨損量的計算模型,實現聚驅井桿柱螺旋屈曲狀態和桿管接觸壓力的仿真計算,分析各影響因素對法向力的作用,實現聚驅井桿管偏磨壽命的預測,但未考慮水驅、三元驅情況下桿管偏磨情況。封海兵[10]選擇了擴展Kalman算法和神經網絡相結合的方法,采用有序加權平均算法,建立了基于OWA算子的Pareto決策模型,以確定抽油機井生產參數最優解,獲得最優方案,但模型需要大量的數據提供支持,無法適用于小樣本數據。趙巖龍等[11]選用機器學習中的長短時記憶網絡(LongShort-TermMemory,LSTM),根據油田提供的數據,篩選出導致抽油桿腐蝕的15個主控因素,構建基于LSTM的抽油桿剩余使用壽命預測模型,再通過模型參數優化,實現檢泵周期的預測,但模型只適合抽油桿,并未考慮抽油泵、油管等情況。張曉東等[2使用一種基于特征融合抽油機井檢泵周期預測方法,引入多模態壓縮雙線池化對靜態特征和動態特征進行融合,利用判別模型訓練融合特征實現檢泵周期的準確預測,但模型參數并未優化,精度亟待提高。目前,利用回歸分析方法來預測抽油機井檢泵周期是一種基于數學原理的方法,需要理論依據來支持這一過程,且預測精度較低。通過單一的機器學習模型預測,例如SVR、RF、神經網絡等方法,預測精度較低,預測精度亟待提高。
基于上述問題,筆者將RF算法、GBDT算法、XGBoost算法及LightGBM算法有效結合,提出一種基于Blending集成算法。首先,基于大慶某油田的歷史檢泵數據,利用LOF孤立程度檢測方法和歸一化對數據進行預處理;其次,采用基于樹模型特征融合篩選的方法,篩選出主要影響參數;最后,對比4種單一機器學習模型與Blending集成模型對檢泵周期的預測精度,并采用新的150組檢泵數據驗證該模型的預測精度和泛化性能。結果表明,Blending集成模型在檢泵周期預測方面有良好的預測效果。
1數據預處理
1. 1 數據收集
抽油機井檢泵的生產數據來自大慶油田某采油廠實時記錄的檢泵作業數據。主要包括泵徑、動液面、沉沒度、桿徑、含水體積分數、泵深、最大載荷、最小載荷、井斜角、油壓、套壓、靜壓、沖程、沖次、日產油量、日產液量、采出液黏度、采出液質量分數、滲透率等。由于上述數據存在缺失值、異常值等情況,所以需要對數據進行預處理。
1.2 數據預處理
1. 2.1 缺失值處理
解決缺失值的方法共2種:第1種是刪除帶有缺失值的樣本數據來獲得一個完整的數據樣本;第2種方法是將缺失的數據進行填補,一般都使用平均數和眾數進行填補。雖然第1種方法操作簡單,但會造成大量數據浪費,使模型的預測精度較低。經過對比分析,選擇平均值對缺失值進行填補。
1. 2.2 異常值處理
由于在日常的生產中需要人工記錄數據,人工記錄就會導致數據出現偏差,就會有異常或孤立的數據的出現。該數據會對抽油機井檢泵周期預測模型產生干擾,使模型的擬合效果變差,預測準確度降低。這里選擇LOF孤立程度檢測方法,它屬于無監督孤立程度檢測方法。LOF的基本思想是比較一個點的局部密度與其鄰近點的局部密度,如果一個點的局部密度明顯低于其鄰近點的局部密度,那么這個點就被認為是異常值。流程圖如圖1所示。

LOF算法關鍵步驟如下。
(1)計算每個數據點 p 和 σo 的距離即為
,對于點 p 的第 k(k=1,2,…,N) 個距離 dk(p) 即為
,有除點 p 在內的 k 個點 ?′ 滿足
0
(2)以點 p 為圓心, k 臨近距離
為半徑畫圓,圓的范圍即為點 p 的 k 距離領域 Nk(p) ,則有:

(3)點 p 到點 σo 的第 k 可達距離為:

式中:
為點 σo 的 k 臨近距離。
(4)對于數據點 p ,計算其局部可達密度 Ld

(5)計算數據點 p 的局部離群因子 L(p) :

式中:
為點 σo 的局部可達密度, Ld(p) 為 p 點的可達密度。
如果 L(p) 的值顯著大于1,表示該點的局部密度遠低于其鄰近點的局部密度,即可判定該點為異常值點。圖2為檢泵周期數據的分布圖。圖2中紅色表示檢泵周期數據異常,藍色表示檢泵周期數據正常。通過編程軟件 python中的 sklearn方法完成LOF的處理,去除了原始數據中的異常數據

1. 2.3 歸一化處理
歸一化(Normalization)是機器學習中常用的一種數據預處理方法,目的是將數據縮放到一個特定的范圍,以便模型能夠更好地學習和理解數據。歸一化可以幫助模型提高收斂速度,提高模型的精度,并且減少模型對特征尺度的敏感性。歸一化處理如下式:

式中: Xnorm 為歸一化后的數據集, X 為歸一化前的原本數據集, Xmax 和 Xmin 分別是數據集中的最大值和最小值。
通過歸一化處理后,所有的特征值都被縮放到0\~1之間。
2 特征篩選
不同的抽油機井檢泵參數對模型的預測效果產生不同程度的影響,若將所有檢泵參數放入模型中會增加計算負擔及模型的復雜程度,降低模型的預測準確率,因此需要在原始數據中提取關鍵特征以供模型使用。目前,單一的特征篩選方法無法保障篩選的精度,提供給模型的特征不佳,致使模型預測效果不穩定,準確率較低。為此,這里綜合了樹模型的3種方法,它們分別是GBDT、RF和XG-Boost。首先,分別用這3種方法對所有特征進行排名計算;其次,將3種方法的篩選結果賦予同樣的權重系數;最后,選擇綜合排名前8的特征作為模型的輸入參數,分別是沖次、井斜角、采出液質量分數、沖程、泵深、含水體積分數、日產液量及最大載荷。特征重要性排序如圖3所示。

3 Blending集成學習機制的檢泵周期預測模型
3.1 Blending集成算法
集成學習能夠解決單一的機器學習算法在預測中出現預測精度低的問題,減小其不確定性,從而提高模型預測精度[13]。Stacking集成學習是目前常用的一種集成學習方法[14-15],其優點是有效減少過擬合問題,增強模型的泛化性能和預測能力;其缺點是模型在交叉驗證過程中易發生數據泄露,導致整個模型性能降低。而Blending集成學習在訓練過程中會建立留出集用于第2層的訓練,可以有效減少信息泄露問題。因此,這里選用以RF模型、GBDT模型、XGBoost模型、LightGBM模型為基模型,Adaboost為元模型的Blending集成算法,流程圖如圖4所示。
(1)將清洗后的檢泵數據劃分為訓練集、驗證集和測試集。訓練集和測試集按照 8:2 劃分,再將得到的訓練集按照 7:3 劃分為訓練集 DT 和驗證集 D?A 。得到最后的檢泵訓練集數據1288組、驗證集數據552組和測試集數據460組。
(2)構建 RF、GDBT、XGBoost及LightGBM這4個基模型。將 DT 放入4個基模型中訓練,再將 DA 放入已經訓練好的基模型中進行預測。
(3)選用Adaboost作為元模型,將 D?A 的預測結果序列視為新特征建輸入元模型,確定元模型(Adaboost)的權重參數,完成元模型的訓練。
(4)用訓練好的4個基模型對測試集 T 進行預測,將預測結果的集合序列視為新特征 A 和新特征 B 并輸入到訓練好的元模型中,完成Blending集成模型的預測。
3.2 基模型的選擇
3.2.1 RF模型
RF算法的基本思想是通過結合多個決策樹的預測結果來提高模型的性能[16-17]。首先從原始數據集中隨機抽取多個樣本,每次抽取都是有放回的,形成多個子數據集;對于每個數據集,構建一個決策樹。在每次節點分裂時,會隨機選擇一部分特征,從中挑選最佳的特征來進行分裂。對于回歸問題,每一個決策樹會給出一個預測值,隨機森林的最終結果是所有決策樹觀測值的平均值" T ",其計算如下:


式中: N 為決策樹的數量, Ti ( x )為第 i 個決策樹對輸人特征 x 的觀測值。
模型原理圖如圖5所示。

3.2.2 LightGBM模型
LightGBM算法是一種梯度提升算法,其通過迭代構建決策樹來最小化目標函數[18]。原理圖如圖6所示。

具體來說,LightGBM算法初始化一個基模型,通常為一個常數值;然后在每次迭代中增加一個新的樹來改進當前模型。目標函數一般包括2個方面:一是損失函數,二是正則化項。訓練集數據集為
,其中 xi 是特征向量, yi 是對應的真實標簽值, N 是樣本數量。LightGBM迭代構建M 棵樹,每棵樹對應一個函數 fm(x) ,最終模型的預測值為所有樹的加和
,其計算式為:

在第 m 次迭代中, fm(xi) 最小化。目標函數如下:

式中: L(m) 為第 ?m 次迭代的目標函數; l 為損失函數;
為前 m-1 棵樹的預測值之和;
為第m 棵樹的正則化項,用于懲罰模型的復雜度。
3.2.3 XGBoost模型
XGBoost的核心思想是逐步構建弱分類器,將它們組合成一個強分類器,在每一輪迭代中,XG-Boost會添加一個新的樹,試圖糾正前一輪的預測誤差[19]。與LightFBM提升方法不同,XGBoost在目標函數中引入了 L1 和 L2 共2個正則化項,用于控制模型的復雜度,從而有效避免過擬合。XG-Boost需要通過加法模型來學習系列函數
,每個函數對應一個決策樹,以使模型的預測值
能逼近真實林簽值 yi ,則有:

式中: ΨtΨt 為迭代的輪數, xi 為特征向量。
XGBoost優化的目標函數為:

式中: l 為損失函數,用于衡量預測值
和真實標簽值 yi 之間的差距。
正則化項的定義如下:

式中: γ 為 L1 正則化系數; A 為樹中葉子結點的數量; λ 為 L2 正則化系數;
為葉子節點權重的向量。
3.2.4 GBDT模型
梯度提升決策樹(Gradient BoostingDecisionTrees,GBDT)是一種集成學習算法,其通過串行訓練決策樹來減小殘差,以逐步提升模型的準確性[20-21]。GBDT通過迭代訓練決策樹模型,每一棵樹都在之前所有樹的殘差上進行訓練,最終將所有樹的預測結果相加得到最終的預測結果。模型原理圖如圖7所示。

在回歸問題中,損失函數通常選擇平方損失函數
,即:

式中: y 為數據真實值, F(x) 為模型的預測值。
在每一次迭代中,需要計算負梯度即殘差 rit
其計算式為:

式中: Ft(xi) 為當前模型對第 i 個樣本 χt 輪迭代后的預測值。
每一輪迭代中,需要訓練一個新的決策樹來擬合殘差 rit ,然后將這棵樹的預測結果加到之前所有樹的預測結果上,則可得:
Fδt(δx)=Fδt-1(δx)δ+Chδt(δx)
式中: Ft-1(x) 為 t-1 輪迭代后的預測值, C 為學習率, hι(x) 為第 Φt 棵決策樹的預測結果
最終,GBDT的預測結果為所有樹的預測結果之和:

式中: T 為決策樹總數量。
3.3 模型參數優化
麻雀搜索算法(SSA)是由薛建凱等于2020年提出的一種全新的智能優化算法[22]。其靈感主要來自麻雀覓食和躲避獵食者時的策略,在解決極為復雜的優化問題時展現出強大優勢,尤其在處理多個局部最優解的情況下顯示出強大的全局搜索能力。麻雀搜索算法的參數設置如下,初始化種群數量80,最大迭代次數40,預警值0.6,適應度函數選用MAE。優化后的各模型參數如表1所示。
表1參數尋優結果

3.4 模型評估與討論
本文通過均方根誤差 ERMS (Root Mean SquaredError,RMSE)、平均絕對誤差 EM (Mean AbsoluteError,MAE)、擬合優度決定系數 R2 (R-squared)這3個指標來衡量模型預測結果與真實值之間的差異,進而評估RF、XGboost、GDBT、LightGBM、Blending這5種模型的預測性能。
平均絕對誤差 EM 計算如下:

均方根誤差 ERMS 計算如下:

R2 計算如下式所示:

式中:
為真實值的平均值; n 為樣本數量。
當 Eu 、 ERMS 值越接近0, R2 的值越接近1時,預測效果越好。
各模型的預測效果如圖8\~圖12所示。



圖8\~圖12中的橫坐標是檢泵周期的真實數據,縱坐標是各模型預測得到的檢泵周期數據,中間的紅線是擬合直線,藍色的數據點到紅線的距離越短表明該模型的擬合優度越好,預測精度越高。對比圖8\~圖12可以看出,Blending集成模型預測的擬合效果最好。


圖13是Blending模型預測結果的對比及殘差分布效果圖。模型評估結果如表2所示。


從表2可知,Blending模型相對其余4個基模型的擬合效果更好,預測精度更高。
3.5 現場驗證
為了驗證基于RF、GBDT、XGBoost及LightG-BM模型融合的Blending集成學習模型的預測性能及普適性,采用150組新的現場檢泵數據對模型進行驗證,預測效果如圖14所示

此時 R2=0.947 , ERMS=46.108 ,預測的檢泵周期與實際的檢泵周期擬合度高,驗證了Blending集成方法在檢泵周期預測方面的有效性和可行性。
4結論
(1)利用樹模型特征融合篩選方法進行了主控因素分析,結果表明沖次對檢泵周期的影響最大,井斜角、采出液質量分數、沖程、泵深、含水體積分數、日產液量、最大載荷次之,與實際工程經驗接近,證明該篩選方法的合理性和可靠性。
(2)提出一種基于Blending集成模型預測抽油機井檢泵周期的方法,針對大慶某油田的歷史檢泵數據進行預測。與其他4種基模型相比,該模型預測精度最高,擬合效果最好。此時 R2=0.954 ,ERMS=45.254 。
(3)使用一組全新的現場數據驗證Blending集成模型的預測精度,結果為 R2=0.947 , ERMS= 46.108,說明模型具有較強的合理性和良好的預測精度,可以為大慶某油田抽油機井檢泵周期預測提供參考。
參考文獻
[1] 姜民政,段天玉,劉金堂,等.有桿泵同井注采系 統技術應用及節點力學分析[J].石油機械, 2017,45(7):97-100. JIANG MZ,DUANTY,LIUJT,et al.Application and node mechanics analysis of sucker rod pump injection-production system [J].China Petroleum Machin[J].化學工程與裝備,2020(11):110-111.WANG H X. Analysis of reasons for oil well pumpcheck and measures to extend pump check cycle [J].Chemical Engineering and Equipment,2020(11):110-111.
[3] 高海紅.延長桿式抽油泵檢泵周期技術研究應用[J].石化技術,2021,28(12):62-63.GAO H H. Research and application of extending pumpinspection period of rod oil well pump [J]. Petrochem-ical Industry Technology,2021,28(12):62-63.
[4] 劉剛.油井檢泵原因及延長檢泵周期的措施[J].化學工程與裝備,2021(1):115-116.LIU G.Reasons for oil well pump checking and meas-ures to extend pump checking cycle [J]. Chemical En-gineering and Equipment,2021(1):115-116.
[5]孫家暉.油井檢泵原因分析及延長檢泵周期措施探討[J].化工管理,2017(9):23.SUN JH.Analysis of the reasons for oil well pump-checking and discussion of measures to extend the pumpchecking cycle [J]. Chemical Enterprise Management,2017 (9): 23.
[6]張帆,紀海霞,韓亮.延長檢泵周期的2種措施應用與分析[J].遼寧化工,2015,44(10):1210-1212.ZHANG F,JI HX,HAN L. Application and analysisof two kinds of measures to prolong pump inspection cy-cle[J].Liaoning Chemical Industry,2015,44(10):1210-1212.
[7] 周平,單長吉,劉麗丹,等.抽油機井管桿偏磨檢泵周期與其影響因素回歸分析[J].東北電力大學學報(自然科學版),2008,28(4):11-17.ZHOU P,SHAN CJ,LIU L D,et al.The regressionanalysis for wearing and parting of sucker rod and tubingin drive pumping well period and its influencing factor[J].Journal of Northeast Power University(NaturalScience Edition),2008,28(4):11-17.
[8] 張戰敏.抽油機井檢泵周期可靠性預測模型與實際應用[J].價值工程,2015,34(8):31-32.ZHANG Z M. Reliability forecast model of oil pumpingwells checking period and actual application [J]. Val-ue Engineering,2015,34(8):31-32.
[9] 孟令凱.聚驅抽油機井桿管偏磨壽命預測方法研究[D].秦皇島:燕山大學,2016.MENG L K. Research on the prediction method of rodand tube deflection wear life of polydrive pumping rigwells [D].Qinhuangdao:Yanshan University,2016.
[10]封海兵.基于數據挖掘的抽油機井實時優化系統研究與應用「D].青島:中國石油大學(華東),2020:001098.FENG H B.Research and application of real-timepumping well optimisation system based on data mining[D].Qingdao:China University of Petroleum (EastChina),2020:001098.
[11] 趙巖龍,方正魁,邱子瑤,等.基于長短時記憶網絡的腐蝕工況下抽油桿剩余使用壽命預測[J].科學技術與工程,2021,21(36):15429-15433.ZHAO Y L,FANG Z K,QIU Z Y,et al. Remaininguseful life prediction of sucker rod under corrosion con-dition based on long short-term memory network [J].Science TechnologyandEngineering,2021,21(36):15429-15433.
[12] 張曉東,王栩穎,秦子軒.基于特征融合的抽油機井檢泵周期預測[J].計算機與現代化,2022(12): 60-66.ZHANG XD,WANG X Y,QIN Z X. Pump detectionperiod predicting of pump well based on feature fusion[J].Computer and Modernization,2022 (12):60-66.
[13] 李聰,彭小圣,王皓懷,等.基于SDAE深度學習與多重集成的風電集群短期功率預測[J].高電壓技術,2022,48(2):504-512.LI C,PENG X S,WANG H H,et al.Short-termpower prediction of wind power cluster based on SDAEdeep learning and multiple integration[J]. HighVoltage Engineering,2022,48(2): 504-512.
[14] 史鵬宇,徐思慧,馮加明,等.基于改進 Stacking算法的致密砂巖儲層測井流體識別[J].地球物理學進展,2024,39(1):280-290.SHI PY,XUSH,FENGJM,et al. Log identifi-cation of fluid types in tight sandstone reservoirs usingan improved Stacking algorithm [J]. Progress in Geo-physics,2024,39(1):280-290.
[15] 田輝,樊志彬,王倩,等.基于GA算法優化 Stac-king 集成學習的金屬材料大氣腐蝕速率研究[J].山東電力技術,2023,50(10):43-49.TIAN H,FAN Z B,WANG Q,et al. Study of at-mospheric corrosion rate of metal materials based onGA-optimized stacking integrated ensemble learning[J].Shandong Electric Power,2023,50(10):43-49.
[16] BREIMAN L. Random forests [J]. Machine Learn-ing,2001,45(1):5-32.
[17] WANG W,LIL N,GU HJ,et al.Random forest-based prediction of acute respiratory distress syndromein patients undergoing cardiac surgery [J]. The HeartSurgerv Forum.2022.25(6):E854-E859.
[18」 唐朝飛,努爾布力,艾壯.基于LightGBM的網絡入侵檢測研究[J].計算機應用與軟件,2022,39(8):298-303,311.TANG C F,NURBOL,AI Z. Research on networkintrusion detection based on LightGBM [J]. Comput-er Applications and Software,2022,39(8):298-303,311.
[19] 錢宇,何益豐,謝斌鑫,等.基于特征工程的 XG-boost風速短期預測[J].武漢大學學報(工學版),2022,55(10):1057-1064.QIAN Y,HEYF,XIE BX,et al.Short-term XG-boost wind speed prediction based on feature engineer-ing[J]. Engineering Journal of Wuhan University,2022,55(10):1057-1064.
[20] 沈斌,楊勝來.基于PSO-GBDT 的 CO2 -原油最小混相壓力預測模型[J].科學技術與工程,2022,22 (18): 7866-7872.SHEN B,YANG S L. Prediction model of minimummiscible pressure of CO2 -crude oil based on PSO-GB-DT[J]. Science Technologyand Engineering,2022,22 (18) : 7866-7872.
[21] 畢云帆,橄奧洋,張智晟,等.基于模糊 Bagging-GBDT的短期負荷預測模型研究[J].電力系統及其自動化學報,2019,31(7):51-56.BIY F,HAN A Y,ZHANG Z S,et al. Study onshort-term load forecasting model based on fuzzy Bag-ging-GBDT[J]. Proceedings of the CSU-EPSA,2019,31(7):51-56.
[22] 馬晨佩,李明輝,鞏強令,等.基于麻雀搜索算法優化支持向量機的滾動軸承故障診斷[J].科學技術與工程,2021,21(10):4025-4029.MA C P,LI M H,GONG Q L,et al. Fault diagno-sis of rolling bearing based on sparrow search algorithmoptimized support vector machine [J]. Science Tech-nology and Engineering,2021,21(10):4025-4029.
第一作者簡介:姜民政,教授,博士生導師,生于1964年,2003年畢業于哈爾濱工程大學固體力學專業,獲博士學位,現從事機械采油系統工程理論及節能技術研究工作。地址:(163318)黑龍江省大慶市。電話:(0459)6503338。email: jmz1964@126.com。通信作者:董康興,副教授,博士生導師。電話:(0459) 6503256。email: dongkangxing1964@ 163. com。