王輝萍,檀朝東*,任桂山,劉萍,楊若谷
?
基于K均值聚類方法的抽油機井系統能耗分析
王輝萍1,檀朝東1*,任桂山2,劉萍3,楊若谷3
(1.中國石油大學(北京)石油工程學院,北京昌平102249;2.中石油大港油田采油工藝研究院,天津濱海新區,300280;3 北京雅丹石油技術開發有限公司北京昌平102200)
在智慧油田的助力下,大多數油田已基本實現了油田生產數據的自動化采集,然而這些數量巨大、維度高的數據信息并未得到有效利用。本文將K均值聚類分析方法應用到抽油機井能耗數據分析中,進行了能耗數據異常識別和油井能耗分類的工作。在分析過程中,分別選取單項、多項能耗指標對抽油機井進行自動分類,以高效地尋找高能耗油井,進而有針對性地對這些油井進行措施調整。
K均值聚類;抽油機井;能耗指標;數據預處理
在油田開發中,抽油機井因其結構簡單、適應性強、技術成熟等優勢,在各大油田得到了廣泛應用。然而其在采油過程中系統效率低下,能量損失嚴重,如今已超越注水系統成為油田最大的耗能用戶。如何提高抽油機井系統效率、降低開采能耗,是降低油田生產成本、提高經濟效益的關鍵。
在油井能耗分析方面,傳統方法主要是從理論分析和經驗分析兩方面展開研究的,理論分析方法是基于石油工程的業務模型[1],對抽油機井能耗的影響因素進行研究,經驗分析則是根據現場人員在油井日常管理中的經驗對油井進行調參、檢泵、洗井等措施來降低生產能耗。但兩者都存在著一定的局限性。前者模型求解復雜困難,在實際現場生產中應用較少,后者主觀性強、可靠性低。
面對傳統分析方法的不足,智慧油田的建設為解決抽油機井能耗問題提供了新思路。當前,各大油田基本實現了抽油機井系統數據的自動化采集,這些數據涵蓋了自地層、設備運行到原油生產等各個方面,記錄了油井生產的全過程[2]。在處理分析這些數據時,數據挖掘技術展現出了其獨特的優勢,該技術能夠對油田生產的海量數據進行分析,挖掘出數據中隱藏的有價值信息[3],揭示出抽油井系統中眾多參數之間的相互關系。
要降低抽油機井的能耗,首先要找到能耗高的油井,目前大多油田將噸液百米耗電量作為能耗指標,根據現場經驗對油井能耗進行高、中、低的劃分。實際上,由于油田各個區塊的地層條件、流體特性不盡相同,各區塊的油井能耗特點也會有差異,很難制定統一的能耗標準對油井能耗分類。因此,采用噸液百米耗電量這一指標人為地對油井耗能劃分范圍,未必能找出真正耗能高的井組,有的油井在采取措施后甚至還會出現能耗升高的情況。
作為經典的數據挖掘方法,K均值聚類方法是一種無監督的學習方法,已經在客戶細分、圖像分割等領域得到了廣泛應用[4]。其從數據自身特性出發,根據數據樣本之間的相近相似關系對數據樣本進行分類,體現的是樣本數據本身的特性。因此,本文基于抽油機井能耗數據,運用K均值聚類分析方法對油井進行自動分類,并分析了各類油井產液量與能耗之間的關系。此外,在對數據進行預處理時,利用該方法對離散點敏感的特性進行了異常值識別和剔除,以保證分析數據的質量。
抽油機井的整體能耗情況主要用噸液百米耗電量這一指標表示,而整個抽油機井系統的能量一部分用于舉升井下液體之外,剩下的主要是抽油機井系統各個部分的能量損耗。這些能量損耗主要包括電機功率損耗、傳動系統功率損耗、抽油桿功率損耗、抽油管摩阻損耗、抽油泵功率損耗等五大部分。由抽油機井的采集數據可以計算得各個能耗指標值,進而建立基于K均值聚類分析的油井能耗模型,是進行油井能耗數據特征分析的關鍵。
1.1 抽油機井系統的能耗指標
抽油機井的工作過程,就是一個能量不斷傳遞和轉化的過程[5]。地面電機通過皮帶、減速箱傳到曲柄,帶動曲柄做低速旋轉,將電能轉化為機械能,接著通過四連桿機構實現驢頭的上下往復運動,驢頭連接光桿、抽油桿柱直達井下,帶動抽油泵柱塞排出吸入液體。這其中每個環節都不可避免地存在著能量損耗,主要包括:電機功率損耗、傳動系統功率損耗、抽油桿功率損耗、抽油管摩阻損耗、抽油泵功率損耗[6]等。抽油機井整體的能耗用噸液百米耗電量這一參數表征。
(1)電機功率損耗

(2)
(3)

式中:P輸入—電機輸入功率,kW;P軸—電機軸功率,kW;Pn—電機額定功率,kW;In—電機額定電流,kW;U—電機實際運行電壓,V;I—電機實際運行電流,A;I0—電機在額定電壓時的空載電流,A;cosφ—功率因數。
(2)傳動系統功率損耗(皮帶、減速箱、連桿損耗的總和)

(6)
式中:P光桿—光桿功率,kW;A—示功圖載荷線包圍的面積,cm2;n—沖次,min-1;s—光桿沖程,m;l—示長度,mm;C—動力儀力比,N/mm。
(3)抽油桿功率損耗

(8)
(9)
式中:P泵—泵功率,由井下功圖計算得出;P有效—有效功率;H動—動液面深度,m;P油,P套—油壓,套壓,MPa。
(4)油管摩阻損耗

(11)
(5)抽油泵功率損耗

(6)噸液百米耗電量
(13)
抽油機井的采集數據主要包括基礎數據和生產數據,基礎數據主要有油管直徑、泵徑、含水率、原油粘度、原油飽和度等,生產數據包括泵深、動液面深度、油壓、套壓、電機運行參數、日產液量、井下功圖數據、沖程、沖次等數據,由已知的油井的采集數據和公式(1-13),能夠計算出抽油機井的各個能耗指標值,以便進一步對油井數據做分析。
1.2 基于K均值聚類分析的能耗模型
K均值聚類是著名的劃分聚類分割方法。該方法將各個聚類子集的所有樣本數據的平均值作為每個類(聚類子集)的中心點,通過計算各個樣本與聚類中心之間的距離,將樣本點歸入到最近的類中,并不斷迭代至收斂,從而實現樣本分類。運用K均值聚類方法對抽油機井進行能耗分析,主要包含以下幾個步驟:特征參數選取、數據預處理、K均值聚類、分析結果優選、數據特征分析。
(1)特征參數選取
為了考察在選用單個能耗指標與多個能耗指標作為特征參數對油井聚類的影響,分別選取了噸液百米耗電量和上述六項油井綜合能耗指標進行分析。
(2)數據預處理
首先根據抽油機井的采集數據,結合公式計算六個能耗指標值,接著對這些能耗指標進行標準化處理,以減小聚類過程中各參數的取值范圍對結果的影響。標準化處理的表達式見公式(14):

其中,a為樣本的某一屬性值,a’為標準化后的值,min(a)為所有樣本中這一屬性的最小值,max(a)為所有樣本中這一屬性的最大值。這里的樣本就是參與分析的所有抽油機井。
由于在采集油井數據時,可能會因為環境干擾、測量儀器故障導致數據偏離正常值范圍,出現數據異常,因此在分析前要對數據中的異常值進行剔除。利用K均值算法對離散點敏感的特點來識別異常值。具體做法是僅選擇一個參數進行聚類,若聚出的某一類中僅有個別油井,則很有可能就是異常數據導致。
(3)K均值聚類
對數據預處理過后就可以對油井能耗數據進行聚類,其基本步驟[7]如下:
1) 設定油井數據的聚類數量,即K值;
2) 在油井中隨機選擇K個油井數據作為初始聚類中心,分別計算各個其他油井樣本到這K個聚類中心的距離,并根據最小距離將這些油井歸入相應的類中;
3) 對得到的各聚類子集中的所有油井數據求平均,即為新的聚類中心;
4) 重復2、3步驟,直至聚類中心不再變化。
(4)分析結果優選
由于在K均值聚類分析中,初始聚類中心是在所有樣本井中的隨機選取的,不同的初始中心有可能會導致不同的收斂結果,聚類結果會陷入局部最優[8],因而選用誤差平方和準則函數E作為聚類性能的評價指標[9]。該函數可用來衡量聚類收斂后各樣本與其對應的聚類中心的總距離,E值越小,說明樣本點集合與中心的距離越近,聚類效果越好。
假設通過K均值聚類分析,已經將N口油井數據樣本點xi(i=1,2,…,n)聚成K類,每類都是油井數據的集合,分別用表示,j=1,2,…,k,每類油井的聚類中心用表示,j=1,2,…,k,則誤差平方和準則函數為:

(5)油井能耗特征分析
在兩次聚類結果的基礎上,分別對三類油井的能耗指標取平均值,將抽油機井分為高能耗井、中等能耗井和低能耗井,并比較單指標與多指標油井能耗聚類的特征。
本文運用K均值聚類對華北油田某采油廠186口抽油機井能耗數據進行了特征分析。首先對數據進行了指標計算、標準化處理、異常值剔除等預處理工作,然后分別選取噸液百米耗電量單個指標和電機功率損耗、傳動系統功率損耗、抽油桿功率損耗、抽油管摩阻損耗、抽油泵功率損耗、噸液百米耗電量這六項綜合能耗指標作為特征參數,根據數據自身的特性對油井分類,以比較特征參數不同時聚類的結果差異。最后選取噸液百米耗電量、系統效率及日產液量三個參數進行聚類,以分析三者之間的相互關系。
2.1 異常值識別
在對油井分類之前,首先對各個能耗指標進行了單個參數聚類以剔除異常值。下面僅以傳動功系統率損耗異常值識別為例來說明具體的分析過程。
選取所有抽油機井2015年1月1日的傳動系統功率損耗數據,其中部分油井數據見表1,將油井分為3類。

表1 抽油機井傳動系統功率損耗部分數據
經過數次K均值聚類分析后,分析結果基本一致,聚成的三類中所含油井數量分別為2,10,174,各類的傳動系統功率損耗平均值分別為1904.36,17.92和1.80,見表2。其中第一類的傳動功率損耗值已大大超過了正常范圍,因此需將這兩口井的數據刪除,同時應及時查明數據異常原因,保證采集數據的質量。

表2 傳動系統功率損耗聚類分析結果
2.2 油井能耗特征分析
經過數據預處理,篩選出171條合理的抽油機井生產數據,選取上述六項綜合能耗指標將油井聚為3類,數次聚類分析的結果見表3。

表3 六項綜合能耗指標聚類結果優選
結合誤差平方和準則函數,選擇E值最小的油井分類結果即第6次聚類結果,三類油井數量分別為82,39,50,其各類能耗指標的平均值見表4。

表4 六項綜合能耗指標聚類分析結果
對六項綜合能耗指標進行聚類后發現,大部分的油井能耗中等水平,第2類油井的總體能耗較高與其他兩類,可劃分為高能耗井,并且在這類井中,傳動功率功率損耗值較其他損耗比重大。
當僅選擇噸液百米耗電量進行K均值聚類分析時,分成的三類油井的結果見表5。

表5 單項能耗指標聚類分析結果
由表5可知,3類油井的噸液百米耗電量差異較大,第3類油井的能耗值遠高于其他兩類油井,屬于高能耗井。
比較兩次聚類的結果可以發現,在對油井按能耗數據進行分類時,選取單個指標和能耗綜合指標進行聚類,分成的三類中每類包含的油井數量、平均能耗大小都有很大差異,因此,在尋找能耗高的油井時,僅從單個指標進行分類是不全面的。
為了探究油井噸液百米耗電量、系統效率、日產液量三者之間的關系,將這三個量作為特征參數,將油井分為三類,經過結果優選,三類所含油井數分別為9,58和104。各類參數平均值見表6。

表6 油井能耗主要因素聚類分析
可見,油井的系統效率主要分布在15%-55%之間,噸液百米耗電量在2-13kw·h/(t·100m)之間。其中,第3類油井能耗、系統效率正常,占所有油井的60%,第一類井屬于高能耗井。從總體上看,噸液百米耗電量高的油井系統效率較低,這也與油田的實際情況相符合,而在這些系統效率低的油井中,油井的產液量也很低。因此,可考慮適當提高第1類油井的產液量以降低油井能耗情況,并通過后續油井能耗變化來驗證結果的準確性。
本文結合大量的抽油機井的能耗數據,運用K均值聚類分析方法對抽油機井能耗數據進行分析,主要得到以下結論。
(1)K均值聚類可以有效地識別油井能耗中的異常值,從而提高分析數據的質量;
(2)在對油井能耗進行聚類時,選取單項能耗指標與多項能耗指標進行分析的結果差異很大,僅近選擇單項能耗指標不能全面地分析油井的整體能耗特征;
(3)K均值聚類適用于對油井的能耗進行定性的分析,若要進一步分析影響能耗的主要因素,還需在此基礎上運用其他方法進行分析。
[1] Ming Ming Xing,Shimin Dong.A New Simulation Model for a Beam-Pumping System Applied in Energy Saving and Resource Consumption Reduction[J].SPE173190,2015.
[2] 檀朝東,張恒汝,馬永忠,等. 油氣生產大數據挖掘系統的研究及應用[J]. 數碼設計,2016,5(1):49-52.
[3] 檀朝東,陳見成,劉志海,等. 大數據挖掘技術在石油工程的應用前景展望[J]. 中國石油和化工,2015,01:49-51.
[4] R J Kuo,L M Ho,C M Hu.Cluster Analysis in Industrial Market Segementation Through Artificial Neural Network[J].Computers and Industrial Engineering,2002,42(2):391-399.
[5] 樊文杰. 抽油機井能耗公式的建立與測試[J]. 油氣田地面工程,2001,06:8-10.
[6] 郭小哲,劉躍忠,孫寶龍,等. 抽油機井系統效率方案優選及因素分析[J]. 鉆采工藝,2008,03:92-96.
[7] 樊寧. K均值聚類算法在銀行客戶細分中的研究[J]. 計算機仿真,2011,03:369-372.
[8] 劉長騫. K均值算法改進及在網絡入侵檢測中的應用[J]. 計算機仿真,2011,03:190-193.
[9] 卓金武.Matlab在數學建模中的應用(第二版)[M].北京: 北京航空航天大學出版社,2014.9.
Energy Consumption Analysis of Rod Pumping Well System Based on K-Means Clustering
WANG Huiping1, TAN Chaodong1*,REN Guishan2, LIU Ping3, YANG Ruogu3
(1.College of Petroleum Engineering, China University of Petroleum, Beijing 102249, China 2. Beijing Yadan Petroleum Technology Development Co., Ltd, Beijing 102200, China)
With the help of intellectual oil field infrastructure, production data are now collected automatically in the majority of oil fields. However, the data with large volume and high dimension have not been effectively utilized. In this paper, K-means clustering is applied to analyze energy consumption data for the rod pumping system. The tasks include abnormal data identification and well clustering. During the analyzing process, both single and multiple energy consumption indicators are selected for clustering. In this way, wells with huge energy consumption are found efficiently. This study builds the foundation for well energy consumption saving .
K-means clustering; rod pumping wells; energy consumption indicators; data preprocessing
1672-9129(2016)02-0064-05
TP 3
A
2016-09-15;
2016-09-28。
王輝萍(1991-),女,江蘇東臺,碩士研究生,主要研究方向:采油工程、數據挖掘;檀朝東(1968-),男,安徽望江,副研究員,博士,主要研究方向:石油工程、物聯網教學及科研;任桂山(1972-),男,高級工程師,主要研究方向:油田自動化;劉萍(1991-),女,湖北鐘祥,高級工程師,主要研究方向:石油工程大數據挖掘;楊若谷(1980-),男,北京,高級工程師,主要研究方向:油氣生產物聯網、油氣生產大數據挖掘及采油技術。
(*通信作者電子郵箱:tantcd@126.com)