王學軍,李 莎
(1.承德石油高等專科學校 人事處,河北 承德 067000;2.中國石油天然氣 管道通信電力工程總公司,河北 廊坊 065000)
?
基于層次分析的聚類算法在油田生產數據中的應用
王學軍1,李 莎2
(1.承德石油高等專科學校 人事處,河北 承德 067000;2.中國石油天然氣 管道通信電力工程總公司,河北 廊坊 065000)
針對石油工程生產數據的處理問題,利用數據挖掘中層次分析聚類算法,探索處理工程數據的方法,分析數據之間的內在聯系;同時針對油田生產中的懸點載荷問題進行具體分析,從實踐的角度分析實驗結果,實現通過數據分析體現生產過程的結論。
層次分析;聚類算法;油田生產;數據挖掘
目前石油生產過程中將產生很多的生產數據,這些數據之間存在千絲萬縷的聯系,這些聯系將反應油田生產的各種狀況,同時也對油田生產參數的配置有著很大的影響。比如,斜井抽油是油田生產的重要過程,在斜井抽油的各生產過程中存在相互制約的關系,這些關系都將通過油田生產數據反映出來。數據挖掘是一種分析數據的有效手段,通過油田生產數據的分析和挖掘過程,探索出適合其生產過程中的數據處理方法和思路,得到適合于特定生產條件的結論,這些結論將為提高生產效率、加強管理、改善生產決策提供數據基礎和方法依據。通過數據挖掘對石油生產技術的探索和分析,對油田生產的生產狀況有了很大改觀,但是有些問題還是存在的,比如生產過程控制、對于新開發油井的生產決策等問題還將制約著斜井抽油生產的各個環節。
1.1 數據挖掘聚類算法
聚類分析是數據挖掘中一種重要技術,是對處理對象進行分類的重要算法,是對每組數據元素進行相似度的比較,對于相似度高的元素看成是一個類,將不同屬性的元素將劃分到其他類別中去的過程。
1.2 聚類算法的層次分析法
聚類算法的層次分析就是指將數據進行逐級分層,根據層確定對應的組,最終可得到各簇。可根據分層的方向確定聚類的性質,若從下底向上進行逐級分層,這就是凝聚的層次聚類,若自上向下逐級分層,就是分裂的層次聚類。本文重點使用的是“凝聚的層次聚類”。
1)凝聚的層次聚類
實現過程:通過自下向上的方法,開始時將各個數據對象都看做一個獨立的簇,然后通過層次聚類,將數據對象進行適當合并,直到結束為止。
2)簇間距離的判定方法
簇的凝聚(或分裂)是要遵守一定的原則,一般情況下,是將數據(或對象)進行舉例(或相似度)的比較,在滿足條件下,則認為是一個簇,否則認為是不同簇的元素,其距離的判斷方法如下:
以最小的距離作為聚類的判斷標準,公式如下:
以最大的距離作為聚類的判斷標準,公式如下:
以平均距離作為聚類的判斷標準,公式如下:

以均值距離作為聚類的判斷標準,公式如下:

3)凝聚的層次聚類方法
聚類方法:從最底層的葉子結點開始逐步聚類,直到形成一個根結點,下圖表示有A,B,C,D,E等五個元素,圖1表示對五個元素進行聚類分組的過程。
斜井抽油是油田生產的重要生產過程,斜井抽油中抽油機在不同的參數組合下對于懸點所承受的壓力是不同的,不同生產設備、不同工作狀況都將對懸點載荷產生很大的影響。
2.1 懸點靜載荷所承受的載荷
驢頭在上下運動時,帶著抽油桿柱作往復運動,所以,抽油桿重所承受的載荷起到非常重要的作用。懸點靜載荷所承受的載荷包括上沖程作用在懸點上的抽油桿柱載荷、下沖程作用在懸點上的抽油桿柱載荷。
2.2 懸點動載荷所承受的載荷
和靜載荷分析思路一致,動載荷也要針對上、下兩個沖程分別進行考慮,懸點的慣性載荷在“大小”和“方向”兩個方面都將因為懸點加速度不同而發生明顯的變化。若假設規定向上的坐標為正方向,當加速度的數值大于零時(向上);若加速度的數值小于零時(向下)。在向上的沖程中,前一半的過程加速度數值大于零(向上),由于其慣性力的方向是向下的,因此是增加了懸點載荷的數值;后一半沖程中加速度小于零(向下),由于其慣性力的方向是向下的,則減少了懸點載荷數值。在向下沖程的過程中,情況正好相反,分析過程如前。
2.3 層次分析算法在懸點載荷分析(示功圖)中的應用研究
通過示功圖可以了解油井在生產過程中的載荷情況,對于正常工作的油井來說,在相鄰的時間段內,其示功圖的變化不應該太大,就是說在相鄰很短的時間內,其示功圖應該是變化不大,圖形應該是基本重合的,但是也有出現問題的時候,如受到氣候影響、桿柱斷裂、供液不足等特殊情況影響時,示功圖可能發生很大變化,這就需要我們時刻監測載荷的變化情況。
在實際生產中,可以采用縮短監測時間,固定示功圖出圖時間,即我們可以多監測載荷發生的變化,但是不增加示功圖的出圖頻率。我們可以在間隔的固定時間內再分成若干次進行監測,將這些監測結果得到示功圖,將該示功圖與真正得到的圖樣進行比較,如果在誤差范圍內,就說明這時間段內生產沒出現狀況,否則可根據圖樣的變化情況進行故障的排除。
以某油井為例,將固定的示功圖出圖時間再次細分為10次,進行監測得到數據,如表1所示。

表1 某油井監測數據
針對表1中的最大負荷參數通過聚類算法,將表1中的10個點分成兩個簇C1和C2,其中:
C1={1,2,3,4,6,8,9,10},C2={5,7}
最小距離為:
最大距離為:
平均距離為:
均值距離為:
根據上面的計算可以看出,C2中的兩個點到C1簇的平均值的距離都大于平均值7.725,因此,在計算最大負荷時,應該使用C1簇,此時這個時間段的最大負荷應該為64.125 KN,同時最小負荷為28.512 5,這兩個數應該為這一段的最大、最小負荷。
實驗結果:C2中的數據為奇異數據,但是對這樣的數據也應該給予一定的重視,不可輕易棄之。這些數據可能是油田生產過程中排出故障的重要依據。
本文針對油田生產中的數據特點分析,很好地實現了將數據挖掘技術和油田生產之間的結合。通過對懸點載荷的分析,通過數據挖掘層次分析的聚類算法,解決了油田生產的實際。這既是對數據挖掘算法應用的拓展,同時也為油田生產的數據處理提供了思路,應用前景非常好,同時也有很可觀的經濟效益。
[1] 曹文霞.抽油機運動模型和示功圖研究及實現[D].北京:北京交通大學,2006.
[2] 歐陽浩.移動數據的預估聚類分析算法研究[D].湘潭:湘潭大學,2006.
[3] 王學軍.數據挖掘的預測技術在斜井抽油數據處理中的應用[J].承德石油高等專科學校學報,2012,14(2):1-3,12.
[4] 姜衛.數據挖掘技術在采油工程中的應用[J].內蒙古石油化工,2011(20):105-108.
[5] 檀朝東.斜井抽油系統優化設計技術研究和應用[J].石油機械,2006,34(3):9-12.
[6] 王學軍.數據挖掘聚類算法在斜井抽油扶正器設計中的應用[J].承德石油高等專科學校學報,2013,15(2):20-23.
[7] 王學軍.斜井抽油數據分析方法及應用研究[D].南京:南京工業大學,2013.
Application of AHP-based Clustering Algorithm in Processing Oilfield Production Data
WANG Xue-jun1, LI Sha2
(1.Department of Personnel Affairs, Chengde Petroleum College, Chengde 067000, Hebei, China; 2.China Petroleum Pipeline Communication Power Engineering Corporation, Langfang 065000, Hebei, China)
The AHP-based clustering algorithm in data mining is applied in this paper to explore the internal connection among the production data of petroleum engineering. Concrete analysis is adopted on the experimental results of polished rod load in oil production.
AHP; clustering algorithm; oil production; data mining
2013年河北省科技計劃項目(基于數據挖掘技術的斜井抽油數據處理方法的研究及應用):13210353
2016-05-04
王學軍(1971-),河北涿州人,承德石油高等專科學校人事處教授,從事計算機軟件和算法的教學和研究,重點研究數據挖掘在油田生產中的應用。
TE3
B
1008-9446(2016)05-0022-03