高 翔,王云峰,劉海波
(1.中國石油大慶油田有限責任公司采油工程研究院,黑龍江大慶 163453;2.中國石油大慶油田有限責任公司第九采油廠工程技術大隊,黑龍江大慶 163511)
隨著大慶油田開發進入中后期,低產液、低泵 效、低流壓井逐年上升,這部分井存在著系統效率 低、能耗大、設備磨損嚴重等問題[1-3]。為提高低效井的系統效率,達到節能降耗的目的,通常采用間抽采油技術[4-5]。但在實際生產過程中,采用常規間抽技術往往因為停井時間長導致卡泵故障、井底流壓上升,從而影響油井產量。相關研究表明,常規間抽技術平均影響油井產量0.1 m3/d,部分井潛力未得到充分發揮[6]。在綜合考慮常規間抽技術缺點的基礎上,相關工程技術人員提出一種抽油機不停機間抽技術。目前,大慶油田累計應用不停機間抽技術千余口井,與常規間抽技術相比,噸液百米耗電降低明顯,系統效率顯著提高,應用前景廣闊[7]。
不停機間抽技術應用過程中,工作制度的確定是最關鍵的部分[8]。一般情況下,主要參考單井地質特征和供液能力,以油井產能為最大目標,結合IPR(流入動態生產曲線)確定合理流壓,通過持續觀察動液面變化,最終確定最優的不停機間抽采油工作制度。但是該種方法需要對每口井工作制度進行多次試驗和反復驗證,實際操作性不強,生產單位通常依據沉沒度和產液情況,將運行工作制度定為若干種(表1),從而大大降低了單井個性化設計強度,也減弱了不停機間抽技術的應用效果。
近幾年來,數字化、智能化、智慧化油田的建設將油田帶到了“大數據、人工智能”時代[9],大數據挖掘技術作為機器學習、人工智能的基礎,同樣也開始應用到油氣田勘探開發的各個領域[10-13]。2012年,石廣仁教授介紹了八大類數據挖掘算法,并通過34 個應用實例對算法的應用范圍及條件、基本原理和完整計算方法進行了適用性比較[14];2015 年,檀朝東等人系統總結了大數據挖掘技術在石油工程的應用前景[15];2016 年,孫敬等人采用大數據挖掘技術建立的產能評價方程所預測的氣井產量與實際產量相比,精度可以達到90%[16];2018 年,李大偉等人開展了油氣勘探開發常用數據挖掘算法優選工作,認為最優的回歸算法是反向傳播神經網絡(BPNN),最優的分類算法是支持向量機分類(C-SVM)[17]。本文則針對不停機間抽技術工作制度確定時出現的問題,通過對相關采油數據進行有效分析,明確影響工作制度確定因素的主次關系,并在對相關數據挖掘常用算法進行優選的基礎上,構建單井個性化工作制度優化方法。

表1 生產單位制定不停機間抽工作制度(運行周期30 min)
機器學習數據挖掘常用的算法可分為分類、回歸、聚類等,其中分類和回歸是最成熟、應用最廣泛的算法。對具體的研究問題、研究對象和數據源,不同的分類和回歸算法具有不同的適用性。常用的回歸算法包括反向傳播神經網絡(BPNN)、多元回歸分析(MRA)和支持向量機回歸(R-SVM)等,常用的分類算法包括決策樹(DTR)、支持向量機分類(C-SVM)、貝葉斯判別分析(BAYD)、樸素貝葉斯(NBAY)和貝葉斯逐步判別分析(BAYSD)等[17]。由于DTR 算法建立與應用非常復雜[18],BAYD 算法適應性弱于BAYSD 算法,因此只針對其他幾類常用的數據挖掘的回歸和分類算法進行不停機間抽工作制度預測,并通過對比預測過程中產生的總平均相對誤差絕對值來確定最佳的數據挖掘算法。
研究結果對于低產低效井應用不停機間抽技術確定最優工作制度,從而達到節能最大化,具有較大的應用價值,也可以推廣到其他數據挖掘案例,用于指導油氣勘探開發、采油工作方案設計等數據挖掘工作。

檢驗該算法擬合度;③回歸(分類)預測:將k 個預測樣本代入擬合方程 y = f ( x0),得到預測值

為了表示預測樣本和學習樣本的預測變量y 的結果精度,通常采用相對誤差絕對值Ri、平均相對誤差絕對值和總平均相對誤差絕對值來判斷[14]。


低產低效井產能的影響因素除了常規的地質特征,還應包括油壓、動液面以及生產制度等多方面的因素。通過對實際油井基礎數據[16]進行系統分析,將影響因素歸納為9 個獨立變量(地層系數、日產液量、孔隙度、含水率、油壓、沖程、沖次、泵徑和泵效)。
取大慶油田A 采油廠的15 個樣本數據[19-20],其中,14 個樣本作為學習樣本,1 個樣本作為預測樣本,每個樣本都有9 個獨立變量數據[21](表2),其中,因變量y*為工作制度運行時間。為了進一步準確獲取15口樣本井不停機間抽工作制度,對樣本井進行不同不停機間抽工作制度條件下動液面恢復試驗。圖1 為A1 井不同不停機間抽工作制度條件下動液面恢復情況,從圖中可以看出,當該井的工作制度為正常運行時間30 min,擺動運行時間30 min 時,動液面穩定在850 m 附近,可以實現油井產能最大化,所以認為該井不停機間抽最優工作制度為正常運行時間30 min,擺動運行時間30 min。按照同樣方法,可以獲得其他14 個樣本的最優工作制度(表2)。
2.2.1 輸入參數
輸入參數包括14 個學習樣本和1 個預測樣本的各個已知變量值 xi( i= 1,2,? ??,9),以及14 個學習樣本的預測變量y*值。另外,根據現場應用現狀,一般情況下,不停機間抽運行周期可分為30,60,90,120 min,所以對于回歸計算,y*值為運行時間,則擺動時間為運行周期時間減去運行時間;而對于分類計算,y*值為運行周期,表3 為不同運行周期時間對應的運行周期類別。
2.2.2 學習過程
使用回歸、分類算法對表2 中14 個學習樣本進行學習計算,分別建立9 個獨立變量 xi( i= 1,2,? ??,9)與運行時間(回歸)或運行周期(分類)的工作制度的預測擬合方程 y = f ( x0),然后將表2 中的14 個學習樣本和1 個預測樣本的 xi( i= 1,2,? ??,9)值分別代入預測擬合方程 y = f ( x0),從而得到每個學習樣本的運行時間T(圖2)和運行周期分類(圖3),并計算每種算法所得結果的誤差(表4、表5)。

表2 不停機間抽工作制度分析預測基本數據

圖1 A1 井不同不停機間抽工作制度條件下動液面恢復

表3 不停機間抽工作制度運行周期分類
2.2.3 回歸結果分析
由圖2 可知,BPNN、R-SVM 和MRA 三種回歸算法最終預測的運行時間,只有BPNN 算法預測的結果與實際運行時間擬合度較高;從表4 也可以看出,用R-SVM 和MRA 算法所得的結果精度較低,而BPNN 得到的結果精度則較高。雖然不停機間抽工作制度優化過程非線性關系很強,但BPNN算法較適用。另外,MRA 算法的= 53.27%,所以預測得到的y 值與相關的9 個獨立變量之間具有較強的非線性關系,MRA 算法計算出的各獨立變量的相關性由大到小排序為:xi( i=5,7,6,9,8,2,1,3,4)。由于用R-SVM 和BPNN 算法所得回歸方程為非線性方程,所以不能計算出預測運行時間T 與各獨立變量的相關性。
2.2.4 分類結果分析
圖3 為C-SVM、BAYSD 和NBAY 三種分類算法的最終預測運行周期分類,從圖中可以看出,CSVM 算法結果擬合度達到100%,從表5 也可以看出,C-SVM 算法所得結果的精度非常高,Ri、和均為0,BAYSD 和NBAY 兩種算法的預測精度都很低。

圖2 不停機間抽運行時間預測結果

圖3 不停機間抽運行周期分類結果

表4 三種回歸算法計算不停機間抽運行時間結果誤差 %

表5 三種分類算法計算不停機間抽運行時間結果誤差 %
綜合數據挖掘的回歸和分類算法,優選得到C-SVM—BPNN 算法。
通過C-SVM—BPNN 算法對A 采油廠所應用的不停機間抽技術進行工作制度優化,由表6 可知,在產液量變化不大的情況下,優化后泵效提高2%~8%,系統效率提高3%~5%。
(1)常用數據挖掘算法用于優化不停機間抽工作制度,最優的回歸算法是BPNN,其次是MRA 和R-SVM;最優的分類算法是C-SVM,其次為NBAY和BAYSD。機器學習數據挖掘應用研究過程中,對于具體的研究對象、研究問題和數據源,不同的回歸和分類算法具有不同的適用性,所以針對不同問題要進行算法的優化選擇。
(2)利用C-SVM—BPNN 算法對不停機間抽工作制度進行優化的實例表明,優化后的不停機間抽井系統效率和泵效均有明顯的提升,說明CSVM—BPNN 算法具有較好的應用效果。

表6 部分井不停機間抽工作制度優化前后運行情況對比