高書香
(承德石油高等專科學校 石油工程系,河北 承德 067000)
隨著油氣田工程中斜井數量的增加,將產生超大量油井方面的工程數據,對這些數據的研究和處理,將影響工程決策和實施過程[1]。而處理這些數據時行之有效的方法就是進行數據挖掘;它能夠從超大量、有噪聲、模糊的、隨機的、不完整的實際生產數據中發現隱含的、事先未知的、卻是潛在有用的知識和信息。數據挖掘是數據庫中知識發現的一個主要步驟;知識發現可以分為5部分,即數據選擇、數據預處理、數據轉換、數據挖掘、結論及驗證[2]。
油田的生產運營應該是以最大經濟效益為目標,而不是以油井的系統效率、采油量、作業費用等指標的最大值為目標。在有桿泵系統的生產管理中,確定各種管理措施的優選方法也應該以經濟效益為指標。因此通過數據挖掘來回答諸如“哪個管理方案是最優的”等類似問題,這是傳統評價方法無法具備的。在數據挖掘設計中,建議選擇單井生產成本作為目標值或是響應值。
影響單井生產成本的因素很多,在工藝分析的基礎上認為,作業費用、設備費用、單井油氣產量等是主要影響因素。但是,作為一個生產系統,油井的上述3 個主要因素分別受到地層參數、設備參數、流體參數、生產參數等眾多因素的影響。為了能充分進行數據挖掘,必須首先保證數據的全面性。針對生產過程的每個環節,設計各數據庫的字段時,應該保證數據之間的完整性,不能因為影響因子小,而將該數據丟棄[3]。
簡單說,有桿泵生產系統中的所有數據都可能會影響其生產成本。例如,導致桿管偏磨的因素很多[4],那么因桿管偏磨導致單井生產成本增加的因素就有很多。為了便于對超大量的數據進行采集與歸類,借鑒文獻[4]的分類方法,將主要數據分成油層基礎數據、井眼軌跡數據、井下流體數據、井下工具數據、井下作業數據、地面設備數據、日常生產數據等7 大類數據;每一大類數據又可以細分成多種數據;具體分類見表1。

表1 有桿泵系統數據分類表
對固定的油井而言,油層基礎數據是定值,不必采集。但對數據挖掘技術而言,數據信息量越大,則其獲取知識的準確度越高。另外,將油層基礎數據納入到超大量的數據信息中,既可以實現同一油藏的不同油井數據的共用,還可實現不同油田之間的油井數據共用。因此,有必要將油層基礎數據納入到數據庫系統中。
在數據庫設計中易出現空白數據、錯誤數據、重復數據等不規范現象和問題,需要經過統一的過濾和修正。因此數據預處理的主要目的是清洗錯誤的、有沖突的、重復的數據,避免數據的冗余或不統一,以利于數據搜索。
數據選擇是為了目標而搜索和選擇相關數據,其目的是辨別出待分析數據的集合,縮小處理范圍,提高數據挖掘質量。例如,生產層巖性的數據值可按巖石深度分別賦予不同深度上的對應值;桿柱材質的數據值可按材質類型分別賦予不同的數值;等等。
為了確保數據挖掘系統在信息和文字識別中能夠正確地分析和錄入數據,應必須找出數據庫中的空白數據、錯誤數據、重復數據等以便修改和完善。另外還要找出所有不完整的數據,例如高含蠟量的油井數據中有清防蠟時間,但卻沒有加藥量和藥劑類型;措施后的油井數據中有措施名稱和新換管柱數據,但卻沒有措施后地面設備數據。上述情況下都會導致系統信息的不確定性,降低數據挖掘結果的可靠性。因此必須加以過濾或修改。
不同油田、不同油井、不同時間內記錄的數據很可能存在單位上的不同;即使使用的是同一單位,其計量標準可能也會不同。例如,油井的油套壓數據在記錄時,有的是用MPa 作單位,有的卻是用atm 作單位;油井的動液面數據有的是以方補心為標準計量,有的數據卻是以井口位置為標準計量;等等。為使數據能夠進行縱向、橫向的比較,需要把計量標準、數據單位等進行全面統一。將統一后的結果進行整理,以便查閱和使用。
石油生產中有很多一事多名的現象。例如,油層套管和生產套管在很多情況下混用;油層壓力、地層壓力、油藏壓力在很多表述中是同一個壓力;流壓、井底流動壓力、流動壓力在很多情況下是同一處的壓力,有時卻是折算出的不同點的壓力;等等。在數據庫的建立過程中,會出現大量的類似數據,需要設定統一的使用規范和名稱,以保證數據的完整有效。需要將統一后的結果進行整理和文檔化,以便查閱和使用。
在石油生產中,即便是同一家廠商的產品,在不同時間、不同生產單位的支出也是不同的。為了獲得較為客觀的數據挖掘結果,對所有產品、設備及作業費用等設定一個具體數據;而這些數據也是數據庫中的一部分。這樣既避免了因設備費用差別而引起的方案優選問題,還可以利用數據挖掘獲得企業在不同設備上的支出費用分析。
通過數據的預處理過程,數據庫中的數據成為統一標準的、無噪聲的數據。此后即可采用數據挖掘系統中的挖掘算法對相關問題進行知識和信息發掘。
[1]王學軍,田乃林,高書香.斜井抽油相關數據的處理方法[J].油氣田地面工程,2011(6):3 -4.
[2]唐笑林.數據挖掘技術的研究與應用[J].華東理工大學學報(自然科學版),2008(4):290 -295.
[3]王學軍,田乃林.斜井有桿泵抽油參數系統中的數據庫設計[J].油氣田地面工程,2011(3):81 -82.
[4]高書香,王學軍.抽油機井桿管偏磨因素分析[J].油氣田地面工程,2010(10):52 -53.