張 鑫,高旺雄,杜永波,張奎峰
(西安石油大學,陜西 西安 710065)
關鍵字:大數據;油田開采;數據挖掘;數字油田;智慧油田
數字油田到智慧油田的轉變,是時代發展的新趨勢,也是油田發展新的突破點。智慧油田中會產生海量的數據,這些數據體量巨大,種類龐雜,價值密度低。采用傳統的數據分析方法已經無法解決這些復雜的數據,如何有效的利用這些數據資源,提高油田的效益,已經成為油田的迫切需求[1]。只有數據挖掘技術可以解決這個問題。
數據挖掘技術就是從實際生產時產生的大量復雜無序的數據中挖掘出隱藏的、空前未知的、對決策決定有實際意義的關系、模式和趨勢,并利用所挖掘出來的知識和規則建立支持決策的模型,提供預測性決策支持的方法、工具和過程。數據挖掘技術既可以揭示已知的事實,又可以預測未知的結果[2]。
傳統的數據分析是對已知的數據范圍中好理解的數據進行分析,是建立在關系數據模型之上分析,主題之間的關系在系統內已經被創立,而分析也在此基礎上進行。而數據挖掘最大的優點就是針對傳統手段捕捉到數據之外的非結構化數據,這意味著數據挖掘不能保證輸入數據是完整的,被清洗過的,沒有任何錯誤的。數據挖掘得到的知識更具有未先知性、有效性。
一個數據挖掘項目包括六個階段:業務理解、數據理解、數據準備、建模、評估、部署[3]。業務理解即確定數據挖掘的目標。數據理解主要包含三個方面:首先是有關需要解決問題的明確定義,其次是對有關數據的了解,最后是數據挖掘結果對業務作用效力的預測。數據準備是數據挖掘的基礎,所以足夠、豐富、高質量的數據對數據挖掘結果至關重要。數據準備包括:數據的選擇、數據的質量分析和數據的預處理三個環節。建模即決策模型的建立,在這一步要確定具體的數據挖掘模型,并用這個模型原型訓練出模型的參數,得到具體的決策模型形式。這些模型算法包括:聚類、關聯、分類、回歸、預測和診斷。模型評估即檢驗一個模型的好壞,模型的預測精度是檢驗模型好壞的重要指標,但不是唯一指標,其指標還有LIFT、ROC、Gain圖等。模型的部署是數據挖掘的最后一個步驟,模型通過評估后,將其部署到實際的業務系統中,這樣就可以應用數據挖掘知識來提高企業的效益。
油田生產中,產生的數據類型多種多樣,數據規模十分龐大,原有的數據存儲技術已經遠遠不能滿足不斷增加的數據量的需求,只有建立油田開采數據倉庫可解決這一問題。
隨著油田開采數據大幅增長,隨之會出現很多數據重復、數據之間關聯程度低、信息孤島等問題。數據挖掘技術可解決這一問題,將分散的資源集中,將無序的數據整理有序。
油田開采數據倉庫主要包括三部分:油田開采源數據、數據存儲倉庫和數據應用部分。第一個部分是油田原始數據源,該部分存放著大量的油田開采數據,這部分數據無任何更改,直接沿用外圍系統數據結構和數據,不對外開放,為臨時存儲層,為后一步數據處理做準備;第二個部分是數據存儲倉庫,數據存儲倉庫的油田開采數據是一致的、精確的、干凈的數據,是對源數據進行了清洗后的油田開采數據;第三部分是數據應用部分,該部分是前端應用直接可以讀取的油田開采數據,是根據報表、專題分析需求而計算生成的數據。
1)調整油井開采制度
低滲透油田及常規油田開發中后期會出現油井壓力不足、油井不能連續出油的情況,使得抽油泵不同程度的存在嚴重空抽或充滿度不足的現象,這不僅造成了油田產能低下,而且會造成抽油機、抽油桿、抽油泵的無效磨損和電能的極大浪費[3]。常規的處理方法是:基于單一參數計算動液面高度,根據動液面高度變化確定間歇采油制度。但單一參數計算的動液面高度,極其依賴于原始參數的數據準確性,同時基于單參數確定的動液面高度誤差率也比較高。調用油田開采數據倉庫的數據,基于數據挖掘方法,對影響動液面高度的眾參數進行灰色關聯分析,計算各參數與動液面的相關度排名,繼而選擇出影響動液面的主因子,利用多個參數建立計算動液面高度模型。基于數據挖掘方法的多參數計算動液面模型,可有效提高間歇采油制度的精確性,從而降低抽油機、抽油桿、抽油泵的無效磨損,減少電能的浪費,提高油田的效益。
2)油田機械故障預測
油田機械故障,一方面增加了油田的開采成本,另一方面大大影響了油田的生產效率,如何提前預測油田機械故障,在故障發生前,提前維修或更換設備,從而避免機械故障對油田生產的影響,以往的方法是不具備故障提前預測的,數據挖掘技術可以實現油田機械的提前預測。調用油田開采數據倉庫的數據,基于數據挖掘方法,利用關聯規則算法挖掘初始數據,獲取表征機械運行狀態的關聯規則,然后計算故障種類和故障征兆、關聯規則和故障征兆之間的關聯關系,確定其權重系數,建立預測油井機械故障模型;最后,利用實時監測關聯規則組的變化趨勢,進行油井機械的故障預測。
3)預測結蠟
溶有有石蠟的原油,在開采過程中,隨著溫度、壓力的降低,溶解的石蠟會以結晶形式體析出、長大聚集和沉積在管壁等固相表面上[4]。油井結蠟增加了原油的流動阻力,影響抽油設備的正常工作。因此,防蠟是含蠟原油開采中需要解決的重要問題。化學防蠟是最有效的防蠟方法,化學防蠟是通過向井筒中加入化學防蠟劑,防蠟劑在井筒流體中溶解后達到防蠟的目的,但何時向井筒加入防蠟劑,是無法精確確定的,數據挖掘技術可精確確定加防蠟劑時間。調用油田開采數據倉庫的數據,基于數據挖掘方法,對影響結蠟的因素進行相關性分析,篩選出影響結蠟的主因子,然后對各主因子進行相關性分析,選擇相關性不大的主因子,棄掉相關性大的主因子。然后基于神經網絡算法建立多因子預測油井結蠟的模型。通過該模型就可以得到油井的結蠟趨勢,在油井結蠟前加入化學防蠟劑,可有效防止結蠟問題,提高油田產量。
4)油田產量預測
在油田生產中,對油田產量的精準預測是油田工作者的重要研究內容之一[6]。傳統的預測方法,由于這些方法的預測原理和應用條件各不相同,在油田生產中會產生大量復雜的數據,這些方法在預測油田產量時,會表現出各自的局限性,不能準確的預測油田的產量。調用油田開采數據倉庫的數據,基于數據挖掘方法,首先對影響產量的各個因素與產量之間做灰色關聯分析,對其關聯度進行排名,剔除關聯度小的影響因素,篩選出影響產量的主因子,再基于時間序列分析方法預測影響產量主因子的基本生產數據,最后通過Adaboost神經網絡建立預測油田產量的模型。基于數據挖掘技術的預測油田產量模型可有效適應油田生產數據復雜多變這一狀況。大大提高了油田產量預測的精度。
5)油田注水決策
常規油田開發中后期,會出現油井壓力不足的問題,油井產量超低,油井注水可有效解決這一問題。隨著智慧油田的建設,油田注水開采過程中已經累計了海量的生產數據,這些數據體量巨大、種類繁多、結構復雜,傳統的分析方法對于處理這些數據已經力不從心,此時數據挖掘方法就顯得尤為重要。首先選取注水單耗為目標參數,分析其與注水生產中其他參數的關聯度,篩選出與注水單耗關聯度最高的生產參數,然后改善其篩選出來的參數來降低注水能耗。運用ARIMA模型對注水系統中的主要參數進行未來趨勢預測,然后根據設定這些參數的上限值來建立預警機制,當預測值超過上限值時,提醒工作人員應該調整注水制度。
與傳統的分析方法相比,數據挖掘方法可有效解決智慧油田數據難處理的問題。油田開采過程中數據挖掘技術的應用可大大降低油田的開采成本,提高油田的開采效率,進而提高油田的效益。數據挖掘技術的使用是數字油田到智慧油田轉變的最重要一環。