馬慶 吳運馳


摘要:復合驅是油田開發后期提高采收率的重要手段,準確預測復合驅井結垢規律,能夠有效提高油井產能,降低作業成本。通過機器學習技術分析油井離子數據和作業數據,得到了較為準確的結垢作業預測模型,為提前采取防垢措施提供了決策依據。
關鍵詞:機器學習;復合驅;結垢;預測;人工智能
中圖分類號:TP18? ? ? ?文獻標識碼:A
文章編號:1009-3044(2019)27-0198-02
Abstract: Composite flooding is an important means to improve oil recovery in the later stage of oilfield development. Accurate prediction of scaling regularity of composite flooding wells can effectively improve oil well productivity and reduce operating costs. Through the analysis of ion data and operation data of oil wells by machine learning technology, a more accurate prediction model of scaling operation is obtained, which provides decision-making basis for taking anti-scaling measures in advance.
Key words:Machine Learning; Compound Flooding; Scaling; Prediction; Artificial Intelligence
1 背景
隨著人工智能,大數據,物聯網等技術的飛速發展,圖像識別,語音識別,自然語言處理,自動駕駛等領域有了突破性的進展。而傳統工業領域在過去的幾十年通過信息技術的不斷深入應用,同樣積累了大量歷史數據,通過將人工智能領域的機器學習,深度學習算法應用在工業領域,尋找歷史數據中的價值,發現未知的規律或模型,預測并指導未來發展,是企業未來的重要發展方向。
在石油領域,復合驅是油田開發后期提高采收率的重要手段之一,然而復合驅化學藥劑的使用,通常伴隨著地層化學結構的改變,從而導致不同的化學物質結合形成垢質,導致油井堵塞、卡泵,阻礙油井工作,降低油井產能,而后對結垢井的解垢措施又需要投入人力物力。油井結垢對油田效益產生極大的不良影響。如果能夠通過檢測油井狀態,預測到結垢情況的發生,提前采取防垢措施,便能大大降低每口油井的維護成本。
2 當前結垢預測方法的不足
現有的結垢預測方法,通常采用采出液離子濃度監測,結合實驗室化學反應實驗結果,給出實驗模擬的反應模型從而預測實際井下結垢情況。該方法存在的問題有:
1)實驗室無法模擬井下的所有情況甚至大部分情況,井下的溫度、壓力、巖性、化學成分無法在實驗室中完全模擬,而這些因素偏差的組合可能導致實際情況與實驗情況的偏差增大;
2)化學實驗為了排除干擾,通常會控制變量,采用少數幾種物質參與反應,而對多種物質參與的復雜反應難以模擬和解釋;
以上問題可能導致實驗模擬結果,由于實際地層的個性化原因,出現較大的誤差,給出的模型通常需要在不同的地層、區塊上調整參數,給出不同的模型或圖板,而個性化參數的選擇和圖板的制作,通常需要對相應地層、區塊有足夠了解的研究人員輔助完成。
3 機器學習的優勢
以上的問題并非該領域的個性化問題,而是人工智能領域稱之為專家系統的普遍問題,即:專家無法獲取并處理關于問題的全部信息,且解決方案部分依賴于專家經驗。越是復雜,牽扯因素多的問題,專家系統的局限性越明顯。而機器學習,深度學習算法的引入,能夠借助計算機的存儲和算力優勢,采集和處理超過人腦容量的數據,從而在更高的維度上建立模型,彌補專家系統的短板,最終給出包含參數更多的,不受主觀因素影響的復雜模型,輔助分析和決策。
4 結垢預測的實現
4.1數據采集
數據集的大小和質量能夠顯著影響最終模型的準確性。歸功于油田多年的信息化建設,各類管理信息系統中保存著大量油井基礎信息、地層信息、生產動態、措施信息,且包含大量的結構化數據,這為數據采集提供了很大的便利。而獲取難度主要在于信息孤島問題,不同區塊的數據以多種形式存在于不同的信息系統,需要從不同的數據庫中抽取并整合為統一格式。本次分析主要提取了某幾個區塊復合驅井生產動態中的離子濃度數據和作業數據作為數據集樣本。
4.2數據處理
獲取到分析所需的足夠數據之后,需要對其進行處理,以滿足后續算法輸入的需要。特征工程是這個環節最重要的步驟,選取合適的參數能夠有效降低數據維度,從而降低對存儲和算力的要求,同時能夠顯著提高部分算法的效率。特征工程可以由人工經驗選取,即人類專家判斷根據指定的參數級能否預測出結果,也可以通過計算參數間的相關性,提取相關性較高的參數集給出。這里通過計算參數與預測值之間的皮爾遜系數,最終選取了聚合物濃度,礦化度,ph值,鉀鈉離子,碳酸根離子等11項參數作為模型的輸入參數。而是否結垢,使用作業數據中,是否在測量離子數據后發生洗井、卡泵、見垢等情況作為判斷條件。選取“天數”=“作業時間”-“測量時間”作為預測的y1值,并將其二值化處理形成y2。即y1為測量后y1天結垢作業, y2為測量后是否發生結垢作業。由于數據中存在大量缺失值和0值,主要采取刪除缺失值較多的樣本和參數,和使用均值補充的形式處理,最終從5.8萬條數據中選取2千條樣本的子集。
4.3算法選擇
在第二部數據處理中,最終取得了數據質量較好的兩千口井的數據作為數據樣本,由于樣本容量較小,使用機器學習算法預計即可得到較好的效果。而深度學習模型在小樣本集上可能會學到數據集獨有的特性產生過擬合,影響模型的泛化度。
機器學習算法,根據預測結果是連續值還是離散值,可以分為回歸算法和分類算法。在上一步數據處理中,y1是天數的連續值,y2是0和1的離散值。因此預測y1選擇回歸模型,預測y2選擇分類模型。
4.4結果驗證
通過嘗試使用線性回歸,邏輯回歸,隨機森林,決策樹,樸素貝葉斯等機器算法預測,y1在測試集的最高準確率約30%,通過相關性分析,該連續值與參數相關性普遍低于0.2,即很難通過現有的數據集預測多少天后發生結垢作業。通過業務情況分析原因,作業通常發生在結垢情況之后,而作業時通常已經結垢一段時間,且作業時間受人為因素影響比較大,存在結垢很久的井并未進行作業,和結垢并不嚴重時即開展作業的情況,因此對天數的預測并不準確。
通過使用機器學習的分類算法預測y2,即測量后是否發生結垢作業。普遍可以達到97%以上的準確率,即通過測量現有的參數,能夠準確預測未來是否發生了結垢作業,其中線性分類KDA算法達到了99.3%的準確率,在測試集104口井的數據中成功預測出了55口結垢作業井(實際56口)。
4.5迭代優化
使用機器學習的分類算法,需要在生成結果后,分析結果好或不好的原因,返回數據采集、處理、模型選擇、模型調參等各個階段迭代優化,最終得到滿意的模型。在本次分析中的主要迭代有兩次:
1)在使用回歸模型發現預測結果不理想(30%左右),且通過模型選擇和參數調優等方法均難以進一步提高時,分析為該預測值本身的誤差導致難以預測時,對預測值進行二值化處理,放棄預測準確的時間,退而選擇預測是否發生結垢作業。
2)在使用分類模型預測時,前期即得到了訓練集準確率100%,驗證集準確率97%的結果,但通過觀察預測值的分布時發現,由于樣本的非對稱性,正樣本(即發生結垢作業的樣本)僅占總樣本的12%,負樣本占樣本集的大多數,因此模型將大多數結果預測成負樣本,從而以“作弊”的方式得到準確率很高的假象。為了防止非對稱性導致的預測模型偏差,返回數據處理階段,隨機刪除負樣本,僅保留全部256條正樣本和與之相當的264條負樣本,得到520行的樣本集。而該對樣本集的訓練建模及優化,最終測試集準確率達到了99%。
5 總結
通過將機器學習算法用于油井復合驅的離子數據,成功建立了準確率較高的分類預測模型,該模型能夠根據測量到的離子數據預測未來是否會發生結垢作業,從而能夠提前采取防垢措施,降低結垢對油井產能產生的負面影響。
該成果同樣證明了,在缺乏足夠背景知識和專家經驗的條件下,通過現有數據和人工智能算法的結合,得到準確率較高的模型的可行性??v向上,隨著對樣本參數和算法理解的深入,準確率能夠進一步提高。橫向上,該方法也能夠拓展到其他工業領域給出模型,輔助專業人員分析決策。
參考文獻:
[1] 伊恩,約書亞,亞倫. 深度學習[M].北京:人民郵電出版社,2017:20-56.
[2] 基恩霍爾韋德. 油氣大數據分析利用[M].北京:石油工業出版社,2017:113-140.
[3] 周志華.機器學習[M].北京:清華大學出版社,2016:30-91.
[4] 焦李承,趙進,楊淑媛,等. 深度學習優化與識別[M].北京:清華大學出版社,2017:77-86.
[5] 高清河.強堿三元復合驅成垢及化學控制技術研究[D].大慶:東北石油大學,2013.
[6] 陸斌.油田井筒結垢原因及防阻垢技術淺析[J].內蒙古石油化工,2011(7):43-45.
【通聯編輯:唐一東】