阮 杰
(中國石油大港油田信息中心,天津 300280)
本文基于大港油田公司多年來積累的大量井筒專業數據及生產數據,在正常和套損井構成的大量數據樣本中,利用大數據技術了解大港油田套損井分布、套損井發生規律、套損井主控因素,進而預測套損井發生概率,為油田公司套損井的防治工作提供建議和指導,以更好的實現對套損井的防治。
數據挖掘是大數據技術數據分析、處理的核心,是規律發現及預測的主要技術,隨著科技的發展,數據挖掘不再僅僅依賴在線分析等傳統的分析方法。它結合了多種學科知識,并把這些復雜的技術封裝起來,使人們不用自己掌握這些技術也能完成同樣的功能,從而更專注于自己所要解決的問題。通過數據挖掘分析軟件,可以高度自動化地分析數據,做出歸納性的推理,從海量數據中挖掘出潛在的、有價值的知識、模型或規則,并對未來情況進行預測,以輔助決策者評估風險、做出正確的決策。
大數據挖掘技術相比于傳統的數據挖掘分析,具有數據量大、查詢分析復雜等特點,大數據與云計算密不可分。大數據技術的戰略意義不在于掌握龐大的數據信息,而在于掌握對這些含有意義的數據進行專業化處理的技術。
大數據的特色在于對海量數據進行分布式數據挖掘,它必須依托互聯網的云服務進行分布式處理、分布式數據庫和云存儲等。如果把大數據比作一種產業,那么這種產業實現盈利的關鍵是提高對海量數據的“加工能力”。簡單地說,大數據技術就是從各種各樣類型的數據海洋中,快速獲得有價值信息的能力。
為探討大數據技術在油田企業套損井防治中的研究和應用,我們選擇了大港油田港西油田套損井開展了具體研究,主要思路和過程如圖1所示:

圖1 大數據技術實現套損井防治主要思路和過程
通過各個環節的遞進,明確多因素情況下,港西油田套損井發生的主要因素,實現對套損井發生情況的預測,明確主控有針對的開展相關防護工作,實現對套損井防治。
根據分析的主題,我們對港西油田各類單井的砂巖段小層數據、射孔數據、套管數據進行了整理實現近千口井、五千余條數據的整理。
在上述數據的基礎上,我們開展了基于巖性、井筒名義壽命、鋼級、套損位置深度等單因素的分析及數據樣本的分析和擬合。根據相關數據,我們擬合出了套損部位名義壽命在不同巖性中的概率密度曲線,橫軸為名義壽命,縱軸為名義壽命對應的概率密度值。

圖2 套損井巖性、名義壽命分布擬合曲線
如圖2可看出,對于這四種巖性類別,名義壽命的峰值都在2500天左右,概率密度在1到2×1014范圍內通過對套損位置深度的概率密度分析,擬合出的套損位置深度在不同巖性中的概率密度曲線,橫軸為套損位置深度,縱軸為套損位置深度對應的概率密度值。

圖3 套損位置深度、套損位置巖性分布擬合曲線
在圖3這四種巖性類別中,沙泥界面的套損位置深度有明顯的峰值,在2000米左右,近似于正態分布,其峰值介于0.0015和0.0010之間,表明沙泥界面巖性中發生套損的深度多為2000米左右。
通過以上因素的共同考慮,對名義壽命、套損位置深度、套損位置巖性因素進行散點圖的繪制,并擬合曲線,如圖4所示:

圖4 名義壽命、套損位置深度、套損位置巖性散點分布圖
根據散點圖可以看出數據主要分布在深度小于3000米名義壽命小于10000天的范圍,根據散點圖,使用stat_smooth()平滑函數擬合出曲線圖如下:由此可見,對于套損位置巖性為砂巖和其他類型的情況,樣本的套損發生位置深度隨名義壽命的增加而遞減;對于套損位置巖性為泥巖和泥沙界面的情況,在名義壽命隨深度增加程總體遞減,但在遞減過程中,均出現先增后減的情況。

圖5 根據散點圖擬合出的曲線
在規律分析的基礎上,基于R語言我們開展了基于機器學習的數據挖掘模型的構建。首先我們開展了相應的數據清洗,數據清洗的主要目的是去除去缺失的觀測(沒有進行插補,因為數據量夠用),把因變量進行因子化,在清理完成之后,通過分層隨機抽樣對對樣本進行了分類和分組。

圖6
考慮到量綱的影響,進一步對數值型變量進行標準正態scale標準化處理,以確保所有數據在統一的量綱下進行分析和應用。反復比較數據的抽樣及分類特征發現,套損井主控因素的研究模型建立宜采用“隨機森林”的方法建模分析和特征提取,在基于隨機森林算法進行特征提取的過程中,為增強結果的可靠性,引入十折交叉驗證方式算法(ten-foldcross validation)。
通過模型的構建,利用分層隨機抽樣的方式,分別隨機選取25%的樣本構成測試集,75%的樣本構成訓練集。通過十次10折交叉驗證,其精度都在98%以上,說明模型的預測精度較高。隨后,模型針對之前輸入的各種特征變量給出了影響港西油田套損井發生的4個重要特征,即為鋼級、砂層厚度、水泥返深、滲透率。
基于該算法構建的模型,我們隨機抽了了大港油田港西油田21組數據進行相關的驗證,通過模型的運算得到結果與實際情況基本吻合,進而驗證了模型的基本可用性,也為該模型的正式應用奠定了基礎。通過該模型的研究,可以快速的針對特定區塊進行套損井主控因素的發現,為專業研究人員提供了基礎的套損井發生因素的說明,針對相應的主控因素可以快速的開展有針對的措施應對,以防止或延緩套損井情況的發生,以確保生產的平穩、有序開展。
本文基于油田生產過程中套損井防治的場景,利用大數據技術進行相關機理的研究,對大數據技術的具體應用進行詳細的了解和應用,實現了大數據技術在油田套損井防治中的應用,為后續的深入應用奠定了堅實的基礎。