文|詹勝 楊先睿 曹湘華
石油鉆井行業建立數據集成系統是鉆井信息化發展的必然趨勢,而鉆井工程設計文檔是其重要組成部分。文檔識別作為一種新興的科學研究項目,有著廣泛的應用前景,隨著計算機技術的更新發展,其科學研究價值越發凸顯。本文將對基于機器學習的鉆井工程設計文檔的識別及數據集成系統的搭建作詳細探討和總結。
由于計算機技術飛速發展和信息系統的普遍應用,越來越多的用戶為了便于文檔的讀取與轉發,以數字文檔逐步代替傳統文檔。但由此產生的數據安全、數據融合問題也隨之凸顯。
為提高長慶鉆井總公司鉆井工程設計文檔的數字化、自動化程度。提高鉆井工程數據利用程度,保證數據的準確性,同時保障石油鉆井數據信息安全,我司利用人工智能算法實現了鉆井工程設計文檔的自動識別,并建設了鉆井隊、項目部、總部機關及甲方鉆井工程設計數據平臺。
目前長慶鉆井總公司常規井的鉆井工程設計是利用Witch軟件和Dxj實用定向井程序以及建設方鉆井地質設計完成的,由于Dxj實用定向井程序是2000年前編寫的軟件,效率低,速度慢,已經無法滿足長慶鉆井工程設計的需求;鉆井工程設計的井基本數據、地層數據不能和川慶一體化平臺系統融合,井隊技術員需要重復錄入,并且保證不了數據的一致性;鉆井隊獲得鉆井工程設計數據和鉆井地質設計基本上通過中油即時通和其它工具傳送的,信息安全得不到保障。
同時,為增強長慶鉆井總公司工程類軟件的自主創新能力與自主研發能力,響應集團公司數字化轉型,智能化發展的號召,需要實施基于機器學習的鉆井工程設計文檔識別及數據集成系統研究。
鉆井工程設計文檔急需解決的問題有:第一,對不同類型的鉆井地質文件和鉆井工程設計文檔,建立數據模型,通過機器學習進行訓練,識別文檔;第二,把識別的鈷井基本數據和鉆井地質進行保存;第三,與川慶EISS系統數據集成。基于以上情況,提出以下建設思路:
構建鉆井地質數據和鉆井工程設計數據并行智能處理模型,依托長慶區域大量的鉆井地質和工程設計數據,利用人工智能,機器深度學習技術,完成鉆地質設計和工程設計的快速識別和自動入庫,實現鉆井隊、項目部和建設方的鉆井地質數據共享;利用長慶鉆井總公司已有的軟硬件平臺完成鉆井工程設計數據和川慶一體化的集成,最終在川慶公司實現鉆井作業設計數據的智能集成,實現鉆井隊鉆井設計數據自動錄入新模式。
基于機器學習的鉆井工程設計文檔識別及數據集成系統研究內容主要分為以下四個部分:
第一,鉆井地質設計和工程設計文檔的智能識別技術研究;第二,鉆井工程設計井基本數據和鉆井地層數據自動生成系統的研究;第三,鉆井隊、項目部和建設方的鉆井設計數據的集成研究;第四,鉆井工程設計數據和川慶一體化數據庫的集成研究。
該項目包括搭建智能模型;實現鉆井工程設計和井地質設計文檔的識別;實現井基本數據和井地層數據入庫;完成該系統和川慶一體化系統的集成等四個主要功能部分。
搭建系統模型模塊包括樣本文檔的收集、智能模型的訓練以及決策樹的生成等;鉆井工程設計和井地質設計文檔的識別模塊包括文檔的讀入,任務的調試和結果的輸出等;井基本數據和井地層數據入庫模塊包含鉆井工程設計數據的自動入庫以及對數據的校對和修改等;完成該系統和川慶一體化系統的集成模塊包括編寫對應的接口程序、井隊井史鉆井設計數據的導出以及一體化平臺數據庫內數據的導入等。
項目結構圖如圖1所示。

圖1 項目結構圖
利用人工智能技術,通過學習大量樣本搭建智能模型,將待識別的未知樣本輸入虛擬沙箱以捕獲動作行為;將動作行為傳遞到任務調度子系統以對它們進行定位,并統計其中的動作行為特征值,以構造動作行為向量;將行為向量帶入決策樹從根節點開始搜索,最后得出葉子節點,而這個葉子就是所判斷出的樣本。基于決策樹算法的識別流程如圖2 所示。

圖2 決策樹算法流程圖
基于機器學習識別子系統主要對已知鉆井地質數據和鉆井工程設計數據文檔訓練,提取行為特征并構建決策樹規則,基于訓練的決策樹規則對未知鉆井地質數據和鉆井工程設計數據樣本進行匹配和識別。
基于機器學習識別子系統主要針對已有鉆井地質數據和鉆井工程設計數據文檔進行學習訓練,從而總結出決策模型,再根據得到的決策模型對未知的鉆井地質數據和鉆井工程設計數據樣本進行匹配和識別。
1.系統架構
本系統開發使用的是Microsoft Windows10版本的操作系統;使用Java語言進行編程,JDKl.8作為開發環境;采用IntelliJ IDEA作為java開發集成環境;后臺數據庫采用mysql數據庫管理系統;使用Navicat數據庫管理工具;Tomcat作為Web服務器;采用B/S模式下的MVC架構。
基于機器學習識別子系統以MVC模型進行研究,分別是表示層、業務邏輯層、以及數據庫訪問層。三層架構就是將整個業務應用劃分為:表現層、業務邏輯層以及數據訪問層。區分層次的目的是為了達到“高內聚、低耦合的”的要求。
基于機器學習的鉆井地質數據和鉆井工程設計數據文檔識別工具系統架構如圖3所示。

圖3 系統架構圖
2.處理流程
基于機器學習的鉆井地質數據分析和鉆井工程設計數據文檔識別工具處理過程為:
(1)被檢測的樣本文件經由前端可視化子系統的上傳接口上傳到后臺;
(2)任務調度子系統接收被檢測的數據文檔,采用magic方式識別出被檢測文件格式;通過標識出來的文件格式確定數據打開執行方式,并打包為ISO形式;
(3)恢復虛擬機快照,將被檢測樣本通過CD掛載到虛擬機中并運行;
(4)虛擬沙箱動作捕捉子系統將捕捉的動態行為發送到機器學習識別子系統;
(5)機器學習識別子系統基于人工智能算法對用戶行為進行整理分類然后送入決策樹,在決策樹中通過算法分析處理并寫入數據庫;
(6)最終結果統一呈現在前端可視化子系統中。
實現井基本數據和井地層數據入庫,建立井基本數據庫和井地層數據庫主要是把在文檔中識別過的井基本數據和地層數據讀入到本地數據庫,并進行校正; 需要在后端建立數據庫,對即將導入的數據信息進行分類建立對應的數據庫表,完成井基本數據和井地層數據入庫;
其次,在批量導入數據時,很容易發生信息丟失或數據不完成的情況,所以進行數據校對工作非常重要。為防止以上情況發生,本系統設計了雙重保護功能,即在遷移前先分批運行數據庫中各個表的條數并直接輸出到文本中。待遷移完成后,再批量執行數據庫中每個表的條數輸出到文本中。然后使用Beyond Compare 對比工具。因為輸出順序一致,文本前后完全相同,因此安全性大大提高。
管理員把修改好的鉆井工程設計數據讀入到一體化平臺數據,本平臺進行了系統優化,編寫了接口程序,鉆井隊技術員不用再在井史數據庫中錄入鉆井工程設計數據了,只需要利用接口直接調用一體化平臺數據庫中的設計數據,大大節省了時間成本和技術成本。
該項目通過應用人工智能、機器學習等技術智能識別鉆井工程數據,將數據提取后自動寫入公司井史數據庫,準確率可達98%以上,有效提升公司鉆井井史導入的可靠性。系統的建立和數據集成有效輔助了鉆井技術人員編寫井史,降低了技術人員勞動強度,也提高了工作效率和井史準確率,形成了鉆井工程設計文檔識別及數據集成操作規范。
該項目的推廣應用不僅用于長慶鉆井總公司的井隊井史編寫,同時還可用于作業隊的施工指導,降低作業成本。同時提高了各個作業隊伍的鉆井效率,降低了作業隊整體井史編寫成本,為公司的降本增效做出很大貢獻。