賈世宇+郭根旺+張曉燕
[摘 要]數據集成是勘探開發數據整合的重要環節,如何根據實際情況設計適用的數據集成模式,是數據集成工作順利開展的前提。本文介紹了油田勘探開發數據的發展和數據集成的必要性,重點論述了油田勘探開發數據集成的建設思路,闡述了當前流行的集成模式,描述了適用華北油田的勘探開發數據集成模式、集成步驟、集成規則與需要使用的集成工具。
[關鍵詞]數據集成;油田;集成模式
doi:10.3969/j.issn.1673 - 0194.2017.08.033
[中圖分類號]TP391 [文獻標識碼]A [文章編號]1673-0194(2017)08-00-02
0 引 言
隨著油田的數據建設,越來越多的系統應運而生,但隨之也帶來了越來越突出的“數據孤島”問題。隨著各油田信息化應用的不斷深入和“數字油田”“智能油田”的建設,數據交互的需求日益強烈,急切需要對已有的數據進行整合,解決“數據孤島”問題,共享數據。
因此,通過數據集成技術實現油田勘探開發數據的整合,達到勘探開發數據的相互關聯,對油田開發過程數據資產的利用具有重要意義。
1 油田勘探開發數據的發展
伴隨著信息技術的日新月異,華北油田勘探開發數據的發展也經歷了從無到有、從紙質資料到電子化資料、從數據表到數據庫、再從數據庫到“資源池”的過程。
1.1 數據標準及模型的發展
華北油田信息建設初期,勘探開發數據沒有統一的標準及模型,各油田科研、生產單位按照自己的工作與使用習慣設計表格或數據庫存儲所需數據,導致油田數據標準不一致與不規范、數據模型差異大;中石油1991版勘探開發數據標準及模型的發布,在勘探開發專業范圍內規范了數據標準,初步根據業務對數據進行了分類,初步認識到數據之間存在一定的邏輯關系,為油田各單位提供了權威的、可操作的數據標準及模型;隨著應用的深入,之后又發布中石油1997版及2002版勘探開發數據標準及模型,數據模型在業務流程分析的基礎上進行設計,且注重源頭數據,實現了勘探開發一體化,數據之間的邏輯關系更加準確完善,使油田各單位的數據標準及模型逐漸統一;但隨著石油技術的迅猛發展,新數據類型的出現、舊數據類型的變更,導致各單位不得不在標準上進行擴充和修改,數據標準及模型又呈現出多樣化;隨著中石油A1系統、A2系統的推廣實施,華北油田通過對業務流程的分析,參照POSC業務流程進行設計,發布了EPDM 1.0數據模型標準,數據的完整性得到了加強,更加準確地描述了油氣勘探開發的實體和相互關系,更加易于擴展和維護。
目前,華北油田數據庫使用的標準及模型主要有中石油1997版勘探開發數據標準及模型、EPDM標準及模型。
1.2 數據庫的升級及其歷史數據的遷移
華北油田存儲勘探開發數據的一系列數據庫從最初建設的DBF數據庫,發展到目前使用的Oracle數據庫。
華北油田勘探開發歷史數據的主要遷移過程是專業庫數據、電子文檔等遷移至A1數據庫,各廠開發數據庫數據遷移至A2數據庫。
1.3 成果數據的產生與存儲
科研人員通過對勘探開發數據的使用與分析,會產生個人或集體的研究成果數據。這些數據往往存儲在個人的硬盤中,無法分享。成果數據的分享可有效降低研究中的重復工作量,科研人員繼承前人成果,可提高研究效率。因此,成果數據的集成也是勘探開發數據集成的重要組成部分。
2 數據集成的建設思路
2.1 數據集成的范圍
在數據集成的過程中,需要根據需求和數據管理現狀,采取最合適的辦法。
華北油田勘探開發數據主要是為了滿足各種應用系統的需要,目前針對勘探開發數據的主要應用系統有中國石油天然氣集團公司統建的油氣水井生產數據管理系統(A2)、勘探與生產技術數據管理系統(A1)等以及華北油田自建的相關應用系統,涉及的專業包括物化探、鉆井、錄井、測井、試油測試、分析化驗以及油氣生產數據等,相關的數據標準及模型主要有中石油1997版勘探開發數據標準及模型、EPDM標準及模型以及少量特殊應用自建的數據標準,結構化數據存儲主要是以Oracle數據庫為主,非結構化數據主要以文件形式保存,其格式多種多樣,如Word、Excel、txt等。
2.2 數據集成的模式及選取
2.2.1 數據集成的模式
在企業數據集成領域,已經有了很多成熟的框架可以利用。目前,華北油田通常采用聯邦式、基于中間件模型和數據倉庫等方法來構造集成的系統,這些技術在不同的側重點和應用上解決數據共享和為企業提供決策支持。
2.2.2 數據集成模式的選取
數據集成模式的選取,需要根據數據應用的需求和現有的管理情況而確定。目前,華北油田勘探開發數據絕大部分數據是集中存放的,數據標準主要是中石油1997版勘探開發數據標準、EPDM標準,同時考慮本油田的特色應用需求,暫不采取全部數據整合到一套標準中,又考慮到勘探開發數據的特殊性,因此采用聯邦數據庫系統和中間件的混合模式。基于模式的選擇,確定實現集成的步驟。
(1)核心庫的建立:建立基本實體(井、井筒、地質單元等)數據庫,作為所有數據庫基本實體的唯一來源,保證數據庫體系數據中基本實體的一致。
(2)數據模型管理:對華北油田97模型、EPDM模型及自建系統特殊模型的管理。
(3)數據同步:實現基本實體數據和專業數據在不同數據庫之間的及時更新和一致。
(4)數據遷移:把應用可移植或可被替代的數據庫數據,遷移到相同標準的、數據范圍更大的數據庫中。
2.3 制定數據集成規則
設計數據集成邏輯就是為了確定數據是怎樣實現集成的,這是實現數據集成的核心工作,需要從以下幾個方面進行。
2.3.1 進行數據模型比對
對于標準化的數據項,進行比較。這種比較需要依據數據表設計的原則和專業劃分的不同,可能存在一對一數據表進行對比,也可能會是多對一、一對多或者多對多的對比。
2.3.2 基本實體的統一
對不同標準、不同數據庫中的基本實體數據進行統一的規范,包括井號簡寫字的規范,如:【莫】修改為【鄚】,【壩】修改為【霸】等;名稱統一,地名、單位名稱,有時是簡稱;井號標志的統一,如:【新】【老】【原】【加深】等標志;數據項單位的統一等。
2.3.3 進行數據轉換
在將業務數據抽取到數據中心時,基本的數據轉換包括以下幾種類型。
(1)數據清洗。例如專業數據中字符型數據取值中包含有空格,需要將空格去掉;如果專業數據中含有無意義的數據,例如測試數據或者空行數據,也需要將這樣的記錄刪除。
(2)數據格式轉換。例如專業數據中有關時間的數據項為字符型,需要根據數據字典要求將其轉換為日期型。
(3)代碼轉換。專業數據中的代碼可能并不滿足信息標準要求,在與其他數據庫進行數據交換時在與其他數據庫進行數據交換時,需要將專業數據中的代碼轉換為滿足其信息標準的代碼。
(4)數據項匹對。要在不同數據庫的專業數據中的數據項間建立起對應關系,有時兩者并非一一對應,需要進行拼接與拆分。
(5)其他轉換。根據實際的數據狀態和要求,制定更多的細節轉換規則,例如大小寫轉換、字符轉換、取值域轉換等。
2.4 數據集成工具的使用
數據集成中工具主要用到模型管理工具和ETL工具。
2.4.1 模型管理工具
模型管理工具通過模型表,直觀的描述某個項目的數據庫結構。它通過管理多組不同性質的軟件模型,可以實現對公司內部軟件模型的集中管理,也可以將各個模型快速創建成數據庫相應的結構。
2.4.2 ETL工具
ETL是BI/BW(商務智能/數據倉庫)的核心和靈魂。ETL工具可按照統一的規則集成并提高數據的價值,是實現數據集成的重要工具。
隨著中石油勘探與生產技術數據管理系統(A1)2.0版的推廣實施,中油瑞飛的ETL工具DSB逐漸被各油田使用。DSB(Data Service Bus,數據服務總線)是一款靈活易用的數據集成產品,具有高效的數據處理引擎和靈活的可擴展性;在數據集成領域提供了良好的技術支持,支持多種數據處理的應用場景。其包括的功能有數據采集、數據處理、數據交換、數據遷移、數據對比Oracle日志同步、數據倉庫建設、石油專業文件適配、數據即時訪問以及EPDM建模等功能。
3 結 語
數據資源是油田的基礎資源,合理利用數據資源能夠為油田建設帶來多方面的效益。數據集成是數據資源建設的重要步驟,只有從實際出發,靈活運用多種手段,才能達到較好的效果,從而推動油田勘探開發應用的發展,為“智慧油田”的建設保駕護航。
主要參考文獻
[1]韓明.油田開發數據綜合集成的研究[J].數字石油和化工,2009
(7).
[2]楊宏英,林長松.異構數據集成系統的應用模式與技術實現[J].微電子學與計算,2006(8).
[3]劉丹陽.高校數據中心數據集成方案設計的方法研究[J].實驗技術與管理,2011(4).
[4]劉芳,盧國強,劉賓娜,等.大數據時代的數字圖書館異構數據集成分析[J].電子技術與軟件工程,2015(22).