王晶晶+施冬+王文惠

[摘 要] 對油氣資源數據集成管理是油氣資源科技信息化管理的前提基礎,同時也是“數字國土”的重要組成部分。油氣資源戰略調查評價、規劃、管理、保護和合理利用等各個環節中都涉及海量數據資料的采集、處理、管理與決策,需要利用現代信息技術輔助各環節工作的實施。而開發油氣資源大數據管理系統實現了對油氣資源信息采集、傳輸、存儲處理和服務的數字化、網絡化、可視化和智能化。
[關鍵詞] 油氣資源;數據管理中心;系統
doi : 10 . 3969 / j . issn . 1673 - 0194 . 2017. 03. 064
[中圖分類號] TP302.1;TE155 [文獻標識碼] A [文章編號] 1673 - 0194(2017)03- 0120- 03
0 引 言
目前油氣資源數據生產分散、來源多樣、類型復雜,數據標準、模型、格式、精度等差異甚大。從空間特性看,包含空間數據和非空間數據,而空間數據又包含ArcInfo、MapGIS、MapEngine等;從存儲方式看,包含數據庫數據和文件數據;從數據關系看,包括結構化數據和非結構化數據[1];從數據管理平臺看,包含SQL Server、數據庫管理系統、Access等。隨著用戶需求的不斷提升,實現用戶對海量油氣信息產品資料的篩選以及共享服務的數字化、網絡化、可視化、智能化將成為油氣信息產品共享服務的一個全新挑戰。
油氣資源大數據支撐及應用平臺系統開發是通過對數據清理、校驗以及轉換,建立規范的油氣資源大數據支撐環境,從而實現對結構化與非結構化數據的一體化處理和統一管理。通過開發數據的獲取、數據清洗抽取、數據整合聚類、數據分析建模等模塊,可以初步搭建油氣資源大數據綜合應用分析原型系統。用現代化的計算機技術和分析方法來改進人工判別和分析的手段,高效快速地獲取各種直觀可用的分析結果和數據。
1 油氣資源大數據支撐及應用平臺建設研究
大數據支撐及應用平臺建設研究包括了對油氣資源戰略研究中心的業務需求研究、油氣資源的價值研究和面向不同專業領域的業務內容研究。通過分析油氣中心的工作方法、工作過程和工作需求,來確定油氣資源大數據支撐及應用平臺建設的內容。
1.1 平臺建設的服務內容
根據前期的調研和交流,本平臺的建設主要服務于三個層面:數據統計處理層面、數據分析加工層面、推理決策層面。
1.1.1 數據統計處理
國內外石油領域的大數據系統應用大致可分為兩種服務,即對石油公司的石油勘探和生產過程進行監督和指導[2]。但是都是實時的業務數據處理,還需要采用流式方法對實際的生產數據快速加工分析,并將非結構化的數據轉換成為可分析的數據,結合地質數據、歷史數據和地理數據,得出有價值的結論和結果。
1.1.2 數據分析加工
本系統的建設中,數據分析加工的實現是建立在業務需求的基礎上的,在業務分析的基礎上,將不同的數據通過業務模型進行不同的抽取、加工、歸類并集成,并分批次進行算法迭代,來支撐業務模型的推演和分析需要,其數據本身是源于數據倉庫,但擴展和處理后,數據的類型和精細程度都進行了不同層級的劃分,拓展了數據的應用,這個層面的分析加工不僅加速了數據的處理,更有針對性地進行了業務模型的分析需要。
1.1.3 推理決策支撐
推理分析是大數據平臺的一個重要應用,也是最初數據挖掘、機器學習和深度學習的重要應用領域,在油氣中心的業務內容中,有很多不同程度推理決策的需求存在,如根據實際油氣田勘探情況來判斷開發區塊的選擇、油氣田鉆井位置的預測、油氣儲備量計算與預測等等[3]。
1.2 平臺建設的標準化
整個平臺建設的標準化工作非常重要,由于數據的存儲、格式、計算方法等內容都是以分布式方式實現,因此標準化的接口和服務方法更加關鍵。
1.2.1 數據服務的標準化
標準化的REST服務接口作為本系統建設的重要標準,所有的數據提供最終都以REST服務的方式來提供,并明確給出其返回的數據的參考實例,所有異常數據的處理和判別都是在數據獲取的過程內部完成,并將異常情況以編碼方式返回[4]。
1.2.2 業務分析過程的標準化
數據的分析過程和上述數據服務一樣,也是REST服務方式來提供,并提供對應的參數輸入,用戶只需調用相對應的接口,指定對應的數據輸入,定義好返回的數據類型等內容,就可以得到規范的業務分析結果,對于有異常和錯誤的業務,錯誤碼也會返回。
1.2.3 成果展示的標準化
系統將提供標準的可視化展示樣式,包括顏色,圖例等內容,用戶在調用接口時,可以制定以哪種樣式進行輸出,可以使文本統計,也可以是圖表內容,這些標準化的結果對于分析和操作過程提供極大便利。
2 油氣資源大數據綜合應用分析原型系統開發
2.1 原型架構設計
如圖1所示,本原型系統的建設將基于目前數據倉庫的建設成果,將業務專題模型所需的結構化和非結構化數據從數據倉庫中進行抽取、轉換和加工,在數據的處理過程中,通過中間的存儲層來實現對業務模型內數據進行存儲和處理,并建立不同的數據索引和對應關系[5]。在計算時也需要用到內存數據庫的支撐,來減少數據的吞吐,加速數據的分析和處理過程。在業務分析和模型推演時,本平臺將采用Spark來作為本原型系統的計算框架,通過快速計算能力、內存存儲能力和流式計算能力等優勢實現大數據管理和應用原型系統的建設。