李 真, 彭運星, 吳彬彬
(1.武漢理工大學資源與環境工程學院, 湖北 武漢 430000;2.深圳鵬銳信息技術股份有限公司, 湖北 武漢 430000)
在油田勘探開發作業現代化、信息化的過程中,各種數據與日俱增,怎樣更高效地對這些數據進行管理、應用,并且以這些數據為依托構建有應用價值的參考模型,更好地服務于企業決策、產能分析以及故障診斷,是目前石油勘探開發云平臺建設的緊迫任務。具體來說,油田的勘探開發過程中,所積累的數據信息包括各種圖件、辦公文檔、方案文檔以及地震等數據。怎樣更好地存儲和管理這些數據,以及高效地進行應用,對油田企業的可持續發展意義重大。
該系統起到系統與用戶聯系的作用。能夠向用戶提供良好的界面、圖形,用戶既可以借助登錄合理定制各種細粒度業務,也可以對更多輸出結果進行查看或者保存。包括如下模塊功能:第一,該模塊為用戶管理功能,對用戶身份進行識別,并進行權限的設置,同時管理用戶登錄以及注銷等常規業務;第二,業務展示模塊:針對用戶提交的各種業務,進行結果查看、保存和分析,向用戶交付系統返回的結果。
該模塊可以實現諸多業務邏輯以及控制和調度不同的業務流程。具體的模塊功能包括以下兩個層面。第一,用戶界面:用戶利用并不復雜的操作工具,處理和儲存大量的數據。第二,業務響應模塊:利用相應的上層業務模塊,有效調用、管理實現業務需要的子業務,業務的完全可以調用底層模塊。
在應用層的數據挖掘階段,業務流需要不同的模塊,數據處理層可以進行較細粒度模塊的提供。該層面是全部系統的核心,可以進行各種任務實現工程中算法的并行化,并向Hadoop 分布計算層提交任務并進行計算,然后將運算結果返回業務應用層。該層面包括以下的模塊。第一,系統管理模塊:可以分布式管理系統;管理內容涵蓋系統遠程部署、負載平衡、對象實務、系統日志等。第二,數據加載模塊:注冊挖掘需要的數據,并在HDFS 文件系統內儲存。第三,數據存儲模塊:可以并行加載、處理和存儲大量的數據;在HDFS 系統導入其他外設的數據;而并行ETL 模塊能夠處理HDFS 中的原始數據;將處理后的數據存儲到并行存儲模塊。第四,并行查詢模塊:并行查詢海量數據以及處理用戶的自定義事務等。第五,備份恢復模塊:可以有效備份系統存儲的數據。第六,模式評估模塊:Hadoop 系統本身提供了HDFS,包括自動管理、運算環境以及MapReduce 運行模式。
集群的存儲和計算都是靠Hadoop 框架來實現。Hadoop 同時涵蓋并行運行模式和分布式文件系統,并有效管理分布式系統。任務提交的Server 在此基礎之上實現[1]。
云服務WMCS 是在Hadoop 基礎上形成的新一代數據分析和挖掘平臺,是諸多Hadoop 的數據挖掘算法的集成,可以為諸多行業領域進行數據挖掘,尤其是在石油企業勘探開發中的應用效果尤為顯著。從本質上講,Hadoop 實際就是能夠開展可靠且穩定的接口及數據服務有效平臺,能夠進行MAP/Reduce 運算,同時可以將文本分割成諸多單元,且是能夠重復執行的單元。在平臺的結構中,分布式存儲數據庫HBase、分布式文件系統HDFS 以及MAP/Reduce 算法,一直貫穿其中。通過這些數據結構和算法,平臺海量數據的訪問實現了高傳輸率,并且可以利用分流的形式訪問文本數據。
通過分析云計算的存儲技術、并行計算、分布式計算、虛擬技術等,充分考慮到油田勘探開發的數據存儲業務特點,本文構建海量數據存儲模式以Hadoop 為基礎,如圖1 所示。

圖1 基于Hadoop 的油田勘探開發海量數據存儲模型
在該模型中,HDFS 的工作是借助NameNode 和DataNodes 協同實現的,Master 的構成包括JobTracker和NameNode.MapReduce 的工作借助TaskTrackers 和JobTracker 協同實現。其作業流程為:服務控制集群SCC 接收用戶的應用請求,并對用戶的請求進行應答;存儲節點集群SNC 則是數據資源存取的相關處理;其他計算機上的TaskTracker 的管理和調度由JobTracke 完成[3]。
針對油田勘探開發中會產生大量的數據的特征,本設計以Hadoop 框架為基礎,編程模式為MapReduce,讓油田數據存儲模型的設計和應用變成現實。
3.2.1 系統結構設計
該系統是由油田系統管理層、用戶層、油田數據存儲層、油田基礎設施層構成。用戶層可以按照本身的業務特點,通過客戶端在線向云儲存系統發送請求,系統會根據平臺的資源狀況和客戶的請求,利用相應的任務進行算法調度,向用戶客戶端反饋資源配置結果。系統管理層本質就是應用協同層,主要是進行底層數據與應用程序的連接,對用戶的申請進行在線采集,同時把用戶需要的結果數據傳送到客戶端。具體管理的內容包括目錄管理、資源管理和用戶管理等。Hadoo 集群的工作層等同于數據存儲層,進行數據管理和資源任務的分配,以及合理應用虛擬計算、分布式計算等的有效指定數據額的物理位置以及數據存儲,具體的技術成分有MapReduce 和HDFS。物理基礎硬件是基礎設施的核心部位,主要包括內存、交換機、服務器、磁盤、磁鼓、負載均衡、網關等全部的存儲系統必不可少的硬件。
3.2.2 系統功能設計
油田勘探開發是眾多業務和生產部門組成,不同部門使用的數據也不同。通過三大模塊構成的系統為:平臺管理、管理員管理、用戶管理。該設計的優勢是更利于資源和人員的管理。用戶功能主要包括用戶登錄驗證、地質文件、用戶密碼修改、查看文件目錄、子用戶的創建和控制、上傳、下載和刪除自己的油藏數據文件和地質文件等。管理員功能涵蓋用戶的刪除和修改、目錄文件的瀏覽、普通用戶創建等。平臺管理功能主要是管理和維護整個云計算平臺,具體包括故障監控和預警、數據的備災管理、服務器資源配置管理等。
3.3.1 布置環境
Hadoop 系統可以不限版本地實施應用,PC 機的數量是7 臺,具體的工作角色為:集群的主節點(Master):171.118.1.1master。從節點(NameNodeSlave6):171.118.1.2-7slave。
3.3.2 集群部署步驟
第一步,將SSH 利用集群進行配置,以此可以無密碼進行機器間的登錄。第二步,在每臺機器上安置JDK,以此配置Java 環境變量。第三步,進行Hadoop的配置安裝。文件配置主要是hadoop env.sh 文件,有效設計JBAVA 與Hadoop-Home 的變量;配置mapred site.xml、hdfs site.xm、core site.xml 文件;配置slaves 以及masters 文件。第四步,將hadoop 的服務打開。第五步,通過eclipse6.0 軟件搭建需要的開發環境。
3.3.3 主要模塊的技術應用實現
該系統功能得以實現的主要模塊:數據上傳、數據下載和數據刪除。最終的系統功能實現主要是利用調用Hadoop 的API 接口[4]。
利用統一的賬號,技術人員實施登錄后在云平臺上調用專業的軟件完成系統工作,利用接入的云端的方式可以隨處訪問,工作人員不再受機房和專業工作站的限制,可以隨時隨地進行日常操作和階段匯報。通過大數據的應用,本研究有效打破了不同數據庫間的數據孤島現象,解決了低效率的數據查詢、分析等問題。以6 個月內多口注入井產生的數據記載的分析為依據,從原有的5 min 數據查詢時間縮短為3 s,真正實現了監測與分析的按日、月、季度、年進行,對應用狀況和相關問題進行詳細掌握。對日注液、自然遞減?日注氣、綜合遞減等指標進行分析,并合理預判生產趨勢,以此可以對生產異常進行早發現早處理,如表1 所示。

表1 生產趨勢預判分析
本文依托Hadoop 的云平臺,構建了油田勘探開發數據存儲模型,通過海量數據的高效處理,充分滿足了油田企業在勘探開發中分析、處理、應用海量數據的需求,數據包括油藏建模的數據、地質建模數據以及地質開發數據,該模型的應用表現出三大優勢。第一,極高的安全可靠性。系統可以在不同的服務器中保存多個副本形式的文件,確保了數據的完整性和安全性。第二,極快的數據處理速度。傳輸量不大,又具備MabReduce 的計算模式,大幅度提升了數據處理速度。第三,良好的拓展性。應用的并行計算模式,可以按照生產需要和用戶的需求,進行集群模式和存儲容量的及時擴展。