作者/劉春艷,承德石油高等專科學校
基于大數據的石油云平臺設計分析
作者/劉春艷,承德石油高等專科學校
在互聯網技術與存儲技術快速發展的背景下,社會開始從信息時代向數據時代轉變,數據成為各行業革命的核心。石油行業作為傳統行業,基于數據驅動為其創造新的發展路徑。本文討論了基于大數據的石油基礎設施云平臺設計,實現EPDM模型的云數據庫,具體分析了云平臺中石油大數據的運用。
石油大數據;云計算;數據
隨著數據時代的到來,不同行業開始嘗試利用大數據技術進行新業務開展。石油行業擁有海量數據,然而長期以來這海量的數據并未結構化,遠遠無法達到統一標準格式。新時期石油行業的發展對油田企業信息化建設提出越來越高的要求,單純從硬件設備升級來滿足數據存儲與分析需求已經遠遠不夠,只有建立起石油大數據的集成平臺,方可真正實現石油行業信息化,滿足石油行業對高計算能力的需求,也便于進行資源管理。
云計算是在連接互聯網計算機上所獲取的計算服務,可以實現按需供給計算資源,可以實現更強的計算能力、彈性的計算資源以及更低的使用成本。云計算從本質上來看并非技術創新,實際上是思想層面的創新。
云計算可以把互聯網資源提供給用戶使用,云計算的實現依賴于一定的基礎軟硬件設施,通過高性能軟件框架處理數據,為前端與終端提供接口,云計算常用的服務模式包括IaaS層、PaaS層與SaaS層。IaaS層具有代表性的為硬件服務器租用,只把虛擬機與存儲資源給用戶,IaaS層更加底層,通過用戶付費的方式為用戶提供計算能力與存儲能力;PaaS層下僅需為用戶提供軟件開發包,不需要用戶考慮資源資源管理;SaaS是軟件即服務,為用戶提供應用軟件,對軟件使用收取一定費用。
在石油行業建立大數據云計算平臺的難點在于兩方面,一方面是數據存儲困難,另一方面數據分析困難。Hadoop作為開源分布式數據處理架構,由分布式文件系統與并行計算框架兩部分構成。分布式文件系統架構模式為主/從結構,包括主節點以及一些數據節點;并行計算框架的計算過程包括Map與Reduce,即映射與化簡。
構建石油大數據云平臺的目的是把海量數據存儲于分布式軟硬件資源里,從而更加科學的進行資源配置,更加科學地調度數據資源。這樣以來,石油大數據云計算平臺的體系結構由以下五部分構成:基礎設施層、數據源層、云數據層、數據應用層以及終端接入層。系統結構如圖1所示。

圖1 石油大數據云計算平臺系統結構
(1)基礎設施層
基礎設施差包括物力資源池與虛擬資源池,前者為分布式服務器集群、數據節點,是進行海量數據運算的基本設備;后者是基于虛擬化技術獎分散數據資源進行整合,并最終存放于虛擬化資源池中,根據用戶需求提供給客戶。由于物力資源池與虛擬資源池之間并不耦合,因此可以更好地維護,并控制油田勘探成本。
(2)數據源層
數據源層包含了石油行業大量原始數據,包括地震數據、錄井數據、油氣水水井數據,該層實現異構數據存儲功能。數據源層的構建是困難的,因為傳統石油企業數據庫缺少技術標準,數據資源冗余度很高,可能影響云數據庫的構建。然而應當注意,數據源層的數據資源存儲成果是顯著的,因此本文采用數據源層傳統數據庫。
(3)云數據層
云數據層的設計是為了進行復雜石油數據的管理,構建起便于石油大數據存儲的數據結構,也滿足業務需求。
(4)數據應用層
數據應用層是面向用戶的,可以為用戶提供勘探、開發、集輸等具體應用,用戶則根據所需從中選取相應數據。數據的提取過程十分簡單,僅需通過終端設備在取得系統使用權限后即可獲取資源。該層提供通用的數據訪問接口,可以針對上層用戶不同請求實現不同需求。
(5)終端接入層
終端接入層即包括移動設備、虛擬化桌面等,方便針對不同業務需求達到數據訪問的目的。
為了實現上述的由下而上的系統結構,需要在數據源層利用之前數據庫,然而,由于把數據源層數據加載至云數據時,數據結構尚未初始化。本文擬采用數據集成總線把異構的石油數據標準化,然后為軟件體系提供接口設計。
油田行業信息化建設對基礎硬軟件要求高,因此高性能計算是當前油田企業信息化建設必須解決的難題,對該難題歸納,主要困難包括軟硬件資源浪費、維護系統成本高、管控自動化程度低三方面。為了解決上述難題,將HPC緊耦合方式接觸,創建出分布式的服務器集中形式。本文基于Hadhoop進行高性能計算機的討論。如何合理智能的利用數據資源至關重要。
(1)統一的資源管理
由于缺少資源劃分標準,所以節點分配管理過程中應當遵循的原則是不浪費、不重復,可以按照實際業務需求來分配節點,最終可以進行以下節點群的分配:Seismark(2臺)、管理節點(3臺)、Hadoop(14臺)、Petrel(圖形工作站7臺)、負載監控(5臺)、Eclipes(3臺)、OpenWorks 5000.3(12臺)、SKUA(7臺)。上述節點群分配的腳本配置如下:

專業的權限控制軟件價格昂貴,甚至高于硬件資源成本,因此如果希望通過需求使用峰值購買權限會提高成本。筆者認為可以在權限管理模塊里對權限資源進行合理的調度,例如基于優先級任務發放權限,也可以立即終止長時間占用。在依據石油企業實際資源情況的情況下生成分配策略,有利于提高資源使用效率。
中石化等油田企業是基于項目驅動進行資源調度的,通過建立起高性能計算集群,并在其上部署若干項目,實現項目的權限調度,實際腳本配置文件如下:

在上述腳本配置中可以看出,通過建立project_cy和Project_kt兩個不同項目,并使二者同時擁有Hadoop權限,且權限調度比例等于2:1。
(2)集群遠程可視化
當前石油基礎設施云平臺的圖站服務器無法滿足實際使用中的高并發問題,即當用戶集中登錄并訪問將可能導致圖站服務器直接死機。因此需要對圖站資源進行科學的管理,可采用的可視化方案應滿足自助式、集群式以及遠程化的目標。
(3)基于策略的資源調度
為了組大程度減少數據資源浪費的情況,可以采用以下三種計算資源調度方式:公平調度、基于時間變化的調度、搶占性調度。在Eclipes軟件中的資源調度配置情況如下所示:

云數據的設計流程復雜,只有遵循模型設計標準方可減少設計工作量。目前應用較多的是EPDM模型,因此本文在EPDM基礎上,結合搜索模型擴展業務需求,實現EPDM模型的拓展,并使EPDM模型與云數據模型完成自動遷移過程,最終構建起云數據庫閉環更新流程。
云數據的設計中命名規則至關重要,直接影響系統的調試工作,而石油云數據的設計應當考慮石油行業情況,把標準命名規則和石油行業情況進行融合。
(1)包名
包名的確定通常根據業務實體劃分,包名縮寫規范中是從整個包名里提取2個字母,而數據庫里擁有同一級別的包名不可重復。除此之外,本文構建的石油云平臺對包名有以下要求:當業務需求改變時,僅需在Comment里添加信息即可;滿足從專業到基礎,再到數據頻度的多級包分類要求;新增包應解釋新包和老包的關系。
(2)表名
表名的命名規則如下:項目包名_縮寫1_縮寫2_縮寫3。以井作業為例,其對應的表名為BE_WELL_OP_PHASE。
(3)字段名
字段名中的英文字母均為大寫,命名效果應達到“見名知意”。業務人員整理統一規范的中文名稱,將中文名詞翻譯為英文,并用慣用英文縮寫代碼表來制定英文縮寫名稱。字段數據類型包括char(n)、varchar2(n)、numeric(n,p)、data、clob、blob等六種。
數據存儲能力并無法直接提升油田企業的競爭力,而數據的應用才是構建石油云平臺最終的目的,如何把數據資源作為服務來提高資源使用效率是當前應當解決的問題,而石油云平臺的應用依賴于應用系統接口設計,本章將討論數據應用的分層式架構設計:
應用層包括遺留應用系統、新應用系統以及商業軟件系統。遺留應用系統是將傳統信息化建設中冗余的資源集成起來的系統,新應用系統是基于云數據庫訪問視圖與表的系統,商業軟件軟件系統是根據特殊業務需求建立的項目主庫。
對于遺留應用系統,可以基于視圖直接訪問傳統數據庫模型的應用視圖,而新應用系統的接口可以設計為如下四類:測井類、地震類、鉆錄井類、井查詢類。
商業應用軟件和云數據庫的集成相當困難,因此可以基于綜合應用軟件建立項目主庫,例如可以基于Petrel平臺訪問云數據庫,然后將從中獲取的數據放在工區內,實現數據分析,將系統可實現的價值放大。
石油大數據發展是當前石油行業必經的過程,本文所提出的基礎設施云平臺方案一方面可以滿足油田企業生產實際,另一方面也盡可能滿足云計算標準。只有把軟件、硬件以及數據根據用戶需求發放給用戶,并對數據資源進行統一管理,方可提高數據資源的利用效率。在未來,石油數據的價值挖掘、數據安全性等問題將是研究熱點。
* [1]周力臻. 大數據云平臺數據流量優化管理仿真[J]. 計算機仿真,2016,33(12):462-465.
* [2]張新朝. 基于云平臺虛擬集群的設計與實現[D].閩南師范大學,2015.
* [3]李智鵬,許京國,焦濤,吳海燕,安秀娟,姜思誠. 如何運用大數據技術優化石油上游產業[J]. 石油工業計算機應用,2015,(01):8-12+3.
* [4]李金諾. 淺談石油行業大數據的發展趨勢[J]. 價值工程,2013,32(29):172-174.