張 媛,李 海,冷煒鑭,丁 婕,江 濤
(中石油川慶鉆探工程有限公司,成都 610051)
油氣田工程技術服務企業主營鉆井工程、錄井、固井、儲層改造、試修井及油氣合作開發等業務。生產經營業務活動中涉及工程實時監控分析、經營分析、供應鏈管理等數據應用。企業對全量數據挖掘、全局數據分析,實時數據查詢、即席自助分析的需求日益迫切,傳統的數據庫系統方法已經無法滿足更高、更快、更靈活、更個性的業務需要,企業對數據共享、數據價值的挖掘提出了更高的要求,希望能夠進一步打破數據的孤島,希望看到更全面的數據并能靈活地按需取用數據以及更快捷地實現各領域的業務及數據的應用需求,傳統的建設方式和技術手段已經無法滿足當前的需求。從成本和服務復雜度考慮,建設企業集中的大數據基礎平臺是滿足需求的必然選擇,能夠實現數據驅動業務創新。通過大數據基礎平臺建設[1],統一規劃、統一建設,將數據復用能力沉淀下來,實現數據標準化、數據模型重用,靈活、高效地提供數據服務。包括從數據匯聚、存儲、治理、開發到數據服務的一整套數據使用的機制以及政企的數據運營的能力。
工程技術服務企業存在多個維度的大數據應用場景。各個場景根據業務域的不同劃分為工程實時分析、智慧供應鏈、項目全生命周期管理、集團企業經營分析、企業流程優化。
油氣田工程技術服務的主營業務——鉆井工程技術服務會產生大量的工程數據,以往只用于基礎的日報采集、實時監測,以后可利用大數據技術進行跨系統的數據共享、數據交互,結合高性能計算和數據挖掘分析[2],支撐鉆頭優選、事故預測、事故診斷及處理、鉆進軌跡分析、設備智能診斷等以往需要專業軟件才能實現的應用場景,利用大數據海量存儲和實時處理技術,也可以顯示多個鉆井現場乃至整個區域的鉆井數據并實現交互式實時分析,大大提高數據分析的精度及準度。
工程數據服務企業供應鏈包含物資采購、倉儲管理、物流管理三大環節,但這3 個環節由不同的部門和專業公司負責,系統及數據相互獨立,傳統供應鏈的敏捷性較低,基于傳統供應鏈信息系統如ERP、條碼管理系統在智能化升級時也較困難,無法適應工程技術服務定制化、靈活化的特點。利用大數據技術可以賦予企業生產供應鏈高度的定制化,用于生產計劃與采購計劃關聯分析、采購及供貨周期方案預測、物資庫存物料需求影響因素分析、倉儲共享及自動平庫、智慧物流等[3]。
工程技術服務企業業務活動經常采取項目制,項目過程產生海量的結構化及非結構化數據,利用大數據技術將項目數據進行整合并提煉,形成項目管理的數據平臺,積極地利用云計算和數據挖掘技術、分析技術建立各類數據之間的關聯模型,利用數據分析發現可能存在的問題[4]。用于項目預算方案編制、過程控制、項目后評價分析等。
傳統經營數據分散于ERP、FMIS 等多個信息系統,同時由各專業公司分別管理,無法快速地統計和分析。跨專業、跨部門的企業級經營分析工作效率比較低。利用大數據技術可以消除跨部門、跨專業數據孤島,構建靈活的數據統計共享,實現場景模擬、可視化規劃、企業快速畫像展現等,為企業領導層制定戰略決策提供支撐,提高輔助決策能力。可應用于全面預算、規劃分析、預警/預判、可視化決策、戰略情報分析、市場運營分析等[5]。
工程技術服務企業重視流程化管理,企業管理需要實現多個流程系統數據整合,規范流程數據基礎,保證數據準確性。在數據整合的基礎上,構建流程效率分析、問題診斷、預警監控平臺,實現對OA、ERP、BPM 等系統流程數據的統計、分析和預警,輸出多指標多場景分析報告,消除堵塞流程、冗余流程,實現業務流程常態化運營。
大數據基礎平臺需要為工程技術服務公司各類應用提供海量數據整合、存儲、計算、查詢、分析、展現等基礎性支撐功能[6]。平臺核心分布式存儲與計算組件采用Hadoop 技術體系中分布式存儲(HDFS、HBase、Hive 等)、分布式計算框架(Spark),結合數據抽?。‥TL)、大數據搜索引擎(ElasticSearch)、數據挖掘分析(SAS、SPSS 等)、數據可視化(BI)等技術,構建起企業大數據應用服務生態。

圖1 大數據基礎平臺架構設計
大數據基礎平臺系統數據主要來源于生產經營相關信息系統,例如FMIS 系統、電子采購系統、專業系統等,數據庫類型有oracle、mysql、SQLserver 等,針對不同的數據類型,采用不同的數據采集策略。通用數據采集方式包括OGG、Kafka、ETL工具、離線文件等方式,根據源系統的特點以及對外提供的數據接口類型選擇合適的方式進行數據采集,數據可按需進入HDFS、Hive、Hbase 數據庫中進行存儲。企業半結構化/非結構化數據包括日志文件、XML 文檔、JSON 文檔、Email、報表、圖像和音頻/視頻信息等文件數據,這些數據分散在不同的系統或硬件設備之上,可采用抽取工具或者接口進行采集,例如Kafka、離線文件、REST api 接口等方式,數據采集完成后統一存儲管理。
數據存儲設計按照數據類型分為結構化數據存儲和非結構化數據存儲,不同的存儲方式對應著大數據分析平臺不同的數據區域,結構化數據一般存儲在Hive、Hbase 數據庫中,非結構化數據存儲在HDFS 文件系統、MongoDB 中。結構化數據從業務系統采集到大數據基礎平臺,統一存儲在貼源數據區中,貼源數據與源系統數據基本保持一致;主題模型明細區數據根據不同的業務主題對數據進行歸類,主題模型匯總區按照一定的計算邏輯進行數據匯總,通過合并計算數據量大幅降低;數據集市區分為公共類集市和專題類集市,支撐不同的數據分析應用。非結構化數據存儲需要進行數據的解析、數據識別及數據結構化處理,支持圖處理和自然語言識別。利用大數據分析技術進行圖處理和自然語言的識別,并對信息進行結構化處理,統一存儲在主題數據區中進行分析,也可與結構化數據進行關聯分析。
數據計算是數據分析的基礎,數據計算包括離線計算、流計算等。數據計算功能由大數據分析平臺中的軟件工具提供,可作為公用的資源供不同的數據分析應用使用。開發過程中,可根據業務場景的不同,選擇不同的數據計算方法進行數據處理。
大數據分析平臺按照用戶數據分析的需求,提供敏捷分析、報表開發、智能分析、SQL 查詢能力;支持拖拽式敏捷開發模式,讓業務或數據分析人員無須了解代碼,即可構建數據分析模型,提供多種圖形展示組件;支持普通報表的開發能力;支持智能分析模型開發,支持機器學習和深度學習框架,提供從數據處理、模型訓練、服務部署到預測的一站式服務;支持可視化的SQL 開發、數據預覽、交互式查詢、復雜分析、探索分析的自助分析能力。
提供一個圖形化的任務配置、編排、監控平臺,支持開發人員進行工作流設計、任務調試、調度和分析;支持Shell 腳本、SQL 節點(hive、impala、spark、oracle)、存儲過程、JDBC、HTTP、Python 節 點等任務類型,可自定義Java 任務;支持任務狀態監控,提供豐富的分析能力,如依賴關系、執行歷史、甘特圖等,幫助開發人員診斷工作流的執行狀況。
數據管理包括數據共享、業務目錄、技術目錄、數據血緣、質量管理以及元數據管理。在元數據管理中主要針對大數據分析平臺內存儲的數據進行元數據抓取,并實現元數據集中存儲,在元數據基礎上進行血緣分析,依照平臺內各類人員需要在權限滿足的情況下提供元數據應用程序編程接口(API)。在業務目錄中提升目錄搭建、業務對象管理、表視圖關聯便捷度,通過業務目錄定位業務對象,支持數據預覽、血緣查看,以便進一步理解業務對象。在技術目錄中,按照貼源層、基礎層、通用層、應用層定位自動實現各層目錄創建,在權限允許的情況下可通過技術目錄查看預覽數據及血緣分析結果。在質量管理中依照數據標準,對質量管理規則定義,預設檢查點,執行檢查任務,定期出具檢查報告。
基礎管理模塊主要是面向大數據基礎平臺的管理和運維人員,該模塊是其他模塊運行的基礎,主要負責運行環境支持和安全保障,具體包括用戶管理、權限管理、流程管理、安全管理、運營管理等功能模塊。
平臺門戶為大數據基礎平臺提供了統一的用戶訪問界面,企業人員可通過門戶訪問大數據平臺的各類數據表、應用、軟件。平臺門戶提供桌面PC 端web 瀏覽器訪問和移動APP 訪問兩種方式。PC 應用門戶提供全面的數據集成、數據處理、數據共享和應用、基礎管理等功能,大數據分析平臺開發及應用均可利用PC 端門戶來實現。移動APP 端門戶提供輕量級的應用功能,例如指標、報表、流程審批及查詢等功能支持APP在線查看。
大數據分析平臺應用架構從用戶視角分四個層次,分別是平臺層,應用層、交互層、用戶層。其中平臺層是基礎支撐層,提供應用運行的核心引擎,采用分布式部署方式。包括大數據存儲、大數據計算引擎、容器云服務引擎、系統管理控制服務。應用層為各類用戶提供應用資源,第一類是企業管理類應用,主要服務于企業的管理層用戶;第二類是跨職能業務部門、專業公司業務的大數據應用;第三類服務于平臺管理、數據管理、應用開發和數據產品開發等人員,用于數據匯聚、數據分析、數據管理、用戶管理、系統管理與監控、任務調度等數據開發和管理工作。

圖2 大數據基礎平臺應用設計
油氣田工程技術服務企業大數據分析平臺的建設有助于提升企業數據應用水平,促進數據應用創新與共享,有助于通過輔助管理提升實現降本增效,同時為工程技術服務企業實現數據共享和數據分析提供強大支持,并可為后續大數據分析與人工智能融合奠定基礎。
同時,企業大數據基礎平臺建設是一個龐大且長期的工程,既要達成實現數據驅動管理的目標,又要注意建設內容符合公司業務實際,細致規劃。避免大而全、一次性建設造成投資浪費。挑戰與風險并存,建議采用明確場景、結果導向、小步迭代的建設策略?;跇I務先行,系統支撐的原則,根據公司特點發現和實現價值。