文|徐 康
(作者單位:中國石化巴陵石油化工有限公司IT 中心)
企業(yè)信息化建設過程中出現了多個獨立的信息系統,不能實現數據的統一錄入和統一管理,無法實現統一的數據分析和數據查詢。企業(yè)信息一體化平臺將多個系統兼容到一個平臺中,并在此基礎上對海量數據進行數據挖掘,對企業(yè)的計劃和生產提供有力的支持。企業(yè)信息一體化數據平臺將多數據源、多種結構、多種時態(tài)、多種主題、多尺度的海量數據,科學有效地采集、轉換、存儲、管理和分發(fā),并在此之上進行數據挖掘,以獲取有用的信息用于指導企業(yè)的計劃和生產。本文以某石化企業(yè)為案例,介紹了企業(yè)信息一體化數據平臺的實現技術和方法。
企業(yè)信息化建設經過十幾年的發(fā)展,采集了大量的工業(yè)應用數據,其中包括調度排產計劃、工況數據、生產數據、能耗數據以及生產設備基礎參數等。這些數據涉及不同的系統,并且有一些數據需要手工輸入。平臺需要從各獨立系統中采集數據,各系統在設計時自成體系,彼此之間的業(yè)務處理標準、軟件和網絡操作平臺都存在很大差異,因而不能實現數據共享,無法滿足平臺數據收集、模型訓練等業(yè)務需要,難以進行多系統、跨平臺的綜合數據分析工作,同時這些存放在異構環(huán)境中的不同類型數據和可能處于離線狀態(tài)的大量歷史數據也不便于統一查詢。平臺需要根據管理需求分析和業(yè)務描述,將多數據源、多種結構、多種時態(tài)、多種主題、多尺度的海量數據,科學有效地采集、轉換、存儲、管理和分發(fā),并在此之上進行數據挖掘,以獲取有用的管道工藝信息。因此,平臺建立基于數據管理及利用的綜合性技術,具有既保證密集的數據更新處理性能、又滿足查詢快捷性、支持多維分析的能力。
以ESB 和ODS 為基礎,建設集中集成數據平臺,實現應用集成和數據集成,消除數據孤島、實現數據共享和業(yè)務協同,滿足生產管理、綜合分析等數據使用需求。如圖1 所示。

圖1 總體框架圖
1.企業(yè)運營數據倉庫(ODS)
企業(yè)數據倉庫功能模塊包括數據采集、數據整合、數據服務、數據管控。數據采集實現通過數據接口將源業(yè)務系統數據采集到企業(yè)數據倉庫緩存區(qū)。數據整合實現工廠模型、數據標準化、數據按主題進行清洗轉換整合。數據服務實現對外共享數據,包括數據查詢服務、模型服務和預測預警服務等。數據管控實現元數據管理、系統運行監(jiān)控等功能。
2.企業(yè)服務總線(ESB)
在服務集成方面,將通過企業(yè)服務總線,實現對經營管理平臺、生產運營平臺及其他系統的融合和集成,完成數據信息的交換,規(guī)避了點對點和基于數據庫的數據交換的模式。
把各專業(yè)系統產生的結果數據,從源頭增量抽取至數據緩沖區(qū),并對數據進行標準化清洗、整合等數據加工過程,最終將數據沉淀至企業(yè)數據倉庫中,為數據共享、數據分析提供支撐。
1.數據源頭至緩沖數據區(qū)流程
企業(yè)業(yè)務系統產生的不定時、班、日、周、旬、月等業(yè)務數據,ODS 需要按照數據產生時間的將業(yè)務數據遷移至ODS 緩沖數據區(qū)。緩沖數據區(qū)采用oracle 進行存儲(包括非結構化數據的結構化屬性信息),采用與數據源一致的數據結構進行同步存儲,并擴展時間戳(數據產生時間、數據更新時間、數據采集時間)、數據操作狀態(tài)、數據處理狀態(tài)等屬性。
2.緩沖數據區(qū)至集成數據區(qū)流程
按照集成數據區(qū)設計的業(yè)務模型,將緩沖區(qū)存放的各專業(yè)業(yè)務數據進行標準化、清洗、加工、整合,并把結果寫入集成數據區(qū)。集成數據區(qū)采用oracle 進行存儲,按照工廠模型設計物理模型,并擴展時間戳(數據產生時間、數據更新時間、數據采集時間)等屬性。
基于工廠模型,充分利用成熟數據庫技術(MV+ETL),采集業(yè)務數據,經過加工、轉換,達到標準存儲,標準共享的效果;采用元數據管理的理念,加強對業(yè)務模型、數據加工過程等管理和監(jiān)控,支持數據的血緣追蹤及影響分析。
數據抽取、轉換和加載(Extraction-Transformation-Loading),是數據倉庫的核心,按照統一的規(guī)則集成并提高數據的價值,是負責完成數據從數據源向目標數據倉庫轉化的過程,是實施數據倉庫的重要步驟。數據流是按照一定邏輯組成的從源到目標的完整的數據處理過程,數據流的執(zhí)行過程改變了數據流的內容和形式。對于一個數據處理流程,往往不可能在一個Job 中完成,需要多個Job 的執(zhí)行,執(zhí)行順序需要被合理的安排。
Kettle 是個ETL 工具集,可以管理來自不同數據庫的數據,通過提供一個圖形化的用戶環(huán)境來描述需求,支持圖形化的GUI 設計界面,可以以工作流的形式流轉,在數據抽取、質量檢測、數據清洗、數據轉換、數據過濾等方面有著比較穩(wěn)定的表現。
Echarts(Enterprise Charts,商業(yè)級數據圖表),用于數據的分析服務。一個純Javascript 的圖表庫,可以流暢地運行在PC 和移動設備上,兼容當前絕大部分瀏覽器(IE6/7/8/9/10/11,chrome,firefox,Safari 等),底 層 依賴輕量級的Canvas 類庫ZRender,提供直觀,生動,可交互,可高度個性化定制的數據可視化圖表。創(chuàng)新的拖拽重計算、數據視圖、值域漫游等特性大大增強了用戶體驗,賦予了用戶對數據進行挖掘、整合的能力。
某石化企業(yè)經過多年的信息化建設,取得了顯著的成果,形成了經營管理層、生產管控層和基礎設施層三大平臺化應用,對企業(yè)生產核心業(yè)務領域建成了多套應用系統,取得了良好的應用成效。隨著企業(yè)優(yōu)化產品結構、轉型升級、降本增效發(fā)展需求日益迫切,企業(yè)希望數據與業(yè)務流的徹底貫通,強化集中集成,挖掘數據價值,進一步提升管理效率和管控力。
為此企業(yè)建設了一體化數據平臺,基于ODS 建立了生產、質量、財務等6 大主題庫,實現了ERP、MES、LIMS 等系統的數據集中集成,在數據倉庫內進行了業(yè)務整合。通過ESB,實現相關系統間數據交換由“插管式”轉變?yōu)椤凹惺健保_保了數據的一致性和準確性。在數據平臺基礎上,開發(fā)專用報表平臺,實現了與生產經營緊密相關的生產、銷售、庫存等綜合類報表的自動生成,廣泛應用于生產調度、經營計劃等業(yè)務域,為經營決策提供了有力支撐。
本文首先介紹了企業(yè)信息一體化數據平臺建設的意義,然后重點介紹了平臺數據倉庫的實現技術,最后分析了某石化企業(yè)一體化數據平臺的實現方式,為其他一體化數據平臺的搭建提供了典型的參考案例。