李雅潔,明 濤,胡新苗
(國網新疆電力有限公司,新疆 烏魯木齊 830002)
隨著數據中臺建設的不斷深入,按照“一平臺、一系統、多場景、微應用”的整體技術路線,已基本建成企業級統一云服務平臺和數據中臺,初步實現平臺資源和跨專業數據共享,推進源端業務融合,提升數據質量、增強數據共享,為電網各類分析決策提供完備的數據資源、高效的分析計算能力及統一的運行環境[1]。如何深入挖掘數據價值、實現跨專業的高效計算、智能分析,提升精益化管理水平顯得更為迫切。本文提出了一種基于數據中臺的智能視圖探索技術的解決方法,通過智能視圖可視化探索,建立起數據與業務中間的橋梁,支撐業務應用創新涌現,降低數據使用難度,充分挖掘數據有效價值信息,提升公司經營管理水平[2]。
智能視圖探索是以業務模型為基礎,通過業務模型的智能發現,建立企業全數據統一視圖,將數據關系轉化為業務關聯的發布功能,構建企業全景式業務關系模型。為業務人員屏蔽底層復雜計算存儲資源的理解,從業務角度出發,以業務關系為基礎進行數據貫通,在業務模型探索結果的基礎上,允許用戶探索業務關系視圖,進行面向業務的數據分析演練,挖掘數據有效價值信息,從而獲得對數據的深度認識[3]。
(1)業務模型:以圖形方式描述企業管理和業務所涉及的對象和要素、以及它們的屬性、行為和彼此關系,是實現數據(模型)跨計算域、業務域管理的基礎。模型是由實體、關系和標簽組成。
(2)實體:具有不同ID但卻代表真實的異構數據源、信息源的業務模型中同一對象,并將這些對象歸并為一個具有全局唯一標識的實體。
(3)關系:實體彼此之間相互連接的方式,描述多個實體之間發生的某種行為。
(4)標簽:標簽是業務人員最容易理解的一種數據形態,是高度精煉的特征標識。
實體用一個全局唯一確定的ID來標識,標簽用來刻畫實體的內在特性,而關系用來連接兩個實體,建立他們之間的關聯[4]。模型被看作一張巨大的圖,圖中的長方形標識實體,而圖中的菱形標識關系,構建成圍繞業務場景的業務視圖。
智能推薦加速構建業務模型,通過深度學習方式,采用BP算法利用梯度下降法訓練網絡,直至收斂[5]。采用無監督式的逐層訓練方法,對業務庫日志挖掘,自動地發現可能的實體和關系,并根據關系的強弱切割成不同的子圖,發現關鍵的業務模型。輔助業務開發人員批量快速地生產實體關系圖,對物理層面數據和業務邏輯的關系進行智能推薦,形成推薦業務模型。
通過關鍵詞探索,定位到實體、關系、屬性,進行業務模型探索,發現實體與實體之間的關系,發現屬性與實體、關系的歸屬關系,完善推薦業務模型。不同業務域的實體關系模型,沉淀出不同業務域標簽模型以及標簽分類體系,來形成各業務域的知識庫。同時它不僅僅是模型層的單個業務域模版,它會和上層業務模型聯動,形成從模型層到應用層一整套業務模型。基于各個業務域的整套模型,可以沉淀出一套跨專業、多維交叉分析全景業務模型。在相同業務域輸出時,可以基于這個業務模型快速的客戶數據需求和數據有效價值信息充分挖掘。
基于數據中臺的智能視圖探索目標是為了構建一個面向全計算域、業務域的數據和業務模型探索工具,挖掘數據有效信息價值,支撐業務應用創新涌現,降低數據使用難度,提升公司經營管理水平,放大協同效應價值。
智能視圖探索是以業務模型[6]為基礎,依據國網企業信息模型(SG-CIM4.0)[3]標準,透過企業業務的視角,將數據進行重新梳理和整合,建立企業數據統一視圖[7],將數據關系轉化為業務關聯,構建企業全景式業務關系模型和數據關聯模型,消除企業內部的冗余信息,為業務人員實現數據探索屏蔽底層復雜計算存儲資源的理解,降低數據使用難度,為不同業務部門之間搭建數據溝通的橋梁,促進業務融合提升,有序實現數據共享,增強數據價值的挖掘水平,為電力行業發、輸、配、變、用電各環節建設和業務發展提供科學指導,提高電網安全生產能力和供電優質服務水平。
各個業務系統數據通過數據采集工具/數據同步工具進行數據加工后批量集中存儲至大數據計算平臺[4,5]。智能視圖探索工具經授權后獲取數據中臺的元數據信息,借助智能推薦及人工確認、梳理的業務模型和標簽中心提供的標簽,把底層的物理存儲映射成業務邏輯模型,并基于工具提供的模型探索和數據探索功能,并在此基礎上衍生出其他功能,對外提供各類整合分析服務。其基礎架構如圖1所示。

圖1 智能視圖探索工具技術架構
大數據分析技術的根本是將數據轉化為信息,信息提煉為知識,以知識促進業務和智能決策能力的提升。借助于大數據的分析技術,從數據中臺的海量數據中找出數據背后規律,為電力不同業務部門之間搭建數據溝通的橋梁,促進業務融合提升,有序實現數據共享,提高對相關業務應用建設的支持效率,增強數據價值的挖掘水平[8]。
分析查詢引擎是智能視圖探索工具的核心技術,基于Facebook使用的Presto[9]進行交互式的查詢分析。分析查詢引擎采用定時刷新的機制讀取數據源的DBLog并解析以獲取技術元數據信息,并將其與業務元數據關聯和存儲,任何基于“表、字段”的數據源都可以被OTM以解析DBLog的方式獲取物理元數據。Presto是一個分布式SQL查詢引擎, 它被設計為用來專門進行高速、實時的數據分析。它支持標準的ANSI SQL,包括復雜查詢、聚合(aggregation)、連接(join)和窗口函數(window functions)。圖2展現了簡化的Presto系統架構。客戶端(client)將SQL查詢發送到Presto的協調員 (coordinator)。協調員會進行語法檢查、分析和規劃查詢計劃。計劃員(scheduler)將執行的管道組合在一起,將任務分配給那些里數據最近的節點,然后監控執行過程。客戶端從輸出段中將數據取出,這些數據是從更底層的處理段中依次取出的。

圖2 智能視圖探索工具可視化技術
數據可視化技術的基本思想,是將每一個數據項作為單個圖元元素表示,大量的數據集構成數據圖像,同時將數據的各個屬性值以多維數據的形式表示,增強數據的呈現效果,方便用戶以更加直觀的方式觀察數據,從而對數據進行更深入的探索和挖掘,發現數據中隱藏的信息。
智能視圖探索工具可視化展示結合FineBI、FR、Tableau等智能分析工具,實現漸進式的智能交互、自助式智能分析高級應用。支持多種類型的數據源,既可以連接DWS、RDS等云數據源,也支持連接Oracle、MySQL、PostgreSQL等關系型數據源。分析查詢引擎內置了智能查詢加速引擎,從而實現了對海量數據進行實時在線分析,無需提前進行大量的數據預處理,就能流暢地進行海量數據分析,完成數據可視化展示。支持拖拽式操作和提供豐富的可視化圖表控件,輕松地完成數據透視分析、自助取數、業務數據探查等工作。
目前已基于數據中臺完成了設備資產精益管理系統[10]、營銷業務系統、ERP、用電信息采集系統等多套核心業務系統數據的全量接入,從業務域技術角度梳理業務數據模型,形成數據資源地圖,方便業務人員和技術人員隨時產尋和應用數據分析域的數據資源,支撐統一數據服務的構建。在大數據分析場景應用方面,圍繞資產、物資、客戶、電網等多個業務領域,實現了多個分析場景的構建工作,支撐業務部門不斷變化的業務需求,形成了一套大數據分析構建方法論,從而支撐分析應用的快速構建。
隨著電網日益增加的復雜性和各專業業務的不斷發展[11],數據體量的不斷擴大、數據類型的不斷豐富,亟需一個有效的數據探索工具,來幫助業務人員快速解新增業務,以及與現有業務間的關聯關系。
數據智能探索工具是在現有業務及數據關聯基礎上,及時發現業務系統數據模型的變化,實時同步,及時保持業務模型與數據模型的最新狀態。同時能夠為新增業務和現有業務快速建立關聯關系,幫助業務人員快速理解業務,為業務專業的輔助決策提供有力的支撐。
現有的數據分析工具及手段無法幫助業務人員快速開展大數據場景分析工作,以電網運檢智能分析決策系統為例:作為運檢管理人員從事設備運維檢修工作的支撐平臺,集成了多個業務系統的數據,借助于運檢定制化大數據分析工具模塊進行了多維分析、統計分析、挖掘分析等工作。隨著運檢專業數據體量的不斷增大以及運檢專業對大數據分析業務的不斷加深,現有運檢定制化大數據分析工具所提供的分析方法、分析手段等不足以支撐快速發展的運檢大數據分析要求。
依托電網運檢智能分析決策系統已有的成果[12],結合數據智能探索工具模型探索和智能發現的功能,對電網運檢智能分析決策系統集成數據進行整合分類,并通過工具生成運行狀態分析評價模型,對設備運行狀態進行實時分析,及時發現設備潛在運行風險,為電網智能分析輔助決策提供有力的支撐[13]。
本文探討通過智能視圖探索技術構建企業全景式業務關系模型和數據關聯模型,進而實現數據探索,發現數據規律,實現跨專業的高效計算、智能分析,為電力數據的高效挖掘及在線分析決策提供了技術支撐,將推動基于大數據的智能視圖探索技術在電力系統的應用和發展。