謝菁 陸冰芳
[摘 要]在大數據的數據價值挖掘方面,交互式數據探索發揮著重要作用。基于此,本文在分析全鏈路數據管理和交互式數據探索概念的基礎上,結合電網數據管理平臺建設需求,對電網數據全鏈路管理方案和交互式數據探索技術措施進行探討,發現技術應用能夠為電網數據應用管理提供支持。
[關鍵詞]大數據;全鏈路;交互式數據探索
doi:10.3969/j.issn.1673 - 0194.2020.02.071
[中圖分類號]TP311.13[文獻標識碼]A[文章編號]1673-0194(2020)02-0-02
0? ? ?引 言
在電網快速發展的過程中,電網管理模式也不斷發生變化。面對海量數據信息,需要加強大數據技術的運用,通過全鏈路管理獲得全面、精準的數據,并通過加強交互式數據探索完成數據信息實時查詢,確保電網業務高效開展。因此,還應加強基于全鏈路的交互式數據探索技術研究,以便推動電網數據管理平臺建設發展,為電網穩定運行提供保障。
1? ? ?全鏈路數據管理與交互式數據探索分析
面對大數據,實施全鏈路數據管理能夠實現海量數據采集、運算處理、存儲、回流和可視化展示,實現信息全過程監控管理。通過對行業大數據處理流程進行總結分析,可以實現各基礎流程對接,使上層在數據應用中屏蔽底層數據傳輸、環境配置等細節。因此在數據開發中,采用全鏈路數據開發工具能夠使人員從煩瑣的數據操作任務中解放出來,專注于業務開發。在數據管理期間,則會不斷產生新數據,任何數據改動可能引發連串反應。應用全鏈路數據管理技術,可以完成從產生到被消費的元數據記錄,理清新數據與原有數據的關系,完成現有數據改動可能造成的影響和風險評估,為管理決策制定提供依據。在用戶輸入不明確查詢信息時,通過交互式數據探索能夠采取列舉樣例、機器學習等方式與用戶交互,在獲得反饋后逐步明確用戶真實意圖,為用戶提供最匹配查詢結果或語句。在全鏈路數據管理支持下,交互式數據探索能夠開展特別交互過程,通過不斷更新數據分析和探索為在線查詢提供支持,在數據空間中幫助用戶表達出形式化的探索查詢序列。根據用戶目標、興趣數據,通過與記錄元數據的數據庫進行交互,可以顯示用戶感興趣數據。
2? ? ?基于全鏈路的交互式數據探索技術應用分析
2.1? ?項目研究背景與意義
現階段,電網應用數據主要來自營銷系統、調度運行自動化系統等各類系統。而電網數據類型復雜,除了結構化數據,還包含大量半結構化、非結構化數據。在非結構化數據以及實時數據等尚未實現統一接入與分析的情況下,電網采集數據源單一。出現這一情況,主要是由于電網建設的數據集成平臺缺乏數據計算能力,難以對海量異構數據進行挖掘分析。針對大數據表關聯、SQL聚合統計等場景,呈現出平臺計算緩慢、性能差等問題,無法滿足過載信息計算、電壓計算等數據應用需求。而在電網業務改革中,需要完成跨專業業務數據的分析應用,實現各專業數據的共享和融合。由各業務部門自行搭建數據分析環境,將造成數據資源分散、資源重復建設等問題。完成統一的全鏈路數據管理平臺建設,加快交互式數據探索技術研發,可以實現數據供給側改革升級,為各業務部門提供強有力的多元化數據分析計算技術支撐。運用技術實現數據潛在價值挖掘,為產業布局決策制定提供依據,同時實現業務數據標準化管控,從而實現數據共享,順利解決跨業務域、跨系統的業務數據貫通問題。
2.2? ?全鏈路數據管理方案
結合電網數據管理需求,在搭建數據管理平臺實現電網大數據集成、存儲、計算及分析時,需要制訂科學的全鏈路數據管理方案。在分布式環境下,需要將大數據處理基本流程抽象提煉成多個功能模塊,分別進行數據集成、實時計算和提供可視化工作流,并借助檢索分析技術完成數據應用敏捷開發,使多元化業務需求得到滿足。大數據全生命周期則是大數據鏈條,可以得到全鏈路管理流程,包含數據接入、存儲、處理和可視化管理4個環節。
2.2.1? ?在數據接入上
為實現非結構化數據、實時數據等數據接入,需要采用Mysql、Oracle等主流關系數據庫進行數據存儲,實現文本數據、日志數據、語音視頻等非結構化數據的離線導入。針對傳感器、監控設備產生的實時數據,需要采用Flume、Tube等工具接入。平臺面對龐大信息量導入需求,需要采用高強度數據壓縮及加密傳輸技術,為多渠道數據接入提供支持。
2.2.2? ?在數據存儲上
加強多類型存儲支持技術應用,包括時序數據庫、內存數據庫、塊存儲、對象存儲系統等多種。為保證數據資產安全,需要實現存儲系統高可靠容災設計,在部分節點崩潰時能夠從備份中找回數據。電網數據量增長迅速,所以存儲系統需要完成從G向P級的動態擴容,保證平臺數據供給服務的穩定性。
2.2.3? ?在數據處理上
采用離線批處理計算技術,具有先存儲后計算、數據準確性高等特點,能夠滿足數倉建設中的數據清洗、轉換、匯集、主題提取等需求。在平臺建設中,需要采用MapReduce、Hive、Pig等批處理工具,建立Spark分布式內存計算框架,以便在內存中實現數據集快速、多次迭代計算,為復雜數據挖掘算法和圖計算算法實現提供支持。在電網作業調度中,采用流處理引擎能夠實現狀態監測與電能計量等數據構成的大規模數據流的實時運算,完成毫秒級計算場景構建,為用戶行為分析、數據實時推薦功能實現提供支持,滿足小時、天、月級周期作業執行等高級應用的數據需求。
2.2.4? ?在數據可視化管理上
采用可視化工作流開發IDE,利用簡單Web式拖拽操作進行工作流任務開發、屏蔽環境配置等細節,使人員專注于業務問題。對離線數據導入導出、在線實時數據接入等大數據基本流程進行模塊化封裝,并實現配置集成,提供豐富的處理器。
2.3? ?交互式數據探索分析
電網數據管理平臺數據應用的實現,建立在數據檢索技術應用基礎上。伴隨著電網數據量的不斷增加,平臺需要完成分布式數據庫建設,以便實現數據庫在線擴容,使平臺性能得到線性擴展。對數據訪問邏輯進行簡化,采用內核級支持的數據庫分庫分表技術,使數據邏輯對業務透明化。實現冷熱數據分治,使上層業務對底層存儲介質差異進行屏蔽,完成統一數據庫視圖提供,使服務器的硬件成本得到降低。在大數據技術不斷演進背景下,可以采用多維分析引擎技術,將數據列存儲技術和極速查詢優化技術結合在一起,實現海量數據的高性能實時多維分析。在數據查詢方面,應用交互式數據探究技術提供全文檢索服務,可以在千億數據規模下實現毫秒級高性能檢索分析,滿足分布式多用戶數據檢索需求。在平臺交互式數據探索功能實現上,需要采用SQL分布式分析引擎技術,通過開源分布式分析引擎提供基于Hbase存儲的數據預建模和百億行規模SQL數據分析能力。在技術實現過程中,關鍵在于完成分布式數據架構建立,以便利用標準的SQL語句進行數據查詢,完成數據實時計算和融合。在此基礎上,實現電網業務系統日志和數據聚合分析,在無須提前處理的情況下快速完成數據分析與查詢。采用維度建模方式,SQL引擎能夠實現數據多維分析和交互式探索,提供一站式數據分析和探索平臺。實際采用SQL引擎技術進行數據查詢體系架構建立,用戶可以通過數據庫查詢接口進行SQL查詢。根據查詢請求,數據管理平臺可以與數據庫進行數據交互,并通過查詢日志確定用戶之前的查詢記錄。在日志查詢中,利用推薦引擎推薦查詢信息,與數據庫查詢得到的數據一同返回用戶,輕松完成數據挖掘與分析,降低平臺數據搜索的編程技術門檻。在利用SQL搜索引擎從數據庫進行數據調取時,需要采用Hadoop開源架構,為SQL 2003核心擴展的分布式關系數據庫兼容技術應用提供支持。采用能夠實現完全兼容的PostgreSQL語言,能夠為分布式關系數據庫主鍵、函數、約束、跨節點、觸發器等語法提供支持,因此可以在數據規模達到百T級的OLTP和OLAP數據庫中得到應用。針對千億級數據,采用SQL語言進行上卷、下鉆等實時分析操作,達到毫秒級的處理速率,完成實時數據的分析和查詢,因此能夠為電網運營決策制定提供依據。
2.4? ?平臺技術的應用效果
應用平臺多渠道數據集成功能,能夠解決電網數據來源單一問題,促使電網數據供給能力得到提高。采用全鏈路數據管理平臺,能夠憑借強大數據計算能力實現大數據批處理與流處理,滿足各種電網業務數據應用需求。在實際應用平臺開展業務時,采用數據分析引擎能夠跨系統實現電網數據采集、存儲、處理和分析,并使數據得到可視化顯示。通過模塊化封裝與集成,可以實現數據信息的標準化管控,完成數據應用敏捷開發。在實時數據采集處理方面,采用準實時和實時計算框架Spark和Storm,能夠使數據得到及時拓撲計算、加載和啟動,確保業務數據得到在線更新。在生產業務數據管理中,能夠對海量智能電表數據進行實時處理,并通過故障預警滿足設備維修管理要求,繼而為電網業務開展提供強有力的支撐。
3? ? ?結 語
電網數據規模不斷擴大的背景下,還要引入基于全鏈路數據管理與交互式數據探索技術完成大數據管理平臺建立,以便使電網業務數據能夠得到實時處理和共享管理,使各項業務數據應用需求得到滿足。實際在平臺建立時,需要采用實時計算框架保證數據得到及時更新,以便保證數據交互探索效果,繼而為業務開展提供需要的數據信息。
主要參考文獻
[1]王蒙湘,李芳芳,于戈.交互式數據探索框架的特征自適應技術[J].東北大學學報:自然科學版,2018(12).
[2]林洪文,周亞峰,周安,等.基于“互聯網+”和“大數據”的輸電交互式巡檢安全質量管控體系的探索和實踐[J].電子技術與軟件工程,2018(23).
[3]周彧,李暉,梁青青,等.FastNavi:巡天數據的交互式探索系統[J].計算機工程與應用,2018(1).