梁仲峰 陸冰芳

[摘 要]隨著“云大物智移”技術成為越發成熟的前沿技術,一定程度上顛覆了電能質量監測、電能量數據、配網設備數據分析等電網業務的傳統信息處理和數據分析方法。目前,公司數據應用需求呈現出顯著的數量激增、類型多樣、響應敏捷要求持續提升的發展態勢,對各業務系統的數據融合、數據共享也提出更多更高的要求,研究分析能力、數據處理能力更強的數據分析方式具有重要的意義。在此基礎上,一站式可視化數據維運管理平臺是大數據背景下的必然發展方向,而在這個管理平臺建設中,全鏈路數據管理方式發揮著重要作用。本文以全鏈路數據管理為主題,分析全鏈路的應用價值,旨在為相關研究提供借鑒。
[關鍵詞]一站式;可視化;數據運維管理平臺建設;全鏈路;應用價值
doi:10.3969/j.issn.1673 - 0194.2020.02.073
[中圖分類號]TN931.3[文獻標識碼]A[文章編號]1673-0194(2020)02-0-03
1? ? ?全鏈路數據管理概述
大數據全鏈路數據管理的前期基礎工作是歸納行業領域大數據處理流程,總結現有的大數據處理平臺在傳統大數據處理的最基本流程,如圖1所示。通過對大數據各個基本流程的接駁,向上屏蔽底層數據傳輸、環境配置等細節,向數據開發人員提供全鏈路數據開發工具,使數據開發人員能從煩瑣的數據傳輸、環境配置等任務中解放出來,專注于業務敏捷開發。同時,由于數據開發會不斷產生新的數據,數據管理的概念也因而成為日常應用過程中的一個關鍵點。因為數據會不斷地衍生出新的數據,任何數據改動都會導致一連串的連鎖反應。為了理清大數據處理過程中新數據與原有數據的關系,評估對現有數據的改動會造成的影響和風險,需要記錄數據從產生到被消費的元數據,開展全鏈路數據管理功能具有充足的必要性,數據采集、數據開發(離線/實時計算)、存儲、線上回流、可視化展示等是全鏈路數據管理的基本步驟。
1.1? ?數據采集
數據采集是對數據進行ETL(Extract-Transform-Load)操作,對數據進行抽取(Extract)、轉換(Transform)、加載(Load)到目的端的過程。對于大數據采集系統,主要分為以下3類:系統日志采集系統,如Flume;網絡數據采集系統,如Apache Nutch、Crawler4j、Scrapy等;數據集成系統,如MySQL、Oracle、NoSQL等。
1.2? ?數據開發
數據開發是最復雜的一個環節,在這個環節中,用戶可以使用批處理工具、實時流處理工具和機器學習算法進行開發,挖掘出潛藏在海量數據中的價值。但是無論采用何種技術,只要使用開源命令行的方式,執行錯一個命令,在上萬行的命令里,再重新找出錯誤的命令將會付出比較高昂的代價。
1.3? ?數據儲存
數據存儲是對海量異構數據提供存儲功能,為了滿足企業數據多樣化的存儲和應用需要,數據存儲應含結構化數據存儲、非結構化數據存儲和時序數據存儲。
1.4? ?數據回流
數據回流指將處理好的數據,回到非分布式數據庫上供門戶系統展示使用。由于門戶系統展示具有高并發的特點,分布式數據庫不適用高并發查詢。因此需要將用戶利用分布式集群計算好的結果數據回流到非分布式數據庫,再提供給門戶系統做展示使用。
1.5? ?可視化展示
可視化展示指提供常用普適的數據可視化功能,使開發人員能更便捷地探索原始數據,或更直觀明了地展示開發成果數據。全鏈路數據管理就是為上述各個步驟提供一個無縫銜接的集成開發環境(IDE),以降低數據開發人員的技術門檻,充分調動企業的大數據挖掘活力。目前,行業給出的解決方案是將各個步驟的功能封裝成基于模板的可復用的自定制模塊。在自定制模塊集成方面,通過基于Soot控制流的靜態代碼檢測算法,檢測出開源算法中對輸入輸出參數的I/O文件操作,并給用戶修改提示。由此,用戶無須解決底層組件的編程集成問題,只要通過選擇模塊并進行配置(如配置數據源、配置機器學習參數等)即可完成大數據采集、數據開發、存儲、線上回流、可視化展示等任務。
2? ? ?全鏈路數據管理的價值
大數據的結構模型和核心路徑是通過采集、存儲、處理、分析、應用、可視化展現的大數據全生命周期,即整個大數據鏈條。在多渠道的數據集成、企業級大數據存儲、離線批處理計算、實時流處理計算、可視化工作流開發IDE等方面都存在重要的作用。
2.1? ?有利于多渠道數據集成技術研究
目前,數據集成平臺僅根據應用需求接入了部分結構化數據,未包括全部系統、全部業務數據表;已接入的數據中未含圖片、文件、音視頻等非結構化數據;同時也未提供實時或準實時數據,調度、計量等準實時數據主要通過海量準實時數據平臺提供。為了擴大平臺的數據接入范圍,需研究離線導入包括MySQL、Oracle等主流關系數據庫的結構化數據技術。研究離線導入包括文本數據、日志數據、語音視頻等非結構化數據技術。由于業務系統龐大,傳感器測量技術、通信技術和計算機技術等在電網中的廣泛使用,平臺需要集成的結構化數據、非結構化數據和實時數據量非常龐大。為了支持多渠道數據接入功能,需要研究高強度數據壓縮及加密傳輸技術,以保證工作順利、安全進行。
2.2? ?有利于企業級大數據存儲技術研究
為了提升數據集成平臺為高端應用提供數據支撐的能力,數據集成平臺需要具備大數據存儲能力。大數據存儲包含結構化數據存儲、非結構化數據存儲和時序數據存儲。從存儲技術來看,單一的數據存儲技術很難滿足企業數據存儲和應用的需要,應研究多類型存儲支持技術,包括OLAP數據庫、內存數據庫、分布式文件系統、SQL、NoSQL等。從數據資產安全方面看,數據資產對企業而言是一筆非常重要的財產,平臺應充分考慮可靠性建設,研究存儲系統高可靠容災設計,即使某些節點崩潰,數據也能從別的備份中尋回。從可持續發展方面看,電網數據量增長速度快,存儲系統應具備動態擴展能力,即存儲系統可動態地隨企業數據量增加,實現從G到P級的動態擴容。為了保證平臺對高層應用的數據供給服務的穩定性,平臺需要具備不停機動態擴容的能力。
2.3? ?有利于離線批處理計算技術的研究
針對離線批處理系統具有先存儲后計算、數據的準確性和全面性要求高等特點,為了支撐企業數倉建設中的數據清洗、轉換、匯集、主題提取等數據處理需求,需要研究MapReduce、Hive、Pig等批處理工具,以支持大數據計算作業。研究Spark分布式內存計算框架,在內存中對數據集進行快速多次迭代計算,以支持復雜的數據挖掘算法和圖計算算法。研究豐富的作業調度策略支持,包含分鐘、小時、天、月級周期或非周期的任務執行策略,以支持高級應用的數據需求,使高層應用可以按需自定義作業周期。
2.4? ?有利于實時流處理計算技術的研究
電力大數據的數據量大、種類繁多與產生速度快等特點,使狀態監測與電能計量等數據逐漸構成了大規模數據流。研究全鏈路數據管理有利于處理引擎處理這些大規模實時數據,以此覆蓋實時要求極高的流式作業場景。研究基于Spark Streaming或Storm技術,以滿足毫秒級的實時計算場景需求,如實時推薦、用戶行為分析等。
2.5? ?有利于實現可視化工作流開發IDE的研究
全鏈路數據管理能促進拖拽式的可視化工作流開發的IDE研究,研究向上層屏蔽環境配置等技術細節,使用戶可以通過簡單的Web式拖拽操作完成整個大數據工作流的任務開發,使業務人員和數據開發人員能夠專注業務問題,而不是處理環境配置問題。研究大數據基本流程的模塊化封裝,以向用戶提供豐富的處理器。研究包括離線數據導入導出、在線實時數據接入、Java程序、Shell腳本、Hive腳本、機器學習等多種任務的模塊化封裝和配置集成。
2.6? ?有利于非結構化數據檢索及檢索分析技術的研究
全鏈路數據管理能促進文本搜索引擎研究,向用戶提供友好的分布式多用戶能力的全文搜索服務。研究支持TB級別的全文檢索應用。研究在萬級緯度、千億數據規模下向用戶提供毫秒級高性能檢索分析服務,以滿足用戶的檢索分析場景需求。
3? ? ?結 語
全鏈路數據管理方式能增強數據處理、分析能力,能為公司各業務部門提供強有力的多元化數據分析計算技術支撐,能有效實現業務數據全過程信息化、標準化管控,實現各專業數據流通和協同,促進數據共享和融合,挖掘數據潛在價值,支撐和促進公司產業發展新布局的落地,使南網公司“一主兩翼、國際拓展”產業發展新布局不斷推進,是跨專業的業務數據分析應用、各專業數據的共享和融合業務改革的必然方向,在一站式可視化數據運維管理平臺建設中具有重要作用。
主要參考文獻
[1]趙麗梅,張花.基于全鏈路平臺構建的高校數字圖書館聯盟運行體系研究[J].圖書館學刊,2019(4).
[2]王曉磊,馬梅芳,魏樂,等.基于多載體可視化展現平臺的企業業務融合的研究與應用[J].計算機產品與流通,2017(7).
[3]周幫,周維,黃文德,等.一種面向GNSS應用的數據共享平臺實現方法[J].全球定位系統,2017(6).
[4]丁繼成,吳謀炎,趙琳,等.基于嵌入式平臺的GNSS/INS組合導航時間同步方法研究[J].遙測遙控,2016(3).