陸冰芳 萬義飛
[摘 要]隨著各行企業的不斷發展,新布局不斷推進,使大數據管理技術不得不棄舊革新,跨專業專業數據分析應用、各專業數據共享和融合成為業務改革提升的迫切需求。本文結合大數據技術,講述了全鏈路數據管理的全過程、大數據計算分析技術以及關鍵技術的創新研究,能夠實現業務數據全過程信息化、標準化管控,增強數據處理、分析和供給能力以及數據流通和共享。
[關鍵詞]全鏈路;大數據基礎管理;關鍵技術
doi:10.3969/j.issn.1673 - 0194.2020.02.031
[中圖分類號]TP311.13[文獻標識碼]A[文章編號]1673-0194(2020)02-00-02
0? ? ?引 言
近年來,各行各業的數據增長趨勢都非常明顯,大數據也不再是少數大企業的專屬研究領域,如何做好數字化運營以及開發數據的管理技術,成為各行企業共同關注的話題。針對企業日益迫切的數據化運營需求,基于全鏈路的大數據基礎管理的關鍵技術被研究出來,通過研究大數據關鍵技術,提升了數據集成平臺的數據分析和挖掘能力,實現了業務數據的處理與應用功能,實現了電網多元化數據共享與融合。
1? ? ?國內外研究水平的現狀和發展趨勢
本研究通過國內外先進的大數據處理、全鏈路數據管理技術實現信息中心信息化項目全鏈路數據探索技術研究,以實現數據共享和融合,提高數據供給側的數據處理、數據分析挖掘和數據供給能力。本研究主要涉及大數據處理、全鏈路數據管理等關鍵技術,以下從本系統相關的大數據計算和全鏈路數據管理兩個方面展開。
1.1? ?大數據處理技術
大數據處理是針對海量異構、多態的數據進行高效、可靠、低廉存儲以及快速訪問和分析的技術。目前,大數據處理技術可以分為批處理與流處理兩種模式。批處理系統具有先存儲后計算、數據的準確性和全面性要求高等特點,只適合處理對實時性要求較低的任務。而電力大數據具有數據量大、種類繁多與產生速度快等特點,使其迫切需要大規模數據流處理技術提供解決方案。流處理系統往往不要求結果絕對精確,而注重對動態產生的數據進行實時計算并及時反饋結果,數據流具有實時性、易失性、無序性、無限性等特征,價值會隨時間的流逝而減少,流式數據的實時處理是一個連續計算的處理過程,本質上是一種連續微批處理技術。目前,以Storm、Spark Streaming等為代表的實時計算技術是目前大數據處理領域的一個研究熱點。
1.2? ?全鏈路數據管理
大數據全鏈路數據管理,是對大數據進行采集、數據開發、存儲、線上回流、可視化展示等步驟的全過程供給與全過程信息化、標準化監控管理。數據采集是對數據進行ETL(Extract-Transform-Load)操作,對數據進行抽取(Extract)、轉換(Transform)、加載(Load)到目的端的過程,對于大數據采集系統,主要分為3類系統:系統日志采集系統、網絡數據采集系統、數據集成系統。數據開發是最復雜的一個環節,在這個環節中,用戶可以使用批處理工具、實時流處理工具和機器學習算法進行開發,挖掘出潛藏在海量數據中的價值。數據存儲是為了滿足企業數據多樣化的存儲和應用需要,對海量異構數據提供的一種存儲功能;數據回流指將處理好的數據,回到非分布式數據庫上供門戶系統展示使用;可視化展示指提供常用普適的數據可視化功能,使開發人員能更便捷地探索原始數據,或更直觀明了地展示開發成果數據。全鏈路數據管理需要為上述各個步驟提供一個無縫銜接的集成開發環境,需要將各個步驟的功能封裝成基于模板的可復用的自定義模塊,這樣,用戶只需要通過選擇模塊并進行配置就可以完成大數據采集、數據開發、存儲、線上回流和可視化展示等任務。
2? ? ?基于全鏈路的大數據基礎管理的關鍵技術
2.1? ?研究多渠道數據集成技術
目前,數據集成平臺僅根據應用需求接入了部分結構化數據,數據接入還不夠廣泛,為了擴大平臺的數據接入范圍,需研究離線導入包括Mysql、PostgreSQL、Oracle等主流關系數據庫的結構化數據技術以及包括文本數據、日志數據、語音視頻等非結構化數據的技術。由于業務系統龐大,傳感器測量技術、通信技術和計算機技術等在電網中的廣泛使用,平臺需要集成的結構化數據、非結構化數據和實時數據量非常龐大。為了支持多渠道數據接入功能,需要研究高強度數據壓縮及加密傳輸技術,以保證工作順利、安全進行。
2.2? ?研究企業級大數據存儲技術
為了提升數據集成平臺為高端應用提供數據支撐的能力,數據集成平臺需要具備大數據存儲能力。從存儲技術看,單一的數據存儲技術很難滿足企業數據存儲和應用的需要,應研究多類型存儲支持技術,包括OLAP數據庫、OLTP數據庫、時序(時標)數據庫、內存數據庫、塊存儲、分布式文件系統等;從數據資產安全方面看,數據資產對企業而言是一筆非常重要的財產,平臺應該充分考慮可靠性建設,需研究存儲系統高可靠容災設計;從可持續發展方面看,電網的數據量增長速度快,存儲系統應具備動態擴展能力。
2.3? ?研究離線批處理計算機技術
針對離線批處理系統具有先存儲后計算、數據的準確性和全面性要求高等特點。為了支撐企業數倉建設中的數據清洗、轉換、匯集、主題提取等數據處理需求,需要研究MapReduce、Hive、Pig等批處理工具,以支持大數據計算作業;另外,還要研究Spark分布式內存計算框架,在內存中對數據集進行快速多次迭代計算,以支持復雜的數據挖掘算法和圖計算算法。
2.4? ?研究實時流處理計算技術
電力大數據具有數據量大、種類繁多與產生速度快等特點,使狀態監測與電能計量等數據逐漸構成了大規模數據流。研究采用流處理引擎對這些大規模的實時數據進行處理,以此覆蓋實時要求極高的流式作業場景;基于Spark Streaming或Storm技術,以滿足毫秒級的實時計算場景需求,如實時推薦、用戶行為分析等。
2.5? ?研究非結構化數據檢索及檢索分析技術
研究文本搜索引擎,以向用戶提供友好的分布式多用戶能力的全文搜索服務以及研究在萬級緯度、千億數據規模下向用戶提供毫秒級高性能檢索分析服務,以滿足用戶的檢索分析場景需求。
2.6? ?研究可視化工作流開發IDE
研究拖拽式的可視化工作流開發的IDE,向上層屏蔽環境配置等技術細節,使用戶可以通過簡單的Web式拖拽操作來完成整個大數據工作流的任務開發,使業務人員和數據開發人員能夠專注業務問題,而不是處理環境配置的問題。
3? ? ?關鍵技術的創新研究
3.1? ?全鏈路數據管理
由于數據開發十分復雜,而且數據繁多,因此一般生產系統都會采用全鏈路數據管理的統一開發平臺和任務調度平臺來實現全過程數據監控、數據清洗和數據測試。因為數據開發會不斷產生新的數據,使數據管理的概念也因此成為日常應用過程中的一個關鍵點;同時由于數據在不斷衍生新的數據,只要有任何的數據改動都會導致一連串的連鎖反應,所以全鏈路數據管理也應運而生。
3.2? ?實時計算
傳統的分布式計算是一種離線分析業務,雖然具有數據處理能力,但不能滿足對時效有要求的業務,而在實時計算系統里,如何定義計算拓撲、拓撲的加載和啟動、在線更新以及數據流動都會成為影響穩定性的關鍵因素。正因為是實時業務,只要任何一個數據環節擁堵都會導致系統癱瘓,因此一個經過大型應用案例驗證的大數據實時計算系統尤為重要。借助業界成熟的實時計算平臺,可以幫助各大企業在生產業務系統方面實現實時故障預警、海量智能電表的數據處理等。
3.3? ?多維分析引擎
目前,電網生產業務系統在日常運行過程中產生了大量的數據,長年累月后形成了海量的歷史數據,受當時技術的限制,只能對現有的數據做判斷和應用,使數據缺少同比、環比和趨勢分析。近年來,逐漸出現了種新的分析引擎技術,就是多維分析引擎技術,結合了數據列存儲技術和技術查詢優化技術,可以對海量數據進行毫秒級上卷、下鉆、切片、切塊、旋轉等實時分析操作,以快速洞察海量數據價值,指導實時運營決策。
4? ? ?結 語
全鏈路的大數據基礎管理關鍵技術,解決了業務上的跨業務域、跨系統間的業務數據貫通問題,實現了對海量數據的應用與分析,優化了企業分層存儲的數據結構和技術架構,對公司的數據供給側進行改革升級,增強數據的分析與處理能力,實現業務數據全過程信息化、標準化管理,實現各專業數據流通和協同,促進數據共享和融合,挖掘數據潛在價值,支撐和促進公司產業發展新布局落地。
主要參考文獻
[1]陳敬德,盛戈皞,吳繼健,等.大數據技術在智能電網中的應用現狀及展望[J].高壓電器,2018(1).
[2]李新,滕子貽,張巖.智能電網大數據技術的特點及發展[J].電子技術與軟件工程,2018(19).
[3]趙峰.應用系統全鏈路監測方法研究[C]//2017智能電網發展研討會論文集,2017.
[4]黎建輝,李躍鵬,王華進,等.科學大數據管理技術與系統[J].中國科學院院刊,2018(8).
[5]劉蓉.大數據時代的數據管理技術探討[J].信息系統工程,2019(2).
[6]喬胡銳.基于大數據技術的配電網運行可靠性分析[J].民營科技,2017(10).
[7]崔建業,徐奇鋒,倪秋龍,等.智能電網大數據技術策略創新發展[J].電子技術與軟件工程,2018(22).
[8]王穎.大數據時代數據管理技術探析[J].信息系統工程,2019(6).
[9]王龍,朱孜.淺析智能電網大數據技術發展[J].通訊世界,2019(6).