趙少東, 王程斯
(1.深圳供電局有限公司, 深圳 518001;2.深圳市數聚能源科技有限公司, 深圳 518010)
大數據時代的最突出特點就在于海量的信息數據,這些信息多數產生與信息用戶個人網絡操作行為,并且因為用戶個人計算機帶有異構性,所以在對數據進行儲存時,往往會將數據以獨立的形式儲存。在電力企業視角下,現代用戶的電力信息同樣龐大,以往為了對龐大電力信息進行管理,電力企業的會采用電網系統進行監控,但在應用結果上可見,電網系統的監控存在實時性、準確性不足的問題,之后通過分析發現,造成此問題的原因在于,電網系統所采集的數據信息為單純的電能供給信息,無法對電力用戶的用電行為、用電特點等信息進行采集,縮減了電能供給分析的范圍,所以為了對此進行改善,需要進行相關的研究。
因為現代網絡環境的復雜,許多網絡信息都出現了較強的獨立性,形成了“孤島信息”的現象,此現象在電力能源供給領域同樣存在。在“孤島信息”的影響下,容易降低網絡信息的價值以及資源浪費的問題,所以為了對此進行改善,需要進行異構計算實時可視化綜合能源大數據平臺建設[1~6]。
在建設當中,本文主要采用了Hadoop、Spark、GPU計算等多種計算技術以及云化ETL技術、數據智能化修復、數據分析與挖掘模型市場、海量數據實時可視化框架組成異構計算實時可視化綜合能源大數據平臺,在這些技術的應用之下,可以實現對海量用戶用電數據進行多元化計算能力、多源數據整合與開放、用電地址結構化管理、電能生產與消費統一化管理、可視化海量數據多維度實時分析等目的[7~9]。
在本質上,Hadoop技術屬于分布式系統框架,能夠為平臺建設提供基礎框架。在Hadoop技術的應用之下,工作人員能夠在不了解分布式底層細節的前提下,進行分布式程序開發,同時因為框架效應可以使海量數據形成集群,之后在集群的基礎上可以進行儲存以及高速計算,下文將對Hadoop的儲存與高速計算功能構成進行分析。
1.儲存。Hadoop的儲存功能主要來自于HDFS,HDFS是一種分布式系統框架,與線上文件系統相似,即以文件的形式將數據分類并保存,在以往的應用當中HDFS體現出容錯率高、高吞吐量的優勢[10]~[11]。
2.高速計算。Hadoop的高速計算功能主要來自于MapReduce,MapReduce本身屬于編程模式,具有高效率、高容量的特點,在以往的應用當中MapReduce可以對大于1TB的數據進行計算,在Hadoop環境下的應用中,能夠自行將程序運行在Hadoop的分布式系統當中,使計算工作的便捷性得到提高[12]~[14]。
Spark屬于一種通用的計算引擎,其是專門針對海量數據而設計的,在應用當中具備效率較高的特點。在相比之下,Spark與Hadoop MapReduce基本相似,所以兩者之間具有很好的融合性。此外,Spark計算引擎與Hadoop MapReduce的不同點在于,Spark的計算結果可以直接被保存計算機內存當中,不需要通過HDFS的低些,所以相比之下Spark的性能要高于Hadoop MapReduce,但在本文設計當中,不需要將此兩項區分,所以本文將此兩項技術融合為并行框架[15]。
GPU是一種圖像處理器,主要針對計算機顯卡數據進行處理,在以往的應用當中GPU常被用于移動端、PC端、工作站等多項領域,所以在本文的電力企業背景下,GPU同樣可以被應用在電力企業的移動端、PC端、工作站當中。本文在GPU的功能下,能夠將上述計算技術所得出的結果形成二維或者三維圖像,同時工作人員可以直接對圖形進行處理,實現了電力能源可視化監控平臺基本框架[16]。
為了增強平臺的功能性,本文主要采用了云化ETL技術、數據智能化修復技術、數據分析與挖掘模型市場搭建技術、海量數據實時可視化框架搭建技術來實現目的,下文將對此人類技術構成進行逐一分析。
1、云化ETL技術。云化ETL技術主要用于信息的歸納與收集,在電力企業背景下,可以將其企業內營銷系統、計量自動化等數據進行整合形成數據集。在數據采集方面,本文在此項技術當中,加入了數據交易、網絡爬蟲運作模式,通過兩者的應用,可以從互聯網等信息渠道獲取社會經濟指標、企業信息等數據,再結合Hadoop技術實現了數據分布式存儲以及整合。
2、數據智能化修復技術。本文主要采用通用修復軟件與智能化技術實現目的,即當新數據產生之后,智能化技術可以自動進行備份,并智能分類儲存在通用修復軟甲年當中,在數據出現遺失等現象時,即第一時間通過歷史數據與現下數據的數量、類型對比,發現遺失數據,最終在啟動通用修復軟件的備份修復功能,實現智能化修復、
3、數據分析與挖掘模型市場搭建技術。在綜合能源大數據中心數據資產優勢之下,采用通用性的算法、模型組件化建設市場模型,通過該市場可以有效控制運作成本。
4、海量數據實時可視化框架搭建技術。結合GPU技術構建海量數據實時可視化框架。
在Hadoop+MPP架構基礎上(MPP為軟件Project的文件格式),結合大數據技術進行構建,為了實現異構計算機可視化監控,首先對電力企業的數據類型進行了分析,分析據誒過顯示電力企業數據類型主要可以分為:電力管制性業務數據資產、外部渠道數據資產、各類綜合能源業務數據資產等。依照數據類型,對平臺建設架構進行設計,結果顯示架構流程為:應用層、平臺層、數據源層、網絡層、終端層,平臺建設總體架構,如圖1所示。
對各架構分層進行分析,如下文所述。
1) 應用層。主要實現分析挖掘服務、數據共享服務、數據交互服務功能等,為了對多項功能進行管控,本文采用了Kafka集群系統,該系統能夠實時獲取對于應用功能的數據流,在通過人工操作以及智能化技術的介入,實現應用層管控。此外,Kafka集群系統還能夠實現數據篩選,可以適當減少數據集群當中的無用數據。
2) 平臺層。主要由數據管控、平臺管控、能力層、計算層、存儲層、數據獲取層組成。在數據管控、平臺管控主要采用數據管理技術,此項技術能夠實現數據的收集、組織、儲存、處理等功能,為了給工作人員提供操作服務,通過編程技術將此項技術編譯成VB功能按鍵,工作人員可以直接通過按鍵實現數據管控;在能力層、計算層、存儲層、數據獲取層方面,主要將GPU、HDSF、MPP技術結合應用。
3) 數據源層。采用大數據挖掘技術以及天地圖技術構建而成,該層主要能夠提供給平臺層提供數據支撐。
4) 網絡層。由4G網、以太網、載波技術組成。結合OCPP協議、104基礎通信協議對4G網、以太網進行規劃建設,實現WIFI接入、非侵入式終端接入。
5) 終端層。主要負責數據的產生,通過網絡層進行通信。
應用架構主要涉及平臺管理能力,該架構分為4個部分,即數據管理、平臺能力管理、計算引擎管理、存儲與同步管理如圖2所示。

圖1 平臺建設總體架構

圖2 應用架構圖
下文將對此進行逐一分析。
1) 數據管理。采用CRM軟件實現數據管理,CRM軟件是一種用戶關系管理軟件,能夠良好的接收來自用戶的數據信息,之后通過相應的功能,將用戶數據進行存儲備份,并建立相應的數據模型,在需要調用數據時,通過檢索操作即可。
2) 平臺能力管理。采用SQL服務器提供支撐,再依靠MDX服務、FTP服務于API服務四種類型實現數據接入管理;采用基于BP神經網絡的統計分析技術、數據挖掘、機器學習等技術實現數據分析與挖掘;采用云化ETL技術、時空可視化技術、熱力渲染功能技術構建。
3) 計算引擎管理。在Spark計算機引擎基礎上,采用GPU計算任務管理、SQL任務管理、機器學習任務管理、圖計算任務管理等功能程序增強計算引擎功能性。
4) 存儲與同步管理。采用云儲存技術實現數據分類存儲與同步管理功能。
結合某實例電力企業應用情況進行分析。
實例電力企業的業務架構主要可以分為電動汽車充電云平臺、居民智能用電應用、掌上營業廳、網上營業廳、微信公眾號、客戶全方位服務六項,通過多年的累積,該企業現已擁有約90萬用戶。
因為實例中的六項業務在平臺中的運行流程一致,所以不需要分開分析,對此本文將針對上述六項業務中的掌上營業廳來對實例業務應用過程進行分析,因為掌上營業廳在現代較為普及,其分析結果較具代表性。分析內容包括數據采集、數據分析、數據服務功能實現方法,具體如下。
(1) 數據采集
主要通過平臺中的數據共享功能來獲取相關數據,獲取過程當中操作人員可根據數據檢索功能來便捷的找到所需數據,采集流程上,通過SQL、FTP、API、MDX中任意一項接入協議進入數據共享儲存庫,再通過人工檢索輸入關鍵詞,來實現數據獲取。
(2) 數據分析
針對數據進行分析,首先通過數據可視化功能將上述采集得來的數據進行展示,其次進入開發管理模塊來對數據進行相關分析,排除無用數據并對數據進行分類,了解數據與哪一項工作任務相符,最終將數據輸入計算引擎管理模塊,進行任務分配。此外,在此步驟當中還會啟動數據分析與挖掘模塊,平臺會自動對數據進行挖掘,并對挖掘結果進行學習(記錄),給下一次操作提供幫助。
(3) 數據服務功能實現
根據工作任務分配結果,操作人員依照服務需求可以通過工作流引擎管理模塊對任務調度模塊進行控制,相應也就控制了其中的任務數據,實現了數據服務。
從3個方面對實例電力企業異構計算實時可視化綜合能源大數據平臺應用狀況進行分析。
(1) 計量數據、能源管理準確性
通過平臺應用,實例企業的計量數據、能源管理準確性得到了提高,根據統計結果顯示,該企業在處理數據業務時的準確率達到98%以上。
(2) 平臺服務表現
平臺提供了各類客戶用能特征類模型、客戶負荷需求類模型和充電樁運營類模型服務,以及相關數據的共享和計算服務等提供了有效支撐,在數據上來看平臺內各模型和服務每日應用均值為1 600余次。
(3) 平臺功能性表現及可控性表現
平臺可以實現數據可視化監控管理,后臺工作人員可以針對某項業務,采用相應的功能按鈕,或者直接在圖像上進行操作,以此即完成了管控。此外,因為CRM軟件的關系,后臺人員可以實時了解到用戶的用電習慣、用電特點等,使操作更加貼合用戶需求。
大數據技術對于現代社會的發展具有重大影響,在此背景下出現了許多不同種類的大數據應用形式,其中就包括了異構計算實時可視化綜合能源大數據平臺。本文為了了解該平臺的原理以及應用情況,首先針對性的展開了開發研究,研究當中先對平臺建設的必要性以及建設思路進行了闡述、對平臺建設當中的關鍵技術進行了分析,之后進行了平臺建設。建設主要分為兩個部分,即總體架構搭建以及應用架構搭建,其中總體架構主要功能在于提供平臺總體框架,應用架構主要實現了框架內的各項功能。最終,為了驗證本文建設是否有效,結合實例進行了相關分析結果顯示良好。