鄧賢添(廣東電網有限責任公司江門新會供電局,廣東 江門 529100)
基于分布式技術的電力大數據高性能處理中的應用研究
鄧賢添
(廣東電網有限責任公司江門新會供電局,廣東 江門 529100)
分布式技術應用屬于新興技術,是基于網絡應用所開發的一項技術,可以提供效果良好的網絡應用開發模式,此項技術實現了高效率及大規模和組件化的分布式程序的開發。Internet技術水平持續提升,隨之人們對網絡應用系統有了更高的要求及需求。
分布式技術;電力大數據;高性能處理
分布式應用技術誕生至今,由最初兩層應用模式發展到具有應用層及業務邏輯與數據層的三層模式,再到目前的多層體系結構模式總共經歷了三個發展階段。為了有效處理電力數據分析系統處于大數據時代下所出現的性能及可伸縮性的瓶頸問題,以便充分適應于各方面生產及營銷等各種系統的要求,著眼于云計算技術各方面優勢,提出了基于云計算的電力大數據分析系統體系結構和主要技術。
近年來,數字信息化發展飛速,各類信息資源更是持續暴漲。人類在享受信息化所帶來的便捷時則也造成全球數字信息資源飛速增長。按照國際數據統計資料顯示,截止2014年底全球數據量已經超過了2.0ZB,還會每年以50%增長速度不斷上升。大量數據浪潮不斷涌入,社會各界也相繼開始了數據化進程。學術界及政府和商業界也都參與其中,無一幸免的進入大數據時代。國內電力工業是全球第二大經濟體能源支撐體系,則進入大數據時代無可厚非。
大數據概念在業內并無統一定義,引用IDC基于信息基礎設備推進研究會中對其的描述,就是大數據自身具備大量數據體及諸多數據類型和極快的數據處理,加上其價值密度偏低的這四方面特征,屬于一個海量數據集合,這也是業界所一致認同的。大數據也就是不能在規定時間之內采用傳統數據庫軟件工具對相關內容施以獲得及管理與處理的大數據集合。如圖1所示,CORBA調用模型簡視圖。
著眼于大數據來講,電力大數據屬于能源改革過程中電力工業技術改革的關鍵過程,并不是簡單的技術。電力大數據不只是技術發展和進步,是關乎到總體電力系統處于大數據時代而面臨的發展理念及管理機制與技術路線變革問題,這也是智能化電力系統處于大數據時代下其自身價值形態提升。

圖1 CORBA調用模型簡視圖
本文只對極具代表性的網絡計算及云計算和志愿計算這三類分布式計算進行分析和比較。網絡計算思路屬于聚合分布主要資源,可以支持虛擬組織,以提供更高層次的服務,其網絡拓撲結構較為穩定,參與者只需完成相關任務則就可以退出系統。而志愿計算節點登出/入系統任意性較強,盡管提升的靈活性會出現相關任務并未完成就沒有音信的狀況,不過在未能完成任務時則會涉及到此節點信譽度,下次分配任務時系統會對此節點的信任度降低則縮減任務分配量。
網絡計算及云計算與志愿計算等均可支持異構資源,但是以理念上來講確實各不相同。網絡關鍵是經過中間件進行屏蔽異構系統,并且對用戶透明,把實際過程交于中間件來有效執行。云計算可以有效確保用戶方面實現按需分配,也就是運用服務就像是日常生活中用水電一樣,但是異構方面則是利用鏡像執行,或者是采用服務機制解決此問題。志愿計算異構性影響較小,具體來講則是只要志愿者能夠返回結果即可,利用機型及系統等方面不同并沒有特別的要求。
云計算及網絡計算與志愿計算相比而言則分布式技術可以說是被進一步應用,降低了參與者的各方面工作,只要選用期望運用的類型和付費類型,其余兩類計算方式均是需要對總體系統運行進行相關設定。并且,云計算能夠把較為集中的資源用作執行較為分散的應用,網絡計算及志愿計算均是需要對分散資源進行聚合,再執行較大型應用。
志愿計算則主要是體現分布式計算靈活性,也就是采用網絡間的閑置資源把分割好的任務交于各個子志愿者執行,再施以整合且提交任務,該過程的實現不需要網絡計算中的數據中心,更不需要云計算中諸多云終端,只是需要假定服務器及host,從而進行調度,這和以往傳統式分布式計算理念非常類似。

圖2基于云計算的大電力數據分析系統體系構架簡視圖
電力大數據及互聯網大數據這兩者的區別主要是:第一,互聯網場景下的典型大數據應用均需順序掃描數據集,所以分布式并行大數據分析系統Hive等都沒有提供良好的索引。電力大數據分析時則多維區域查詢非常多,因為沒有對應索引則會造成訪問出眾多不需要的數據,這也降低了查詢執行功能。這時也就需要對多維區域查詢特征而設計適宜的索引構架及機制;第二,互聯網大數據典型特征就是一次寫多次讀。對于這種數據特征來講則分布式文件系統都沒有提供數據改寫機制,僅僅是經過全部覆蓋數據方式間接實現改寫數據。電力大數據業務場景下會存在諸多數據改寫語句,覆蓋數據的方式執行查詢時則會造成執行效率偏低。所以應提供良好的數據改寫機制;第三,互聯網企業按照自身業務需求設計大數據查詢語言,比如HQL僅是SQL的子集,電力數據分析系統大都是采用標準SQL語言所編寫的,這也是需要人力及時間來達到數以萬計的SQL語句翻譯,形成等價的HQL語言翻譯,從而翻譯成正常的HQL語言,提升遺留應用遷移速度,達到電力數據分析業務無縫平滑遷移。
通常為了能夠適應智能電網對電力大數據分析的需求及要求,則針對性的對電力大數據和業務邏輯典型特征進行分析,并且有效結合云計算技術先進技術和行業部署經驗,最終研發出基于云計算的電力大數據分析系統。此系統是基于分布式并行計算構架,利用Hive為數據分析軟件,針對于電力大數據各方面特征而開發的基于網絡文件多維索引,基于查詢重寫的SQL至HQL自動化翻譯工具及支持數據更新的儲存模型,這些都充分提升了Hive性能及易用性。此系統也已經成功運用在國內諸多電力用電信息采集系統中,充分提升了系統性能,降低系統運行成本。電力大數據分析系統體系構架主要是包括分布式文件系統模塊、Hadoop、Hive、監控工具和運行調度工具這幾個方面。如圖2所示,基于云計算的大電力數據分析系統體系構架簡視圖。

圖3 性能測試對比柱狀圖
某供電企業采用電信息采集領域,處理目前用電信息采集系統爆發式增長的大量采集數據儲存及查詢與統計計算等方面性能所出現的瓶頸問題,利用分布式并行計算平臺來完成傳統式基于Oracle數據庫平臺用電信息采集系統技術構架最優化及性能提升。
案例試驗中是利用某供電公司用電信息采集系統三個月內的真實數據,其中涉及到19張業務表,總共是6.39億的數據,測試兩類不同技術下的低壓數據完整率統計及終端通信流量統計,加上低壓日常電量計算及用戶負荷查詢這四類用電信息采集業務解決。
最終測試顯示分布式并行計算平臺1/8硬件投入時其性能提升大約7倍,不只是驗證了通過Oracle數據庫平臺轉化為分布式并行計算平臺有著極高的可行性,這也顯示了分布式并行計算平臺所呈現的優勢。如圖3所示,性能測試對比柱狀圖。
以往傳統式網絡應用程序均是傳輸層協議上直接編程,此類編程方式極為復雜且不能適應于較大規模多用戶大型應用系統,加上此系統不能拓展,此時分布式應用技術也就應運而生。本文就分布式技術在電力大數據高性能處理方面進行了分析,對幾種分布式計算進行了比較,結合電力大數據特征及云計算技術的發展,分析了基于云計算的電力大數據系統,以便提升國內基于分布式技術的電力大數據高性能處理水平。
[1]王放.解析分布式計算的應用[J].電腦編程技巧與維護,2013(09).
[2]賀宗春,承德寶.分布式技術在智能數字調度系統中的應用[J].電子技術,2014(17).
[3]張冬萍,雷博,高凱.分布式技術在數據庫開發中的應用[J].吐哈油氣,2014 (11).
[4]鄧靈,陳亮,葉仲和.分布式技術及其應用概述[J].計算機時代,2014(21).
[5]衡星辰,周力.分布式技術在電力大數據高性能處理中的應用[J].電力信息與通信技術,2014(20).
TM769
A