張慶永 閆偉軍 史紹星
:在當前的大數據時代下,關于電網線損的信息數據量越來越多,為了能夠有效提高數據處理效率,同時進一步保障電網線損分析的精準性,可以專門針對電網線損分析搭建起相應的大數據平臺。而其中所運用的各種關鍵技術則直接影響著電網線損分析結果。基于此,本文將通過結合相關研究資料,著重圍繞基于大數據平臺的電網線損分析關鍵技術進行簡要分析研究。
:大數據平臺;?電網線損分析;?關鍵技術;
本文通過探究基于大數據平臺的電網線損分析關鍵技術,可以在幫助人們加深對大數據技術的理解與認知,并為相關研究人員提供必要理論參考的同時,也能夠為如何利用大數據平臺深化落實電網線損分析,確保分析結果精準有效給予相應的指導幫助。因此掌握大數據平臺下的電網線損分析關鍵技術,也成為優化電網線損分析的一大重要前提。
1 大數據平臺下的電網線損分析關鍵技術
1.1 大數據采集
在電力大數據平臺中,通常將電網企業目前使用的關系數據庫、數據倉庫等作為其主要數據來源。在數據傳輸時,不僅要求在關系型數據庫、分布式存儲中,數據可以根據自身實際要求進行自由、靈活切換傳輸,同時也需要確保在眾多數據同步傳輸時,平臺仍然具有較高的數據傳輸效率,各項業務系統能夠實現正常運行。考慮到在傳統系統當中所采用的ETL抽取工具,基本只能簡單完成同步各數據源,如文件與服務數據源的同步等,難以達到數據在關系數據庫與分布式存儲間的同步。因此需要適時將大數據采集技術運用其中,首先在進行數據抽取時,主要利用Sqoop負責抽取各系統間的數據,在Sqoop的作用下可以直接向Hadoop當中的Hive等數據存儲組件,導入關系型數據庫中的各項數據,而在此過程中,Sqoop也可以從Hadoop系統當中直接進行數據抽取,隨后立即將其導入至對應的關系型數據庫中。在完成數據抽取之后,需要對其進行“清洗”,即通過運用數理統計與數據挖掘等專門的數據清理規則,對臟數據進行轉化,是指可以成為與電網線損分析要求相符的數據類型。最后通過立足具體電網線損分析要求轉換導入其中的業務信息即可。例如通過將原本分散的若干變電設備信息進行統一合并,使之可以集成至同一設備信息表當中。而在數據挖掘關聯分析或是對其進行離散化處理的過程中,轉換原數據使之成為非連續性字典類別,再使用離散化數據實現數據挖掘關聯即可。
1.2 大數據存儲
為有效存儲大數據平臺中海量的電力數據信息,同時盡可能降低數據存儲成本,為數據提供多樣化的訪問方式,需要相關工作人員結合實際情況,靈活采用適宜的大數據存儲技術。例如當前較為常用的大數據存儲技術有可以直接在分散存儲介質上進行數據存儲的HDFS分布式文件系統,該系統對外提供的所有文件訪問接口均完全相同,其存儲介質成本低廉并且系統容錯性較好。HBase列式存儲數據庫,則主要采用列相關存儲架負責批量完成數據存儲與分析處理,同時支持用戶隨時根據自身需要進行數據查詢。本文認為在具備電網線損精準分析功能的電力大數據平臺中,針對其中存在的各種信息數據如用戶用電信息、開關運行數據等,可以直接利用HDFS分布式文件系統對其進行臨時存儲,在后期數據處理程序執行分布式離線計算任務時,即可從分布式存儲中直接調取其需要使用的相關數據即可。
1.3 大數據分析
基于大數據平臺的電網線損分析當中,另一項至關重要的關鍵技術便是大數據分析技術,其直接影響著最終電網線損分析結果的有效性和精準性。雖然目前用于大數據分析的技術眾多,包括分布式與內存計算技術等等,但為了有效提高海量信息數據的分析與處理效率,本文認為電力數據平臺可以直接采用Hadoop離線分布式計算技術,代替傳統的多次循環迭代算法,一次性完成所有電網線損相關數據的集中整理和深入分析。針對在分布式電網設備拓撲關聯分析等當中,需要使用進行兩次以上數據全量掃描的算法,則可以直接選擇使用Spark內存計算技術。具體來說,大數據平臺主要先通過運用聚類或關聯分析等數據分析挖掘技術,對存在異常線損率的電力線路與臺區進行精準識別,而后利用電網拓撲數據構建相應的電網拓撲分析模型,并以此為基礎立足電網線損分析要求,建立起電網線損分析模型。
2 大數據平臺下的電網線損分析應用實踐
2.1 系統性能
以某省目前使用的大數據平臺電網線損分析系統為例,該系統將該省電網營配調各系統數據作為接入數據,將省內全部能量節點2年時間歷史數據接入其中,系統的數據存儲容量可以達到12TB,此后每日系統數據量還將保持16GB的增長速度。在進行電網線損分析中,系統使用了Hadoop/Spark服務器集群作為大數據平臺數據庫,以此有效完成負載均衡。在該集群當中設置了一臺Master節點,同時采用1:3的冗余比共計設置5臺Slave節點。根據相關系統測試數據可知,在讀取數據庫規模由原本的1億條,增長至8億條時,Hadoop平臺每一秒可以讀取大約10萬條數據,其每秒寫入的數據條數也基本可以達到4萬條。人體參加計算的數據規模,由原本的1000萬條增至2.5億條時,在運用Hadoop平臺時,計算耗時增速較為緩慢。一般在數量級達到100萬時,其計算耗時在100s左右,而當數量級增長至250萬時,計算耗時也基本控制在150s左右。在Hadoop平臺節點,由原本的4個增至6個時,計算時間還會出現明顯縮短的變化趨勢。
2.2 應用成效
整體來看,該省級大數據平臺電網線損分析系統在實際運行過程中,通過靈活運用各種大數據關鍵技術,不僅能夠精準識別線損的具體構成與出現線損異常情況的區域與元件,直接展示出線損出現的原因,同時在利用電網網架數據并對其進行深入挖掘分析下,可以為相關工作人員解決電網線損問題提供真實可靠的數據支持與參考依據。在積極將GIS地理信息系統引入其中下,電網企業管理人員也能夠隨時了解其轄區范圍內的用電量與具體線損情況。例如根據系統給出的相關數據可知,在電壓等級為220k V時,其線損率約為1.03%,而在電壓等級為110k V時,分析得到的線損率為1.13%。在電壓等級為35k V時,對應的電網線損率約為2.6%。此外,系統還以圖表的形式直觀清晰地向工作人員展示其分析的臺區線損率異常原因,工作人員可直觀了解到,缺采數、電網線路老化以及電網線路長時間超負荷運行是導致臺區線損率出現異常的最主要原因。在根據GIS地圖信息顯示的具體線損異常區域下,工作人員可以及時、有針對地處理該區域中的線損異常問題。
總而言之,在基于大數據平臺的電網線損分析中,大數據采集和存儲技術、大數據分析與數據安全技術等,均為提高電網線損分析的有效性和精準性發揮了至關重要的幫助作用。因此工作人員在實際構建大數據平臺下的電網線損分析系統中,還需要積極運用各項相關關鍵技術,以此充分發揮系統應有效用,切實解決電網線損問題。
[1]李端超,王松,黃太貴,等.基于大數據平臺的電網線損與竊電預警分析關鍵技術[J].電力系統保護與控制,2018,46 (5) :143-151.
[2]吳飛,付婷,陳倩,等.基于電網大數據的線損精細化分析的研究[J].現代信息科技,2018,2 (1) :63-64.
[3]孫立華.基于Hadoop技術的電網線損分析系統研究與實現[D].南京:東南大學,2017.