馬平 徐偉東 沈浩欽 吳杭
(1.國網紹興供電公司,浙江紹興 312000;2.深圳市國電科技通信有限公司北京分公司,廣東深圳 100070)
電力大數據應用現狀及多源異構數據分析技術研究
馬平1徐偉東1沈浩欽1吳杭2
(1.國網紹興供電公司,浙江紹興 312000;2.深圳市國電科技通信有限公司北京分公司,廣東深圳 100070)
智能電網運行、檢修和管理過程中會產生海量異構、多態數據,如何將它們進行高效可靠存儲,并實現快速分析訪問已是當前電力系統中重要的研宄課題。本文在分析電力生產各個環節大數據的產生來源和特點基礎上,闡述市場已有大數據技術在電力系統應用的優勢和不足。最后,從電網異構多源信息融合及可視化方向提出了一種應用方法。
智能電網 大數據 異構分析 可視化
近年來,隨著全球能源問題日益嚴峻[1],世界各國都開展了智能電網的研究工作。智能電網的最終目標是建設成為覆蓋電力系統整個生產過程,包括發電、輸電、變電、配電、用電及調度等多個環節的全景實時系統。而支撐智能電網的基礎是電網大數據全景實時數據采集、傳輸、存儲以及快速分析。目前智能電網中的大數據主要來自以下幾個方面:
(1)海量電網狀態信息采集設備。常規的調度自動化系統含數十萬個采集點,配用電、數據中心將達到百萬甚至千萬級。需要監測的設備數量巨大,每個設備都裝有若干傳感器,構成了一個龐大的數據網。
(2)高頻電網狀態信息捕獲技術。為滿足上層應用需求,設備的采樣頻率逐漸提高。在輸變電設備狀態監測系統中,為了能對絕緣放電等狀態進行診斷,信號的采樣頻率必須在200kHz以上,特高頻檢測需要GHz的采樣率。
(3)視頻及模式識別系統推廣。智能電網視頻監控系統不僅要求能夠真實地反映電力系統的情況,并且還需自動判斷情況的好與壞,同時自動采取相關措施,是一個“會思考”、“能做事”的智能化系統。為此,需要電網具備強大存儲及處理能力。
谷歌公司提出的分布式文件系統(distributed file system,DFS)和MapReduce技術,已成為現階段Facebook、雅虎等網絡公司大數據應用的解決方案[2]。
DFS技術,具備高容錯性特點,可部署在海量且價格低廉的硬件設備上,而且它為應用程序提供了高吞吐量的數據訪問,適合那些有著超大數據集程序。MapReduce為2004年由谷歌公司提出的一個用來進行并行處理和生成大數據集的并行編程模型。應用“解析器”,將復雜數據關系進行映射及化簡,配合DFS最終實現快速數據處理。但是,該方法應用在電力系統中直接面向業務對象,就表現出一定局限性。
(1)數據形式多樣化。電網業務數據大致分為3類:一是電網運行和設備檢測或監測數據;二是電力企業營銷數據;三是電力企業管理數據。包含一維數據、二維數據、多維數據、文本與超文本、層次和圖形等多種形式。現有大數據技術無法直接或高效的分析處理。
(2)數據價值密度較低。以視頻為例,連續不間斷監控過程中,可能有用的數據僅僅有1~2 s。在輸變電設備狀態監測中存在同樣問題,所采集的絕大部分數據都是正常數據,只有極少量的異常數據,而異常數據是狀態檢修的最重要依據。
電力系統若要應用成熟大數據技術,首先需對各類異構信息進行預處理,本文將就異構多數據處理技術在電力系統應用進行分析,并簡述一種針對低價值密度數據集的可視化方法。

圖1 電力系統大數據處理框圖

圖2 數據自動抽取與格式轉換模塊結構
為更好闡述本文提出的面向電力系統多源異構數據的多維分析與可視化方法,首先結合主要電力環節和信息處理流程,加入數據自動抽取與格式轉換模塊(含實時在線訪問控制模塊)、以及多形式的可視化展示模塊,形成如圖1所示電力系統大數據處理框圖。
針對各自治系統提供數據方式的不同以及兼顧電力數據的特點,提出并設計了一種多源異構海量數據的實時數據自動抽取與轉換模塊[3,4],模塊結構如圖2所示。
該模塊包括實時控制監測層、實時抽取格式處理層以及實時存儲層等。其中:
實時控制監測層:主要完成多源數據的訪問權限的配置與管理、訪問的方式配置、訪問頻次設定以及異常處理等,目的是與各數據來源建立合法可靠的數據訪問機制。
實時自動抽取與格式轉換處理層[5]:主要完成對實時監測到的數據進行正確性檢查,根據各異構數據的不同抽取規則對實時在線獲取的數據進行分類多線程的自動抽取,并結合決策基礎數據庫的存儲設計要求進行相應格式轉換,形成具體統一規范的數據格式,此層顯然是最核心的處理層,在設計時要特別注意轉換的效率和轉換的正確性,是后期應用的基礎性工作。

圖3 像素法數據可視化
實時存儲層[6]:主要完成對產品數據的保存和數據的實時利用,同時也方便以后歷史數據的查詢和統計分析等。
電網智能分析結果可視化是電力大數據應用的一個重要的組成部分[7],可視化的效果直接影響到重要信息展示以及用戶決策。目前數據可視化已經提出了許多方法,這些方法根據其原理不同可以劃分為基于幾何的技術、基于層次的技術、面向像素技術等。基于幾何與層次的可視化技術現階段已在較多領域應用,且不適合含有低價值密度數據的數據集。
面向像素技術是現階段應用于大數據展示的先進技術,它的基本思想是將每一個數據項的數據值對應于一個帶顏色的圖片像素,對于不同的數據屬性以不同的窗口分別表示。
面向像素的可視化方法包含獨立于查詢的方法和基于查詢的方法兩種[8]。
獨立于查詢的方法將數據庫中的數據依從左到右(從上到下)的次序一行一行(一列一列)地排列顯示出來,類似于幾何可視化方法。
而基于查詢的方法是根據數據值同所查詢的要求的符合程度來匹配不同的顏色。針對每一個數據項的值(a1,a2,...,an)及查詢要求(q1,q2,...,qn)通過一個距離函數計算每個屬性值與查詢要求的匹配值,得到每個數據的一個總的距離值dn+1以反映數據項與查詢要求之間的匹配程度,總的距離值dn+1越小越是用戶所希望看到的數據。查詢的數據結果按dn+1的值由小到大從屏幕的中央螺旋地向四周展開。這樣不僅能看到所查詢的數據,而且對于數據從近似匹配到不匹配的走勢也能直觀地表現。該種方法配合模式識別技術,可對電力系統狀態檢修及故障專家決策系統有很大幫助。
未來的智能電網將是依托大數據分析處理技術的全景實時電網。本文針對行業內海量數據預處理問題,提出了一種面向多源異構數據的多維預處理模型,又針對電力系統低價值密度數據集普遍存在這一事實,提出應用像素可視化方法,最大限度地克服了現有系統分析力度不夠和可視化單調的不足,提高了基于電力大數據技術的應用有效性。此外,該方法對非電力行業的分析與處理也有一定的參考價值。
[1]宋亞奇,周國亮.智能電網大數據處理技術現狀與挑戰[J].電網技術,2013,3(4): 927-935.
[2]李國杰.大數據研究的科學價值[J].中國計算機學會通訊,2012,8(9):8-15.
[3]惠卿,孫翠娟,董鴻燕.基于服務數據對象的異構數據集成系統[J].自動化技術,2010,8(6):79-83.
[4]Peijian Wang.D-pro:dynamic data center operations with demand-responsive electricity prices in smart grid[J].IEEE Transactions on Smart Grid,2012,11(4):1743-1754.
[5]謝華成,陳向東.面向云存儲的非結構化數據存取[J].計算機應用,2012,32(7):1924-1928.
[6]張良,佟俐娟.異構數據庫集成中數據傳輸問題的研究[J].北京機械工業學院學報,2011,9(11):65-68.
[7]劉勘,周曉崢,周洞汝.數據可視化的研究與發展[J].計算機工程,2012(8):11-13.
[8]任永功,于戈.數據可視化技術的研究與進展[J].計算機科學,2010,31(12).