周國亮,呂凜杰,王桂蘭
(1. 國網冀北電力有限公司技能培訓中心,河北 保定 071051;2.華北電力大學信息與網絡管理中心,河北 保定 071003)
電力信息化專欄
電力大數據全景實時分析關鍵技術
周國亮1,呂凜杰1,王桂蘭2
(1. 國網冀北電力有限公司技能培訓中心,河北 保定 071051;2.華北電力大學信息與網絡管理中心,河北 保定 071003)
針對智能電網建設過程中收集的電力大數據,基于電力系統全景實時數據分析的需求,探討基于大數據的電力系統安全可靠性分析、實時狀態監控及能源全景動態平衡調度等核心問題的解決思路。 分析了利用大數據解決安全可靠性、設備全壽命周期管理及能源實時平衡調度等問題的挑戰及解決思路,基于大規模實時多源細節數據和設備全景數據的計算,有助于提高系統分析的精度和準確度,保證電網安全運行;探討了內存計算、實時流式大數據處理、大規模并行計算及列存儲等技術在電力大數據實時分析中的應用;結合主流開源大數據處理技術,設計了電力大數據分析平臺的分層體系架構,為電力系統的高效運行提供保證。
電力大數據;全景實時數據;內存計算;數據流;大規模并行
近年來,隨著全球能源危機、環境問題等因素的不斷加劇,世界各國對清潔能源的開發利用程度不斷提高,大量分布式、間歇性能源的廣泛接入對電力系統的安全穩定運行提出了更高的要求。在該前提下,智能電網應運而生。智能電網建設的最終目標是成為覆蓋發、輸、變、配、用及調度等過程的全景實時電力系統,而支撐系統得以準確、安全、實時及可靠運行的基礎是電力系統多源異構大數據的快速采集 、響 應 和 分 析[1,2]。未 來 智 能 電 網 既 要 支 持 個 人 終 端 用 戶 與電網系統的交互,也要滿足控制系統對電網安全穩定性的需求,智能電網中的多數應用需要海量數據處理技術的支撐。
隨著智能電網建設在廣度和深度上的不斷推進,在智能電網運行過程中會收集到系統內外的海量全景數據,形成電力大數據。比如,截至 2013 年底,國家電網公司累計安裝智能電能表 1.82 億只,實現用電信息采集 1.91 億戶,智能電表應用量占全球的一半,其用電信息采集系統成為世界上最大 的 電 能 計 量 自 動 化 系 統 ,將 產 生 以 PB 級 計 的 數 據[3]。同 樣在 電 力 系 統 狀 態 監 測 中 安 裝 的 PMU(phasor measurement unit,相 量 測 量 單 元 )是 用 于 進 行 同 步 相 位 測 量 、輸 出 和 動態記錄的 裝 置 。100 個 PMU 一天收集 62 億個 數 據 點 ,數據 量 約 為 60 GB,而 如 果 監 測 裝 置 增 加 到 1 000 套 ,每 天采 集 的 數 據 點 為 415 億個,數 據 量 將 達 到 402 GB。表 1 展示了智能電表生成數據量與采集頻率的關系。

表1 智能電表生成數據量與采集頻率的關系
同樣,在電力系統的其他各環節,隨著大量傳感采集裝置的安裝都將產生大規模的數據,而如何規劃、存儲、整合及綜合分析這些數據,是電力系統當前需要迫切解決的關鍵問題之一。但電力大數據與傳統互聯網大數據不同,對分析的全景性、實時性和可靠性提出了更高的要求。
通過建設基于大數據分析技術的全景實時系統,并使之成為整個系統的“神經中樞”,將有助于從大數據驅動的角度解決電力系統當前面臨的主要挑戰,比如可靠性分析、實時調度等問題,也有利于提高數據的利用率,挖掘數據價值。電力大數據全景實時分析平臺在系統中的地位如圖1所示。
將電力大數據中心建設成為整個電力系統的中心節點,負責全景信息收集、整合、狀態監控和資源調度平衡。通過獲取整個系統的實時全景數據,將電力系統變成一個“端到端”的透明系統,實現全局信息共享,消除“信息孤島”,避免由于信息不對稱造成的資源浪費;利用大數據分析技術,結合電力系統理論知識,構建系統分析模型,提高電力系統整體規劃水平,促進能源動態平衡;利用全景實時大數據,實現對輸變電設備的實時監控、評估、分析及狀態預測,從而快速隔離事故;利用大數據,實時獲取發電及負荷信息,達到資源的優化配置、調度,提高新能源接納吸收能力,促進“削峰填谷”和高級需求響應技術的應用。

圖1 電力大數據分析平臺在系統中的地位
云計算技術作為處理大數據的有效方式,在國內電力行業中的應用研究還處于探索起步階段,研究內容主要集中在系統構想、實現思路和前景展望等方面。參考文獻[3]針對智能電網狀態監測的特點,結合開源技術 Hadoop,借助虛擬化技術、分布式冗余存儲以及基于列存儲的數據管理模式來存儲和管理數據,以保證電網海量狀態數據的可靠和高效管理,但目前還只是一個框架設想。為了解決電力系統災備中心資源利用率低、災備業務流程復雜等一系列問題,參考文獻[4]設計了云計算資源管理平臺框架和部分模塊,其目標是實現電力企 業 ERP 數據 的 備份,但尚未實現。參考文獻[5]初步設計了電力系統仿真云計算中心的系統架構及其所包含的層次結構:基礎設施云、數據管理云、仿真計算云等。參考文獻[6]探討了未來智能電網控制中心面臨的挑戰,提出物聯網和云計算技術結合是新型控制中心的技術支撐?;?Hadoop 云計算平臺,設計實現了基于 Hadoop 分布式文件系統的電力設備狀態監測存儲系統[7],對 動 態 時 序 數 據 、靜 態 數 據 以 及 視 頻 數 據 進 行 了 存儲、關鍵字查詢與并行處理方面的研究,通過對系統的測試,驗證了云計算平臺高可靠性、良好的可擴展性和數據并行訪問的性能優勢。
在國外,云計算技術目前已用于電力系統海量數據的存儲和處理,并有實際運行的系統。參考文獻[8]分析了電力系統中不同用戶的實時查詢需求,設計了用于實時數據流管理的智能電網數據云模型,該模型較適合處理電力系統中的大規模流式數據,同時基于該模型實現了一個實時流 數 據 的 智 能 測 量 與 管 理 系 統 。Cloudera 公 司[9]設 計 并 實施 了 基 于 Hadoop 平 臺 的 智 能 電 網 在 TVA (Tennessee Valley Authority,田 納 西 河 流 域 管 理 局 )上 的 項 目 ,幫 助TVA 管 理 PB 級 的 PMU 數 據 ,體 現 了 Hadoop 平 臺 高 可 靠性以及價格低廉的優勢。另外,TVA 在該項目基礎上開發的 superPDC,通過 openPDC 項 目 將其開源 ,此 工 作 將有利于推動量測數據的大規模分析處理,并可為電網其他時序 數 據 的 處 理 提 供 參 考 。 日 本 Kyushu 電 力 公 司[10]使 用Hadoop 平臺對大規模的電力系統用戶消費數據進行快速并行分析,并在該平臺基礎上開發了各類分布式的批處理應用軟件,提高了數據處理的速度和效率。參考文獻[11]對云計算平臺應用于智能電網進行了詳細的分析,得出的結論是:現有云計算平臺可以滿足智能電網監控軟件運行的可靠性和可擴展性,但實時性、一致性、全局性、數據隱私性和安全性等方面的要求尚不能滿足,有待進一步深入研究。
隨著大數據在電力系統中的形成,電力大數據的研究也 獲 得 了 各 方 關 注 。參 考 文 獻[12]探 討 了 大 數 據 在 電 力 系統生產、控制和保護中的應用,從特征量提取、系統整合和案例分析 3 個方面進行了論述,并指出操作計劃制定、實時監控和故障檢測保護是將來的研究方向。參考文獻[13]認為電力系統大數據與傳統商業互聯網大數據不同,對實時性和安全可靠性的要求更高,需要設計新型的處理分析系統,作者設計了原型系統,并在電力公司試用,性能獲得了一個數量級的提高。風機選址是風電場建設中的一項重要工 作[14],IBM 利 用 氣 候 大 數 據 、潮 汐 相 位 、地 理 空 間 與 傳 感器數據、衛星圖像、森林砍伐地圖等信息幫助丹麥能源公司維斯塔斯的風機選址安裝,從而使風機獲得最優的發電量和最低的維護成本等。
電力系統是一個復雜、龐大的系統,傳統的系統可靠性評估、潮流計算等算法,具有處理數據有限、算法復雜度高、計算量大等特點,很難適應全景大數據的環境。參考文獻 [15]研 究 了 實 時 并 行 潮 流 計 算 技 術 ,通 過 并 行 計 算 技 術提高計算的效率。參考文獻[16]研究了利用集群計算電網可靠性的技術。參考文獻[17]研究了海量電網交換數據的處理技術。
綜上所述,電力大數據分析處理已經成為提升電力系統安全和運行效率的重要途徑,也是智能電網建設過程中必須面對的問題。目前研究思路主要集中在互聯網大數據技術在電力系統中的應用,而結合電力系統特點,并與電力生產運行系統緊密結合的大數據分析技術研究較少,將是未來研究的方向。
3.1 基于大數據的大電網安全可靠性分析技術
隨著電網規模的不斷擴大、大規??稍偕g歇性能源的 接 入 ,電 網 面 臨 著 嚴 峻 的 安 全 可 靠 性 問 題[16]。傳 統 電 力系統安全可靠性分析技術具有采集點少、運算量大的特點,隨著覆蓋整個系統的信息采集系統逐步完善,智能電網可以實時獲取整個系統的全景數據,而基于全景數據的分析評估計算量非常大,容易造成“計算災難”,幾千階的微分方程求解,無法滿足實時性要求;另一方面,隨著大規模分布式間歇能源的接入,由于分布式能源的不確定性和難以預測等,很容易對大電網造成沖擊,從而對系統的穩定 性 提 出 了 更 高 的 要 求[18]。因 此 ,利 用 大 數 據 從 全 局 角 度來動態實時分析系統的安全可靠性是電力大數據分析面臨的一項重要工作。
潮流計算是電力系統安全可靠性分析的重要手段之一,而傳統潮流計算的計算復雜度高、數據量小、計算精度難以保證。當面對全景實時大數據和動態實時變化的分布式能源時,傳統的計算技術很難動態精確計算系統的潮流情況,而基于大數據的高性能并行快速高精度的潮流計算技術,有助于提高潮流計算的速度和精度,從而提高電力系統可靠性水平。
目前電力可靠性分析主要采用傳統的 N-1 (即當某一設備失效后系統的安全性評價)安全準則,不考慮概率較低的多重事件,而電網事故中很多情況下會因為某一設備故障產生連鎖反應,所以有必要研究多重事故發生情況下的系統可靠性問題 (即 N-m)。而 N-m 情況下的可靠性分析計算量將呈指數級增長,并且在數據規模不斷增長的情況下,分析任務很難在有效時間內實時完成。
在電力系統安全穩定分析中,大多數分析歸結為代價很高的高維稀疏矩陣與向量常量的乘法運算。比如在潮流計算的過程中,如果電力網絡有 n 個節點,則有節點方程:

3.2 基于大數據的輸變電設備全壽命周期管理
除了安全穩定運行非常重要外,電力系統本身是一個動態實時變化的系統,因此必須實時監測系統的運行狀態,快速處理各種情況,保證系統的安全穩定運行。統計發現大多數電網故障主要是設備故障問題引發的,通過收集設備的全壽命周期數據(實驗數據、運行數據及氣候環境數據等),建立設備運行模型,有利于實時評估設備狀態,從 而 避 免 由 于 設 備 故 障 造 成 的 電 網 事 故[19]。目 前 的 設 備 管理系統記錄存儲的主要是設備臺賬信息,而設備全壽命數據由于時間和空間跨度大,收集整理具有很大的難度。通過大數據中心,整合系統可利用的所有內外部數據,使設備的全壽命周期管理成為可能。利用設備全壽命周期大數據,構建新的設備運行評估模型,以修正由于試驗環境條件有限造成的設備模型不準確、運行等級分類不足等問題。在設備全壽命周期大數據的基礎上,利用聚類劃分、異常點檢測、深度學習等技術,實現設備的無監督分類及故障 預 測[20]。
當前,電力設備狀態評估主要是基于實驗室建立的模擬環境產生的測試數據,利用人工智能(神經網絡等)對數據進行分析、劃分等級。然而這種方式存在數據樣本有限、數據與真實環境不一致、算法針對大規模數據集失效等問題。借助電力大數據,利用數據分析技術,挖掘設備狀態、環 境 等 之 間 的 關 聯 規 則 ,發 現 有 價 值 的 特 征 量[21-23],實 現 設備狀態監控,保證電網安全運行。因此,在設備全壽命周期管理中的關鍵問題是數據挖掘分析算法在電力系統中的深度廣泛應用。
3.3 全景實時能源動態平衡調度技術
電力系統作為一個有機的整體,系統內電能的生產、輸送與使用總量在不斷變化,但必須保持瞬間平衡。根據電力生產發、供、用必須同時完成的瞬時平衡規律及電能不能大規模有效存儲的特點,需要對電網進行嚴格的科學調度,保持電網正常運行。電力系統調度當前主要應用SCADA (supervisory control and data acquisition,數 據 采 集與監視控制)系統,以實現數據采集、設備控制、測量、參數調節以及各類信號報警等各項功能。然而,傳統調度系統由于數據處理能力和速度有限,只接受電力系統主參數,而 大 量 細 節 數 據 由 于 不 能 利 用 而 丟 棄[24]。但 隨 著 大 規 模 間歇性能源的接入,電力系統的結構更加復雜多變,海量、分散、異構的實時信息大量涌入數據中心,面對大量實時信息時,傳統調度系統的實時性和合理性很難滿足要求,無法實現電網的精益化調度。在智能電網環境下,電力調度中心面臨的形勢如圖2所示。

圖2 電力調度中心面臨的形勢
在掌握全系統實時數據的情況下,電力大數據中心將能夠更有效地實現全局資源的整合,實現電力供需平衡調度。在電網運行過程中,根據能量的實時需求、負荷建模信息 及 實 時 產 能 信 息 進 行 能 量 自 動 調 配 等 技 術[25,26]是 系 統 的關鍵。因此,基于大數據的調度技術關鍵問題是設計基于大規模多源細節數據的電力系統調度模型和實時流數據分析處理技術,實現電力系統調度從粗放型向集約型的轉變。
4.1 主要技術挑戰
目前主流的 Hadoop 批處理方 式可以適應電力大數據的歷史數據分析,但 Hadoop 采用 先存儲后計算的模式,且需要頻繁的磁盤操作,難以滿足對生產系統的快速響應需求。因此,電力大數據全景實時分析平臺面臨著嚴重的性能和安全性挑戰,具體而言主要包括如下兩個方面。
(1)利用大規模復雜細節多源數據的電力系統分析算法
在 智 能 電 網 環 境 下 ,PMU、AMI (advanced metering infrastructure,高 級 電 表 架 構 )及 IED (intelligent electronic device,智能電子設備)提供了大規??衫玫膹碗s細節數據,這些數據為提高電力系統的操作水平、建模技術和計劃調度提供了機遇。通過現代計算機高并行計算平臺,設計快速、高精度的安全穩定分析算法,能夠提高數據利用率,并保證系統的實時性要求。
(2)大規模實時流數據調度、分析技術
為了保證監測、調度等關鍵業務的時效性,大規模實時流數據的接入和分析性能至關重要。將常用數據存儲在分布式內存中,并充分利用多核或眾核處理器的并行技術和大內存的緩存技術以及高效的調度算法,以保證流數據的實時處理效率。
4.2 內存計算
在電力系統中多項業務處理任務需要高性能計算技術 的 支 撐 。而 隨 著 現 代 計 算 機 體 系 結 構 的 發 展 ,64 bit計 算機 理 論 內 存 可 達 232×4 GB,因 此 在 內 存 中 可 以 存 儲 更 多的 數 據 ,利 用 內 存 計 算 技 術[27,28],避 免 代 價 很 高 的 磁 盤 操作,可以有效提高數據處理的性能。 內存計算主要用于數據密集型計算的處理,面向數據量大且需要實時分析處理的情況。針對電力大數據價值密度低的特點,依據數據的使用頻率,將電力大數據分為熱數據和冷數據,熱數據存儲在內存中,冷數據存儲在磁盤上。
目 前 比 較 成 熟 的 內 存 計 算 平 臺 包 括 HANA 和 Spark等。HANA 是由 SAP 提出的基于內存計算技術的高性能實時數據計算平臺,采用的主要技術包括:內存數據讀取和處理、行列混合存儲、并行計算、數據壓縮等。HANA 在遼寧電力公司應用效果明顯,部分業務系統的效率提高達幾十倍,但系統部署、維護成本很高。
Spark 是 一 款 基 于 內 存 計 算 的 開 源 集 群 計 算 系 統 ,與Hadoop 類似,但適合高效運行的數據分析算法,比如機器學習算法等。其可以在并行操作之間重用工作數據集,從而提高效率。與 Hadoop 相比,性能可獲得兩個數據量級的提升。電力系統中的數據分析算法可以通過 Spark 來提高效率。比如在電力系統中需要針對設備狀態監測數據進行聚 類 劃 分 ,從 而 實 現 分 類 處 理 ,提 高 工 作 效 率 。k-means 是一種基本的聚類劃分算法,在電力系統中應用廣泛,基于Spark 的 k-means 聚 類 算 法 實 現 過 程 如 下 。
(1)讀 取 存 儲 在 HDFS 上 的 文 件 塊 (block)到 內 存 中 ,每個塊轉化為一個 RDD,里面包含監測數據的特征量(vector)集合。
(2)然 后對 RDD 進 行映 射 (map)操作 ,計 算 每 個vector(point)對 應 的 聚 類 編 號 (class),并 輸 出 鍵 值 對 (k,υ)為(class,(point,1)),生成為新的 RDD。
(3)接 著 在 歸約 (reduce)操 作 中 ,對 每 個新 的 RDD 進行混合,相 同聚類的數 據存放在一起,并在 RDD 內部計算每個聚類中心點。
(4)最后判斷中心點與前一個中心點之間的距離,如果滿足要求,則結束,否則從步驟(2)開始,直到滿足結束條件。
(5)最后將輸出結果寫到 HDFS 中。
Spark 中 k-means 實 現 過 程 如 圖 3 所 示 ,其 中 ① ~ ⑤ 表示數據點,黑點表示聚類的中心點。

圖3 Spark 中 k-means 實現過 程
4.3 流式大數據分析技術
在電力系統中,各種監測、采集裝置的流數據和極端天氣情況下的報警數據構成了電力流式大數據。流式電力大數據具有實時性、易失性、突發性、無序性、無限性等特征[29],并 要 求 在 有 限 時 間 內 處 理 完 成 ,不 能 遺 漏 數 據 ,因 此流式大數據的實時處理對系統提出了更高的要求。電力大數據分析應涵蓋低時延、高吞吐量且持續可靠運行的流式大 數 據 計 算 系 統[30,31]。目 前 在 商 業 互 聯 網 領 域 應 用 比 較 多的 流 數 據 分 析 平 臺 包 括 Storm、S4 等 ,但 這 些 系 統 對 數 據處理的時限和安全性要求很難直接應用于電力系統,還有待針對特定行業做進一步完善。
Storm 是 具 有 分 布 式 和 高 容 錯 的 實 時 計 算 系 統 ,以 簡單、高效、可靠的方式處理流式數據,并保證消息不丟失,處理嚴格有序。其主要特征包括:編程模型簡單、支持多種編程語言、作業級容錯、水平擴展、快速消息計算等。但其資源分配策略并沒有考慮系統拓撲結構,任務調度機制過于簡單,因此很難直接應用于電力大數據處理。在一個Storm 系 統 中 有 兩 類 節 點 :一 個 主 節 點 nimbus、多 個 從 節 點supervisor。3 種 運 行 環 境 :master、cluster 和 slave。
使 用 Storm 處 理 流 數 據 時 ,首 先 要 設 計 流 數 據 處 理 過程 的 拓 撲 (topology)結 構 ,也 就 是 數 據 處 理 的 先 后 邏 輯 關系。比如對狀態監測流數據的處理順序依次為:獲取數據、去噪(多種方法)、計算特征量(多種方法)、評價狀態等。設計的拓撲結構如圖4所示。

圖4 流數據處理的拓撲結構
4.4 多核/眾核并行計算技術
當前電力系統中的主要算法通過串行實現,而隨著需要處理數據的增加和計算任務復雜度的提高,算法處理時間不斷增長,而通過并行計算技術,將部分算法通過并行來 實 現 , 可 以 顯 著 提 高 數 據 分 析 處 理 的 執 行 速 度[32-35]。 同時,隨著現代處理器向多核和眾核方向發展,充分利用多線程并行,可以提高電力大數據平臺集群中節點的利用率,從而加快數據處理的效率。目前,普通 CPU 已經配置8個計算核心,而圖形處理器(GPU)擁有上千個計算核心,具有更強大的數據處理能力,兩者混合并行計算技術,將是未來的主流計算平臺。多核 CPU 與眾核 GPU 的結構 如圖5所示。

圖5 多核 CPU 與眾核 GPU 的結構
近年來,GPU 從圖形圖像處理領域進入通用計算領域,成為理想的高性能計算平臺。GPU 在眾多領域的大數據分析中,有效地提升了數據處理的效率。 GPU 通過大規模線程并行隱藏內存訪問時延,同時支持幾百萬線程運行 ,線 程 間 切 換 代 價 很 低 。GPU 的 并 行 采 用 SIMD(single instruction multiple data, 單 指 令 多 數 據 )并 行 ,同 一 指 令 一次操作不同的數據。GPU 適合處理電力系統中數據密集型的計算任務,利用它可以有效提高電力系統中密集數據的分析處理效率。比如處理電力系統安全性分析中的稀疏矩陣與向量乘積的計算過程如下。
首先將稀疏矩陣以偏移量+前綴和+值的形式存儲,并通過前綴和記錄每行中非零元素的個數及位置信息;然后將常量存放在共享內存中,其中 CUDA 的每個線程塊負責稀疏矩陣中的一行和常量乘積;而塊內的每個線程負責進行常量與稀疏矩陣本行內對應元素的乘法運算,并求和。大致的運行過程如圖6所示。

圖6 GPU 下的矩陣與向量乘法 運 算
4.5 列存儲技術
在電力大數據全景實時分析中,應支持多種數據存儲模 式 , 比 如 文 件 存 儲 、key-value 及 結 構 化 數 據 存 儲 等[36,37]。而在電力系統中,結構化數據占有較大的比例,比如 PMU的數據、設備監測的數據及居民用電數據等。結構化數據采用列存儲,可以有效地提高數據分析效率。
列存儲要求每列單獨存儲,這樣在執行查詢時只需要讀取與查詢相關的列,而不相關的列不用讀取,當一個表包含很多列,而查詢只涉及較少的列時,可以大量減少磁盤 I/O,從 而 提 高 查 詢 性 能 。另 外 ,由 于 每 一 列 內 的 數 據 單獨存儲,一列內的數據相似度更高,當采用壓縮存儲時有更高的壓縮率。在列存儲數據庫中常用的壓縮技術主要有 :數 據 字 典 、位 向 量 和 run-length 3 種 方 法 。
以電能質量監測數據為例,討論列存儲在電力系統中的應用。電能質量監測系統需要存儲大量的時序監測數據,這些數據分為不同的監測類別,刻畫了電能質量的不同方面的特性,比如諧波、簡諧波及波形、參數數據等。而用戶的查詢分析主要是針對每個監測點或通道的查詢和分析,因此將每一個通道的數據盡量存儲在相鄰的節點,有助于后續的數據檢索分析,通過以監測點+通道號為key,以 監 測 數 據 為 value 的 鍵 值 對 方 式 存 儲 ,從 而 實 現 監測數據的連續存儲,方便后續的數據檢索操作。
根據監測數據的監測類別劃分為不同的列簇,其中諧波、間諧波及頻譜數據劃分為一個列簇,數據不是根據次數分別存儲,而是采用組合壓縮存儲;各項電壓電流波形數據劃分為一個列簇;其他監測數據為另一個列簇;閃變數據也組成一個列簇。通過劃分列簇,利用數據的相關性提 高 讀 取 效 率 。其 存 儲 結 構 在 HBase 數 據 庫 上 的 表 現 大 致如圖7所示。
當前,電力系統雖然已經建成了規模龐大的數據中心,但主要存在如下兩方面的問題:不同的業務系統被分割為不同的“信息孤島”,彼此之間數據不能共享,不能從系統全景的角度分析解決問題;為了保證系統的實時性,大量有助于提高計算精度和準確率的信息并不接入數據中心,從而造成系統因為無法協調全部可用資源而導致整體運行效率和數據利用率低。通過建設智能電網全景實時大數據分析平臺,有助于上述問題的解決。
另一方面,電力系統作為人類有史以來創造的最復雜系統之一,具有系統規模龐大、整體性強、復雜度高、安全穩定運行要求高、電能光速傳輸并不能大規模有效存儲等特性,決定了電力大數據全景實時分析將面臨著兩方面的主要挑戰:大數據分析挖掘技術與電力系統理論的深度融合,從數據驅動的角度探討解決系統所面臨問題的思路,促進大數據在電力系統中的應用落地;滿足一定可靠性和時間約束的大數據(批處理和流數據)全景實時分析技術,快速從系統整體層面分析解決問題、合理調度資源,滿足電力系統高可靠性的要求。
參考當前電力系統面臨的各項挑戰和大數據實時分析主流技術,電力大數據全景實時分析平臺采用分層架構,層與層之間采用松耦合模式。結合電力系統運行特點及借鑒主流開源系統,架構應包括如下幾個層次。
最底層是數據存儲層,為保證平臺的可擴展性采用分布式文件存儲系統,并設計以數據相關性和負載均衡策略為基礎的數據分布方案。在分布式文件系統之上,結合高性能列存儲技術,進一步優化存儲代價和性能。本層可以采 用 Hadoop 的 分 布 式 文 件 系 統 存 儲 方 案 并 結 合 HBase 的列存儲技術。
其次是流式大數據處理和分布式內存層,流式大數據處理模塊用于響應電力系統中的實時流數據,關鍵是流數據的任務調度技術;分布式內存用于存儲使用頻率高的熱數據,為上層計算提供數據緩存,減少磁盤訪問代價。本層可 以 采 用 Storm 和 Spark 技 術 分 別 實 現 流 數 據 處 理 和 內 存計算。
然后是整合計算層,設計電力系統中基于大數據的并行分 析算法框架 ,并考慮利用多核、大 內 存和 GPU 等 現 代計算機的硬件體系架構特征的核心算法庫,將電力系統中常用的分析算法封裝為庫函數供上層高級應用調用。
最后一層是應用層,包括可靠性分析、狀態監測和能源調度等各種業務應用系統,并直接和最終用戶交互。
電力大數據全景實時分析平臺層次體系結構如圖8所示。

圖7 HBase 電能質量監測數據存儲結構
通過前置通信集群不間斷采集設備及系統的事件、狀態、預警等多數據源信息,形成流數據,完成高效實時數據收集功能。然后,將收集的數據傳輸給流計算模塊,完成數據 混 合 并 實 時 預 處 理 ,基 于 CEP (complex event processing,復雜事件處理)的快速發現和異常數據過濾,分析狀態并實時反饋給用戶。最后將數據存儲在分布式文件系統中進行持久化存儲,使用內存計算技術進行數據快速分析與預警計算,保證電力系統中數據分析實時性的要求。
電力大數據分析平臺的特色包括如下兩個方面。
(1)大數據與電力系統深度融合的復雜電網分析、監控、調度技術和理論
隨著電力大數據規模不斷膨脹以及電網結構、運行模式復雜多變,從大數據角度探討復雜電網分析、監控、調度技術和理論,促進大數據在電力系統中的深度應用,發現挖掘電力大數據的價值。
(2)面向電力行業特定領域的大數據全景實時分析技術
針對電力行業對數據分析時效性、全景性的高要求,面向特定行業領域的大數據實時分析技術,提供整個電力系統的全景視圖和實時動態監控、調度技術,促進大數據在特定行業應用中落地。

圖8 電力大數據分析平臺結構
本文主要綜述了電力大數據全景實時分析面臨的挑戰及實現技術,并探討平臺的體系架構。然而,建設電力大數據中心需要一個較長的時間周期和各方的通力配合,其中的關鍵技術和挑戰也需要進一步深入研究。結合電力系統應用需求,開發部署面向電力行業的大數據中心,將推動大數據在電力系統中的研究和發展。
[1] 宋 亞 奇 ,周 國 亮 ,朱 永 利. 智 能 電 網 大 數 據 處 理 技 術 現 狀 與挑 戰 [J]. 電 網 技 術 ,2013,37(4):927-935. SONG Y Q,ZHOU G L,ZHU Y L.Present status and challenges of big data processing in smart grid[J].Power System Technology,2013,37(4):927-935.
[2] 王 德文,宋亞奇,朱 永利. 基 于 云 計 算 的 智能 電網 信 息 平 臺[J].電 力 系 統 自 動 化 ,2010(22):7-12. WANG D W,SONG Y Q,ZHU Y L.Information platform of smart grid based on cloud computing [J].Automation of Electric Power Systems,2010(22):7-12.
[3] 中 國 電 機 工 程 學 會 信 息 化 專 委 會.中 國 電 力 大 數 據 發 展 白 皮書[R].2013. Electric Power Informatization Special Committee.China power big data development white paper[R].2013.
[4] 朱 征,顧 中 堅,吳 金 龍,等. 云 計 算 在 電 力 系 統 數 據 災 備 業 務中 的 應 用 研 究 [J]. 電 網 技 術.2012,36(9):43-50. ZHU Z,GU Z J,WU J L,et al.Application of cloud computing in electric power system data recovery[J].Power System Technology,2012,36(9):43-50.
[5] 沐 連 順 ,崔 立 忠 ,安 寧. 電 力 系 統 云 計 算 中 心 的 研 究 與 實踐 [J]. 電 網 技 術 ,2011,35(6):170-175. MU L S,CUI L Z,AN N.Research and practice of cloud computing center for power system[J].Power System Technology,2011,35(6):170-175.
[6] 王 廣 輝,李 保 衛,胡 澤 春 ,等. 未 來 智 能 電 網 控 制 中 心 面 臨 的挑 戰 和 形 態 演 變 [J]. 電 網 技 術 ,2011,35(8):1-5. WANG G H,LI B W,HU Z C,et al.Challenges and future evolution of control center under smart grid environment [J]. Power System Technology,2011,35(8):1-5.
[7] 劉 樹 仁 ,宋 亞 奇 ,朱 永 利 ,等.基 于 Hadoop 的 智 能 電 網 狀 態 監測 數 據 存 儲 研 究 [J]. 計 算 機 科 學 ,2013,40(1):81-84. LIU S R,SONG Y Q,ZHU Y L,et al.Research on data storage for smart grid condition monitoring using Hadoop [J]. Computer Science,2013,40(1):81-84.
[8] RUSITSCHKA S,EGER K,GERDES C.Smart grid data cloud:a model for utilizing cloud computing in the smart grid domain[C]//The 1st International Conference on Smart Grid Communications,October 4-6,2010,Gaithersburg,USA.New Jersey:IEEE Press,2010:483-488.
[9] CHRISTOPHE B.The smart grid:hadoop at the Tennessee Valley Authority(TVA)[EB/OL]. [2013-02-08].http:/www.cloudera.com/blog /2009/06/smart-grid-hadoop-tennessee-valley-authority- tva/.
[10]KAWASOE S,IGARASHI Y,SHIBAYAMA K,et al.Examples ofdistributed information platforms constructed by power utilities in Japan [C]/CIGRE Symposium,August 26-31,Paris,France. [S.l.:s.n.],2012:134-306.
[11]KENNETH P B,LAKSHMI G,ROBBERT V R,et.al.Running smart grid control software on cloud computing architectures[C]//Workshop on Computational Needs for the Next Generation Electric Grid,April 19-20,2011,Ithaca,USA.New York:Department of Energy’s Sci Tech Connect,2011:1-28.
[12]KEZUNOVIC M,LE X,GRIJALVA S.The role of big data in improvingpowersystem operationand protection [C]//Bulk Power System Dynamics and Control- IX Optimization,Security and Control of the Emerging Power Grid (IREP),August 25-30,2013,Rethymnon,Greece.New Jersey:IEEE Press,2013:1-9.
[13]JIAN Y, POORVA S, IAN G, etal.Large-scaledata challenges in future power grids[C]/7th International Symposium on Service Oriented System Engineering,March 25-28,2013,Redwood City,CA,USA.New Jersey:IEEE Press,2013:324-328.
[14]賽 迪 網. 維 斯 塔 斯 利 用 IBM 大 數 據 分 析 實 現 “ 智 慧 風 能 ”[EB/OL]. [2012-03-23]. http:/news.ccidnet.com/art/1032/20120323/3709391.html. CCID net.The realization of “wisdom wind” using IBM big data analysis in Vestas [EB/OL]. [2012-03-23].http:/news. ccidnet.com/art/1032/20120323/3709391.html.
[15]李 傳 棟 ,房 大 中 ,楊 金 剛 ,等. 大 規 模 電 網 并 行 潮 流 算 法 [J]. 電網技術,2008,32(7):34-39. LI C D,FANG D Z,YANG J G,et al.New research on parallel power-flow calculation for large-scale power system [J]. Power System Technology,2008,32(7):34-39.
[16]劉洋,謝 開 貴,周家 啟,等. 大 電力 系 統可 靠 性評 估 高性 能計算平臺設計與實現[J]. 電力系統自動化,2006,30(18):1-8. LIU Y,XIE K G,ZHOU J Q,et al.Design and implementation of HPC platform for bulk power system reliability evaluation [J]. Automation of Electric Power Systems,2006,30(18):1-8.
[17]桂 勛. 基 于 遞 推 算 法 的 海 量 COMTRADE 數 據 計 算 并 行 化 [J].電力系統自動化,2014,38(1):86-91. GUI X.Calculation parallelization for massive COMTRADE data based on recursive algorithms [J].Automation of Electric Power Systems,2014,38(1):86-91.
[18]何 劍 ,程 林 ,孫 元 章. 電 力 系 統 運 行 可 靠 性 最 優 控 制 [J]. 中 國電機工程學報,2010,30(7):15-21. HE J,CHENG L,SUN Y Z.Optimal control of power system’s operational reliability[J].Proceeding of the CSEE,2010,30 (7):15-21.
[19]江 修 波 ,吳 文 宣 ,陳 祥 偉. 區 間 分 析 法 在 電 力 變 壓 器 全 壽命 周 期 成 本 模 型 中 的 應 用 [J]. 電 力 自 動 化 設 備 ,2011,31(9):50-54. JIANG X B,WU W X,CHEN X W.Transformer life cycle cost model based on interval analysis [J].Electric Power Automation Equipment,2011,31(9):50-54.
[20]劉吉臻,楊光軍,譚文,等.基于數據驅動的電站燃燒穩定度綜合評價[J]. 中 國電機工程 學 報,2007,27(35):1-6. LIU J Z,YANG G J,TAN W,et al.Synthetic evaluation on the degreeofcombustion stabilityin powerstation based on data-driven[J].Proceedings of the CSEE,2007,27(35):1-6.
[21]張 廣 斌 ,束 洪 春,于 繼 來. 利 用 廣 義 電 流 模 量 的 行 波 實 測 數據 半 監 督 聚 類 篩 選 [J]. 中 國 電 機 工 程 學 報 ,2012,32 (10):150-159. ZHANG G B,SHU H C,YU J L.Travelling wave field data contingency screening based on semi-supervised clustering using generalized current modal components[J].Proceedings of the CSEE,2012,32(10):150-159.
[22]陳鐵華,陳啟卷.模糊聚類分析在水電機組故障診斷中的應用[J].中國電機工程學報,2002,22(3):43-47. CHEN T H,CHEN Q J.Fuzzy clustering analysis based vibration fault diagnosis of hydroelectric generating unit[J].Proceedings of the CSEE,2002,22(3):43-47.
[23]王 一 ,何 奔 騰,王 慧 芳. 基 于 全 壽 命 狀 態 的 設 備 可 靠 性 研 究 [J].電網技術,2011,35(8):207-211. WANG Y,HE B T,WANG H F.Research on equipment reliability based on life cycle states[J].Power System Technology,2011,35(8):207-211.
[24]曹軍威,萬宇鑫,涂國煜,等.智能電網信息系統體系結構研究[J].計算機學報.2013(1):143-167. CAO J W,WAN Y X,TU G Y,et al.Information system architecture for smart grids [J].Chinese Journal of Computers.2013(1):143-167.
[25]王蓓蓓,劉 小聰,李 揚. 面向 大容 量 風 電 接 入 考慮 用 戶 側 互 動 的系 統 日 前 調 度 和 運 行 模 擬 研 究 [J]. 中 國 電 機 工 程 學 報 ,2013,36(22):35-44. WANG B B,LIU X C,LI Y.Day-ahead generation scheduling and operation simulation consideringdemand Response in large-capacity wind power integrated systems [J].Proceeding of the CSEE,2013,36(22):35-44.
[26]黃 海 濤. 居 民 分 時 階 梯 電 價 聯 合 優 化 模 型 研 究 [J]. 電 網 技 術 ,2012,36(10):253-258. HUANG H T.A Jointoptimization modelofresidential time-of-use rlock electricity rate [J].Power System Technology,2012,36(10):253-258.
[27]金海,廖 小 飛,葉晨成. 內 存 計 算:大 數 據 處 理 的 機遇 與 挑 戰[J].中國計算機學會通訊,2013,9(4):40-46. JIN H,LIAO X F,YE C C.In-memorycomputing:The opportunities and challenges of big data processing [J]. Communication of China Computer F ederation,2013,9 (4):40-46.
[28]PARK K H,PARK S K,SEOK H.Efficient memory management of a hierarchical and a hybrid main memory for MNMATE platform[C]/International Workshop on Programming Models and Applications for Multicores and Manycores.March 12-16,2012,New York ,USA.New York:ACM Press,2012:83-92.
[29]孫 大 為,張 廣艷,鄭 緯民. 大 數 據 流 式 計 算:關鍵 技 術 及 系 統 實例[J].軟件學報,2014,25(4):839-862.SUN D W,ZHANG G Y,ZHENG W M.Big data stream computing:technologies and instances [J].Journal of Software,2014,25(4):839-862.
[30]趙加奎,楊國鳳,沐連順,等.數據流技術在電網自動化中的應用研究[J]. 電 網技術,2011,35(8):6-11. ZHAO J K ,YANG G F,MU L S,et al.Research on the application of the data stream technology in grid automation [J]. Power System Technology,2011,35(8):6-11.
[31]張之哲,李興源,程時杰.智能電網統一信息系統的框架、功能和實現[J]. 中 國電機工 程學報,2010,30(34):1-7. ZHANG Z Z,LI X Y,CHENG S J.Structures,functions and implementation of united information system for smart grid [J]. Proceedings of the CSEE,2010,30(34):1-7.
[32]郭 春 輝. 基 于 GPU 的 電 力 系 統 并 行 計 算 的 研 究 [D]. 濟 南 : 山東大學,2013:18-34. GUO C H.Research on parallel computing of electric power system based on GPU [D].Jinan:Shan Dong University,2013:18-34.
[33]李 鵬,丁 承 第,王成 山,等. 基于 多 核 心 處 理 器 的 分布 式 發 電 微網系統暫態并行仿真方法 [J].中國電機工程學報,2013,33(16):171-178. LI P ,DING C D ,WANG C S ,et al.A parallel algorithm oftransientsimulation for distributed generation system based on multi-core CPU [J].Proceeding of the CSEE,2013,33(16):171-178.
[34]唐聰,嚴正,周挺輝.基于圖形處理器的廣義最小殘差迭代法在 電 力 系 統 暫 態 仿 真 中 的 應 用 [J]. 電 網 技 術 ,2013,37(5):1365-1371. TANG C,YAN Z,ZHOU T H.Application of graph processing unit-based generalized minimal residual iteration in power system transient simulation [J].Power System Technology,2013,37 (5):1365-1371.
[35]馬發勇,厲啟鵬,馬志斌,等.電力調度 SCADA 系統中歷史數據壓縮 及 存 儲策略[J]. 電 網 技術,2014,38(4):1109-1114. MA F Y,LI Q P,MA Z B,et al.The research of historical data compression and storage strategy in power dispatch SCADA system[J].Power System Technology,2014,38(4):1109-1114.
[36]閆湖,周薇,李 立新,等. 基 于分 布 式鍵 值對 存 儲技 術 的 EMS數據庫 平 臺[J]. 電網技術,2012,36(9):162-167. YAN H,ZHOU W,LI L X,et al.Database platform of EMS system based on distributed key-value pair storage technology[J]. Power System Technology,2012,36(9):162-167.
[37]ZHONG Y,SUN S,LIAO H,et al.A novel method to manage very large raster data on distributed key-value storage system [C]/The 19th International Conference on Geoinformatics,June 24-26,2011,Shanghai,China.New Jersey:IEEE Press,2011:1-6.
Key technology of power big data for global real-time analysis
ZHOU Guoliang1,LV Linjie1,WANG Guilan2
1.Skill Training Center of State Grid Jibei Electric Power Co.,Ltd.,Baoding 071051,China 2.Network and Information Management Center,North China Electric Power University,Baoding 071003,China
For power big data collected during smart grid construction process,based on the demand of power system global and real-time data analysis,ideas of solving power system security and reliability,real-time status monitoring,energy global dynamic balance scheduling and other key issues were explored.The problems of big data safety and reliability,equipment life-cycle management and energy real-time balance scheduling were analyzed and discussed,system analysis precision and accuracy based on large-scale real-time multi-source detail data and global data of equipment would be improved,then application of in-memory computing,real-time streaming data processing technology,massively parallel computing technology and column stores were explored;a layered architecture of power big data analytics platform which combined with the mainstream open source big data processing technology was proposed to provide guarantees for the efficient operation of the power system.
power big data,global real-time data,in-memory computing,data stream,massively parallel
s:Natural Science Foundation of Hebei Province(No.F2014502069),Fundamental Research Funds for Central University(No.13MS103)
TP391
:A
10.11959/j.issn.1000-0801.2016103

周 國 亮 (1978-), 男 , 博 士 , 國 網 冀 北 電 力 有限公司技能培訓中心副教授,主要研究方向為電力大數據分析、智能電網等。

呂 凜 杰 (1978-), 男 , 國 網 冀 北 電 力 有 限 公司技能培訓中心講師,主要研究方向為電力通信技術。

王 桂 蘭 (1979-), 女 , 華 北 電 力 大 學 信 息 與網絡管理中心講師,主要研究方向為風機故障定位與檢測。
2016-01-25;
2016-03-15
河 北 省 自 然 科 學 基 金 資 助 項 目 (No.F2014502069);中 央 高 校 基 本 科 研 業 務 費 專 項 資 金 資 助 項 目 (No.13MS103)