(1.華北電力大學,河北 保定 071000;2.國網四川省電力公司電力科學研究院,四川 成都 610041)
中國變電站自動化系統(substation automation system)從20世紀90年代開始至今已經到了全面推廣的階段[1]。傳統智能變電站中各保護裝置之間存在較多硬開入連線,導致二次回路接線比較復雜,可靠性不高。相比之下,傳統依靠電纜傳輸的二次回路被智能變電站的網絡通信取代,物理信號被數字信號所取代,實現了二次設備的網絡化[2-5]。
目前國內外市場上對于智能變電站二次回路的研究,主要還是根據網絡分析儀的報文進行異常原因分析,缺乏直觀有效的手段對網絡信息中的故障特征進行定性分析,無法形成完整的二次回路預警和分析策略[4]。智能變電站電力狀態監測數據呈現以下特點:數據量爆炸性增長,規模急速擴大;復雜的數據結構;多樣化的歷史與實時監測信息(設備信息、試驗數據、噪聲數據等)[5];數據種類分布跨度大,不僅僅包含結構化與非結構化數據,而且各型數據在平臺的查詢與處理方式及要求也不大一致;各平臺的交互通信也存在較大的難度[5-6]。
下面對智能變電站的網絡架構與二次狀態監測的概念、Hadoop大數據處理技術的優勢進行了總結;分析驗證了大數據技術在智能變電站海量狀態監測數據下,基于Hadoop平臺的儲存與讀寫優勢。
早期的智能化變電站利用IEC 61850協議將變電站設備模型化。這個時期的智能變電站的網絡化實現僅僅存在于間隔層與站控層,過程層設備的信息交互仍然依靠傳統的模擬信號[7]。網絡結構如圖1。

圖1 早期智能變電站網絡結構
基于早期的智能變電站的不足,理想的智能變電站為了將信息采集到輸出的整個過程全部數字化,采用智能開關、EVCT等智能設備來滿足設備智能化、網絡通信協議一體化、運維管理全程自動化等基本性能需求[7]。但是考慮在實際應用中的設備條件,目前只能通過智能終端與傳統的二次開關進行結合鏈接,來填補實際的技術缺陷以達到較高的網絡數字化程度。工程實踐中,采用“直跳直采”方案來實現過程層信息共享并加強了測控保護裝置的可靠性。具體網絡結構如圖2所示。

圖2 智能變電站實用網絡結構
智能變電站中,信息采集輸入時需要光纖以太網傳輸的采樣值報文,保護動作出口信息由光纖以太網傳輸的GOOSE開關量取代了跳閘、重合閘接點動作;二次設備一般都具有在線自檢功能及通訊功能,在線監測的實現就是利用裝置本身自檢及裝置之間的互相監測[8-11]。
文獻[12]認為繼電保護裝置的電流、電壓、光纖鏈路狀態,裝置的遙信遙控等GOOSE狀態,直流逆變電源狀態等都應該納入裝置的主要監測對象,甚至本身自檢的FLASH擦寫次數、RAM是否出錯等信息也納入監控范圍。文獻[13]在考慮將含有端口連接狀態、端口雙工模式、速率和吞吐量等表征通信網絡運行狀態參數的網絡設備(交換機等)也納入監控范圍,以更好地完成狀態監測、故障診斷及故障定位等工作??偠灾悄茏冸娬径卧O備狀態監測系統正在往全面智能化方向發展[14]。智能變電站的二次監測涵蓋內容十分廣泛,不僅僅局限于某些具體的信號丟失或者設備故障,具體的監測信息概念如圖3所示。

圖3 二次設備狀態監測概念
智能變電站二次系統監測包含海量監測數據信息。其中,單個變電站公用信號分類圖中包含PMU(制造主柜相量測量單元)、TMU(時鐘檢測單元)裝置電源失電、PDM(局部放電在線監測)等60多種告警信號,該告警信息具體可分為14類,遙信、遙控、SOE(時間順序記錄)、開關刀閘動作等[15-16]。因此,將大數據技術應用于變電設備狀態監測數據的存儲與管理,以此來適應電網安全經濟的運行和用戶對供電可靠性的要求。
大數據云計算原理簡單,操作性強,可靠性高。文獻[15]提出一種基于大數據平臺的智能變電站二次裝置故障追蹤方法,將故障診斷數據源延展至變電層,利用Spark作為大數據處理工具對各類故障信息進行處理,實現故障源的準確定位。文獻[16]提出一種基于Hadoop框架的智能變電站數據管理系統。為了對數據更好地進行分布式管理,HDFS和HBase數據庫發揮著至關重要的作用,采用并行計算框架Map Reduce作為數據查詢分析的計算模式,還致力于將真實運維數據進行系統測試,在線對比該數據管理系統的存儲、查詢、讀寫延遲對比、分布式索引對比等性能參數。
Hadoop是一種開源分布式的計算框架,其擴展性、利用率、可靠性等優點使其在數據處理領域廣泛應用。Hadoop分為分布式文件系統HDFS(Hadoop Distributed File System)和MapReduce,其中:HDFS是其獨有的分布式文件系統,容錯性與可靠性較高,在文件存儲及校驗中有一定的優勢;MapReduce作為Hadoop的并行計算框架,對于1TB以上的數據集有著不容忽視的并行計算優勢。基于變電站大數據背景下,Hadoop技術帶來了新的解決思路,可提供高性能的計算環境。
目前大多設備狀態監測系統主要分為數據獲取層、數據存儲與管理層、數據訪問層[16]。其系統結構如圖4所示。
原始數據信息經過第一功能層獲取,進行ETL(抽取、轉化、清洗、裝載)至數據庫加載。圖5展示了大數據技術下變電設備狀態監測平臺架構。
1)數據采集層中狀態接入網關機(CAG)接收來自獲取數據的傳感器和狀態接入控制器 (CAC)以Web服務方式傳送的信號。所采集的信息需要Sqoop這一開源工具來對電力設備信息、異常告警數據等結構數據以及圖像、視頻等非結構數據進行ETL,進而進行存儲。

圖4 傳統變電設備狀態監測平臺架構

圖5 大數據技術下變電設備狀態監測平臺架構
2)數據存儲層根據文件系統(HDFS)和數據庫(MySQL)的優勢進行整合。
3)數據分析層可根據具體的方案需求進行不同的分布式 ROLAP服務和分布式 MOLAP服務設計。Hive和Impala都是ROLAP下的分布式服務,可共用數據庫和存儲資源池等。Hive適用于長時間的批處理數據分析,但是需要通過MapReduce分解任務才能完成操作。Impala適合于實時數據分析,通過使用 Select 和統計函數直接從 HDFS 抽取數據進行分析處理[17]。不同于前者,HBase OLAP隸屬于分布式MOLAP服務,引擎為OLAP4cloud。它將維信息完全壓縮至事實表中,使用計算數據立方體的方法同時加快尋址的速度。
4)數據展現層經過數據的統計查詢,加以運維經驗的輔助決策以及最后的數據挖掘等功能模塊,為實現智能變電站二次狀態監測的全面管理提供了有效保障。
實驗平臺由10臺PC機(INTEL core i5 3.5GHz CPU,4GB內存,500G硬盤)搭建Hadoop分布式集群,分別安裝Centos虛擬機、Apache Hadoop云平臺。Datanode各個節點的空間、大小、使用率等將會在HDFS管理界面中顯示。利用TearSort、Sort、TestDFSIO、YCSB等輔助工具對智能變電站二次狀態監測數據性能進行測試。
Sort是Hadoop MapReduce中一種衡量分布式數據處理框架數據處理能力的工具。將所有需要處理的數據劃分成N個數據模塊(Hash處理),接著每個Map task對單獨的數據模塊進行局部排序之后,Reduce task將對所有數據進行全部排序處理。為了改善sort分類在Reduce階段無法并行的弊端,TearSort在Map這一階段經過Map task劃分需處理數據的M(reduce task數量為M)個模塊,設定第i(i>0)個模塊中的所有數據要均要大于第i+1個;而Reduce處理階段中,第i個經過Reduce task進行排序處理后的所有Map task 的第i個模塊所產生的結果均會大于i+1個,最后將1~M個Reduce task 所有排序結果按照順序輸出,得到最終的數據結果,完成排序操作。圖6為tearsort算法結構圖。
為了驗證該實驗平臺數據處理的優越性,首先利用Random Writer自動生成隨機數據,將Map方式與MapReduce進行10:1的運行作業,每一個Map會生成大概10 GB(二進制)的不同幅值和鍵長的數據。在此Hadoop軟件平臺上進行tearsort排序,取10次實驗結果數據,如表1所示。

表1 tearsort排序測試
上述結果表明,此在線監測平臺在數據處理上具有明顯優勢,擁有良好的數據計算能力。
智能變電站二次設備監測系統中信息量龐大,海量的告警信息以及各節點的采樣值在日常監測系統中給監測計算機載體造成了嚴重的負擔。僅告警信息的統計就分為事故級、一般級、預告級三大等級,如表2所示。

表2 告警信息分類表
智能變電站二次狀態監測系統的監測難點在于監測設備數量多,信息數據結構復雜。為了保證智能電網的穩定運行,所以對試驗軟件平臺的基準性能測試非常必要的。一般常用的測試工具是TestDFSIO,通過生成數據提交、統計整個平臺運作時間進而完成對整個I/O性能測試。基于控制變量法原則,分別選取文件數量與文件大小這兩個變量進行試驗,具體仿真結果見表3。

圖6 tearsort算法結構
根據試驗結果可以得到以下信息:
相比于傳統數據管理平臺(人工長期的運維經驗),基于Hadoop的在線監測數據處理系統在讀寫吞吐量測試上具有了明顯的優勢。
當數據量大規模地增加時,實驗平臺讀寫測試所需要的時間增加,訪問效率變低。
傳統數據平臺由于測試信息的大規模增加、負荷急劇增大導致平臺系統性能降低,無法滿足目前智能變電站的監測需求??偟膩碚f,基于Hadoop數據處理軟件平臺中集群,在大數據驅動下展現了強大的處理能力。
經過Hadoop平臺的吞吐讀寫測試,在線監測的數據信息存儲于HDFS中,為了提高該試驗平臺的處理效率,滿足目前智能變電站信息的查詢需求,需要在存儲平臺上建立對應的搜索引擎,并且設置相應的關鍵性素引。查詢過程的結構如圖7所示,可以在存儲文件更新狀態下進行監測,有效緩解負載平臺的運作壓力。
基于HBase變電站設備在線監測數據概念,索引主要是由行健、時間戳和列族組成的[18]。表4是以二次設備中合并單元上傳到站控層的SV通信狀態中報文處理結果的監測舉例:行健設置為可監測類型的編碼,例如021001代表SV通信鏈路狀態,021002代表是其根據SV報文計算出來的電流有效值;被監測設備碼根據國家統一規定,由3段共17位字符組成,其中前兩位為省公司標識,M表示固定字符,后14位表示具體流水號?;贖Base低冗余性與一致性不能滿足目前智能變電站二次狀態監測的需求,當數據規模超過一定數量級時,這種一對一的查詢方式給大數據平臺的數據處理上帶來了不便。為了提高數據信息的查詢效率,將以組合索引的方式進行拼接,如表5所示。

圖7 查詢過程結構
將監測時間aaaa-MM-dd與具體的監測量組合在一起,如表5中021002_aaaa-MM-dd就表示檢測時間與采樣節點的電流有效值結合,這種組合方式最大的便利在于可以根據具體需求進行改變,減少索引時間提高了查詢效率,用戶也能根據自身查詢條件建立組合索引,最終獲得數據結果集?;谥悄茏冸娬径螤顟B監測背景,在Hadoop實驗平臺上建立索引并進行測試,對通信鏈路中采樣節點的電流有效值查詢進行性能測試對比,如圖8所示。

表4 基于HBase變電站設備在線監測數據概念

表5 組合索引優化


圖8 索引優化性能測試對比
根據表5中改進的行鍵組合優化后,不僅在吞吐量每秒操作數上有了大幅度的提高,而且平臺的操作時間降低了不少,提高了工作效率,為智能變電站二次狀態監測中的海量數據處理提供了新的思路。
在智能變電站監測數據的大背景下,基于Hadoop大數據處理平臺對信息的預處理、數據的存儲吞吐、查詢延遲的測試以及數據可靠性與延展性的保證都進行了優化,這為后續智能變電站二次系統的狀態監測和故障定位研究工作提供了有力的數據支持,提高了智能變電站二次監測系統的穩定性。