肖永立 劉 松 見 偉 宋亞奇
1(國網北京檢修分公司 北京 100069)2(北京中泰華電科技有限公司 北京 100080)3(華北電力大學控制與計算機學院 河北 保定 071000)
國家電網調控運行“十三五”規劃明確提出了開展設備運行大數據分析的要求。變電站二次設備作為對系統監視和控制的重要設備,其自身健康狀態的好壞直接關系電網的安全穩定。因此,需要對其進行狀態評估,及時發現設備缺陷,減少事故損失。
相關領域學者已經開展廣泛的電網設備狀態評估、設備的可靠性分析、設備故障診斷和預測等方面的研究[1-3]。研究過程中使用了多種數據分析的模型,如:馬爾可夫(Markov)方法[4]、Topsis模型[5]、概率模型[6]、故障樹[7]、支持向量機[8]、神經網絡[9]、貝葉斯網絡[10]等。上述模型和方法均需要一定規模的歷史數據作為訓練數據,支撐數據訓練過程,才能得到有效的評估和識別模型結果。目前,評估和診斷方法逐漸向著數據驅動方式和基于大數據的分析的方向發展[11-12]。
數據建模和存儲是進行各類數據分析的前提和基礎,直接影響到后期狀態評估、故障診斷、查詢分析等應用的性能、準確性和可用性。傳統電網設備數據的建模和存儲方法主要使用范式建模方法和企業級關系型數據庫實現物理存儲,主要存在的問題是支持的數據規模比較小、存儲系統的擴展性較差、查詢和復雜數據分析性能低下等。近年來,一些大數據的存儲方法和數據處理技術被應用到電力系統中,以Hadoop為代表的大數據技術應用較多。文獻[13]利用Hadoop分布式文件系統(Hadoop Distribute File System,HDFS)來存儲廣域向量測量系統的數據;文獻[14]研究了基于HDFS的電網狀態監測數據存儲方法;文獻[15]研究了HDFS上電網設備監測數據的存儲優化方法,用以提升監測數據查詢的性能;文獻[16]則應用Hadoop生態系統中的Hive構建了電力設備狀態信息數據倉庫;文獻[17]為了完成電力設備監測數據的聯機分析處理(On-Line Analytical Processing,OLAP),分別討論并給出了Hive、Impala和HBase三種存儲架構和分析方案。上述數據存儲和處理方法都是針對一次設備數據開展的,對二次設備數據的建模和存儲方法的研究較少。
智能變電站中二次設備的PMS(Production Management System)、OMS(Operations Management System)、監控、缺陷記錄等數據來源和類型多樣、經年積累下來,數據規模巨大,需要利用大數據技術進行建模、存儲和分析。本文提出了一種樹狀結構的智能變電站二次設備數據的概念模型表示方法,相對IEC61850模型,可以有效體現二次設備的結構特征,較CIM標準中的二次系統設備建模,信息更加全面。為了實現上述概念模型的物理存儲,基于大數據計算服務(MaxCompute)設計實現了多層的智能變電站二次設備數據倉庫,以智能變電站中設備缺陷數據的查詢分析為例,驗證了所設計方法的有效性。
二次設備的數據建模需要完成概念模型的設計,即從用戶的角度描述數據。變電站二次設備概念模型主要對變電站站內二次設備,包括繼電保護設備、自動化設備網絡及計算機類設備、電源系統等的臺賬信息、監控信息、缺陷信息及設備結構特征信息(空間坐標、外部形狀、內部結構)進行統一關聯建模。
目前,針對變電站二次設備模型,已有IEC61850、IEC61970等標準對其進行規范。其中,IEC61850模型用于智能變電站中,主要對變電站二次設備邏輯功能和通信接口進行了描述,實現了設備間的信息共享和互操作性。但也存在部分不足之處,如IEC61850模型中沒有體現二次設備的結構特征、硬件通信接口(如接口數量、位置、類型、接口參數等)。因此,無法根據模型統一構建智能變電站詳細的通信網絡結構,難以明確信息的傳輸路徑,鏈路異常時難以定位異常位置。
在調度系統中,主要采用IEC61970的CIM模型,對電力系統主要的物理對象進行了抽象,包括描述具體對象的公用類、描述對象參數的屬性以及類之間的關系等基本元素,提供了電力系統信息的邏輯視圖。存在的不足有:CIM標準中針對二次系統設備的對象非常簡單,信息不夠全面。此外,變電站內模型和CIM模型并沒有進行統一,變電站內的數據除了部分關鍵動作或異常事件,并沒有上送至調度系統。
基于上述考慮,設計了智能變電站二次設備數據樹狀建模方法。首先對二次設備按照不同專業類型分類,分為繼電保護類設備、自動化類設備、電源類設備等,并分別對不同類型設備進行建模。其次,將不同類型二次設備,按照其物理結構進行劃分,并分別建模。例如,保護設備被劃分為電源模塊、CPU模塊、通信模塊、開入開出模塊等。然后按照設備整體屬性和各模塊屬性進行建模。接著,對設備整體和各子模塊,分別按照臺帳、運行、缺陷、結構特征、運行環境、關聯設備等進行建模,其中:整體屬性包括臺帳、運行、缺陷、結構特征、運行環境、關聯設備、軟件屬性;各子模塊包括臺帳、運行、缺陷、結構特征。二次設備數據樹狀建模過程如圖1所示。

圖1 智能變電站二次設備數據樹狀建模方法
在圖1的模型中,整體和模塊的主要內容的簡要描述如表1所示。

表1 二次設備整體與模塊的內容

續表1
通過對變電站二次設備模型進行修改和完善,在調度側形成二次設備完整的信息庫,對轄區內變電站二次設備進行建模和數據整理,以支持二次設備監控信息、設備缺陷與設備結構的關聯分析、二次設備的狀態評價、故障診斷和故障趨勢預警,從而提高對二次設備的管控水平。
為了實現所設計的二次設備數據概念模型,本文選擇MaxCompute作為物理存儲平臺,實現二次設備數據的物理存儲。大數據計算服務MaxCompute是阿里云提供的海量數據存儲和處理平臺,具備海量存儲、并行計算、擴展性強、免維護、低成本等諸多優勢,已經在商業智能、交通數據分析、金融數據分析、工業監測數據分析等諸多領域得到應用。在功能方面,MaxCompute提供了較完整的生態系統,功能組件涵蓋數據上傳下載通道、SQL、用戶自定義函數(User Defined Function,UDF)、擴展MapReduce、Graph等,如圖2所示。

圖2 MaxCompute功能組件
MaxCompute完整的生態系統和豐富的功能為智能變電站二次設備存儲、數據處理和分析提供了一種新的手段。
根據所設計的智能變電站二次設備數據樹狀建模方法、智能變電站二次設備數據特點和二次設備數據分析需求,設計了三層存儲模式的數據倉庫:數據操作層(Data Operation Layer,DOL)、數據倉庫層(Data Ware Layer,DWL)和數據集市層(Data Market Layer,DML)。數據倉庫的整體結構如圖3所示。

圖3 智能變電站二次設備數據倉庫3層結構
在圖3中,DOL用于接收和存儲來自PMS、OMS、監控、缺陷等業務系統或文檔的原始數據,存儲模式盡可能和數據源業務系統的存儲模式保持一致,形成數據源業務系統和后續數據倉庫的隔離,并為DWL提供原始的數據備份。針對DML中不同的數據分析需求,為DWL提供原始的輸入數據,并應對數據分析需求的變化。另外,如果需要直接從數據源業務系統進行數據查詢或者生成報表,也可以由DOL來承擔,以減少對數據源系統的訪問請求。
DWL是包含了所有數據分析主題的通用的數據集合。為了能夠提升二次設備狀態評估等數據分析應用的性能,使用星型模型進行數據建模,并按照數據分析主題進行數據的組織,每一個主題對應一個數據分析領域。為繼電保護設備進行星型建模的示例如圖4所示。

圖4 數據倉庫層繼電保護裝置數據星型數據建模
星型架構是一種非正規化的數據結構,多維數據集的每一個維度都直接與事實表相連接,不存在漸變維度,所以數據有一定的冗余。事實表可以直接支持后續的統計分析,減少或者避免了多表連接,因此分析性能較高。DWL數據來源于DOL,進入DWL的數據需要具有權威性,即后續的數據分析均需要且只允許使用DWL的數據。因此對數據質量有較高的要求,需要事先進行數據清洗,去除各類臟數據,并進行適當的類型轉換、歸一化和離散化處理。
DML中的數據結構清晰,具有較強的針對性,直接用于支持特定的數據分析應用。DML數據需要對DWL進行數據加工,形成的結果數據存入DML。
所設計的分層結構會存在一定的數據冗余,但是可以更有效地應對數據分析需求的變化和業務系統規則的變化,分層結構也使得數據處理邏輯變得更簡潔和易操作。
所設計的數據倉庫各層自底向上逐層對上層進行數據支持。以統計和發現不同環境條件下繼電保護裝置動作的正確率為例,介紹數據倉庫中各層之間的協作方式,其協作關系如圖5所示。

圖5 統計高溫情況下的繼電保護裝置動作正確率
在圖5中,DSL接收來自PMS、OMS、在線監測、設備自檢等多數據源的數據,并保持原有系統的存儲模式,存儲到DSL,作為整個數據倉庫的基礎數據。另外,如果需要對基礎歷史數據進行查詢,可以直接在DSL中進行。DWL主要采用寬表的形式存儲集成的數據。為了統計和分析環境溫度、濕度等因素對繼電保護設備動作正確率的影響,將來自于DSL的設備臺賬信息、環境信息、繼電保護運行信息、告警信息集成進來,構建DWL中的表,因此表的維度較高。在使用寬表進行數據集成之前,需要對DSL中的數據進行數據清洗、適當的類型轉換、歸一化以及離散化等數據處理,以便得到高質量的數據,提升后續數據分析的有效性。之后,基于DWL寬表,可以統計不同周期內繼電保護裝置的正確動作次數、總動作次數以及相應的環境溫度、濕度等,形成數據集市層DML表數據。上層的應用系統(APP)使用DML中繼電保護設備動作統計次數計算動作的正確率,并進一步利用正確率和環境指標分析兩者的相關性。
以繼電保護設備狀態評估為例,介紹使用MaxCompute進行數據建模、數據處理和數據分析的過程。
MaxCompute使用二維表進行數據存儲。在進行數據導入之前,需要先創建表。根據2.2節設計的數據倉庫,需要分別為DOL、DWL和DML創建表。根據經驗,確定與繼電保護設備狀態評估相關的數據包括:繼電保護裝置整體信息、電源插件、CPU插件、通信插件和開入開出插件,共5部分信息,因此在DSL層中,分別使用SQL DDL進行表的創建,創建表的示例如表2所示。

表2 設備臺賬表創建DDL
執行數據操作層DSL建表操作,結果如圖6所示。

圖6 DSL層MaxCompute數據表
根據經驗,從DSL數據表中進行特征選擇,選出的用于繼電保護設備狀態評估的特征包括:(1) 運行環境:溫度、濕度;(2) 無故障時間:設備實際無故障運行時間;(3) 家族性無故障時間:同型號、同批次無故障時間,基于OMS缺陷記錄表,統計分析同型號、同批次設備的無故障時間;(4) 正確動作率:本身正確動作率、同型號正確動作率、同批次正確動作率(本身正確動作率=正確動作次數/總動作次數);(5) 絕緣狀況:屏內接線的保護裝置箱體和各插件的絕緣數據:裝置發生絕緣接地情況的次數;(6) 數據采樣:模擬量和開關量采樣異常出現的次數;(7) 通信狀況:GPS對時、與監控后臺、保護信息子站的通信狀況,統計通信異常出現的次數;(8) 通道運行情況:高頻通道和光纖通道測試數據,統計通道異常次數。
使用上述特征構建DWL層數據寬表,如圖7所示。

圖7 DWL層MaxCompute數據表
在圖7中的特征量是根據經驗選取的,可以選擇使用機器學習算法,如隨機森林特征選擇算法,利用歷史數據進行進一步的特征選擇,對特征量的重要性進行量化評估并排序,選出最終的特征量,用于狀態評估。最終的特征量被同步到應用數據集市DML中,如圖8所示。

圖8 DML層MaxCompute數據表
如果不進行特征選擇,則可以將DML中的表與DWL中的表保持一致即可。
使用MaxCompute生態系統中的數據開發工具DataStudio完成DOL到DWL的數據清洗和數據加工過程,從數據源到DOL的數據加載也可以在DataStudio下利用數據集成工具完成。圖7的DWL至DML的特征選擇可以使用PAI組件完成,整體數據處理的流程如圖9所示。

圖9 DataStudio環境下繼電保護設備狀態評估數據處理流程
其中:Di組件為數據同步組件,負責從數據源到DSL層的數據傳輸;Sql組件用于數據清洗和數據的統計計算,從而形成DWL層數據;Pi組件用于特征選擇,可以使用過濾式特征選擇或者隨機森林特征選擇等方法。繼電保護的狀態評估使用了Pi組件中的邏輯回歸算法進行訓練和分類。
數據分析的過程是在Pi組件中完成的。Pi是阿里云提供的機器學習服務。根據經驗,將繼電保護設備的狀態評估結果設定為如下的5種狀態:良好狀態、正常狀態、注意狀態、異常狀態、嚴重異常狀態。使用邏輯回歸算法進行訓練和分類,數據分析的流程如圖10所示。

圖10 Pi環境下基于邏輯回歸的繼電保護設備狀態評估
在圖10中進行了額外的過濾式特征選擇,但僅是得出了當前特征重要性的量化打分和排名,并未參與后續的計算。拆分過程將歷史數據按照自定義的比例,如70%訓練數據和30%測試數據的比例進行了拆分,分別輸出到訓練模塊和測試模塊。最后通過混淆矩陣組件和分類結果評估組件查看模型的準確率等參數。
選取來自某省電網公司2013年7月至12月的PMS、OMS、在線監測以及設備自檢數據進行數據建模、存儲和數據分析。實驗平臺使用阿里云MaxCompute、Datawork、數據集成、機器學習Pi。
使用所設計的樹狀模型對實驗數據進行建模,并使用星型模型在MaxCompute表中進行物理存儲。同時在MaxCompute中使用傳統的范式模型對二次設備數據進行表示和存儲。分別基于兩種模式進行二次設備歷史數據的查詢分析,對比其執行性能。以查詢分析繼電保護設備的正確動作率與環境溫濕度的關系為例,對比兩種存儲模式對查詢分析的影響。分別進行了三項查詢分析實驗:無條件的全量設備查詢Q1、根據生產廠商對不同品牌的設備進行查詢Q2、根據變電站進行設備查詢Q3。每組實驗分別選取不同得數據規模:579 MB(數據集編號1)、1.21 GB(數據集編號2)和1.63 GB(數據集編號3),對比其執行時間,如圖11所示。

圖11 歷史數據查詢分析執行時間對比
在圖11中,QX-Y表示對數據集Y執行QX查詢。采用范式建模方式,執行時間約為星型建模方式的3倍左右,不同規模不同查詢方式下,9次實驗的平均執行時間比例為3.12。從圖11中各次實驗的執行時間變化趨勢可以看出,兩種存儲模式下的執行性能在數據規模增長的情況下執行性能比較平穩,這與MaxCompute的平臺特性相關。MaxCompute下執行數據分析任務時,分配的計算資源會隨著數據規模的增長而增長,因此執行時間總體比較平穩。尤其在星型存儲模式下,執行時間隨著數據規模的增長幾乎沒有增長,表明了所設計的存儲方法能夠有效應對智能變電站二次設備數據的存儲和數據分析。
本文研究了智能變電站二次設備數據的特點、建模方法和物理存儲方法,提出一種智能變電站二次設備數據樹狀建模方法。并基于阿里云的大數據平臺MaxCompute設計實現了3層結構的二次設備數據倉庫,給出了數據操作層、數據倉庫層和數據集市層之間的交互方法。以繼電保護設備狀態評估為例說明了數據建模、存儲和數據分析的過程。以繼電保護設備數據的統計查詢分析為例,在不同數據規模下,對比了所設計的星型存儲模式和傳統的范式模式下的查詢執行時間,驗證了所設計的建模和存儲方法的有效性。