付強, 董成, 馬文浩
(1. 國網固原供電公司, 寧夏, 固原 756000; 2. 武漢國電武儀電氣股份有限公司, 湖北, 武漢 430074)
為了滿足人們用電需要、提高供電服務質量,泛網智能變電站正在逐漸取代傳統的變電站進行供電。智能變電站最大的特點是遠程控制,通過光纖以太網實現智能變電站內各智能設備間的通信,因此一旦光纖以太網鏈路出現問題,智能變電站的運行可靠性就會大大降低,甚至消失[1]。為此,提前感知光纖鏈路健康程度對于保證光纖鏈路正常運行具有重要的現實意義。為解決上述問題,泛網智能變電站時鐘系統被設計出來了,該系統工作原理是利用變電站運行大數據和設備臺賬信息,智能分析出虛回路所在光纖通道健康情況,然后智能感知運維數據并自動生成安全措施票工作票,并指導二次運維人員更高效地處理泛網智能變電站光纖回路的相關缺陷[2]。
在泛網智能變電站時鐘系統當中,質量監管模塊是其中最關鍵的部分,它是利用一種智能算法判斷光纖鏈路是否存在異常情況。關于光纖鏈路異常監測中智能算法的選擇有很多,如王紅霞等過一種小波分析和改進支持向量機的算法進行光纖鏈路異常檢測;牛詠梅通過構建正交基神經網絡模型實現光纖網絡異常檢測;許鵬等將光纖網絡異常數據檢測的問題轉換成求取最優解的問題,采用改進遺傳算法實現了對光纖網絡異常檢測。
基于前人研究,本文進行泛網智能變電站時鐘系統質量。本研究中以變電站運行大數據和設備臺賬信息為基礎,通過數據挖掘算法實現對光纖鏈路的質量監管,以期為變電站運維提供技術支撐,并為智能電網其他系統提供服務和大數據支持。
泛網智能變電站站內光纜光纖智能設備光口和對時裝置的可靠性是變電站網絡正常運行的基礎。由于站內眾多的光跳線使用,基于站內光纜的基本特性,在變電站內環境變化和人員施工的情況下,可能對光纖造成彎曲、擠壓;另外鼠類啃咬等傷害也不容忽視,因此監測光纜和尾纖的運行情況和智能設備光口穩定性是當前一個十分必要和迫切的問題[3]。為此,泛網智能變電站時鐘系統質量監管模塊的重要任務之一就是對光纖鏈路及其相關設備的健康狀況進行識別和判斷。
光纖鏈路中存在2個時鐘系統,即發送時鐘和接收時鐘,這些時鐘中包含了變電站運行大數據和設備臺賬信息,一旦光纖鏈路存在異常,這些數據和信息也會出現異常變化,因此可以通過這些數據來判斷光纖鏈路是否存在異常問題,具體過程如圖1所示[4]。

圖1 泛網智能變電站時鐘系統質量監管模塊設計流程
歷史數據信息采集與分析是進行泛網智能變電站站內光纜質量分析的基礎。在本文中,歷史數據信息主要包括變電站運行大數據和設備臺賬信息2種,前者主要為變電站運行時產生的相關數據,后者主要為變電站中光纖衰減和光功率數據[5]。以上這些歷史數據需要經過進一步處理才能滿足后續分析需要,包括數據標準化、數據降維、數據離散化。下面進行具體分析。
(1) 數據標準化
采集到歷史數據量綱不同,在后續無法進行比較分析,因此需要消除數據的不同量綱,進行數據標準化。目前,標準化方法主要有3種,即Min-Max標準化、正規化方法和log函數轉換法,如表1所示[6]。

表1 數據標準化方法對比表
(2) 數據降維
采集到的歷史數據來自不同的數據庫,因此存在多個特征變量。多個特征變量雖然會提供豐富信息,但是也會增加計算量和計算難度,因此需要進行降維,在減少特征變量同時,盡量保證信息完整性[7]。數據降維方法主要有線性映射和非線性映射方法兩大類。在這里采用主成分分析方法進行降維。
步驟1:假設待降維數據是一個包含m個樣本的n維數據集。
步驟2:將數據集按照m行n列重新排列,組成矩陣。
步驟3:按列對數據集進行標準化處理,組成標準化矩陣。
步驟4:計算標準化矩陣中每列數據的協方差,組成協方差矩陣。
步驟5:用雅克比方法解協方差矩陣的特征方程,得到特征值和特征向量。
步驟6:將特征值從大到小排列,選取前k個特征值對應的特征向量,并組成特征向量P。
步驟7:計算特征向量的累計貢獻率,選擇超過85%貢獻率的特征向量作為主成分。
步驟8:主成分就是降維后歷史數據[8]。
(3) 數據離散化
在異常分析中很少將連續值作為識別模型的特征輸入,而是將連續特征離散化為一系列01特征,然后輸入到異常識別模型當中。以上這一過程就是數據離散化過程[9]。在這里引入信息熵理論,進行數據離散。具體過程如下。
步驟1:假設待離散數據是一個包含m個連續屬性s個類別的數據集。
步驟2:計算數據集的一致性水平Y1。
步驟3:按照從小到大的順序排列屬性值。其中需要注意的是,相同的屬性值,視為一個區間。
步驟4:計算所有屬性相鄰區間的合并標準值IMC,該值就被視為一個斷點。
步驟5:合并最小IMC值的兩個區間,即兩個斷點構成一個區間。
步驟6:再次計算當前數據的一致性水平Y2。
步驟7:判斷Y1和Y2之間的差值是否小于數據可容忍的信息丟失率。若大于,則結束離散化操作;若小于,則回到步驟5。迭代地合并相鄰區間,在最小化信息丟失的情況下,將連續屬性值域轉換成小數目有限的區間,直至滿足上述迭代終止條件[10]。
歷史數據特征提取是建立關聯規則庫的關鍵。數據特征是進行后續匹配識別的基礎。歷史數據特征提取思路是從樣本數據中提取出潛在的異常行為模式,產生相應的關聯規則,并轉換成符合Snort規則語法的入侵檢測規則,添加到規則庫中[11]。在該模塊中,采用遺傳算法進行數據特征提取,具體過程如下。
步驟1:輸入樣本數據庫,隨機從中選擇一個特征,并計算其信息熵。
步驟2:判斷信息熵值是否大于等于設定的閾值。若超過閾值,則選擇該特征,記為第一個有效特征x,否則回到步驟1重新進行一個特征,直到信息熵值大于等于設定的閾值s1[12]。
步驟3:再次從樣本數據庫隨機選擇第二個特征記為y,并計算x與y之間的互信息值。
步驟4:判斷x與y之間的互信息值是否大于等于預定閾值s2。若大于等于預定閾值s2,則選擇y作為第二個有效特征,否則回到步驟3重新進行選擇,直到選出第二個有效特征為止。
步驟5:組合x與y構成一個類別C,并計算其中每個特征與樣本之間的相關性,去除其中的不相關特征和冗余特征,構成有效特征集L。
步驟6:對特征集L進行偏F檢驗,得出L1。
步驟7:以L1構建初始群體,并進行染色體編碼。
步驟8:計算每個個體的適用度值并排序,選擇適用度值前k個個體組成新的群體G。
步驟9:根據適用度值,進行選擇、交叉和變異操作。
步驟10:判斷當前個體適用度值是否達到最大進化代數,若滿足上述迭代終止條件,則輸出最優解;否則回到步驟9,繼續遺傳操作[13]。
步驟11:根據輸出的最優解選出編碼為“1”的特征構成特征集。
數據挖掘的作用是從大數據集中發現目標信息。目前數據挖掘主要分為五大類,即分類分析、關聯規則分析、序列模式分析、離群點分析和聚類分析。其中,聚類分析是最常用的,典型算法包括密度聚類算法、分層聚類算法、網格聚類算法、k-means算法、模糊聚類算法等。在本章節選擇k-means算法進行光纖鏈路健康狀況判斷,其基本思路是計算測試樣本與各類特征之間的相似度來判斷,具體過程如圖2所示。

圖2 基于k-means算法的光纖鏈路健康狀況判斷流程
計算測試樣本X=(x1,x2,…,xn)與各類特征集Y=(y1,y2,…,yn)之間的相似度是k-means算法的關鍵。目前計算公式主要有以下幾種。
(1) 歐幾里得距離:
(4)
(2) 曼哈頓距離:
(5)
(3) 明可夫斯基距離:
(6)
式中,p≥1是一個變量值。
為測試所研究的泛網智能變電站時鐘系統質量監管模塊設計的有效性,以引言中前人研究的3種方法作為對比項,即基于小波分析和改進支持向量機的檢測方法、正交基神經網絡模型檢測方法和改進遺傳算法的檢測方法,在CPU 為 Intel pentium G630 2.7 GHz,內存為 2 GB,操作系統為 Windows XP 的計算機中進行仿真測試。選擇型號為T5100-S型號的智能時鐘同步系統,結合泛網智能變電站數據和衛星信號,由光纖秒脈沖方式進行時鐘同步,設置同步精度要求在1 μs/h,ANNONCE報文每2 s發送一次,SYNC報文每500 ms發送一次。
光纖鏈路數據分布情況如表2所示。

表2 光纖鏈路數據分布情況
按照表2,提取數據特征,生成關聯規則庫,具體如表3所示。

表3 關聯規則庫(部分)
為獲取測試樣本需要搭建測試環境。該測試環境搭建需要光纖線纜、內部總線控制卡、內部總線底板、測控板卡和運動控制卡等幾部分,如圖3所示。

圖3 仿真實驗測試環境
圖3仿真實驗測試環境的參數設置情況如表4所示。

表4 仿真參數設置
運行圖3仿真實驗測試環境,采集到的測試數據分布情況如表5所示。

表5 樣本分布情況 單位:bit
將數據輸入計算機,運行所研究的光纖鏈路健康狀況判斷方法,然后輸出結果。結果顯示界面如圖4所示。

圖4 光纖鏈路健康狀況判斷結果顯示界面
相同仿真條件下,對比3種已有的方法進行光纖鏈路質量判斷,然后統計所有判斷結果的漏報率和誤報率結果如表6所示。

表6 光纖鏈路質量監管質量判斷結果
從表6中可以看出,與3種前人研究的方法相比較,本文所研究方法應用下漏報率和誤報率都較低,說明所設計的質量監管模塊是有效的。
泛網智能變電站時鐘系統質量監控管理模塊的設計旨在基于電力物聯網技術、對象組件技術及相關國家標準等,以全面統一規劃的技術架構,實現智能變電站中信息空間和物理空間的無縫連接,提高電網運行效率和可靠性,提高效率和經濟效益。為此,針對該模塊的關鍵,即光纖鏈路健康狀況判斷進行研究。經測試,證明了本文所研究內容的有效性,為泛網智能變電站時鐘系統中質量監控管理模塊的完善提供了參考和借鑒。