李 勇, 韓俊飛, 李秀芬, 王 鵬, 王 蓓
(內蒙古電力科學研究院 信息通信技術研究所, 內蒙古 呼和浩特 010020)
電力通信是電力系統的關鍵構成部分,其鏈路可靠性直接影響系統安全運行。隨著智能電網的全面發展,通信信息量呈爆炸式增長,對通信鏈路產生多種威脅[1]。在電力通信中存在不同種類的異構數據,根據數據來源可分為防火墻數據、入侵檢測數據等,這些數據類型是為滿足不同安全需求設置的,其能夠記錄不同通信信息與用戶行為數據,所以這些數據之間具有異構屬性[2]。由于攻擊行為潛伏時間長且持久,難以從單獨的鏈路模擬數據中發現威脅,入侵者的全部入侵痕跡分別記錄在不同日志中,因此需要對數據進行融合,通過分析多類型數據能夠快速發現通信鏈路中存在的威脅,有助于盡早采取應對措施。
JAYASRI等[3]提出一種新的電力系統數據融合模型,旨在平衡多路徑數據融合的能量效率和電力系統性能的可靠運行。模型在數據融合階段考慮了整個過程,以保證數據質量。利用MEMSIC節點基準測試平臺進行了仿真研究,證實系統的可靠運行。任秀麗等[4]提出了基于分簇的模糊加權數據融合方法,在簇中使用模糊邏輯控制器對節點可信度進行研究,以保證數據可靠性;分析數據優先級,減少延時,在簇內構建模糊加權矩陣來提高數據融合準確度。
上述兩種方法在融合過程中網絡的連通性較差,網絡可靠性有待提高,為此本文利用深度波爾曼茲機算法對異構數據源中的鏈路模擬數據進行智能融合。將數據融合當作是集成的高級階段,將完整性較強、準確性較高的數據進行綜合,其核心為協調優化處理。深度受限波爾曼茲機包括多層神經元,通過層次無監督貪婪的訓練方式,將獲得的結果當作初始值。經過向量映射,解決數據融合問題,提高學習性能。仿真實驗表明,該方法進一步提高了數據融合完整性與隱私保護性。
電力通信異構數據源中,傳感器故障、環境惡化等原因均能生成噪聲數據且影響融合效果,從而降低對通信鏈路模擬結果分析的準確性,因此必須對噪聲數據進行識別,確保數據質量。
傳統識別噪聲數據的方法大多依靠對電力系統運行狀態的估計,由于辨別次數較多,導致了運算量增加。若將大數據技術與該方法相結合,則可改善上述弊端,滿足異構數據處理需求。預測電力通信系統狀態的表達式為
z=ah+v
(1)
式中:a為狀態變量;h為電力系統隨機變量;v為預測過程中滿足正態分布的誤差。估計系統狀態的方法較多,本文利用最小二乘法進行估計。因預測誤差正負不能確定,為降低運算復雜度,將目標函數J轉換為預測誤差平方的代數和[5],其表達式為
(2)
式中,i為運算次數。為滿足預測精度要求,引入權重概念確保權重取值與預測精度之間呈正相關關系,因此目標函數修改為
(3)
式中,ωi為預測權重。最小二乘準則核心是當目標函數J′最小時,估計值為最優,則式(3)可進一步表示為
(4)

(5)

(6)
其中,r的殘差靈敏度雅克比矩陣為
(7)
式中,W為殘差靈敏度,其表達式為
W=v-Rt
(8)
式中,Rt為t維正常測量誤差量,則加權殘差表達式為
(9)
在殘差搜索過程中需要設定閾值來明確數據迭代停止條件[6],其計算表達式為
(10)
式中:α為噪聲水平;N為數據長度。殘差搜索辨別的主要過程如圖1所示。

圖1 殘差搜索流程圖Fig.1 Residual search flow chart
獲取全部數據的測量殘差后,將高于設定閾值的歸納在一個集合中,并按照順序依次處理,每進行一次處理后,將剩下的數據重新估計,直至不出現高于閾值的數據為止,這樣可有效辨別噪聲數據。
在辨別出噪聲數據后,需要對數據做離散化處理,從而消除噪聲數據。此外,還能將有效模擬數據轉換為可以進行關聯挖掘的數據。k-means離散化數據的基本方法是:將連續數據分割成若干份,通過不同標志區分不同區間,這樣即可實現連續數據之間的離散化[7]。利用等級符號代替連續數據,能夠降低屬性值個數。經過離散處理后,數據集合層次更加清晰,可以直接用于數據挖掘。
該算法中存在兩個關鍵參數,分別是n與k,n表示樣本數量,k表示聚類數量,即將n個數據按目標分割成k類。分割過程如下:利用隨機法選取表示k個聚類中心的k個目標,計算出剩余數據目標與聚類中心之間距離;將距離最近作為劃分準則,此處的距離包括歐式距離、馬氏距離等,需要結合樣本特性和聚類要求確定;再次算出每類中的目標平均值,將其作為新的聚類中心。不停迭代此過程,直至符合收斂要求為止。
本文以歐式距離為例,假設目標集合M={b1,b2,…,bn},bi=(bi1,bi2,…,bin),樣本bi與bj的歐式距離表示為
d(bi,bj)=[(bi1-bj1)2+(bi2-bj2)2+…+
(bin-bjn)2]1/2
(11)
平方和準則函數表達式為
(12)

電網規模的不斷擴大使通信系統日益擴容,對鏈路安全提出了更高要求。融合模擬數據、構建統一管控平臺是改善電網運行的重要手段,能夠提高工作效率,因此有必要進行數據融合。
電力通信鏈路模擬數據挖掘過程為:
1) 明確挖掘目標。該環節具有指導作用,明確目標才能找準方向,從而實現挖掘的目的。
2) 數據整理。在明確目標后必須掌握背景信息,將海量數據儲存在對應數據庫中,為挖掘做準備。
3) 數據挖掘。將數據本身具有的特性與用戶需求當作依據,選取合理的挖掘算法。
4) 分析與評估。若挖掘結果冗余無法滿足需求,需將其刪除并再次進行步驟1)~3);若符合要求,則通過自然語言的形式表示出結果。


至此實現了電力通信鏈路的模擬數據挖掘,為數據智能融合奠定了基礎。
在電力通信系統內,不同日志可能含有同樣字段,例如時間等信息;也可能含有特殊字段,比如攻擊類型與用戶操作等。由于這些日志字段不同,大小也存在差距,所以利用同樣字段表示全部日志不夠合理。為使表示日志種類的格式統一,通過深度受限玻爾茲曼機將不同種類日志歸納在同一個矢量空間內,從而實現鏈路模擬數據的智能融合,具體過程如下:
1) 隨機選擇一個通信鏈路模擬數據,并將其轉換為二進制矢量[10],針對一個包含n′個字段的日志x(x1,x2,…,xn′),其第o(1≤o≤n′)個字段表示為xo。xo利用二進制形式表示,且將x全部的二進制字段構成二進制數值。如當n′=2,x=(7,15),且x包含的兩個字段均使用八位二進制描述,則變換后的二進制表示為x′=0000011100001111,x′的長度是len(x)=16。
2) 對不同長度日志進行處理,使其長度相等。若日志包含兩種格式,當x′1=0000011100001111,x′1長度是16;當x′2=000012430000011100001111,x′2的長度是24,則將x′1變換為000000000000011100001111,此時x′1的長度也為24。
3) 通過深度受限波爾茲曼機將轉變后的日志矢量x′映射到長度為h′(h′ 圖2 映射結構示意圖Fig.2 Schematic diagram of mapping structure (13) 式中:θ為先驗參數;E(x,y1;θ)為受限波爾茲曼機能量函數;Zθ為配分函數,其表達式為 (14) 在聯合分布函數PL中,若x*是實現設定的,則能夠獲得y1的概率分布情況,即 (15) 為證明所提基于異構數據源的電力通信鏈路模擬數據智能融合方法的性能,以某電力單位鏈路模擬的日志數據作為實驗樣本,對所提算法進行測試。在MATLAB 2019b仿真軟件中評估數據融合算法的性能。仿真回合次數為400,通信鏈路節點為200,通信鏈路節點將數據包從源節點發送到融合節點,數據包的容量為4 kB。主要從節點存活率、數據融合總能量消耗及網絡連通性方面與文獻[3]和文獻[4]的方法進行對比分析。 在仿真平臺構建一個由50個節點組成的通信網絡,通過減少節點之間的距離來增加鏈路的比特誤碼率BER(bit error ratio)。將實際環境中非均勻噪聲方差定義為 (16) 式中:χ2為自由度為1的卡方分布;p0為通信網絡噪聲方差閾值;q0為標稱最小值的潛在變化。通過該方式計算噪聲方差,以便在同一通信網絡傳感器之間創建異類感應條件。將兩個連續節點之間的距離從24.45 m更改為41.5 m。設置p0=0.3和q0=0.1來生成非均勻噪聲方差,方差上限為0.7,并設置ωi=0.43,進行20次獨立聚類,矢量映射長度設置為2。 鏈路節點存活率是判斷電力通信數據融合節點消耗能量的一個指標。模擬時間基于數據傳輸的次數獲得。在使用3種算法進行網絡模擬過程中,隨著次數的增加,異構傳感器網絡中幸存節點的數量減少,對比實驗結果如圖3所示。 圖3 節點存活率的對比Fig.3 Comparison of node survival rates 由圖3可知,整體節點存活數量均隨仿真回合次數的增加而降低.在200次仿真實驗中,文獻[3]方法的平均節點存活數量為159.2個;文獻[4]方法的平均存活數量為157.4個;本文方法的節點存活數量略高于兩種對比文獻方法,平均為162.9個。本文利用k-means聚類算法獲取每類目標的平均值后,經反復迭代消除噪聲數據,從而提高了節點的存活率。 電力通信鏈路模擬數據融合過程中會消耗一定系統能量,為此本文以系統總能量消耗作為實驗指標,驗證本文方法數據融合的性能。基于已給出的實驗環境,在仿真軟件中計算500 s內數據融合系統總能量消耗情況,實驗結果如圖4所示。 圖4 數據融合能量消耗對比Fig.4 Comparison of energy consumption in data fusion 由圖4可以看出,隨著數據融合時間的增加,3種方法系統總能量消耗均隨之增加。文獻[3]方法的平均總能量消耗為87.9 J;文獻[4]方法的平均總能量消耗為82.16 J;而本文方法的平均總能量消耗為66.35 J,所提方法能夠精準地去除冗余數據,可以有效降低系統的能量消耗。 為了驗證電力通信鏈路數據融合方法在網絡連通性方面的性能,以連接系數作為指標進行判斷,其計算表達式為 (17) 式中:M為通信范圍內相鄰節點的數量;m為網絡中所有節點的數量。3種算法的網絡連接性如圖5所示。 圖5 網絡連通性對比Fig.5 Network connectivity comparison 由圖5可以看出,隨著仿真回合次數的增加,文獻[4]方法的網絡連通度較差,且不穩定,波動幅度較大(0.35~1);文獻[3]方法的網絡連通性比較高且穩定,波動范圍為0.5~1;本文算法具有最高的網絡連通性和整體穩定性,網絡連通范圍為0.85~1,網絡連通性能優異。 為適應“互聯網+”戰略,積極對電網智能化發展進行創新,本文利用深度波爾曼茲機算法對電力通信鏈路模擬數據進行智能融合。仿真結果證明,所提方法能確保模擬數據在融合過程中節點存活率較高,平均系統能量消耗較低,僅為66.35 J,且網絡連通系數范圍為0.85~1。研究有助于對鏈路安全進行分析,從根源上降低風險,提升通信質量。但本文研究的內容仍屬于初期研究階段,其設計理念仍需不斷完善,在今后工作中應投入到實際電力通信模擬數據中,根據實際情況對算法作出調整。


3 仿真實驗與分析
3.1 節點存活率對比

3.2 數據融合系統總能量消耗

3.3 網絡連通性比較

4 結束語