曹世龍,蔡穎凱,王一哲,付瀚臣,劉鑫
(國網遼寧省電力有限公司營銷服務中心,遼寧沈陽 110000)
風險數據感知是指在對風險數據進行深度挖掘和評估的基礎上,感知某個領域的安全數據。風險數據感知不僅在互聯網、金融、移動通信等領域得到了廣泛應用,在電力系統中也引起了高度關注。電力系統在運行過程中會產生一定的風險,這些風險一部分屬于運行風險,一部分屬于生產安全風險,與電力系統的供電能力、配電網拓撲的安全性、作業環境、電力設備的運行狀態等因素密切相關。由于電力系統中風險數據感知能力有限,導致風險數據在預測和感知中存在較大局限性[1-2]。
為了提升風險數據的預測和感知能力,國內學者對其進行了深入研究。其中,有學者提出基于數據分析的風險數據感知方法,構建電力系統風險數據感知模型,通過該模型進行風險數據感知;并將其與多維數據進行融合,通過融合后的風險數據,識別電力系統中存在的安全風險。以上風險數據感知方法雖在預測系統中存在的風險,但風險數據感知能力和風險趨勢分析能力較差,風險數據識別范圍較大[3-4]。
為了解決以上出現的問題,該文提出了基于主動識別的多渠道風險數據感知方法,對多渠道風險數據進行提取、挖掘和判斷,最后通過實驗研究驗證了該文方法的應用效果。
采用空間重構法對多渠道風險數據進行特征信息提取,在異構數據分布結構中,風險數據在儲存系統中節點間隔為d,風險數據的特征信息結構可以用模型表示為:
其中,G1表示特征結構;表示α對應的采樣特征點;表示β對應的采樣特征點;Y1表示特征終止點;G2表示信息結構;表示α對應的信息特征點;表示β對應的信息特征點;Y2表示信息終止點[5-6]。
上述風險數據分布的關聯規則集合滿足式(2):
基于空間異構條件,對風險因素數據檢測評估,得到風險數據的分布結構模型如圖1 所示。
根據圖1 可知,風險狀態數據儲存節點是風險數據劃分的重要依據。采用分隔模型篩選多渠道風險數據儲存節點,篩選出的儲存節點作為檢測評估數據庫。根據儲存信息特征,在直徑為Dn的風險數據范圍內劃分風險數據,得到k個特征子集Ak,特征子集中數據信息存在重復向量,會出現向量交叉,影響估計結果。采用空間重構法對風險數據狀態分布進行分析,得到滿足特征的融合方法,確定風險數據的空間融合特征量,由此得出多渠道風險數據信息儲存節點的增益模型為:
其中,Hi(x)表示得到的增益模型;k表示風險數據特征量;pk表示融合的數據總量。
根據式(2)得到風險數據儲存節點的采樣數據集為x={x1,x2,…,xn},為風險數據的識別奠定基礎[7-8]。
對多渠道風險數據致險因素整理歸類,按其影響效果強弱分為三級。其中,一級因素包括6 類,二級因素有50 類,三級因素中有255 類。將各類風險因素歸于一個風險因素體系[9-10]。風險因素對數據安全性存在關鍵性影響,所以要挖掘風險因素中的關鍵要素。由于三個級別的風險因素存在包含關系,即一級因素中包含二級因素和三級因素,數據挖掘中存在重復數據。該文采用PCA 剔除法,消除目標數據中的重復數據,以保證挖掘到的信息數據為關鍵要素,且能很好反映多渠道關鍵風險因素影響效果。
1)標準化處理計算公式為:
其中,為風險影響因素Zi的平均值;D(Zi)為風險影響因素的特征方差;Xi表示標準化后的第i個三級風險影響因素值。
2)以多渠道風險因素樣本為數據基礎,對風險因素及風險事故進行分析,根據風險因素造成的危害,建立對應因果數據樣本集,引入相關性概念,分析風險影響因數。n起事故中風險影響因素構成的矩陣為:
其中,X為大小為n×m的標準化三級風險影響因素矩陣;第i個風險影響因素向量為Xi=[X1i,X2i,…,Xni]T。對風險影響因素向量Xi和Xj進行相關性分析,其表達式為:
其中,cov(Xi,Xj)為風險因素向量Xi和Xj平方差指數;D(Xi)和D(Xˉj)分別為向量Xi和Xj的協方差系數。
構建n個風險影響因素的相關系數矩陣R為:
其中,R表示得到的相關系數矩陣;ρmm表示風險因素。根據特征方差公式|λE-R|=0 對相關性系數矩陣R求取特征向量[11-12]。
3)λr為特征值,表示m個關鍵風險因素的方差值,風險因素中包含m個關鍵風險因數,關鍵因素占所有風險因素的百分比,即第p個風險因素的方差值貢獻率ωp,其表達式為:
引入風險事故危害評估值概念,將其作為風險數據感知模型中的變量,則n起風險事故的危害評估表達式為:
其中,Y表示事故危害等級劃分標準,無具體大小量值,T表示危害的嚴重程度,將風險要素作為變量輸入風險危害模型,n起事故中m個風險要素矩陣表達式為:
其中,表示關鍵風險因素在第n起事故中的垂直向量。
當關鍵因素為連續性因素,則取真值,若風險因素為分散性存在,則對其賦值,賦值大小取決于分散程度大小,賦值范圍在0~1 之間,并將其以脈沖形式作為時間編碼發射[13-15]。
將i=120 個風險關鍵因素作為輸入變量,風險危害評估值j作為層神經元數量輸入SNN[16]。
網絡參數設定決定預測模型的精確度,指標跳幀會影響神經元網絡的運行,所以采用MSE 作為參考指標,控制數據的跳幀。設定神經元數量范圍為50~110,初始權重范圍為0~0.001,神經突觸數量范圍為10~20,神經元突觸延遲范圍為0.001~0.003,衰減時間系數范圍為0.001~0.01。對參數調整時,保持其他參數不變,輸入MSE 最小值時,輸出參數為最優結果。
信號發射編碼公式為:
其中,T為編碼后的神經元信號發射時間,單位為毫秒;Tmax表示邊界值1 對應的神經元信號發射時間,單位為毫秒;T*為風險因素關鍵系數。
將r作為編碼變量加入脈沖發射,發射時間tx∈[0,Tmax],對應的輸出脈沖發射時間為tY,輸入和輸出的時間差為Δt,輸出脈沖發射時間與時間差的關系為:
t時刻事故發生的概率為P(t),通過下式可得到t時刻的風險值R(t)
根據貝葉斯公式可計算得出風險因素事故發生概率值,風險因素事故發生概率值為與事故發生概率的累乘值,將各個風險要素中的關鍵要素條件概率值轉化為標準值為:
其中,i為風險關鍵要素代號;m為風險關鍵要素數量。
為驗證該文提出的基于主動識別的多渠道風險數據感知方法的實際應用效果,將基于大數據分析的配電網風險數據感知方法與該文所提方法進行實驗對比。以電力系統中出現的150 起電力事故為例,分析可能引發電力事故的原因,并構建事故原因多渠道風險數據樣本集,從中挑選出一部分作為測試樣本,將測試樣本中的多渠道風險數據系數閾值設置為0,從多渠道風險數據樣本集中提取出部分風險數據主成分,并進行方差運算,如果風險數據主成分貢獻率為94%,說明該風險數據主成分集中了引起電力事故的絕大部分多渠道風險因素,然后將多渠道風險數據系數閾值提升到0.25,以此識別多渠道風險數據樣本,集中大部分風險關鍵要素,將多渠道風險樣本預測值與提取值進行對比,不同方法下預測誤差評估指標對比結果如圖2 所示。
由對比結果可知,采用該文所提的基于主動識別的多渠道風險數據感知方法,其預測誤差評估指標明顯優于基于大數據分析的配電網風險數據感知方法,具有更好的多渠道風險數據預測性能。該文提出的基于主動識別的多渠道風險數據感知方法的風險數據感知能力比基于大數據分析的配電網風險數據感知方法更高。采用該文方法多渠道風險數據樣本預測值與提取值具有較高的一致性,吻合度較好,而采用基于大數據分析的配電網風險數據感知方法,多渠道風險樣本預測值與提取值相差較大,吻合度較低。
為了更詳細、具體地體現出不同多渠道風險數據感知方法的感知性能,利用均方根誤差和平均絕對百分比誤差評估不同方法的感知準確度。為了分析該文所提方法在電力系統生產運行過程中多渠道風險數據感知情況,選擇事故原因多渠道風險數據樣本集中某一次生產作業為例,生產時間間隔為2 min,將引起電力系統事故的多渠道風險要素輸入到樣本集中,對該次生產作業進行風險數據感知,感知結果范圍如圖3 所示。
生產作業開始階段,風險等級較低,工作人員生產技能水平、專業水平和生產內容決定了電力系統生產作業的風險等級,隨著生產作業時間的不斷增長,生產作業環境的變化,工人的體能、精神狀態出現一定變化,再加上部分工作人員被臨時抽調,只剩部分工作人員進行生產作業,在身體疲勞的情況下出現生產失誤,導致了生產事故的發生,在該次生產作業過程中,隨著作業時間的增加,該文所提方法預測電力系統事故的風險等級在降低,說明該文所提方法的風險趨勢分析能力較高,而基于大數據分析的風險數據感知方法預測電力系統事故的風險等級不降反升,說明風險趨勢分析能力較低。基于以上獲得的風險數據結果對不同方法下的多渠道風險數據識別范圍進行對比發現,該文所提方法的多渠道風險數據識別范圍較小,波動較為穩定,而基于大數據分析方法的多渠道風險數據識別范圍較大,具有不穩定性。
該文所提基于主動識別的多渠道風險數據感知方法優于基于大數據分析的配電網風險數據感知方法,該文方法的多渠道風險數據感知和風險趨勢分析能力更佳,多渠道風險數據識別范圍更小,具有更好的穩定性。