張凡,陳浩敏,姚森敬,鄧遠發
(1.南方電網數字電網研究院有限公司,廣東廣州 510700;2.南方電網深圳數字電網研究院有限公司,廣東 深圳 518000)
知識圖譜是一種大型的語義網絡,用于描述客觀世界的概念實體時間以及實體映射關系[1-2]。與電網結構傳統語義網絡相比,構建電力知識圖譜能夠全面覆蓋電力網絡實體,能夠有效采集電網數據屬性、關系、實體信息等[3]。文獻[4]給出了基于知識圖譜的安全分析架構圖,整個架構分為數據采集層、數據預處理層和安全分析層。通過數據采集層采集構建知識圖譜所需的原始安全數據。利用數據預處理層加工安全數據,從而獲得更深層次的知識。選擇安全分析層預處理電網數據,構建安全分析知識圖譜。安全分析層可以制定查詢規則,查詢異常行為、異常實體,同時可以基于已有的風險評估模型進行資產風險評估。文獻[5]基于知識圖譜技術,探索電力設備缺陷記錄檢索方法,提升缺陷記錄檢索效果。但上述方法存在重復采集電網數據問題,使最終生成的知識圖譜置信度過低,效果不理想。因此,該文提出基于電網多源數據的電力知識圖譜構建方法,提高知識圖譜置信度。
采集實體電網多元素數據時,以電力發電廠與電網客服系統作為采集對象[6]。實體電網多源數據采集架構如圖1 所示。
整合實體電網架構中相同源頭的電力知識數據[7],賦予實體電力知識權重:
其中,E|ε|表示電網中實體電力知識數量。電力知識間的相似性表示為:
其中,a、b分別表示不同的電力知識實體,φ(a)、φ(b)分別表示知識相似性函數和變換約束函數。定義上述得到的相似性電網多源數據的實體集合為E。為了減少相同電網知識的重復采集[8-9],將可能含有語義相似的實體進行平滑處理:
其中,ei、ej分別表示含有相同電力知識的電力知識實體,計算得到重復采集的電力知識實體:
其中,wij表示采集得到電力知識實體間的連接矩陣,N(ei)表示參與計算的電力實體數量。將采集處理后的電網多源數據作為處理對象,抽取實體內的電力知識。
將電力知識間的關系轉變為分類器可識別的特征數值[10],轉變過程為:
其中,M(r)表示差異參數,vr(ei,ej)表示電力知識的差異函數。轉化處理電網多源數據后,計算可識別知識變量中的互信息表征:
其中,f表示電力知識類別中的變量,P(r)P(f)表示變量與特征數值間的聯合分布[11]。
在標注互信息表征關系的同時構建最大熵模型,電力知識的抽取過程如圖2 所示。

圖2 電力知識抽取過程
根據圖2 可知,電力知識最終生成一個具有實體關系的三元組[12],構建電力特征篩選過程:
其中,fi(x,y)表示第i個電力知識關系三元組的特征方程,λi表示特征方程的權重參數,k表示得到的三元組數量,Z(X)表示歸一化因子。
計算上述抽取得到的電力知識邏輯參數:
其中,z表示電力知識集合,Q(z(i))表示具有邏輯性的電力知識,P(x(i),z(i))表示電力知識的似然函數[13-14]。
構建電力知識圖譜前,消除該部分冗余,消除過程為:
其中,E(Δ)表示電力知識冗余結構參數[15],γ表示冗余的間隔參數[16]。消除該部分冗余后,匯總上述邏輯參數對應的電力知識[17],知識譜構建過程如圖3 所示。

圖3 電力知識譜構建過程
在電力知識譜構建過程,控制實際電力知識采用自頂向下的構建方向。設定電網多源數據開放獲取鏈接,不斷更新電力知識的實體關系。綜合上述處理,最終完成基于電網多源數據的電力知識圖譜構建。
以表1 電力系統運行標準參數為準,搭建電力實驗平臺。

表1 電力系統運行標準參數設置
采用集中部署的電力平臺作為電網多源數據的采集對象,采集數據的電網結構如圖4 所示。

圖4 電網多源數據目標采集結構
在電網多源數據目標采集結構下,使用文獻[4]方法、文獻[5]方法以及文中設計的方法進行實驗,對比不同知識圖譜構建方法的性能。
對圖4中的電網多源數據采集20次,將電力知識常識作為標準,構建知識圖譜準確率,計算公式為:
其中,T1表示被正確預測的知識關系數量,T2表示預測出的知識關系數量。
不同圖譜構建方法的準確率結果如圖5 所示。

圖5 不同圖譜構建方法準確率結果
根據圖5 可知,文中設計的知識圖譜構建方法最終產生的準確率數值較高。在處理相同數量的多源數據數量時,準確率保持在97%左右。
保持上述實驗環境不變,將構建知識圖譜中各項指標作為處理對象,對多源數據進行召回,獲取不同方法的召回率,計算公式為:
其中,T3表示電網多源數據包含的知識圖譜關系。不同構建方法產生的召回率結果如圖6 所示。

圖6 不同圖譜構建方法召回率結果
根據圖6 可知,文獻[4]方法平均召回率約為0.50%,知識圖譜構建時對電網多源數據的召回數量較小。文獻[5]方法產生的平均召回率約為0.58%,實際召回的電網多源數據數量較多。而文中設計的方法平均召回率約為0.78%,召回處理的電網多源數據數量高于文獻[4]方法和文獻[5]方法,最終得到的知識圖譜結構更加完整。
以不同知識圖譜構建得到的三元組F 值作為對比對象。知識圖譜三元組中的F 值越大,則表示構建得到的電力知識圖譜置信度越高,計算公式為:
變換構建方法處理的多源數據組數量后,計算并統計不同方法的F 值。F 值大小如表2 所示。

表2 不同圖譜構建方法F值結果
根據表2 可知,文獻[4]方法得到的F 值在53 左右,實際構建得到的電力知識圖譜的置信度較弱。文獻[5]方法得到的F 值在73 左右,對應得到的電力知識圖譜的置信度較高。而文中設計的方法得到F 值在93 左右,與文獻[4]方法和文獻[5]方法相比,文中設計的方法實際構建得到的知識圖譜置信度較高。
隨著電力電網規模增大,電力數據管理工作趨于復雜。為此,以電網多源數據為基礎,構建電力知識圖譜具有一定意義。電網多源數據的電力知識圖譜構建方法能夠改善現有圖譜構建方法的不足,為今后電力知識圖譜系統設計提供理論支持。