薛曉茹,徐道磊,路宇,唐軼軒
(國網安徽省電力有限公司信息通信分公司,安徽合肥 230000)
隨著電力企業數字化轉型的推進,當前電力公司已普遍依靠移動網絡系統提供智能客服功能,并由智能機器人進行客戶疑問解答。但智能機器人存在復雜專業問題難以識別、無法幫助客戶進行業務辦理、與客戶在線實時互動能力不足等問題,從而影響了客戶線上辦理業務的體驗及電力公司線上業務的進一步拓展。目前,系統后臺所使用智能客服機器人的服務能力有限,且知識更新仍需軟件提供商現場維護,費時費力。因此,亟需建設實時、互動化與智能化的線上服務渠道[1-6]。
隨著人工智能技術(Artificial Intelligence,AI)的發展,傳統的離散、非結構化知識體系已逐步被高組織性的語義網絡所取代。建立電力營銷領域的知識圖譜(Knowledge Graph),是將復雜多源的專業業務知識結構化的過程,也是高效查找復雜關聯信息、提升電力數據分析效率及整體服務效能的關鍵路徑[7-11]。基于知識圖譜可隨時完成新營銷業務流程的學習和嵌入,從而不斷推進“互聯網+”營銷服務的深入。該文在電力營銷知識圖譜的基礎上,對數據分析的方法展開了研究,并介紹了傳統知識圖譜的構建與表示方法。同時還基于神經網絡(Neural Network,NN)對知識圖譜的分布式表示方法進行了改進,進而提升了傳統方法在復雜電力營銷語義下映射的準確性。
知識圖譜是一種由節點、邊組成的大規模語義網絡,且其邊表征了節點間的語義關聯[12-14]。知識的獲取、融合、計算與推理是知識圖譜中的關鍵技術。而這些技術的實現基礎則是知識圖譜的分布式表示,其對于圖譜的構建、管理效率均具有決定性的影響[15]。通過分布式表示,可將節點、關系間的詞向量映射至低維空間,并高效存儲知識圖譜的結構及語義特性。
對于電力營銷系統,基于原有基礎數據構建知識圖譜的過程如圖1 所示。

圖1 電力營銷服務知識圖譜構建
在圖中流程的基礎上,為實現電力營銷知識圖譜的構建,需研究圖譜的分布式表示技術。在計算機中知識圖譜的基本存儲單元是三元組,其可表示為:
其中,h為頭實體,t為尾實體,r則為h到t的約束關系。E、R、S分別為知識圖譜網絡的實體、關系與三元組集合。根據如圖2 所示的基于翻譯的知識圖譜分布式表示方法TransE(Translating Embedding),在h和t之間經過關系r可達到距離最近,即:

圖2 TransE方法示意圖
記f為度量h、t實體間的分數函數:
其中,Ln為范數。通過優化得到基于式(3)的鉸鏈損失(Hinge Loss)準則Ψ為:
根據h、r、t三者映射空間的不同,在TransE 的基礎上又發展出TransD、TransH 等系列算法。這類基于翻譯思想的Trans 系列分布式表示方法,憑借其參數少、訓練高效的優勢均取得了良好的應用效果。但此類方法更適用于一對一的線性約束,而對大規模知識圖譜下的復雜三元組關系無法準確表述。
為表述知識圖譜的多約束特性,考慮到實體、關系之間并無本質差異,文中從三元組的交互特性出發[16],設計了如圖3 所示的三分支并行神經網絡(Three Branch Parallel Neural Network,TBPNN)。該網絡內的分支結構相似,且每個分支均由交互層、非線性層及輸出層組成。

圖3 TBPNN網絡結構
記W為網絡的傳播權重矩陣,b為神經元傳播的偏置項,則網絡在交互層、非線性層、輸出層的傳播函數分別可表示為:
TBPNN 網絡在訓練時,采用誤差反向傳播(Back Propagation,BP)算法。由于三分支網絡的輸入對于正樣本具有相似度,而對負樣本的相似度則較低。因此,傳統網絡的損失函數會在正負樣本間震蕩。為了克服該影響,引入了比例Sigmoid 函數,則有:
其中,α為動態調整因子,其可調節Sigmoid 函數的取值范圍。根據式(9),能夠得到鉸鏈損失函數為:
其中,γ是正負樣本間隔,且為S(T′)的負樣本集。由隨機抽取的實體或關系h′、r′、t′對原有三元組的實體或關系進行替換得到:
經測算,機組90%THA、75%THA和50%THA負荷工況鍋爐給水溫度分別提高6 ℃、12.1 ℃和18.1 ℃;汽輪機熱耗下降5、13和44 kJ/kWh;鍋爐排煙溫度升高1.5、3和5 ℃,鍋爐效率下降0.05%、0.15%和0.25%。汽輪機回熱系統優化后,各負荷工況鍋爐脫硝裝置入口煙氣溫度提升至310 ℃以上,有利于部分負荷工況脫硝系統的安全運行[16],確保SCR脫硝裝置在全負荷范圍內處于催化劑的高效區運行。
為保證式(10)的函數在梯度下降過程中是平滑的,該文使用FLOYD 算法對其進行平滑近似,則有:
在訓練過程中,式(12)的漸進上界如下:
實體和關系之間通過上文中的算法訓練完成分布式表示,并得到低維嵌入向量。為評估該向量是否能準確表征知識圖譜的結構和語義特性,文中通過鏈接預測(Link Prediction)和三元組分類(Triple Classification)進行判別。
1)鏈接預測
鏈接預測模擬了知識圖譜的知識推理過程,即通過(h,r,t)中的兩個元素預測第三個元素。具體可表示為:
以h的預測為例,首先,將h替換為E中的所有實體,構造與E規模相同的候選集。然后,使用上文所述的函數進行評價,進而可得到h所對應的三元組在該候選集中的排名。同時,t的預測也與此一致。記候選集的規模為N,則使用以下兩個指標對鏈接預測結果進行評估,則有:
其中,rank(i)表示被預測的三元組在所有生成候選集中的排名,n表示rank(i)<10 的個數。根據二者的定義,MeanRank 越大,Hit@10 越小,且表示鏈接預測的效果也越優。
2)三元組分類
該分類實驗用于模擬給定的三元組是否符合知識圖譜的語義約束,從而避免知識圖譜的錯誤擴增。在實驗前需提前設定閾值δ,用于區分正確與錯誤的三元組。當傳播函數的輸出值大于δ時,將該樣本評判為正確三元組,并記正確樣本的個數為T;而當輸出值小于δ時,則將該樣本評判為錯誤組,且記錯誤樣本的個數為F。使用分類精度P作為評價指標,則有:
由于在已構建的電力營銷知識圖譜中僅包含正樣本三元組,因此為了開展實驗,需要人工構造一定比例的負樣本三元組。文中通過將正樣本三元組中的實體隨機替換為其他實體的方式,來構造等量的負樣本三元組。構建完成后,所使用的知識圖譜相關統計信息如表1 所示。

表1 知識圖譜統計信息
仿真實驗所使用的計算機軟硬件環境,如表2 所示。而實驗中的TBPNN網絡的相關參數,如表3所示。

表2 算法仿真軟硬件環境
根據TBPNN 的網絡結構,交互層、非線性層的數量決定著模型訓練過程中的參數個數,并會影響模型的泛化性能。因此,需結合電力營銷數據庫的規模,合理設計網絡結構。
對于交互層而言,若網絡需要取消該層,則僅需將其權重傳遞矩陣參數設置為0 即可;而針對非線性層,使用與第一個交互層相同結構的非線性層便可進行擴增。此外,為了評估模型的性能,該文還使用了經典的TransE、TransH 及TransD 作為對照組。鏈接預測的實驗結果,如表4 所示。

表4 鏈接預測實驗結果
表4 中,TBPNN_i表示該網絡具有i個非線性層,no_inter 表示無交互層。由表可知,在無交互層時,算法的MeanRank 和Hit@10 與Trans 系列算法結果較為接近。而當引入交互層后,算法的性能指標有了顯著改善。此外分支網絡非線性層數的增加會造成模型中的參數增長,并導致模型訓練出現過擬合現象。根據表4 的測試結果可知,選取單層非線性層結構具有最優的預測效果。此外,相較于TransE 算法,該文算法在MeanRank 上降低了39.9%,而在Hit@10 指標上則提升了41.5%。
在進行三元組分類時,根據電力營銷數據庫的組成,將三元組按照映射關系進行分類。當一個頭實體對應兩個及以上實體時,則將其記作一對多實體。各種映射關系在數據集中的占比如表5 所示。

表5 三元組映射關系分類占比
不同算法的三元組分類實驗精度對比結果,如表6 所示。

表6 三元組分類實驗精度統計
從表中可看出,在無交互層時,模型在一對多、多對多關系分類上的精度明顯下降。結合表4 中的實驗結果可以證明,交互層主要作用于三元組中不通過元素間復雜關系的映射。此外,從TBPNN_i的不同實驗結果看,隨著實體與關系間的映射關系逐漸復雜,多參數構成的多非線性層TBPNN 網絡的性能與單網絡的分類性能也在不斷接近。由此說明,對于較為復雜的元素關系分布式表示,可通過增加非線性層的數量來提升網絡擬合能力。整體來看,所提TBPNN 算法相較于Trans 系列方法在三元組的分類精度上具有明顯的提升。同時與TransE 算法相比,該文算法在對一對一關系、一對多關系、多對多關系的三元組分類上,精度分別提升了3.3%、39.0%、54.7%。
在電力營銷系統的知識圖譜中,該文針對傳統分布式表示在復雜圖譜下多語義實體間約束力不足的問題進行了改進,提出了一種三分支并行神經網絡算法。仿真分析結果表明,所提出的TBPNN 方法較TransE 等算法在知識圖譜的分布式表示效果上具有較大的提升。隨著未來電力營銷知識圖譜的迭代,該文算法將有效提升電力營銷系統的數據分析效率與智能化水平。