俞陽,鄒云峰,康雨萌,孫少辰
(國網江蘇省電力有限公司營銷服務中心,江蘇南京 210000)
在電力服務運營過程中,各電網公司積累了海量、多樣化的電力運營數據。這些數據中非結構化數據占80%以上[1-3],如錄音、文本數據等。非結構化數據主要來自于電網公司的客戶服務系統,其文本數據蘊含客戶故障報修、信息查詢、業務辦理等業務需求[4-5]。如何充分利用該文本數據,深入了解客戶的真實需求,對進一步提高供用電服務水平、改善用戶用電體驗均具有重要意義。
基于傳統數據挖掘技術無法實現文本數據的特征分析,因此文本挖掘技術應運而生。文本挖掘技術結合計算機技術、人工智能算法等,實現文本中有價值信息的提取[6-7]。目前,文本挖掘在電力領域的應用主要有電力設備的狀態感知、故障診斷和系統可靠性評估等[8-10],但其在電力運營領域應用較少。
針對此,該文將文本挖掘技術應用于電力運營文本數據的信息處理,以實現電力運營文本分類。同時深入了解電力客戶需求,進而提高電網公司服務水平。
電力運營文本數據特征識別的流程框架,如圖1所示。將輸入的文本數據經預處理得到文本數據的中間形式,然后通過文本特征識別模型挖掘文本數據的內在聯系,最終輸出文本特征識別結果。若原始運營文本數據質量差,則將大幅降低對特征識別結果的準確率。因此,文本預處理是進行文本數據挖掘與特征提取的關鍵前置步驟。

圖1 文本數據特征識別流程
典型的電力運營文本數據具有以下明顯的特征[11]:文本長度短、專業性強、規范性差、價值密度低。
因此,文本數據的預處理對于剔除電力運營文本信息中的異常數據,過濾無實際意義的文本信息,并最終實現對地點、故障等關鍵特征的提取具有重要意義。該文采用的電力運營文本數據預處理步驟包括:文本清洗和文本分詞。
電力運營文本數據清洗流程如圖2 所示[12],主要包括以下步驟:剔除空白文本數據、剔除過短文本數據、規則過濾文本數據。
基于迪杰斯特拉(Dijkstra)的文本分詞算法步驟,如圖3 所示[13]。
由圖3 可知,其主要包含以下步驟:
1)構建文本數據的有向無環圖,假設A=a1a2…ai-1ai…aj…an為文本數據,其中ai為單個文字,文本數據共包含n個文字。如圖4 所示,構建的有向無環圖G方法如下:

圖4 文本數據對應的有向無環圖
1)G包含n+1 個節點V0,…,Vn,任意相鄰節點Vi和Vi+1通過有向邊連接,方向從Vi指向Vi+1,該邊對應詞ai,邊的權重值為wi;
2)對于詞典中的詞Bk=aiai+1…aj,則在節點Vi-1與Vj之間增加一條有向邊,方向從Vi-1指向Vj,該邊對應詞Bk,邊的權重值為wk。
2)將文本數據對應的有向無環圖G中的節點劃分為兩類:已知最短路徑的節點與未知最短路徑的節點,分別對應節點集合S和U。將中間向量L={lk},lk表示節點Vk到初始節點V0的最短路徑長度值。
3)初始狀態下,S只包含初始節點V0,U包含節點V1,…,Vn共n個節點。然后從U中篩選到初始節點V0長度值最短的節點Vk,并將節點Vk從U轉移到S,且有:

4)將節點Vk當作中繼節點,繼續在U中搜索到初始節點V0的最短路徑。假設搜索的下一個節點為Vu,則有:

5)判斷是否搜索至目標節點Vg,若為否,則循環步驟3)和步驟4);若是,則退出循環,輸出結果。
經過上述電力運營文本分詞,將得到包含文本數據含義的特征項。該文采用詞頻-逆向文檔頻率算法(Term Frequency-Inverse Document Frequency,TF-IDF)來提取這些特征項。TF-IDF 是文本挖掘中常用的基于文本相似的特征提取技術,采用權重來評估單詞、句子甚至文檔的重要性[14]。
TF-IDF 的核心思想是對于一個單詞,其高頻率地出現于某個文本數據中,且該單詞又較少出現在總文本樣本中的其他文本數據中。則可以認為該單詞對于該文本樣本具有較強的區分能力,能夠用作為該文本數據的分類標簽。因此,TF-IDF 算法采用詞頻與逆向文檔頻率之乘積作為權重,其計算方法如下:

式中,TFi,j是單詞i在文本j中的出現頻率,計算方法如下:

IDFi描述的是單詞i在其他文本中出現頻率的倒數,計算方法如下:

式中,D為文本樣本總數,{j:i∈j} 為包含單詞i的文本數量。為了避免所有文本樣本不包含單詞i導致分母為零的情況,通常在{j:i∈j} 的基礎上加1。
1)深度學習模型
典型深度學習網絡的結構如圖5 所示,其由輸入層、輸出層和多層隱藏層構成。

圖5 深度學習網絡結構
深度學習網絡通過層層迭代實現信息傳播與特征的學習。層與層之間的關系如下:

式中,zl表示l層的輸入信息;fl-1()表示l-1 層的激活函數;Wl與bl分別為從l-1 層到l層的權重值和偏置值。
2)LSTM 模型
對于處理具有時間序列特征的數據樣本,傳統的深度學習模型適應性較差,因此長短期記憶(Long Short-Term Memory,LSTM)模型由此發展而來,其屬于循環神經網絡(Recurrent Neural Network,RNN)的一種。RNN 的典型網絡結構模型如圖6 所示。其與傳統神經網絡的區別在于隱藏層的輸入由當前時刻的輸入信息和上一時刻隱藏層的輸出信息構成,從而使得網絡具備了記憶功能。

圖6 RNN結構
LSTM 相對RNN 的區別在于LSTM 采用了特殊結構的記憶單元作為循環單元[15-16]。典型記憶單元的結構如圖7 所示。

圖7 LSTM結構
由圖7 可知,LSTM 引入了一個內部狀態ct,計算方式如下:

式中,ft∈[0,1]D、it∈[0,1]D、ot∈[0,1]D分別為遺忘門、輸入門和輸出門的狀態,其實現信息傳輸路徑的控制。為中間狀態,計算方式如下:

上述三個門實現的功能如下:遺忘門實現上一時刻內部狀態遺忘信息的控制;輸入門實現當前時刻中間狀態保留信息的控制;輸出門實現當前時刻內部狀態輸出信息的控制。其計算方式如下:

基于上述算法模型,設計了基于TF-IDF-LSTM的電力運營信息處理算法流程,如圖8 所示。將電力運營原始文本作為輸入,然后進行文本清洗、文本分詞等數據預處理操作;進一步基于TF-IDF 算法實現文本數據特征的提取;最終,通過LSTM 模型實現電力運營文本的分類識別。

圖8 電力運營信息處理算法流程
為驗證該文所提算法的準確性和有效性,文中選取某電網公司在2020 年的10 000 條真實電力運營文本數據作為實驗樣本,并將其以4∶1 的比例隨機劃分為訓練集和測試集。分類結果包括業務辦理、信息查詢、停送電查詢、法律法規、服務質量、停電、電能質量和供電安全共八類。
選取LSTM、TF-IDF-SVM 兩種算法與該文所提TF-IDF-LSTM 算法進行對比。選取2 000 條測試文本數據,一級分類結果的準確率如表1 所示;二級分類結果的準確率如表2 所示。

表1 一級分類不同算法的性能對比

表2 二級分類不同算法的性能對比
對于一級分類,所提TF-IDF-LSTM 算法的準確率為92.6%,LSTM 與TF-IDF-SVM 算法的準確率分別為84.1%和84.8%;對于二級分類,所提TF-IDFLSTM 算法的分類準確率均大于90%,LSTM 和TFIDF-SVM 算法分類準確率均小于90%。
由此可見,該文所提TF-IDF-LSTM 算法具有更高的分類準確率。這是因為文中所提算法相比于LSTM 算法,通過TF-IDF 算法提取特征信息,實現了分類學習模型的預訓練。相比于TF-IDF-SVM 算法,LSTM 算法通過記憶單元的特殊結構提高了模型的學習能力,從而提升電力運營文本分類結果的準確性。
將該文所提算法模型應用于該電網公司2018-2020 年中的全部電力運營信息文本,得到的文本分類結果如圖9 所示,縱坐標代表數據量。可以看到在客戶的反饋中,業務辦理、信息查詢和停送電查詢這三類比重較大,占全部業務訴求的91%。對于這三類業務的處理,電網公司可以進一步加大網上業務辦理以及微信查詢等功能的應用推廣。以滿足客戶的業務需求,并減少客服人工資源的投入,提高運營服務水平。

圖9 電力運營文本分類結果
該文開展了文本挖掘技術在電力運營信息中的應用研究,提出了基于TF-IDF-LSTM 的電力運營文本分類方法。通過算例分析表明:文中所提算法相比于僅采用LSTM 算法,能夠通過TF-IDF 算法實現文本特征單詞的預提取,且提高模型的泛化能力;相比于TF-IDF-SVM 模型,采用LSTM 算法具有更高的學習能力,且分類結果更加準確。然而該文僅實現了對電力運營文本的分類,如何結合電力生產的文本數據實現電網故障的精準定位,輔助電力運維業務的智能化,將在未來的研究中展開。