楊維, 張浩, 張才俊, 曹璐, 曾月陽, 徐強
(1.國家電網有限公司客戶服務中心,天津 300300;2.北京中電普華信息技術有限公司,北京 100085)
隨著社會經濟的不斷發展,現代企業逐漸受到時代變化的影響,電網企業是電力業務發展的首要單位,對電網企業數據進行合理管理[1-3],能夠有效約束企業的風險影響。由于互聯網技術的廣泛傳播,電網公司的運營逐漸信息化,當客戶工單的不斷增多[4],電網系統中的信息也呈海量增長。現階段我國電網公司的客戶工單信息報送部分還在使用人工的形式[5],這使得電網公司對信息的管理以及查詢存在缺失,導致電力客戶工單信息維護困難,出現質量差錯[6]。
許多學者對電力信息的查詢問題進行研究,如楊捷等[7]研究面向電力工單文本的服務失誤識別,具體應用時存在查詢及時性較差問題;邵冠宇等[8]研究基于依存句法分析的電力設備缺陷文本信息精確辨識方法,但面對海量的電力工單信息時,仍然存在信息難以精準分類,特征提取關聯度低等問題。
桌面云坐席系統是電網企業中所采用的有效的管理系統,能夠使用戶隨時隨地對個人桌面進行查看,具有使用方便等特點,還能夠整合客戶端技術、虛擬桌面以及遠程桌面訪問技術,能夠有效改善電力公司的統一信息操作過程,因此,本文提出了桌面云坐席系統電力客戶工單信息精準查詢方法,并對其性能進行了分析。
通過塑造文本表示模型實現自動分詞。由于中文句子存在特殊性,各個詞語所組成的句子當中,并不會存在分隔符或者英文空格符[9-10],所以若想實現中文文本挖掘,必須實現自動分詞。現階段存在較多的分詞算法,如HMM算法、CRF算法等,其中本文采用條件隨機場CRF(Conditional random field)分詞算法實現自動分詞,該算法是一種標注算法,并且依據概率圖模型設計,現階段較為成熟,且精準度較高,還擁有更好的適用效果[11],是馬爾科夫隨機場的條件概率約束的一種特殊狀態。設隨機變量X、Y,并設計無向圖G=(R,Q),該無向圖由Y組成,并采用公式(1)描述馬爾科夫隨機場。
P(YR|X,YW,γ)=P(YR|X,YW,ω-γ)
(1)
式(1)中,YR、YW表示節點r、w相應的隨機變量,點ω-γ表示在圖G=(R,Q)中,全部節點剔除掉節點r之后,所剩下的節。
馬爾科夫隨機場中所存在的某種特殊情況,即是該分詞算法中所使用的條件,由一致圖形態的線性鏈條件隨機場構成,該條件被X、Y擁有。設計隨機變量的序列,并共同存在于線性鏈表示中,由X={X1,X2,X3,…,Xn}、Y={Y1,Y2,Y3,…,Yn}描述,當隨機變量序列X的約束已經確認時,隨機場由序列Y的條件概率P(Y|X)組成,n表示序列的長度,序列位置由i描述,通過公式(2)描述該過程:
P(Yi|X,Y1,Yi-1,Yi+1…Yn)=P(Yi|X,Y1,Yi-1,Yi+1)
(2)
進行標注調整中文分詞過程中,X表示等待調整的添加序列,Y表示發送的標記序列。進行文本訓練過程的學習,可以獲取分詞過程中隨機場模型的參數,最終實現電力客戶工單信息文本分詞[12]。
在文本分詞的基礎上,通過特征選擇算法選擇特征,為下一步工單信息分類實現精準查詢做好基礎工作。常見的特征選擇算法有卡方特征選擇(CHI)、信息增益(IG)等算法,本文采用改進CHI特征選擇算法,以使特征項中負相關的問題削弱或剔除,通過式(3)描述該算法改進后:
(3)
對該算法的改進過程,是將因子A/(A+C)乘以未改進的算法,主要目的是,每類的χ2(w,c)在被特征項預計時,不研究本類別中不存在的特征詞,即A為0,依據公式(3)最終獲知χ2(w,c)=0。若A/(A+C)略小,即該類別文本中,存在頻率并不大的詞,其χ2(w,c)同時變小,當A/(A+C)較大,即頻率較大的詞存在時,χ2(w,c)一并變大。
通常特征項的CHI值,是其全部類別的CHI最大或平均值,而本文所改進之后,全部類別的CHI最大值來描述CHI值。
通過VSM方法進行文本表示,對于VSM列矩陣變量,采用上述特征選擇后的特征項。依據TF-IDF算法,計算特征向量的權重,具體為
wik=tfik×idfik
(4)
式(4)中,tfik表示文本di內存在已獲取特征項tk的頻率,idfik表示特征項tk的逆向工單頻率,該公式的含義是該特征項的重要性隨著特征項tk存在于文本集中的區域決定,存在的區域越大,特征項的重要度即越低,計算過程如式(5):
(5)
式(5)中,N表示全部文本數量,表示nk涵蓋特征項tk的全部文本數量,α=0.01。
由于特征項權重值會因為文本大小發生改變,因此,歸一化調整權重,通過式(6)描述:
(6)
基于上述獲取的特征項重要度,利用樸素貝葉斯分類器,依據特征選定給定的輸入值內需要劃分的標簽。分類器首先對標簽的先驗概率進行計算,以實現標簽向輸入值提供的過程,計算形式依據訓練集中標簽頻率的驗證結果獲知。并且整合特征的先驗概率與重要度,能夠對標簽的似然分數進行獲取,輸入值中會保存似然估計分數最大的標簽,并且最終得分可以用作表示被取出值的概率估計。Label表示發送標簽由,features表示添加的n個特征值,該算法通過以下步驟進行計算:
(1) 計算過程如式(7):
P(features)=∑label∈labelsP(features,label)
(7)
(2) 所給出標簽特征的概率乘以標簽的概率,可以描述似然標簽,當特征不依賴于其他條件時,計算過程如式(8):
P(features,label)=P(label)×P(features|label)=P(label)×∏f∈featuresP(f|label)
(8)
式(8)中,P(label)表示標簽的先驗概率,其含義是標簽可能性中,每個特征的貢獻,是訓練所給出標簽與所給出特征的比例,通過如式(9):
P(f|label)=count(f|label)/count(label)
(9)
(3) 若所給標簽與特征未同時存在過,并且該特征出現在訓練集中,P(f|label),使得標簽疑似為0,導致該標簽中不會出現所添加的值,最終使分類效果變差,準確度不高。采用“拉歐拉斯修正”,在預算概率值時進行剔除修正,以防止訓練集內隱藏的屬性值剔除各式屬性帶領的信息。
設訓練集D內疑似的類型數由M表示,Mi表示第i個屬性疑似取值,Dc表示D中第c類樣本構成的集合,Dc中第i個屬性上,當樣本值為xi,所構成的集合通過Dcixi描述,具體計算公式為
(10)
(11)
(4) 計算P(label|features),對于新添加特征值的標簽成果,采用與最大概率相應的標簽。
通過上述過程完成電力客戶工單信息錄入后的自動分類,實現精準查詢。
將本文方法應用至某電網企業的桌面云坐席系統中,以該電網企業3月份收集的53 692條電力客戶工單信息為數據樣本。為分析本文方法的桌面云坐席系統電力客戶工單信息精準查詢能力,選取文獻[7]面向電力工單文本的服務失誤識別方法與文獻[8]基于依存句法分析的電力設備缺陷文本信息精確辨識方法作為本文的對比方法,進行分類訓練。
分析3種方法訓練后的信息特征選擇關聯度,分析結果如表1所示。根據表1可知,經訓練后,3種方法的特征詞匯關聯度有所不同,文獻[7]方法關聯度最高的詞匯為“損壞”,達到0.52,而文獻[8]方法的關聯詞匯關聯度最高的是“登記”,關聯度為0.54,本文方法在所選關聯詞匯中關聯度均要高于其他2種方法,且最高達到0.78,因此本文方法的具有較高的信息特征選擇關聯度。

表1 特征詞匯及其關聯度
分析不同方法的特征選擇能力,選取上述8個特征的12 000個特征樣本進行訓練,隨著特征數量的不斷提升,不同方法的F1值,分析結果如圖1所示。根據圖1、圖2可知,隨著訓練特征樣本數的不斷上升,不同方法的F1值也隨之上升。當特征樣本數為2000時,文獻[7]方法的宏平均F1值與微平均F1值分別為65%與74%,低于文獻[8]方法與本文方法,且文獻[8]方法的F1值同時也低于本文方法,在特征樣本數達到12 000時,本文方法的宏平均F1值為97%,微平均F1值為96%,在特征樣本數不斷變化下一直高于其他兩種方法,由此可知,當特征樣本數量相同的情況下,本文方法所選擇特征包含較多信息,可為工單信息精準查詢提供強有力數據支撐。

圖1 不同方法宏平均F1值對比
分別對比3種方法查詢結果的準確率、精度以及召回率,并通過以下方式進行計算,分析結果如表2所示。根據表2可知,從準確率來看3種方法都在85%以上,都有較高的準確率,但文獻[7]方法與文獻[8]方法的準確率低于本文方法,且本文方法的查詢準確率達到95%,因此本文方法具有較高的查詢準確率。本文方法的查詢召回率、精度都要高于另外兩種方法,因此本文方法能夠明顯提高查詢能力。

表2 不同方法的查詢結果
選取電力客戶5類工單,分析本文方法對電力客戶工單信息精準查詢的支持度,分析結果如圖3所示。根據圖3可知,不同方法對每種工單類別的查詢支持度有所不同,其中文獻[7]方法在工單關鍵詞為“停送電”的支持度最高,與其他工單關鍵詞支持度存在較大差距,而文獻[8]方法不同工單關鍵詞支持度較為相似,但一直保持較低水平,本文方法同樣存在較為穩定的精準查詢類工單關鍵詞支持度,并且一直保持高于文獻[7]方法與文獻[8]方法,因此本文方法具有較高的工單信息精準查詢支持度。

圖3 不同查詢方法支持度
分析不同方法對5種工單類別的120個工單信息的查詢遺漏率,分析結果如圖4所示。根據圖4可知,隨著工單信息的增加,3種方法的查詢遺漏率有所下降,其中文本方法與文獻[7]方法一直保持隨著工單信息的增加逐漸下降的趨勢,而文獻[8]方法在工單信息數量40~60時突然出現下降,出現波折趨勢,查詢遺漏情況不穩定,本文方法的查詢遺漏率最高達到7.1%,最低只有5.2%,一直保持在最低狀態,因此本文方法不會出現較大的查詢遺漏問題。

圖4 不同方法查詢遺漏率
分析不同方法在精準查詢時的加速比,分析結果如圖5所示。根據圖5所示,特征樣本數量的提升影響了不同方法的總處理時間,但本文方法的處理時間雖然受到特征樣本數量的影響,但時間增加較為緩慢,并且保持始終低于另外2種方法,因此本文方法擁有較好的加速比。

圖5 不同方法查詢加速比
選取固定信噪比,分析不同方法隨著信噪比變化的工單信息精確查詢程度,分析結果如圖6所示。根據圖6可知,當信噪比由10 dB逐漸下降到-6 dB時,3種方法的查詢準確率逐漸變低,尤其是在信噪比下降到0 dB后,文獻[7]方法與文獻[8]方法的準確率逐漸下降到65%以下,本文方法在信噪比為0 dB時信噪比未低于78%,并且在0 dB以下依舊保持著70%以上的信噪比,因此,本文方法具有較強的抗噪性能,且信息精準查詢準確率較高。

圖6 不同方法的信息精準查詢結果
本文提出了桌面云坐席系統電力客戶工單信息精準查詢方法,通過條件隨機場分詞算法進行文本分詞,通過改進CHI特征選擇算法,進行電力客戶工單信息特征選擇,依據文本向量化過程,最終采用樸素貝葉斯算法實現特征分類,最終完成工單信息精準查詢。未來階段可繼續加深研究,在桌面云坐席系統中實現更精準的電力客戶工單信息查詢。