楊柳林,吳柯蓉,李宇,李娟娟
(1.廣西大學電氣工程學院,廣西南寧,530004;2.廣西電網(wǎng)公司客戶服務中心,廣西南寧,530004)
將以投訴類為例將工單分類標簽形式進行統(tǒng)一,都采用“業(yè)務子類”綜合描述方式,從而得到32個唯一分類標識,如表1所示。

表1 投訴工單的分類研究
構建模型前要對文本內容即來電內容進行數(shù)據(jù)分詞處理,對電力客戶投訴工單的“來電內容”進行深度挖掘,將工單中的受理文本信息和處理文本信息切割成單個詞匯,將文本轉化為了數(shù)學語言[1]。 斯坦福中文分詞工具[2]是由斯坦福大學自然語言處理組所提供,他們也提供了一系列開放源碼的Java文本分析工具。
構建詞庫后需要構建特征矩陣,常見的文本特征提取方法就是TF-IDF[3](term frequency-inverse document frequency)。TF-IDF是一種基于統(tǒng)計的計算方法,常用來評估在一個文檔中一個詞對某份文檔的重要程度[4]。在一份給定的文件里,詞頻(term frequency,TF)表示指定的詞匯ti在文件中出現(xiàn)的次數(shù),計算公式為:

其中,ni,j為在文件中指定詞出現(xiàn)的次數(shù)。
IDF(inverse document frequency)是逆向文件頻率,計算公式為:

其中,n為文件總數(shù)。
{d:d?ti}為含有詞匯ti的文件總數(shù)。
對詞匯的重要性進行權重計算,計算公式為:

IDFi通常被歸一化以避免它偏向長的文件,則權重計算公式為:

這里用來構建工單分類優(yōu)化模型的聚類算法為無監(jiān)督聚類算法K-means算法[5]。
能把文本相似程度轉變?yōu)槲谋局g的距離的常見的方法有三種,即距離函數(shù)法、余弦法與內積法[6]。采用夾角余弦相似度的計算模型,余弦相似度利用夾角的余弦值即方向來刻畫相似度,更注重維度間相對層面的差異[7]。首先通過文本的向量表示,將文本轉化成為向量集合X= {x1,x2,…xn}。對于歐氏空間中的任意兩個向量x= {x1,x2,…xn}和y={y1,y2,…yn},它們的余弦相似度(Cosine)定義為兩個向量夾角的余弦:

采用K-means算法計算出不同投訴類型間的距離。其中,距離=1-cosine(相似度),從而由該距離值來判斷投訴工單分類的相似度,由此模型進行95598工單分類優(yōu)化分析。工單分類優(yōu)化分析流程如圖1所示。

圖1 工單分類優(yōu)化分析流程
本實例以95598投訴工單數(shù)據(jù)為對象進行研究分析,采用斯坦福中文分詞工具,對投訴工單的“來電內容”進行分詞處理。
部分原始工單如表2所示。

表2 原始工單(部分)
將其分詞,分詞完成后,去除數(shù)字、標點、英文字符、特殊符號,針對剩余的詞庫,再移除停用詞,共得到3510個有效詞語。部分結果如表3所示。

表3 分詞結果(部分)
完成各工單的“來電內容”分詞后整合成一個文本。在python中利用TF-IDF構建分詞矩陣。分詞矩陣的行為特征詞,列為所有工單樣本,部分分詞矩陣如圖2所示。

圖2 分詞矩陣(部分)
如圖2所示,特征詞對應為“1”代表所屬分類那條工單中有該特征詞。“0”即沒有。
形成分詞矩陣后將同一投訴類型的所有來電內容整合成一個文本,然后利用不同投訴類型的TF-IDF特征值在python中調用K-means算法計算不同投訴類型間的距離。其中,距離=1-cosine(相似度),從而由該距離值來判斷投訴工單分類的相似度,距離越小相似度越高。結果如圖3所示。

圖3 投訴工單分類相似度結果
由圖3可見,取部分距離較小的投訴工單分類匯總如表4所示。

表4 距離較小的工單分類

4 業(yè)擴報裝/新裝增容/環(huán)節(jié)處理問題業(yè)擴報裝/新裝增容/業(yè)擴信息溝通 0.1 8 2
由上述圖表分析可知:
(1)有可能是設置的分類冗余導致類別間來電內容反應的問題類似,可以考慮后期合并標簽。比如“業(yè)擴報裝/新裝增容/環(huán)節(jié)處理問題”和“業(yè)擴報裝/新裝增容/業(yè)擴信息溝通”,兩者之間的距離為0.182,距離較小,說明分類基本相同。
(2)有可能是不同類別設計冗余導致類別之間反應的問題相似,可以考慮后期重新整合。比如“抄表計費/抄表催費/抄表”和“抄表計費/電價電費/電費”的來電內容基本相似,甚至相似度比同一類型的“抄表計費/抄表催費/催繳費”還高。
(3)有可能是類別設計所覆蓋的問題本身特點導致在語言描述本身具有相似度,但確實針對的是不同的問題,這些需要考慮后期重新設計類別或者利用“來電內容”以外的其他信息輔助判斷。比如“電網(wǎng)建設/供電設施/輸配電線路建設”和“供電安全/供電安全/安全隱患”。
針對所有的來電內容記錄,計算它們的TF-IDF特征值,然后進行無監(jiān)督聚類分析。在所有的聚類分析結果中,聚類類型的個數(shù)設置與投訴類型相同,為32個。對投訴類型分布進行統(tǒng)計,其中每一聚類類型都是由距離聚類中心的前幾個詞語代表主題,同時統(tǒng)計當前聚類類型中的原投訴類型分布及其數(shù)量。統(tǒng)計的部分結果如表5所示。

表5 投訴類型分布統(tǒng)計(#0)
在表5中,分類號#0的聚類類型主題為:“停電,頻繁,客戶,變壓器”。其中大部分來電內容分布在“供電質量/供電可靠性/頻繁停電”中,僅有一條分布在“電網(wǎng)建設/供電設施/農網(wǎng)改造”中。而由原投訴類型相似度分析結果可知兩者距離為3.61,投訴類型距離較大,不屬于相似投訴類型。
另外的少數(shù)來自其他類別的來電內容則需要考慮以下因素:
(1)聚類預測結果錯誤;
(2)來電內容原標簽錯誤;
(3)來電內容所講述的需求比較廣泛,屬于多個類別;
(4)其他可能。
這些因素都可以在后期繼續(xù)詳盡分析,用來提高聚類分析結果或者改進投訴類型結構設計。
工單分類的優(yōu)化始終是電力公司客戶服務工作的重要內容,本文結合廣西電力業(yè)務需求,打破原來對工單數(shù)據(jù)處理的分析方法,以客戶服務工單的大量數(shù)據(jù)為基礎,基于計算語言方法深入挖掘95598工單,對其進行工單分類優(yōu)化分析。利用Python進行大數(shù)據(jù)分析操作,完成分詞、詞頻統(tǒng)計、關鍵詞提取等,實現(xiàn)了對數(shù)據(jù)的精確分析,可為客服工作提供準確的輔助信息,有助于提升客戶服務水平。