曹晉彰 趙少東 龐 寧 馮 斌
(深圳供電局有限公司信息部 廣東深圳 518048)
基于文本挖掘技術的電網企業客戶抱怨分析應用研究
曹晉彰 趙少東 龐 寧 馮 斌
(深圳供電局有限公司信息部 廣東深圳 518048)
文本挖掘是指在大量文本數據中獲得可理解、可應用知識的過程,涉及數據挖掘、模式識別等多個領域。本文對比傳統分析方法和文本挖掘技術,將文本挖掘用于電力行業客服工單分析和特征抽?。P鍵詞抽?。?,最后對深圳供電局客服中心的抱怨類工單進行文本挖掘分析,為業務部門提供更深入的客戶抱怨解讀及用戶感知。
文本挖掘;客戶抱怨;關鍵詞抽取;TF-IDF
深圳供電局95598渠道收集大量客戶投訴、抱怨類信息,是進行客戶全方位服務水平分析重要數據來源。由于工單文本多為非結構化文本,早期的客戶抱怨研究中對客戶文本訴求信息認知存在不足:
在分析方法方面:主要根據業務分類進行占比、同比、環比等分析,存在進一步細化深入空間;其次,未形成關鍵詞詞典,客戶訴求細化分析主要依靠人工閱讀,對業務人員的經驗依賴度高,工作量過大。
2.1 文本挖掘方法
文本挖掘(TextMining)作為數據挖掘領域一個重要分支[1~2],是從大量未經處理的文本集合中抽取實現未知的、可理解的、最終可用的知識的過程,同時能夠運用這些知識更好地組織信息以支持業務分析決策。
2.2 關鍵詞抽取技術
關鍵詞提取是文本挖掘過程中重要的步驟之一,無指導關鍵詞抽取主流方法共有三種:基于主題模型的關鍵詞抽取、基于詞圖模型的關鍵詞抽取方法和基于TF-IDF統計特征的關鍵詞抽取。
主題模型關鍵詞抽取方法是運用一種無指導機器學習技術LDA,是通過大量已知“詞語-文檔”矩陣和系列訓練推理出隱藏在內容部的“文檔-主題”分布和“主題-詞語”分布。詞圖模型關鍵詞抽取方法是通過把文本分割成若干組成單元并建立圖模型,利用投票機制對文本中重要成分進行排序從而確定關鍵詞。
電網企業客服工單記錄了客戶用電咨詢、用電報裝、電量電費查詢、停電信息咨詢、停電通知、故障報修、投訴舉報以及發布用電信息等服務過程信息。通常,針對電網企業客服工單包含兩種數據類型:結構化數據和半/非結構化數據。
傳統客服工單分析偏向于對結構化數據的分析,主要根據來電數量、業務類型、時間等維度進行客戶來電量的統計,分析方法包括:數據庫查詢,占比統計,同比環比等。常見統計指標包括:百萬客戶投訴率、投訴處理及時率等。
根據電網企業客服工單分析現狀和文本挖掘的步驟,將電力客戶抱怨類工單文本挖掘過程細化為五個步驟:①文本數據收集;②建立分詞詞典;③詞頻分析及關鍵詞確認;④分析維度確認;⑤統計分析。
本文以深圳供電局客服中心客戶抱怨類工單為研究對象,從客戶抱怨內容出發,剖析停電具體情況,從而提高客戶服務質量。研究范圍包括:2014年全年有關“供電質量-頻繁停電”、“計劃停電-未按時停送電”和“供電故障-處理時間較長”三類二級業務工單。
4.1 文本數據收集
根據深圳供電局客戶服務中心業務規范,將客戶抱怨的文本數據按照二級業務分類進行劃分,確定客戶抱怨類的業務分類,提取相應業務工單,完成數據收集工作。
4.2 建立分詞詞典
驗證自定義分詞庫(埃森哲電網企業關鍵詞文本詞典包含562個分詞及相關同義詞),對文本進行初步分詞處理。根據各業務類型不同,需要分別建立包含專有詞匯及自定義詞匯的分詞庫。
以“供電質量-頻繁停電”為例,利用埃森哲電力行業關鍵詞文本詞典對1257個業務樣本進行初步分詞,并根據數據樣本解讀和多次試驗性分詞,添加如下兩類分詞:
(1)客戶抱怨類:“嚴重影響”“正常生活”。
(2)客戶期望類:“盡快改善供電”。
4.3 詞頻分析及關鍵詞確認
運用詞頻統計軟件進行分詞、詞頻統計。根據TF-IDF加權技術確定能反映本文內容的關鍵詞,并將分詞進行分類分析、關聯分析找出用戶的主要關注點和趨勢變化等。例如:根據TF-IDF加權技術對“供電質量-頻繁停電”客服工單“受理內容”和“辦理意見”進行高頻分詞統計。
將“受理內容”高頻分詞進行分類,得出三個主要信息分類,確定各類信息的關鍵詞如下:
(1)停電時間類:時間、時至、再次、次日;
(2)頻率表達類:每日、每周、每月、共停電、已停電、累計停電。
將“辦理意見”高頻分詞進行分類,得出頻繁停電的不同原因:
(1)設備故障:故障、低壓、公變、開關、跳閘、變壓器;
(2)設備損壞:燒壞、老化;
(3)配電:配電;
(4)天氣原因:夏季、天氣炎熱、負荷、過載;
(5)用戶資產故障;
(6)無具體說明。
4.4 分析維度確認
分列整理客服工單內容(如:受理內容、辦理意見等),根據實際業務特點分析各列信息的重要性和可行性,并結合關鍵詞確定合理有效的分析維度。
4.5 統計分析
分別統計各維度的業務數據,并通過圖形表格的形式展示統計結果,以達到指導實際工作的作用。
(1)原因類信息統計
根據“供電質量-頻繁停電”類投訴的辦理意見分析得出:80%的頻繁停電是由于開關、公變等設備問題引起,其中,跳閘等設備故障是82%、老化、燒壞等設備損壞是18%。
根據“計劃停電-未按時停送電”類投訴的辦理意見分析得出延遲送電原因,超過半數(68宗)的未按時送電是因工作量大導致的;如“經查,由于該處計劃工作量大,線路較復雜,未能按計劃及時恢復供電。已于19:22恢復供電”。
(2)訴求類信息統計
根據“計劃停電-未按時停送電”類投訴的受理內容能夠反映出客戶對停送電情況的訴求,“未按時送電”引起的客戶訴求占比最大(73%,164宗);其他三類訴求量較少,共占27%。
在本課題中,運用文本挖掘技術對深圳供電局客服中心95598客服工單分析后發現,工單受理內容及辦理意見中包含供電服務訴求、期望、抱怨和停電原因等方面的信息,通過對這些重要信息的有效統計能夠明確引起客戶抱怨的問題點,把握問題嚴重程度。
[1]查凱萊巴蒂.Web數據挖掘[M].人民郵電出版社,2009.
[2]楊霞,黃陳英.文本挖掘綜述[J].科技信息,2009(33):82~99.
TP311.1
A
1004-7344(2016)03-0266-01
2016-1-10
曹晉彰(1983-),男,湖南郴州人,工程師,從事電力信息化建設和數據分析工作。