王震++代巖巖++陳亮++林曉蘭
摘 要
95598熱點業務工單的挖掘與分析,對業務詳單進行分類,熱點問題的及時發現與追蹤,起到很重要的作用。目前對于熱點業務工單的分類,采用人工查詢工單并分類,工作繁瑣且效率低。本文提出了一種基于LDA的熱點業務工單分類模型,對工單中的受理內容進行中文自然語言的處理和數據挖掘,實現對熱點業務工單的分類篩選,對準確有效地提高供電服務質量具有十分重要的現實意義。
【關鍵詞】語義分析 文本挖掘 熱點工單 LDA
隨著電力行業售電側改革不斷加深,對客服管理質量要求越來越高,需要進一步改善客戶體驗和提升客戶滿意度。要提升客戶滿意度,需從客戶的熱點業務工單入手,分析挖掘熱點業務聚焦點,快速有效找出業務短板,提升客戶服務質量。
本文依據一般客服問題管理機制和文本挖掘理論,并結合電力企業客服特點,闡述了如何對客服熱點工單文本進行挖掘分析以及如何在系統中基于LDA算法對其進行分類的應用。業務工單中的投訴工單、客戶回訪處理不滿意的工單能直接反映客戶對產品、對服務的感知,是客戶滿意度的最直接反映。從現狀來看,目前的熱點工單分類的處理方式,是由調查分析人員通過對95598客戶訴求數據的分析,對受理的內容進行分析和篩選,然后完成分類。這種方式缺乏有效的輔助分析手段,分析手段單一,影響服務問題的分析和解決效率,因此需利用中文自然語言處理、文本挖掘等技術,結合電力領域的業務特點,對95598來電工單進行自動化的智能分析與處理,實現熱點業務工單的智能分類與原因挖掘。
1 熱點業務工單業務描述
熱點業務主要包括停電、亂收費、抄核收、人身傷亡、賠償、外界關注等的工單,相互之間可以重復統計。通過對工單的挖掘結果,對熱點業務工單進行可視化展示,展示維度包括單位、市縣公司、以及業務類型。
熱點業務主要分為以下6個大類,分類如表1。
2 文本挖掘相關理論
文本挖掘(Text Mining,TM)是近幾年來數據挖掘領域的一個新興分支,是以文本數據為特定挖掘對象的知識挖掘。文本挖掘是抽取有效、新穎、有用、可理解的、散布在文本文件中的有價值知識,并且利用這些知識更好地組織信息的過程文本挖掘的要點是分詞,根據文本數據中的特征信息進行分詞處理,以此構建文本的中間表示。原始的文本數據通常以非結構化或半結構化數據呈現,再利用文本挖掘手段轉換為結構化文本,進而發掘新的概念與對應關系。
基于領域特征詞表的特征詞標注,主要以大量來電工單中反映業務種類、熱點問題現象的特征詞為基礎,設立特征詞表,進行基于特征詞匹配的子句標注,并依不同維度進行工單分類。
通過構建檢測模型和確定模型指標體系、指標閾值等參數,對工單數據進行大數據分析,采取可視化大屏全屏展示的方式進行全方位多角度的展開實時監控、分析、預警和展示,及時發現當前問題、變化趨勢,并對問題點改進情況進行跟蹤。
2.1 文本自動分類
為了方便對文本進行歸類與管理,我們通常會在實際操作中給文本內容指定一個或多個分類類別。傳統的人工標注,需要耗費巨大的時間和精力。文檔自動分類是文本挖掘領域針對這一業務場景的典型應用。通過相應的分類器,實現文本分類的預測功能。當對一個新文檔進行分類時,分類器通常為這個文檔指定一個或多個類別標簽,并根據算法策略給出分類標簽的可信度。
按照機器學習方式的不同,文檔自動分類的實現大體上分為兩類,監督學習和非監督學習。
監督學習方法是在訓練集上建立模型,針對每個訓練集,需人工為每個訓練集中的文檔打上類別標記,接著用訓練集訓練一個分類器。訓練完成后,這個分類器將能夠預測任何一個給定文檔的類別。非監督學習方式與監督學習方法的不同點,在于他們不需要訓練數據集,可以在一批文檔中自動發現相似文檔并完成分組。
實際應用中,分類器一般由數據集整理,數據預處理,分類算法等三部分組成。數據集,需要整理足夠數量的高質量文檔,為了將數據集轉化為便于進行文本挖掘的格式,同時為提高結果的精度,數據預處理主要包括中文分詞、詞項的權值修正等步驟。分類算法與策略主要依據相應的文本挖掘模型計算文檔的特征,最終實現對文檔的分類處理。
2.2 主題模型
主題模型(Topic Model)是在機器學習和自然語言處理等領域是用來在一系列文檔中發現抽象主題的一種統計模型。通常來說,若文檔有一個中心思想,即主題,那么文檔中就會頻繁出現與主題關聯密切的詞項然而,實際上文檔會包含多個主題,并且每個主題所占比例也不相同。因此,,如果一篇文檔和主題A相關的內容占10%,和主題B有關的內容占90%,那么和主題B有關的詞項出現的次數大概會是和主題A有關的詞項出現次數的9倍。主題模型試圖用數學框架來體現文檔分類的這種特點,先對每個文檔進行自動分析,再統計文檔內詞語出現的頻率,最后根據統計信息來判斷當前文檔包括哪些主題,以及每類主題的所占比例。
主體模型的優勢如下:還有如下兩個優點:
(1)無監督學習完全自動化,在訓練過程不需要引入人工的標注,而是以概率計算為基礎,進行分類訓練。
(2)滿足多種不同的語言形式,都可以經過分詞處理后進行主題模型的訓練。
3 基于LDA的熱點工單分類
在LDA主題模型中,一個主題是由一些詞項的分布定義的,每個主題由帶有分布率的一系列詞項構成。一篇文本則是由一些主題構成的。LDA主題模型的產生過程,主要是按照概率分布,選擇部分主題,從主題中再按照概率,選擇部分詞語,這些詞語的無序組合就組成了最終文檔。
若上述兩個概率分布能被我們計算清楚,則可得到一個模型,根據某偏文檔推斷出其主題分布,也就是分類。文檔生成的過程與由文檔推斷主題的過程互為逆過程。
3.1 LDA主題模型
LDA模型的數學原理比較復雜,其Gibbs Sampling公式如下:
公式的右邊部分其實就是文檔—>主題—>詞語的路徑概率,其物理意義在于K條的路徑采樣,K為主題的個數。LDA主題模型的文檔分類過程分為兩步:訓練過程和推理過程。訓練過程即根據當前訓練文檔集建立模型。同時在建模過程中,對各種估計參數進行選取與調優,直至訓練過程結束。訓練過程結束后,模型建立和參數優化已經完成。而推理過程則是,根據當前模型與參數,對新的文檔進行主題分布的計算過程。
訓練過程如下:
(1)隨機初始化:給語料中每篇文檔中的每個詞w,隨機的賦一個主題編號z。
(2)更新主題:對語料庫進行重新掃描,根據公式(1)重新采樣主題并更新。
(3)重復采樣,直至Gibbs Sampling公式結果收斂。
(4)建立LDA模型:統計語料庫中主題-詞語共現頻率矩陣。
推理過程如下:
經過訓練后,得到參數文檔-主題分布矩陣Θ與主題-詞語分布矩陣Φ。其中對文檔-主題分布矩陣Θ一般不進行保存。而在推理過程中需要使用主題-詞語分布矩陣Φ。根據Gibbs Sampling公式,對新文檔中每個詞的主題進行抽樣,得到此文檔的主題分布θ_new,同時在利用公式計算條件概率的時候,公式中的φ 保持不變。具體過程如下:
(1)隨機初始化:給語料中每篇文檔中的每個詞w,隨機的賦一個主題編號z;
(2)重復掃描當前文檔,按照Gibbs Sampling公式,對于每個詞w,重新采樣它的主題;
(3)重復以上過程直至Gibbs Sampling收斂;
(4)統計文檔中的主題分布,該分布即為所求的主題分布θ_new。
3.2 基于LDA的熱點工單內容分類過程
本文在對熱點工單受理內容的分類過程中,首先進行數據清洗和預處理,剔除95598熱點工單受理內容的文本為空或者格式不正確的工單。其次對工單內容進行分詞,即基于IK Analyzer這個輕量級的中文分詞工具包,對熱點工單的內容進行分詞。再次建立LDA模型進行文本語義分析,包括LDA模型的訓練和LDA模型的推理過程,把工單受理內容按照亂收費、人身傷亡、停電、外界關注、抄核收、賠償等六個主題進行文本分類。最后在95598運營分析系統熱點業務分析欄進行結果的匯總和展示。
4 業務價值展現
首先從效率上來講,對熱點業務工單分析和分類替代了人工查找、分類和匯總,能提高工作速率。工單的受理內容多,數量多,僅憑人工肉眼去辨別,不僅耗時巨大,可操作性也不高,當類別等因子需求產生變化時,很難對結果進行調整和再利用。而通過該系統,利用大數據挖掘、語義分析技術、文本分類等技術。計算時間短,時效性更強,復用性高,更有助于及時決策。
其次從質量上來講,利用基于LDA的熱點工單分類模型對數據進行處理,經實驗驗證,能達到較高的準確率,數據質量較優。
5 結語
本文利用基于LDA的文本挖掘技術,結合山東電力業務需求,熱點業務工單專題研究,大大改善目前人工進行熱點工單分類效率較低的狀況,實現熱點業務工單的智能分類與原因挖掘。專題的應用,將會提高客服部門的工作效率,為客服管理人員作出決策提供技術支持,提高了用戶的滿意度。
參考文獻
[1]JiaweiHan.數據挖掘:概念與技術(原書第三版)[M].北京:機械工業出版社,2012.
[2]Ronen FeIdmarl,James Sanger.文本挖掘[M].北京:人民郵電出版社,2009.
[3]Mitchell T.M,曾華軍.機器學習[M].北京:機械工業出版社,2008.
[4]呂鎮超,姬東鴻,吳飛飛.基于LDA特征擴展的短文本分類[J].計算機工程與應用,2015,51(04):123-127.
[5]姚全姝,宋志理,彭程.基于LDA模型的文本分類研究[J].計算機工程與應用,2011,47(13):150-152.
作者單位
山東魯能軟件技術有限公司 山東省濟南市 250001