基于LDA模型的95598熱點業(yè)務(wù)工單挖掘分析

2016-12-26 20:29:58王震代巖巖陳亮林曉蘭

電子技術(shù)與軟件工程 2016年22期

關(guān)鍵詞：文本挖掘

王震++代巖巖++陳亮++林曉蘭

摘要

95598熱點業(yè)務(wù)工單的挖掘與分析，對業(yè)務(wù)詳單進行分類，熱點問題的及時發(fā)現(xiàn)與追蹤，起到很重要的作用。目前對于熱點業(yè)務(wù)工單的分類，采用人工查詢工單并分類，工作繁瑣且效率低。本文提出了一種基于LDA的熱點業(yè)務(wù)工單分類模型，對工單中的受理內(nèi)容進行中文自然語言的處理和數(shù)據(jù)挖掘，實現(xiàn)對熱點業(yè)務(wù)工單的分類篩選，對準(zhǔn)確有效地提高供電服務(wù)質(zhì)量具有十分重要的現(xiàn)實意義。

【關(guān)鍵詞】語義分析文本挖掘熱點工單 LDA

隨著電力行業(yè)售電側(cè)改革不斷加深，對客服管理質(zhì)量要求越來越高，需要進一步改善客戶體驗和提升客戶滿意度。要提升客戶滿意度，需從客戶的熱點業(yè)務(wù)工單入手，分析挖掘熱點業(yè)務(wù)聚焦點，快速有效找出業(yè)務(wù)短板，提升客戶服務(wù)質(zhì)量。

本文依據(jù)一般客服問題管理機制和文本挖掘理論，并結(jié)合電力企業(yè)客服特點，闡述了如何對客服熱點工單文本進行挖掘分析以及如何在系統(tǒng)中基于LDA算法對其進行分類的應(yīng)用。業(yè)務(wù)工單中的投訴工單、客戶回訪處理不滿意的工單能直接反映客戶對產(chǎn)品、對服務(wù)的感知，是客戶滿意度的最直接反映。從現(xiàn)狀來看，目前的熱點工單分類的處理方式，是由調(diào)查分析人員通過對95598客戶訴求數(shù)據(jù)的分析，對受理的內(nèi)容進行分析和篩選，然后完成分類。這種方式缺乏有效的輔助分析手段，分析手段單一，影響服務(wù)問題的分析和解決效率，因此需利用中文自然語言處理、文本挖掘等技術(shù)，結(jié)合電力領(lǐng)域的業(yè)務(wù)特點，對95598來電工單進行自動化的智能分析與處理，實現(xiàn)熱點業(yè)務(wù)工單的智能分類與原因挖掘。

1 熱點業(yè)務(wù)工單業(yè)務(wù)描述

熱點業(yè)務(wù)主要包括停電、亂收費、抄核收、人身傷亡、賠償、外界關(guān)注等的工單，相互之間可以重復(fù)統(tǒng)計。通過對工單的挖掘結(jié)果，對熱點業(yè)務(wù)工單進行可視化展示，展示維度包括單位、市縣公司、以及業(yè)務(wù)類型。

熱點業(yè)務(wù)主要分為以下6個大類，分類如表1。

2 文本挖掘相關(guān)理論

文本挖掘（Text Mining，TM）是近幾年來數(shù)據(jù)挖掘領(lǐng)域的一個新興分支，是以文本數(shù)據(jù)為特定挖掘?qū)ο蟮闹R挖掘。文本挖掘是抽取有效、新穎、有用、可理解的、散布在文本文件中的有價值知識，并且利用這些知識更好地組織信息的過程文本挖掘的要點是分詞，根據(jù)文本數(shù)據(jù)中的特征信息進行分詞處理，以此構(gòu)建文本的中間表示。原始的文本數(shù)據(jù)通常以非結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù)呈現(xiàn)，再利用文本挖掘手段轉(zhuǎn)換為結(jié)構(gòu)化文本，進而發(fā)掘新的概念與對應(yīng)關(guān)系。

基于領(lǐng)域特征詞表的特征詞標(biāo)注，主要以大量來電工單中反映業(yè)務(wù)種類、熱點問題現(xiàn)象的特征詞為基礎(chǔ)，設(shè)立特征詞表，進行基于特征詞匹配的子句標(biāo)注，并依不同維度進行工單分類。

通過構(gòu)建檢測模型和確定模型指標(biāo)體系、指標(biāo)閾值等參數(shù)，對工單數(shù)據(jù)進行大數(shù)據(jù)分析，采取可視化大屏全屏展示的方式進行全方位多角度的展開實時監(jiān)控、分析、預(yù)警和展示，及時發(fā)現(xiàn)當(dāng)前問題、變化趨勢，并對問題點改進情況進行跟蹤。

2.1 文本自動分類

為了方便對文本進行歸類與管理，我們通常會在實際操作中給文本內(nèi)容指定一個或多個分類類別。傳統(tǒng)的人工標(biāo)注，需要耗費巨大的時間和精力。文檔自動分類是文本挖掘領(lǐng)域針對這一業(yè)務(wù)場景的典型應(yīng)用。通過相應(yīng)的分類器，實現(xiàn)文本分類的預(yù)測功能。當(dāng)對一個新文檔進行分類時，分類器通常為這個文檔指定一個或多個類別標(biāo)簽，并根據(jù)算法策略給出分類標(biāo)簽的可信度。

按照機器學(xué)習(xí)方式的不同，文檔自動分類的實現(xiàn)大體上分為兩類，監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)。

監(jiān)督學(xué)習(xí)方法是在訓(xùn)練集上建立模型，針對每個訓(xùn)練集，需人工為每個訓(xùn)練集中的文檔打上類別標(biāo)記，接著用訓(xùn)練集訓(xùn)練一個分類器。訓(xùn)練完成后，這個分類器將能夠預(yù)測任何一個給定文檔的類別。非監(jiān)督學(xué)習(xí)方式與監(jiān)督學(xué)習(xí)方法的不同點，在于他們不需要訓(xùn)練數(shù)據(jù)集，可以在一批文檔中自動發(fā)現(xiàn)相似文檔并完成分組。

實際應(yīng)用中，分類器一般由數(shù)據(jù)集整理，數(shù)據(jù)預(yù)處理，分類算法等三部分組成。數(shù)據(jù)集，需要整理足夠數(shù)量的高質(zhì)量文檔，為了將數(shù)據(jù)集轉(zhuǎn)化為便于進行文本挖掘的格式，同時為提高結(jié)果的精度，數(shù)據(jù)預(yù)處理主要包括中文分詞、詞項的權(quán)值修正等步驟。分類算法與策略主要依據(jù)相應(yīng)的文本挖掘模型計算文檔的特征，最終實現(xiàn)對文檔的分類處理。

2.2 主題模型

主題模型（Topic Model）是在機器學(xué)習(xí)和自然語言處理等領(lǐng)域是用來在一系列文檔中發(fā)現(xiàn)抽象主題的一種統(tǒng)計模型。通常來說，若文檔有一個中心思想，即主題，那么文檔中就會頻繁出現(xiàn)與主題關(guān)聯(lián)密切的詞項然而，實際上文檔會包含多個主題，并且每個主題所占比例也不相同。因此，，如果一篇文檔和主題A相關(guān)的內(nèi)容占10%，和主題B有關(guān)的內(nèi)容占90%，那么和主題B有關(guān)的詞項出現(xiàn)的次數(shù)大概會是和主題A有關(guān)的詞項出現(xiàn)次數(shù)的9倍。主題模型試圖用數(shù)學(xué)框架來體現(xiàn)文檔分類的這種特點，先對每個文檔進行自動分析，再統(tǒng)計文檔內(nèi)詞語出現(xiàn)的頻率，最后根據(jù)統(tǒng)計信息來判斷當(dāng)前文檔包括哪些主題，以及每類主題的所占比例。

主體模型的優(yōu)勢如下：還有如下兩個優(yōu)點：

（1）無監(jiān)督學(xué)習(xí)完全自動化，在訓(xùn)練過程不需要引入人工的標(biāo)注，而是以概率計算為基礎(chǔ)，進行分類訓(xùn)練。

（2）滿足多種不同的語言形式，都可以經(jīng)過分詞處理后進行主題模型的訓(xùn)練。

3 基于LDA的熱點工單分類

在LDA主題模型中，一個主題是由一些詞項的分布定義的，每個主題由帶有分布率的一系列詞項構(gòu)成。一篇文本則是由一些主題構(gòu)成的。LDA主題模型的產(chǎn)生過程，主要是按照概率分布，選擇部分主題，從主題中再按照概率，選擇部分詞語，這些詞語的無序組合就組成了最終文檔。

若上述兩個概率分布能被我們計算清楚，則可得到一個模型，根據(jù)某偏文檔推斷出其主題分布，也就是分類。文檔生成的過程與由文檔推斷主題的過程互為逆過程。

3.1 LDA主題模型

LDA模型的數(shù)學(xué)原理比較復(fù)雜，其Gibbs Sampling公式如下：

公式的右邊部分其實就是文檔—>主題—>詞語的路徑概率，其物理意義在于K條的路徑采樣，K為主題的個數(shù)。LDA主題模型的文檔分類過程分為兩步：訓(xùn)練過程和推理過程。訓(xùn)練過程即根據(jù)當(dāng)前訓(xùn)練文檔集建立模型。同時在建模過程中，對各種估計參數(shù)進行選取與調(diào)優(yōu)，直至訓(xùn)練過程結(jié)束。訓(xùn)練過程結(jié)束后，模型建立和參數(shù)優(yōu)化已經(jīng)完成。而推理過程則是，根據(jù)當(dāng)前模型與參數(shù)，對新的文檔進行主題分布的計算過程。

訓(xùn)練過程如下：

（1）隨機初始化：給語料中每篇文檔中的每個詞w，隨機的賦一個主題編號z。

（2）更新主題：對語料庫進行重新掃描，根據(jù)公式（1）重新采樣主題并更新。

（3）重復(fù)采樣，直至Gibbs Sampling公式結(jié)果收斂。

（4）建立LDA模型：統(tǒng)計語料庫中主題-詞語共現(xiàn)頻率矩陣。

推理過程如下：

經(jīng)過訓(xùn)練后，得到參數(shù)文檔-主題分布矩陣Θ與主題-詞語分布矩陣Φ。其中對文檔-主題分布矩陣Θ一般不進行保存。而在推理過程中需要使用主題-詞語分布矩陣Φ。根據(jù)Gibbs Sampling公式，對新文檔中每個詞的主題進行抽樣，得到此文檔的主題分布θ_new，同時在利用公式計算條件概率的時候，公式中的φ 保持不變。具體過程如下：

（1）隨機初始化：給語料中每篇文檔中的每個詞w，隨機的賦一個主題編號z；

（2）重復(fù)掃描當(dāng)前文檔，按照Gibbs Sampling公式，對于每個詞w，重新采樣它的主題；

（3）重復(fù)以上過程直至Gibbs Sampling收斂；

（4）統(tǒng)計文檔中的主題分布，該分布即為所求的主題分布θ_new。

3.2 基于LDA的熱點工單內(nèi)容分類過程

本文在對熱點工單受理內(nèi)容的分類過程中，首先進行數(shù)據(jù)清洗和預(yù)處理，剔除95598熱點工單受理內(nèi)容的文本為空或者格式不正確的工單。其次對工單內(nèi)容進行分詞，即基于IK Analyzer這個輕量級的中文分詞工具包，對熱點工單的內(nèi)容進行分詞。再次建立LDA模型進行文本語義分析，包括LDA模型的訓(xùn)練和LDA模型的推理過程，把工單受理內(nèi)容按照亂收費、人身傷亡、停電、外界關(guān)注、抄核收、賠償?shù)攘鶄€主題進行文本分類。最后在95598運營分析系統(tǒng)熱點業(yè)務(wù)分析欄進行結(jié)果的匯總和展示。

4 業(yè)務(wù)價值展現(xiàn)

首先從效率上來講，對熱點業(yè)務(wù)工單分析和分類替代了人工查找、分類和匯總，能提高工作速率。工單的受理內(nèi)容多，數(shù)量多，僅憑人工肉眼去辨別，不僅耗時巨大，可操作性也不高，當(dāng)類別等因子需求產(chǎn)生變化時，很難對結(jié)果進行調(diào)整和再利用。而通過該系統(tǒng)，利用大數(shù)據(jù)挖掘、語義分析技術(shù)、文本分類等技術(shù)。計算時間短，時效性更強，復(fù)用性高，更有助于及時決策。

其次從質(zhì)量上來講，利用基于LDA的熱點工單分類模型對數(shù)據(jù)進行處理，經(jīng)實驗驗證，能達到較高的準(zhǔn)確率，數(shù)據(jù)質(zhì)量較優(yōu)。

5 結(jié)語

本文利用基于LDA的文本挖掘技術(shù)，結(jié)合山東電力業(yè)務(wù)需求，熱點業(yè)務(wù)工單專題研究，大大改善目前人工進行熱點工單分類效率較低的狀況，實現(xiàn)熱點業(yè)務(wù)工單的智能分類與原因挖掘。專題的應(yīng)用，將會提高客服部門的工作效率，為客服管理人員作出決策提供技術(shù)支持，提高了用戶的滿意度。

參考文獻

[1]JiaweiHan.數(shù)據(jù)挖掘：概念與技術(shù)（原書第三版）[M].北京：機械工業(yè)出版社，2012.

[2]Ronen FeIdmarl，James Sanger.文本挖掘[M].北京：人民郵電出版社，2009.

[3]Mitchell T.M，曾華軍.機器學(xué)習(xí)[M].北京：機械工業(yè)出版社，2008.

[4]呂鎮(zhèn)超，姬東鴻，吳飛飛.基于LDA特征擴展的短文本分類[J].計算機工程與應(yīng)用，2015，51（04）：123-127.

[5]姚全姝，宋志理，彭程.基于LDA模型的文本分類研究[J].計算機工程與應(yīng)用，2011，47（13）：150-152.

作者單位

山東魯能軟件技術(shù)有限公司山東省濟南市 250001