999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于LDA模型的95598熱點(diǎn)業(yè)務(wù)工單挖掘分析

2016-12-26 20:29:58王震代巖巖陳亮林曉蘭
電子技術(shù)與軟件工程 2016年22期
關(guān)鍵詞:文本挖掘

王震++代巖巖++陳亮++林曉蘭

摘 要

95598熱點(diǎn)業(yè)務(wù)工單的挖掘與分析,對(duì)業(yè)務(wù)詳單進(jìn)行分類,熱點(diǎn)問(wèn)題的及時(shí)發(fā)現(xiàn)與追蹤,起到很重要的作用。目前對(duì)于熱點(diǎn)業(yè)務(wù)工單的分類,采用人工查詢工單并分類,工作繁瑣且效率低。本文提出了一種基于LDA的熱點(diǎn)業(yè)務(wù)工單分類模型,對(duì)工單中的受理內(nèi)容進(jìn)行中文自然語(yǔ)言的處理和數(shù)據(jù)挖掘,實(shí)現(xiàn)對(duì)熱點(diǎn)業(yè)務(wù)工單的分類篩選,對(duì)準(zhǔn)確有效地提高供電服務(wù)質(zhì)量具有十分重要的現(xiàn)實(shí)意義。

【關(guān)鍵詞】語(yǔ)義分析 文本挖掘 熱點(diǎn)工單 LDA

隨著電力行業(yè)售電側(cè)改革不斷加深,對(duì)客服管理質(zhì)量要求越來(lái)越高,需要進(jìn)一步改善客戶體驗(yàn)和提升客戶滿意度。要提升客戶滿意度,需從客戶的熱點(diǎn)業(yè)務(wù)工單入手,分析挖掘熱點(diǎn)業(yè)務(wù)聚焦點(diǎn),快速有效找出業(yè)務(wù)短板,提升客戶服務(wù)質(zhì)量。

本文依據(jù)一般客服問(wèn)題管理機(jī)制和文本挖掘理論,并結(jié)合電力企業(yè)客服特點(diǎn),闡述了如何對(duì)客服熱點(diǎn)工單文本進(jìn)行挖掘分析以及如何在系統(tǒng)中基于LDA算法對(duì)其進(jìn)行分類的應(yīng)用。業(yè)務(wù)工單中的投訴工單、客戶回訪處理不滿意的工單能直接反映客戶對(duì)產(chǎn)品、對(duì)服務(wù)的感知,是客戶滿意度的最直接反映。從現(xiàn)狀來(lái)看,目前的熱點(diǎn)工單分類的處理方式,是由調(diào)查分析人員通過(guò)對(duì)95598客戶訴求數(shù)據(jù)的分析,對(duì)受理的內(nèi)容進(jìn)行分析和篩選,然后完成分類。這種方式缺乏有效的輔助分析手段,分析手段單一,影響服務(wù)問(wèn)題的分析和解決效率,因此需利用中文自然語(yǔ)言處理、文本挖掘等技術(shù),結(jié)合電力領(lǐng)域的業(yè)務(wù)特點(diǎn),對(duì)95598來(lái)電工單進(jìn)行自動(dòng)化的智能分析與處理,實(shí)現(xiàn)熱點(diǎn)業(yè)務(wù)工單的智能分類與原因挖掘。

1 熱點(diǎn)業(yè)務(wù)工單業(yè)務(wù)描述

熱點(diǎn)業(yè)務(wù)主要包括停電、亂收費(fèi)、抄核收、人身傷亡、賠償、外界關(guān)注等的工單,相互之間可以重復(fù)統(tǒng)計(jì)。通過(guò)對(duì)工單的挖掘結(jié)果,對(duì)熱點(diǎn)業(yè)務(wù)工單進(jìn)行可視化展示,展示維度包括單位、市縣公司、以及業(yè)務(wù)類型。

熱點(diǎn)業(yè)務(wù)主要分為以下6個(gè)大類,分類如表1。

2 文本挖掘相關(guān)理論

文本挖掘(Text Mining,TM)是近幾年來(lái)數(shù)據(jù)挖掘領(lǐng)域的一個(gè)新興分支,是以文本數(shù)據(jù)為特定挖掘?qū)ο蟮闹R(shí)挖掘。文本挖掘是抽取有效、新穎、有用、可理解的、散布在文本文件中的有價(jià)值知識(shí),并且利用這些知識(shí)更好地組織信息的過(guò)程文本挖掘的要點(diǎn)是分詞,根據(jù)文本數(shù)據(jù)中的特征信息進(jìn)行分詞處理,以此構(gòu)建文本的中間表示。原始的文本數(shù)據(jù)通常以非結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù)呈現(xiàn),再利用文本挖掘手段轉(zhuǎn)換為結(jié)構(gòu)化文本,進(jìn)而發(fā)掘新的概念與對(duì)應(yīng)關(guān)系。

基于領(lǐng)域特征詞表的特征詞標(biāo)注,主要以大量來(lái)電工單中反映業(yè)務(wù)種類、熱點(diǎn)問(wèn)題現(xiàn)象的特征詞為基礎(chǔ),設(shè)立特征詞表,進(jìn)行基于特征詞匹配的子句標(biāo)注,并依不同維度進(jìn)行工單分類。

通過(guò)構(gòu)建檢測(cè)模型和確定模型指標(biāo)體系、指標(biāo)閾值等參數(shù),對(duì)工單數(shù)據(jù)進(jìn)行大數(shù)據(jù)分析,采取可視化大屏全屏展示的方式進(jìn)行全方位多角度的展開(kāi)實(shí)時(shí)監(jiān)控、分析、預(yù)警和展示,及時(shí)發(fā)現(xiàn)當(dāng)前問(wèn)題、變化趨勢(shì),并對(duì)問(wèn)題點(diǎn)改進(jìn)情況進(jìn)行跟蹤。

2.1 文本自動(dòng)分類

為了方便對(duì)文本進(jìn)行歸類與管理,我們通常會(huì)在實(shí)際操作中給文本內(nèi)容指定一個(gè)或多個(gè)分類類別。傳統(tǒng)的人工標(biāo)注,需要耗費(fèi)巨大的時(shí)間和精力。文檔自動(dòng)分類是文本挖掘領(lǐng)域針對(duì)這一業(yè)務(wù)場(chǎng)景的典型應(yīng)用。通過(guò)相應(yīng)的分類器,實(shí)現(xiàn)文本分類的預(yù)測(cè)功能。當(dāng)對(duì)一個(gè)新文檔進(jìn)行分類時(shí),分類器通常為這個(gè)文檔指定一個(gè)或多個(gè)類別標(biāo)簽,并根據(jù)算法策略給出分類標(biāo)簽的可信度。

按照機(jī)器學(xué)習(xí)方式的不同,文檔自動(dòng)分類的實(shí)現(xiàn)大體上分為兩類,監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)。

監(jiān)督學(xué)習(xí)方法是在訓(xùn)練集上建立模型,針對(duì)每個(gè)訓(xùn)練集,需人工為每個(gè)訓(xùn)練集中的文檔打上類別標(biāo)記,接著用訓(xùn)練集訓(xùn)練一個(gè)分類器。訓(xùn)練完成后,這個(gè)分類器將能夠預(yù)測(cè)任何一個(gè)給定文檔的類別。非監(jiān)督學(xué)習(xí)方式與監(jiān)督學(xué)習(xí)方法的不同點(diǎn),在于他們不需要訓(xùn)練數(shù)據(jù)集,可以在一批文檔中自動(dòng)發(fā)現(xiàn)相似文檔并完成分組。

實(shí)際應(yīng)用中,分類器一般由數(shù)據(jù)集整理,數(shù)據(jù)預(yù)處理,分類算法等三部分組成。數(shù)據(jù)集,需要整理足夠數(shù)量的高質(zhì)量文檔,為了將數(shù)據(jù)集轉(zhuǎn)化為便于進(jìn)行文本挖掘的格式,同時(shí)為提高結(jié)果的精度,數(shù)據(jù)預(yù)處理主要包括中文分詞、詞項(xiàng)的權(quán)值修正等步驟。分類算法與策略主要依據(jù)相應(yīng)的文本挖掘模型計(jì)算文檔的特征,最終實(shí)現(xiàn)對(duì)文檔的分類處理。

2.2 主題模型

主題模型(Topic Model)是在機(jī)器學(xué)習(xí)和自然語(yǔ)言處理等領(lǐng)域是用來(lái)在一系列文檔中發(fā)現(xiàn)抽象主題的一種統(tǒng)計(jì)模型。通常來(lái)說(shuō),若文檔有一個(gè)中心思想,即主題,那么文檔中就會(huì)頻繁出現(xiàn)與主題關(guān)聯(lián)密切的詞項(xiàng)然而,實(shí)際上文檔會(huì)包含多個(gè)主題,并且每個(gè)主題所占比例也不相同。因此,,如果一篇文檔和主題A相關(guān)的內(nèi)容占10%,和主題B有關(guān)的內(nèi)容占90%,那么和主題B有關(guān)的詞項(xiàng)出現(xiàn)的次數(shù)大概會(huì)是和主題A有關(guān)的詞項(xiàng)出現(xiàn)次數(shù)的9倍。主題模型試圖用數(shù)學(xué)框架來(lái)體現(xiàn)文檔分類的這種特點(diǎn),先對(duì)每個(gè)文檔進(jìn)行自動(dòng)分析,再統(tǒng)計(jì)文檔內(nèi)詞語(yǔ)出現(xiàn)的頻率,最后根據(jù)統(tǒng)計(jì)信息來(lái)判斷當(dāng)前文檔包括哪些主題,以及每類主題的所占比例。

主體模型的優(yōu)勢(shì)如下:還有如下兩個(gè)優(yōu)點(diǎn):

(1)無(wú)監(jiān)督學(xué)習(xí)完全自動(dòng)化,在訓(xùn)練過(guò)程不需要引入人工的標(biāo)注,而是以概率計(jì)算為基礎(chǔ),進(jìn)行分類訓(xùn)練。

(2)滿足多種不同的語(yǔ)言形式,都可以經(jīng)過(guò)分詞處理后進(jìn)行主題模型的訓(xùn)練。

3 基于LDA的熱點(diǎn)工單分類

在LDA主題模型中,一個(gè)主題是由一些詞項(xiàng)的分布定義的,每個(gè)主題由帶有分布率的一系列詞項(xiàng)構(gòu)成。一篇文本則是由一些主題構(gòu)成的。LDA主題模型的產(chǎn)生過(guò)程,主要是按照概率分布,選擇部分主題,從主題中再按照概率,選擇部分詞語(yǔ),這些詞語(yǔ)的無(wú)序組合就組成了最終文檔。

若上述兩個(gè)概率分布能被我們計(jì)算清楚,則可得到一個(gè)模型,根據(jù)某偏文檔推斷出其主題分布,也就是分類。文檔生成的過(guò)程與由文檔推斷主題的過(guò)程互為逆過(guò)程。

3.1 LDA主題模型

LDA模型的數(shù)學(xué)原理比較復(fù)雜,其Gibbs Sampling公式如下:

公式的右邊部分其實(shí)就是文檔—>主題—>詞語(yǔ)的路徑概率,其物理意義在于K條的路徑采樣,K為主題的個(gè)數(shù)。LDA主題模型的文檔分類過(guò)程分為兩步:訓(xùn)練過(guò)程和推理過(guò)程。訓(xùn)練過(guò)程即根據(jù)當(dāng)前訓(xùn)練文檔集建立模型。同時(shí)在建模過(guò)程中,對(duì)各種估計(jì)參數(shù)進(jìn)行選取與調(diào)優(yōu),直至訓(xùn)練過(guò)程結(jié)束。訓(xùn)練過(guò)程結(jié)束后,模型建立和參數(shù)優(yōu)化已經(jīng)完成。而推理過(guò)程則是,根據(jù)當(dāng)前模型與參數(shù),對(duì)新的文檔進(jìn)行主題分布的計(jì)算過(guò)程。

訓(xùn)練過(guò)程如下:

(1)隨機(jī)初始化:給語(yǔ)料中每篇文檔中的每個(gè)詞w,隨機(jī)的賦一個(gè)主題編號(hào)z。

(2)更新主題:對(duì)語(yǔ)料庫(kù)進(jìn)行重新掃描,根據(jù)公式(1)重新采樣主題并更新。

(3)重復(fù)采樣,直至Gibbs Sampling公式結(jié)果收斂。

(4)建立LDA模型:統(tǒng)計(jì)語(yǔ)料庫(kù)中主題-詞語(yǔ)共現(xiàn)頻率矩陣。

推理過(guò)程如下:

經(jīng)過(guò)訓(xùn)練后,得到參數(shù)文檔-主題分布矩陣Θ與主題-詞語(yǔ)分布矩陣Φ。其中對(duì)文檔-主題分布矩陣Θ一般不進(jìn)行保存。而在推理過(guò)程中需要使用主題-詞語(yǔ)分布矩陣Φ。根據(jù)Gibbs Sampling公式,對(duì)新文檔中每個(gè)詞的主題進(jìn)行抽樣,得到此文檔的主題分布θ_new,同時(shí)在利用公式計(jì)算條件概率的時(shí)候,公式中的φ 保持不變。具體過(guò)程如下:

(1)隨機(jī)初始化:給語(yǔ)料中每篇文檔中的每個(gè)詞w,隨機(jī)的賦一個(gè)主題編號(hào)z;

(2)重復(fù)掃描當(dāng)前文檔,按照Gibbs Sampling公式,對(duì)于每個(gè)詞w,重新采樣它的主題;

(3)重復(fù)以上過(guò)程直至Gibbs Sampling收斂;

(4)統(tǒng)計(jì)文檔中的主題分布,該分布即為所求的主題分布θ_new。

3.2 基于LDA的熱點(diǎn)工單內(nèi)容分類過(guò)程

本文在對(duì)熱點(diǎn)工單受理內(nèi)容的分類過(guò)程中,首先進(jìn)行數(shù)據(jù)清洗和預(yù)處理,剔除95598熱點(diǎn)工單受理內(nèi)容的文本為空或者格式不正確的工單。其次對(duì)工單內(nèi)容進(jìn)行分詞,即基于IK Analyzer這個(gè)輕量級(jí)的中文分詞工具包,對(duì)熱點(diǎn)工單的內(nèi)容進(jìn)行分詞。再次建立LDA模型進(jìn)行文本語(yǔ)義分析,包括LDA模型的訓(xùn)練和LDA模型的推理過(guò)程,把工單受理內(nèi)容按照亂收費(fèi)、人身傷亡、停電、外界關(guān)注、抄核收、賠償?shù)攘鶄€(gè)主題進(jìn)行文本分類。最后在95598運(yùn)營(yíng)分析系統(tǒng)熱點(diǎn)業(yè)務(wù)分析欄進(jìn)行結(jié)果的匯總和展示。

4 業(yè)務(wù)價(jià)值展現(xiàn)

首先從效率上來(lái)講,對(duì)熱點(diǎn)業(yè)務(wù)工單分析和分類替代了人工查找、分類和匯總,能提高工作速率。工單的受理內(nèi)容多,數(shù)量多,僅憑人工肉眼去辨別,不僅耗時(shí)巨大,可操作性也不高,當(dāng)類別等因子需求產(chǎn)生變化時(shí),很難對(duì)結(jié)果進(jìn)行調(diào)整和再利用。而通過(guò)該系統(tǒng),利用大數(shù)據(jù)挖掘、語(yǔ)義分析技術(shù)、文本分類等技術(shù)。計(jì)算時(shí)間短,時(shí)效性更強(qiáng),復(fù)用性高,更有助于及時(shí)決策。

其次從質(zhì)量上來(lái)講,利用基于LDA的熱點(diǎn)工單分類模型對(duì)數(shù)據(jù)進(jìn)行處理,經(jīng)實(shí)驗(yàn)驗(yàn)證,能達(dá)到較高的準(zhǔn)確率,數(shù)據(jù)質(zhì)量較優(yōu)。

5 結(jié)語(yǔ)

本文利用基于LDA的文本挖掘技術(shù),結(jié)合山東電力業(yè)務(wù)需求,熱點(diǎn)業(yè)務(wù)工單專題研究,大大改善目前人工進(jìn)行熱點(diǎn)工單分類效率較低的狀況,實(shí)現(xiàn)熱點(diǎn)業(yè)務(wù)工單的智能分類與原因挖掘。專題的應(yīng)用,將會(huì)提高客服部門(mén)的工作效率,為客服管理人員作出決策提供技術(shù)支持,提高了用戶的滿意度。

參考文獻(xiàn)

[1]JiaweiHan.數(shù)據(jù)挖掘:概念與技術(shù)(原書(shū)第三版)[M].北京:機(jī)械工業(yè)出版社,2012.

[2]Ronen FeIdmarl,James Sanger.文本挖掘[M].北京:人民郵電出版社,2009.

[3]Mitchell T.M,曾華軍.機(jī)器學(xué)習(xí)[M].北京:機(jī)械工業(yè)出版社,2008.

[4]呂鎮(zhèn)超,姬東鴻,吳飛飛.基于LDA特征擴(kuò)展的短文本分類[J].計(jì)算機(jī)工程與應(yīng)用,2015,51(04):123-127.

[5]姚全姝,宋志理,彭程.基于LDA模型的文本分類研究[J].計(jì)算機(jī)工程與應(yīng)用,2011,47(13):150-152.

作者單位

山東魯能軟件技術(shù)有限公司 山東省濟(jì)南市 250001

猜你喜歡
文本挖掘
基于貝葉斯分類器的中文垃圾短信辨識(shí)
科技資訊(2017年5期)2017-04-12 15:18:52
網(wǎng)絡(luò)教育資源中的跨語(yǔ)言知識(shí)管理研究
基于潛在特征的汽車評(píng)論要素挖掘
基于評(píng)論信息的淘寶服裝類評(píng)分體系優(yōu)化
商情(2016年32期)2017-03-04 00:27:28
數(shù)據(jù)挖掘技術(shù)在電站設(shè)備故障分析中的應(yīng)用
文本數(shù)據(jù)挖掘在電子商務(wù)網(wǎng)站個(gè)性化推薦中的應(yīng)用
商(2016年34期)2016-11-24 16:28:51
從《遠(yuǎn)程教育》35年載文看遠(yuǎn)程教育研究趨勢(shì)
基于文獻(xiàn)的中西醫(yī)結(jié)合治療腦梗死藥物使用情況分析
基于改進(jìn)Hadoop云平臺(tái)的海量文本數(shù)據(jù)挖掘
慧眼識(shí)璞玉,妙手煉渾金
主站蜘蛛池模板: 国内熟女少妇一线天| 亚洲色图欧美视频| 91久久夜色精品| 99热这里只有精品5| 91青青草视频| 国产成a人片在线播放| 国产成人精品2021欧美日韩| 久久精品无码一区二区国产区| 国产精品福利尤物youwu| 国产一区二区三区视频| 久久久久88色偷偷| 亚洲精品成人片在线观看 | 99国产在线视频| 国产99精品久久| 亚洲区第一页| 亚洲AV成人一区国产精品| a亚洲天堂| 亚洲精品国产日韩无码AV永久免费网| 久久香蕉国产线| 99久久精品国产精品亚洲| 中日韩欧亚无码视频| 欧美一级片在线| 色综合久久久久8天国| 91香蕉视频下载网站| a级毛片免费网站| 91网在线| 国产真实乱子伦精品视手机观看 | 成人伊人色一区二区三区| 国产亚卅精品无码| 国产欧美日韩视频怡春院| a级毛片在线免费| 色网站在线视频| 天天摸夜夜操| 欧美日韩资源| 999精品视频在线| 欧美日本在线观看| 无码啪啪精品天堂浪潮av| 91亚洲精选| 国产午夜在线观看视频| 亚洲丝袜第一页| 久久综合干| 99视频有精品视频免费观看| 日本欧美在线观看| 亚洲无码不卡网| 欧美一区国产| 国产乱论视频| 久久久波多野结衣av一区二区| 国产69精品久久久久孕妇大杂乱| 色综合久久88| 国产精品一区在线麻豆| 亚洲精品国偷自产在线91正片| 亚洲精品视频在线观看视频| 亚洲AV无码久久精品色欲| 午夜精品久久久久久久无码软件| 高清不卡毛片| a亚洲视频| 九色视频一区| 国产成人精品日本亚洲77美色| 日本国产一区在线观看| 久久久久久久久亚洲精品| 亚洲视频四区| 国产一级视频久久| 一个色综合久久| 久热99这里只有精品视频6| 2021精品国产自在现线看| 亚洲码一区二区三区| 欧美综合成人| www精品久久| 亚洲VA中文字幕| 深爱婷婷激情网| 亚洲美女一区二区三区| 亚洲国产黄色| www.youjizz.com久久| 国产女同自拍视频| 在线一级毛片| 大学生久久香蕉国产线观看| 久久久久国产精品嫩草影院| 欧美爱爱网| 一区二区三区在线不卡免费| 亚洲精品福利视频| 91福利在线观看视频| 二级特黄绝大片免费视频大片|