999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于自然語言處理技術的電力客戶投訴工單文本挖掘分析

2018-09-06 08:33:14吳剛勇張千斌吳恒超顧冰
中國設備工程 2018年17期
關鍵詞:特征文本模型

吳剛勇,張千斌,吳恒超,顧冰

(國網浙江省湖州供電公司,浙江 湖州 313000)

隨著配售電市場的不斷開放,新增配網將允許外部資本投資,各地售電公司紛紛成立,將來將成為電力公司的售電競爭者,由此如何減少客戶資源流失將是亟待解決的問題。而保障客戶穩(wěn)固的首要措施是提高客戶滿意度,意味著客戶投訴減少。因此,利用自然語言處理技術對客戶投訴工單進行文本挖掘分析,了解客戶投訴的主要問題,并針對性的提高差異化的服務策略是當下提高客戶滿意度,增加客戶粘性的重要舉措。

1 應用技術

1.1 自然語言處理

在計算機科學與人工智能中自然語言處理(NLP)是一個重要的研究方向。它是一種能實現(xiàn)在計算機與人之間用自然語言進行高效溝通的理論和方法。

自然語言處理涉及到多種統(tǒng)計的方法,并在此基礎上發(fā)展衍生出多種模型:最大熵模型、雙向搜索算法、隱馬爾可夫模型、A?搜索算法、概率上下文無關語法、貝葉斯方法、n元語法、噪聲信道理論、最小編輯距離算法、Viterbi算法、加權自動機、支持向量機等。本文主要對隱馬爾可夫模型在自然語言處理中的應用進行介紹。

隱馬爾可夫模型(HMM)是用來描述包含隱含未知參數(shù)的馬爾可夫過程,該模型是關于時序的概率模型。隱馬爾可夫模型的狀態(tài)不能直接觀察到,但是,它能夠以觀測向量序列觀察到,每個觀測向量的各種表現(xiàn)狀態(tài)都是通過概率密度呈現(xiàn)的,每一個觀測向量是基于相應概率密度分布的狀態(tài)序列產生。

隱馬爾可夫模型是一個五元組<S,O,A,B,π>:

S:狀態(tài)集合:由四種狀態(tài)構成:詞頭(標記為F),詞中(標記為M)、詞尾(標記為E)、單字成詞(標記為 W)。

A:狀態(tài)轉移分布,即S中各元素中,兩兩之間轉移的概率值。比如當前是s2,下一個狀態(tài)是s9的轉移概率為s2,9(小于1)。

B:每種狀態(tài)出現(xiàn)的概率分布。

π:初始的狀態(tài)分布。

按照機器學習方式的不同,求取參數(shù)A、B、π的方法大體上分為兩類,監(jiān)督學習和非監(jiān)督學習。

(1)監(jiān)督學習方法

如果訓練數(shù)據(jù)集已經給出觀測序列及相應的路徑序列:

基于統(tǒng)計分析,對每個句子開頭第一個字出現(xiàn)頻率進行統(tǒng)計,以其統(tǒng)計數(shù)除以句子總數(shù),即可計算得到該字的初始狀態(tài)F、W的概率情況。

假設學習狀態(tài)轉移矩陣A的子元素為a(i->j),那么,子元素a(i->j)=(由qi狀態(tài)變到qj狀態(tài)的次數(shù))/(狀態(tài)變化總次數(shù))。本文只考慮元素的狀態(tài)變化,而不考慮觀測值變化。

假設觀測概率分布B的子元素為bj(k),那么,bj(k)=(j狀態(tài)下觀測為k的次數(shù))/(所有狀態(tài)的總次數(shù))。

總而言之,監(jiān)督學習方法主要是基于統(tǒng)計頻數(shù)除以總數(shù),得到相應的概率,以此構成模型參數(shù)。

(2)非監(jiān)督學習方法

由于監(jiān)督學習方法需要進行人工標注,這樣往往會付出很大的代價,因此,可采用非監(jiān)督學習的算法來實現(xiàn)。

最后基于維特比算法:基于動態(tài)規(guī)劃算法挖掘出最優(yōu)路徑,即:從t=1開始遞歸計算,得出在t時刻狀態(tài)為i的各條路徑的最大概率,到t=T時終止,從而實現(xiàn)最終分詞。

1.2 文本挖掘技術

近幾年來,數(shù)據(jù)挖掘領域出現(xiàn)了一個新興分支-文本挖掘,它是以文本類型的數(shù)據(jù)作為特定的分析挖掘對象的知識挖掘。本文的挖掘對象是基于抽取的95598投訴工單中有效、有用、散布在工單中的有價值知識,并且利用這些知識更好的了解客戶需求。對投訴內容進行分詞是文本挖掘的要點,根據(jù)分詞結果,從文本數(shù)據(jù)中抽取出客戶投訴特征信息,從而形成文本的中間表示。把原來的非結構化的客戶投訴文本數(shù)據(jù)以結構化的數(shù)據(jù)呈現(xiàn),再利用分類、聚類等數(shù)據(jù)挖掘技術轉化為結構化文本,并根據(jù)該結構化的文本發(fā)現(xiàn)新的概念和相應的關系。

1.3 TF-IDF算法

TF-IDF是一種統(tǒng)計方法,是通過分析挖掘一字(詞)對于一個文件集(語料庫)中的其中的重要程度。字(詞)的重要性與它在文件中出現(xiàn)的次數(shù)成正比例關系,與它在語料庫中出現(xiàn)的頻率成反比關系。實際上TF-IDF是:TF表示詞頻,IDF表示逆向文件頻率,TF表示分詞后的詞匯T在文本中出現(xiàn)的次數(shù)。DF表示的文本頻率,即文本集合中含有的文本頻率。IDF表示的逆文本頻率,公式如下:

式中:n為文本總數(shù)。

對字詞的重要性進行權重計算,計算公式如下:

在實際應用中,需要對進行歸一化處理,

2 實證研究

基于自然語言處理技術出發(fā),對電力客戶投訴工單進行深入文本挖掘,利用分詞技術分析投訴工單中的受理內容,對分詞結果開展特征選取與降維處理,并進行詞頻統(tǒng)計,運用詞云分析技術進行分析結果可視化展示,把控住當下電力客戶投訴的主要問題,針對性的為不同類型的電力客戶提供差異化的服務策略,從而提高客戶滿意度和忠誠度。如下圖1為文本挖掘過程。

2.1 文本分詞實現(xiàn)

文本分詞是指使用計算機自動對文本進行詞語的切分。通過大數(shù)據(jù)軟件Python中的Jieba包,運用隱馬爾可夫模型,實現(xiàn)對客戶投訴受理內容的分詞。分詞結果如下圖2所示。

圖1 文本挖掘過程

圖2 投訴文本的分詞結果

2.2 特征選取與降維

(1)特征選取

通過對255條投訴工單文本數(shù)據(jù)進行分詞,將每個詞作為標識文本的特征,通過對各特征在整個文本集合進行統(tǒng)計分析,結果如圖3所示。

圖3 投訴文本的分詞結果

(2)特征降維

特征降維主要是為了對特征進行識別剔除,剔除掉對文本區(qū)分程度很少的特征,如與電力業(yè)務關系不大的特征,以降低后續(xù)文本聚類的算法復雜度,主要包括以下情形:

①剔除掉幾乎每條文本都出現(xiàn)的詞,如:“客戶”、“來電”、“判定”等在255多條文本數(shù)據(jù)中出現(xiàn)200次以上的高頻無用詞匯。

②剔除掉常用特殊詞,主要包括常見的稱謂詞、結構詞、語氣助詞,如“我”、“你”、“是”、“啊”等與電力業(yè)務無關詞匯。

③去除一些詞頻很小的特征,如“導致”、“今天”、“由于”、“周圍”等在255多條文本數(shù)據(jù)中出現(xiàn)次數(shù)少于10的低頻詞匯。

通過對出現(xiàn)頻率設定相應的閾值(上限,下限)來自動實現(xiàn)特征的降維。

2.3 關鍵詞頻提取

通過上述對分詞結果進行特征選取與降維,實現(xiàn)對無關詞匯的過濾,留下與電力業(yè)務相關的關鍵詞。結合實際電力業(yè)務,對現(xiàn)有關鍵詞進一步篩選,通過TFIDF(詞頻-逆文檔頻率)算法計算關鍵詞重要性權重值,提取權重值大的關鍵詞頻作為客戶投訴文本挖掘的最終結果。

2.4 可視化展示

通過Python軟件,運用詞云分析實現(xiàn)投訴工單文本挖掘結果展示如下圖4。

圖4 投訴文本詞云

由圖可知在客戶投訴中,詞語“營業(yè)廳”、“停電”、“故障”等出現(xiàn)頻數(shù)較多,表明客戶主要對營業(yè)廳、停電、故障等意見較大,可從這幾個方面入手,如提高營業(yè)廳服務水平、減少停電或停電信息通知到位、加強故障檢修減少故障發(fā)生等等措施,從而提高客戶滿意度,改善客戶投訴問題。

3 應用價值

95598投訴工單的深入分析與研究是基于“客戶訴求”出發(fā),深入客戶投訴工單受理內容,挖掘客戶的真實需求與投訴原因。應用大數(shù)據(jù)分析技術,采取隱馬爾可夫模型、分詞等分析方法對投訴工單開展文本挖掘,打破原有對客戶投訴需求模糊不清的壁壘,把控住當下電力客戶投訴的主要問題,針對性的為不同類型的電力客戶提供差異化的服務策略,提高客戶粘性和滿意度。

4 結語

本文利用基于自然語言處理的文本挖掘技術,結合浙江湖州電力業(yè)務需求,熱點業(yè)務工單專題研究,打破了客戶對用電訴求存在的盲區(qū),提高對用戶用電需求的管理程度,實現(xiàn)熱點投訴業(yè)務工單的原因挖掘。專題的應用,將會提高客服部門的工作效率,為實現(xiàn)主動、精準的客戶服務提供決策支持,以提升客戶服務能力。

猜你喜歡
特征文本模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
抓住特征巧觀察
3D打印中的模型分割與打包
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 一区二区午夜| 天天综合色天天综合网| 日韩最新中文字幕| 国产精品免费电影| 国产成人AV男人的天堂| 狠狠亚洲婷婷综合色香| 尤物国产在线| 久久99热这里只有精品免费看 | 亚洲性一区| 日韩av无码精品专区| 美女视频黄频a免费高清不卡| 成人亚洲国产| 国产一区成人| 伊大人香蕉久久网欧美| 亚洲国产精品日韩专区AV| 国产丰满大乳无码免费播放| 亚洲天堂区| 强乱中文字幕在线播放不卡| 狠狠做深爱婷婷综合一区| 91免费观看视频| 成人精品视频一区二区在线| 久热99这里只有精品视频6| 国产成人综合久久| 国产一区二区三区在线观看视频| 久久久久亚洲精品成人网| 视频一本大道香蕉久在线播放 | 久久亚洲国产视频| 国产精品思思热在线| 免费午夜无码18禁无码影院| 国产高清在线丝袜精品一区| 国产乱子伦视频在线播放| 亚洲免费播放| 午夜少妇精品视频小电影| 国产美女视频黄a视频全免费网站| 欧美日韩va| 在线看片中文字幕| 日韩乱码免费一区二区三区| 国产美女91呻吟求| 亚洲男人天堂网址| 国产毛片高清一级国语 | 成人午夜网址| 亚洲欧美日韩另类| 亚洲日韩图片专区第1页| 国产微拍一区二区三区四区| 精品自窥自偷在线看| 亚洲va欧美va国产综合下载| 日本精品视频一区二区| 伊人福利视频| 精品三级网站| 热这里只有精品国产热门精品| 国产精品成人久久| 色偷偷一区二区三区| 久久久久久久久亚洲精品| 国产jizzjizz视频| 国产精品高清国产三级囯产AV| 久久精品一卡日本电影| 丁香婷婷综合激情| 91国语视频| 日韩毛片免费视频| 国产精品永久在线| 国产一级在线播放| 免费毛片全部不收费的| 久久国产亚洲欧美日韩精品| 久精品色妇丰满人妻| 成人中文在线| 国产激情国语对白普通话| 黄色一级视频欧美| 久夜色精品国产噜噜| 久久黄色小视频| 中文字幕在线永久在线视频2020| yy6080理论大片一级久久| 国产精品刺激对白在线| 99re这里只有国产中文精品国产精品| 国产精品亚洲αv天堂无码| 成人毛片免费在线观看| 国产精品无码制服丝袜| 欧美成人一区午夜福利在线| 免费观看男人免费桶女人视频| 精品人妻一区无码视频| 国产成人精品亚洲日本对白优播| 欧美区国产区| 国产男女免费视频|