999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于文本挖掘的客戶重復訴求智能分析應用

2021-03-25 10:48:14師婭杰
新型工業(yè)化 2021年12期
關鍵詞:文本模型

師婭杰

(廣東電網(wǎng)有限責任公司肇慶供電局,廣東 肇慶 526060)

0 引言

重復訴求是指客戶在某一時段內(nèi),對同一事件多次致電,要求處理的訴求。在分析客服工單時發(fā)現(xiàn),部分重復訴求存在“同一事件有不同來電號碼、不同客戶名稱”的情況或者“同一來電號碼在某一時段內(nèi)反映不同事件”的情況。由于第二種情況較為常見,故本文主要針對第二種情況介紹智能分析方法。其中,客戶反映問題是否為“不同事件”主要根據(jù)業(yè)務歸口部門來判斷,即同一號碼在某一時段內(nèi)多次致電反映同一歸口部門的問題,認定為重復訴求[1]。

在客服工單中,同一業(yè)務子類可能涉及2-3個歸口部門。如故障停電,需要現(xiàn)場調查后才能確定停屬于一戶還是一帶,電壓等級屬于高壓還是低壓,歸口部門屬于營銷、生產(chǎn)還是基建。這樣的業(yè)務子類還有很多,如電網(wǎng)建設、安全隱患、服務態(tài)度等,由于歸口部門的不確定性,我們定義這些業(yè)務子類的歸口部門為“模糊邊界歸口部門”。歸口部門的確定對于重復訴求的判定具有重要意義,傳統(tǒng)模式下對“模糊邊界歸口部門”的判斷,通常需要人工閱讀“來電內(nèi)容”及“處理意見”等大量長文本,效率低下且準確率無法保證。為確保“模糊邊界歸口部門”智能分類的準確率,本文使用公司大數(shù)據(jù)平臺的敏捷挖掘工具(SmartMining),構建以數(shù)據(jù)挖掘和機器學習為主要分析方法的數(shù)據(jù)科學工作流,對“模糊邊界歸口部門”設置4次判斷,其中首次判斷1次,校驗判斷3次,將該流程定義為三級校驗。具體操作如下:使用ansj分詞器將長文本拆解成短詞匯,再與關鍵詞詞庫做匹配,若文本包含詞庫中的關鍵詞,則輸出相應的判定結果,并校驗上一級結果,若三級校驗中各級校驗結果相同,則判定結果輸出正常,實現(xiàn)“模糊邊界歸口部門”的智能分類,否則當異常值輸出,需人工判斷。

?

在三級校驗中,首次判斷、一級校驗屬于事件調查前對歸口部門的判斷,在客服工單下發(fā)時進行;二、三級校驗屬于事件調查后對歸口部門的判斷,在客服工單歸檔后進行。工單下發(fā)至歸檔間隔3天左右,判定規(guī)則由粗到細,關鍵詞詞庫也由少變多,若某些關鍵詞同時出現(xiàn)在3次校驗的判斷中,會導致計算機無法準確識別歸類,因此在設置關鍵詞詞庫時對這類詞要謹慎取舍。總的原則是,在同一業(yè)務子類的各級校驗中設置關鍵詞時,關鍵詞不能重復[2]。

1 數(shù)據(jù)獲取、清洗和預處理

1.1 數(shù)據(jù)獲取

采集營銷系統(tǒng)全量客服工單,可通過兩種方式獲取數(shù)據(jù):一是在公司大數(shù)據(jù)平臺通過后臺獲取,使用標準查詢語言SQL語句,對關系型數(shù)據(jù)庫中的表記錄進行查詢和操縱;二是通過營銷系統(tǒng)直接導出數(shù)據(jù),再通過“用戶輸入”導入大數(shù)據(jù)平臺,生成數(shù)據(jù)源。

1.2 數(shù)據(jù)清洗和預處理

(1)剔除噪聲數(shù)據(jù)。對客服工單中的全量字段進行功能劃分,篩選出有意義的字段,剔除噪聲字段。

(2)處理丟失數(shù)據(jù)。對關鍵字段“來電號碼”中的缺失項進行填充,從“來電內(nèi)容”的長文本中用公式提取“來電號碼”,節(jié)約人工補錄成本。

(3)數(shù)據(jù)精簡。對于不同的分析目標,僅篩選與目標相關的列字段,避免數(shù)據(jù)過大、數(shù)據(jù)不集中導致的分析速度慢[3]。

2 數(shù)據(jù)分析

在分析階段,設計三種模型來實現(xiàn)“模糊邊界歸口部門”的智能分類,并根據(jù)不同模型的準確率進行組合優(yōu)化。

2.1 詞頻向量模型

(1)構建關鍵詞詞庫。現(xiàn)實狀態(tài)下,客戶“來電內(nèi)容”通常由雜亂無章的長文本構成,其中包含諸多噪聲詞,單純依靠分詞器進行詞頻統(tǒng)計無法識別關鍵信息。為提高分詞的準確性,首先需要在統(tǒng)計詞頻的基礎上,綜合業(yè)務經(jīng)驗,人工篩選具有意義的高、低頻詞匯,剔除無意義的噪聲詞,形成關鍵詞詞庫(客戶情緒詞庫、同義詞庫、電力術語詞庫),通過關鍵詞詞庫反向識別和修剪噪聲詞。其次,應針對不同類型的文本內(nèi)容,在幾十種開源的和商用的分詞工具及分詞處理方法中選擇合適的工具模型。本文依據(jù)敏捷挖掘中的分詞節(jié)點ansj分詞器對長文本進行拆解,統(tǒng)計詞頻[4]。

(2)模型準確率。經(jīng)驗證,在一級校驗中使用“詞頻向量模型”判斷歸口部門的準確率為68.58%。

2.2 TF-IDF模型

上文中,三級校驗模型的準確度較低,經(jīng)測試,關鍵詞詞庫的變更對于模型準確性影響最大。人工構建關鍵詞詞庫較為主觀,需要采用更科學的文本分析技術,對詞的權重進行分配。本文依據(jù)向量空間模型TFIDF進行權重分析。

向量空間模型TF-IDF:評估一個單詞或字對于一個文檔集或一個語料庫中的其中一份文檔的重要程度。

定義:Tf-Idf(w)=Tf(w)*log(N/Df(w))。其中,Tf(w)是詞w在文檔中出現(xiàn)的次數(shù),Df(w)是文檔集中包含詞w的文檔數(shù)目,N代表文檔的總數(shù)。Tf-Idf(w)代表詞w對某個文檔的相對重要性。如果一個詞對于某個文檔越重要,那么它就越多地出現(xiàn)在該文檔中(Tf(w)值較大),并且越少地出現(xiàn)在其余的文檔中(Df(w)值較小)。

(1)模型理解。設置三個文檔,其中:

列1:由字母ABCG構成

列2:由字母ACEF構成

列3:由字母ABCEF構成

Tf(w)是詞w在文檔中出現(xiàn)的次數(shù),通過分詞及詞頻統(tǒng)計可以實現(xiàn)。

N代表文檔的總數(shù),N=3。

Df(w)是文檔集中包含詞w的文檔數(shù)目,取值范圍為1、2、3。

?

如圖,Df(w)=E2=1+C2+D2

其中,Df(w)=1時,log(N/Df(w))=0.477

如上圖所示,Tf-Idf(w)值成功過濾掉字母AC,字母G最重要,字母BEF的重要性僅由Tf(w)決定。

同理,將歸口部門為營銷、生產(chǎn)、基建的工單設置為三個文檔,可依據(jù)TF-IDF重新構建關鍵詞詞庫。分詞匯總后選擇詞頻大于2,即Tf(w)大于2的詞匯,將Df(w)=1的詞作為關鍵詞詞庫。

(2) 模型準確率。經(jīng)驗證,在一、二級校驗中使用“TF-IDF模型”判斷歸口部門的準確率分別為75.62%、81.83%。

2.3 機器學習模型

(1)建立訓練集與測試集。以80:20的比例,對數(shù)據(jù)建立訓練集和測試集,通過歸納思想推測相關結論。

(2)分類預測算法。

樸素貝葉斯:為名義型字段計算其所有值的記錄數(shù),為數(shù)值型字段計算高斯分布概率。

隨機森林:利用隨機的方式將許多決策樹組合成一個森林,每個決策樹在分類的時候投票決定測試樣本的最終類別。隨機森林同時訓練多個決策樹,模型的結果由多個決策樹基于投票策略決定[5]。

C4.5:在已知各種情況發(fā)生概率的基礎上,通過構成決策樹來求取凈現(xiàn)值的期望值大于等于零的概率,評價項目風險,判斷其可行性。

(3)模型準確率。經(jīng)驗證,C4.5模型對于測試值和訓練值的預測準確度達79.4%、78.6%,預測水平最優(yōu)。

2.4 模型組合及優(yōu)化

(1)模型組合。針對一、二、三級校驗的數(shù)據(jù)特點,結合不同模型的準確率,選取最優(yōu)組合構建三級校驗模型。其中,一級校驗因文本較短、數(shù)據(jù)信息不全,采用機器學習C4.5模型;二級校驗文本信息量充足,采用TF-IDF模型;三級校驗直接使用工單回復內(nèi)容判斷。

(2)模型優(yōu)化。對異常值進行統(tǒng)一分析,修正關鍵詞詞庫,提高“模糊邊界歸口部門”智能分類的準確率。

?

3 總結

重復訴求是生成客戶投訴的一個重要原因,人工逐宗進行歷史來電的篩選及分析效率低下,導致重復訴求管控難度大,投訴數(shù)居高不下。本文通過文本挖掘和機器學習算法確定歸口部門,重點解決了長文本分析效率低、機器識別并修剪噪聲詞困難、模糊邊界歸口部門判斷不精準的問題。通過建立三級校驗模型,實現(xiàn)了客戶重復訴求智能分析[6]。該應用可以實時查看客戶重復訴求的變化趨勢,把數(shù)據(jù)分析交給數(shù)據(jù)應用后臺,對敏感客戶及關聯(lián)事件升級風險提前預警,引起監(jiān)控人員的重視,將員工的精力投入解決實際問題當中,為基層減負增效。實時、準確的數(shù)據(jù)應用加快整體應急響應速度,提升客戶重復訴求管控工作成效,提高了客戶滿意度。

猜你喜歡
文本模型
一半模型
重要模型『一線三等角』
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
重尾非線性自回歸模型自加權M-估計的漸近分布
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
3D打印中的模型分割與打包
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
論《柳毅傳》對前代文本的繼承與轉化
人間(2015年20期)2016-01-04 12:47:10
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 国产传媒一区二区三区四区五区| 国产高清在线观看91精品| 国产精品视频猛进猛出| 日韩无码视频播放| 国产成人午夜福利免费无码r| 女人18毛片水真多国产| 啪啪啪亚洲无码| 男女猛烈无遮挡午夜视频| 亚洲国产理论片在线播放| 国产一区二区视频在线| 玖玖精品视频在线观看| 最新亚洲av女人的天堂| 91系列在线观看| 亚洲精品欧美日本中文字幕 | 欧美日韩中文国产va另类| 亚洲成人高清在线观看| 欧美激情第一欧美在线| 成人国产小视频| 欧美午夜在线播放| 色综合激情网| 激情无码字幕综合| 99免费视频观看| 日本不卡视频在线| 亚洲综合日韩精品| 92午夜福利影院一区二区三区| 亚洲男人的天堂网| 欧美劲爆第一页| 国产精品一区二区国产主播| 国产性生交xxxxx免费| 夜色爽爽影院18禁妓女影院| 91久久国产综合精品| 香蕉久人久人青草青草| 久久亚洲中文字幕精品一区| 欧美成人国产| 日韩无码视频网站| 中文字幕在线免费看| 免费人成视网站在线不卡| 狠狠亚洲五月天| 五月天在线网站| 2019年国产精品自拍不卡| 97se亚洲| 精品久久777| 久久国产高潮流白浆免费观看| 91毛片网| 亚洲激情99| 日本草草视频在线观看| 欧美成人免费一区在线播放| 日本91视频| 欧美成人午夜视频免看| 欧美一区二区三区香蕉视| 欧美97欧美综合色伦图| 曰韩人妻一区二区三区| 色噜噜在线观看| 99视频国产精品| 98精品全国免费观看视频| 亚洲天堂视频在线观看免费| 亚洲资源站av无码网址| 免费国产好深啊好涨好硬视频| 日韩精品毛片| 91黄视频在线观看| 99精品福利视频| 亚洲性一区| 亚洲第一在线播放| 国产91透明丝袜美腿在线| 天堂av高清一区二区三区| 日韩在线播放中文字幕| 亚洲国产精品日韩av专区| 精品免费在线视频| 国产精品漂亮美女在线观看| 国产99视频免费精品是看6| 在线网站18禁| 91久久偷偷做嫩草影院精品| 国产在线观看精品| 国产成人无码AV在线播放动漫| 成人午夜精品一级毛片| 全部无卡免费的毛片在线看| 亚洲va视频| 国产高清在线精品一区二区三区| 四虎永久免费在线| 午夜日b视频| 国产高清在线精品一区二区三区| 亚洲三级网站|