999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

文本挖掘技術在電力工單數據分析中的應用

2016-04-12 00:00:00鄒云峰何維民趙洪瑩程雅夢楊紅
現代電子技術 2016年17期

摘 要: 文本挖掘技術為文本分析提供了方法和技術支持,以文本挖掘中的文本分類技術為基礎,簡要介紹文本預處理、文本分類器模型構建的方法和過程,并以供電服務過程中客戶通過供電服務中心反映的熱點事件為實例,建立95598工單文本自動分類的模型,通過驗證實現95598工單文本快速精準的自動分類,及時準確地挖掘出隱藏的重要信息,并且為分析供電服務對客戶的用電訴求的影響提供依據和數據基礎。

關鍵詞: 95598工單; 文本挖掘; 文本分類; 自動分類; 用電訴求

中圖分類號: TN915?34; TM711 文獻標識碼: A 文章編號: 1004?373X(2016)17?0149?04

0 引 言

電力客戶服務呼叫中心(即95598業務)作為供電企業與電力客戶交流的窗口,不僅能夠為電力客戶提供優質便捷的服務,而且能直接客觀地反映客戶用電訴求[1]。目前對工單數據的分析,主要是數據分析人員依據坐席人員受理工單時勾選的業務類型,進行統計匯總實現工單的分類分析。該分類結果受坐席人員的主觀判斷影響大:一方面不能及時、客觀地反映散布在不同工單類型中的供電服務熱點事件;另一方面不能完整地反映用電客戶的真實訴求,更不能挖掘出客戶產生訴求的真實原因。因此在電力行業急需一種高效的文本數據挖掘方法對工單中隱藏的內容進行挖掘分析,并為電力營銷服務提供輔助決策。

文本挖掘作為一種有效信息挖掘和文本處理的技術,根據挖掘出的不同知識、模式劃分,可分為文本摘要、文本分類、文本聚類、關聯規則以及趨勢預測等不同類型。其中文本分類作為一種有效的電子文本分類方式,在信息過濾、信息檢索、文本數據庫和數字圖書館等領域得到了廣泛的應用和關注,為深層次的分析提供了技術支持和解決方案。本研究將文本分類技術應用到電力營銷領域,通過一系列的文本預處理技術以及文本分類的方法,對供電服務過程產生的工單信息進行挖掘分析,實現工單文本快速精準的自動分類,并及時準確地挖掘出隱藏的重要信息,為實現有效地分析供電服務對客戶的用電訴求的影響提供依據和數據基礎。

1 文本分類方法研究

文本分類是指將一篇文本歸類到已知的文本類別中,其主要包括文本預處理和分類器模型構建兩個過程,文本分類流程如圖1所示。

2 95598工單文本挖掘實證分析

本研究以江蘇省2013年1月—2015年8月所有工單為數據基礎,從工單受理內容出發進行挖掘分析,工單記錄數共計12 375 270條。

2.1 工單文本預處理

本次研究結合中文分詞研究方法,采用R語言程序對工單文本進行分詞,通過不斷地完善和加入詞庫來優化分詞的效果,最終分詞后得到52 186個詞匯,如表2所示。

將分詞結果經去除停用詞處理后,再進行特征降維。從本研究統計方法出發,結合電力行業特征,從詞性、詞頻、權重以及詞義與詞頻相結合等多方面進行特征選擇,部分特征詞匯如表3所示。

2.2 分類器模型構建

2.2.1 訓練集選取

在電力服務行業中,客戶通過工單反映出的用電問題多種多樣,為統一、準確、詳細地反映客戶的用電訴求,研究以供電服務過程中產生的熱點事件為對象進行研究,如“串戶”、“電表空走”、“表箱問題”等。

本文主要以“串戶”為例進行分析,隨機從全量工單中篩選出部分樣本工單,從受理內容上人工判定是否屬于疑似“串戶”,從判定結果中選出具有代表性疑似“串戶”工單和一定比例非“串戶”工單作為訓練集。

2.2.2 分類器模型確定

通過文本挖掘工具調用文本挖掘算法集中合適的文本挖掘算法,構建多個分類器模型,并對比分析不同分類器的分類效果,對比結果如圖2和表4所示。

由圖2的增益曲線可知,C5樹和SVM分類算法在40%的百分位時就能達到98%以上的增益,因此C5樹和SVM分類算法分類效果最佳;從表4來看,決策樹模型中的C5樹分類模型準確率最高,CR樹分類模型遺漏率最低,C5樹模型遺漏率次之。綜合多方面結果最終選定決策樹C5樹模型作為熱點事件“串戶”的分類器模型。

2.3 分類評估及結果

2.3.1 分類效果評估及調整

將待分類工單輸入C5樹分類器模型進行分類,從分類結果中隨機抽選1萬張工單進行效果評估,評估結果如表5所示。

從表5的分類結果檢驗來看,模型查全率達到92.2%,遺漏率7.8%,基本能識別出疑似“串戶”工單,且遺漏工單較少。但從模型查準率和準確率來看,分別為28.1%和75.2%,意味著該模型盡管能識別出“串戶”工單,但卻也將不屬于該熱點的工單判定為該熱點,因此需要對分類模型進行調整和改進。

模型調整主要從三個方面進行改進:第一,豐富同義詞庫和專業詞庫,使分詞結果更精準;第二,更精準地選定特征詞;第三,調整決策樹模型的深度和葉子節點樹。分類器模型調整后,結果評估見表6。

由表6可知,經過模型調整和改進后,準確率和查準率分別提高至91.6%,91.8%,遺漏率雖略有增高,但仍在業務可接受范圍內。通過驗證認為,調整后的分類器模型能從工單受理內容出發,較為精準地識別出熱點事件工單。

2.3.2 分類結果及應用

利用調整后的分類器模型對全量分類后,共識別出疑似“串戶”工單37 161張,工單業務類型情況如圖3,圖4所示。

從圖3和圖4呈現的結果來看,利用決策樹分類器模型進行文本分類時,可以忽略工單記錄過程中的多級業務類型層級,直接從工單的受理內容出發,識別和挖掘出隱藏在不同類型中的熱點事件疑似“串戶”工單。其中業務咨詢類工單共31 282張,占總疑似“串戶”工單的84.2%,投訴類工單占比5.6%,意見類工單占比6.4%。

以其中的投訴類工單為例進行分析,在原始的工單分類標準中,僅僅統計分析投訴以及投訴下多層子目錄,如服務行為、電能計量等,而用電客戶表達的實際問題往往會被忽略或者隱藏在目錄標題下得不到反映。同時在劃分業務類型時,常常會受坐席人員業務判斷能力以及管理政策的影響,從而使得分類結果更加背離客戶所反映的真實問題。經文本分類后,客戶表達的訴求和反映的問題可直接以熱點事件的形式及時、準確地被挖掘出來,而不受時間、政策以及業務類別準確性的影響。

此外,通過將熱點事件工單與相關的營銷業務活動匹配關聯,還可進一步挖掘出疑似“串戶”訴求的產生主要是由“表計輪換”以及“批量新裝”等業務引起。因此為減少該類問題的產生,則可從營銷服務活動環節出發找出改進方法和有效的解決措施。

3 結 論

本文研究在當前電力呼叫中心工單統計分析不全面的背景下,利用文本挖掘中文本分類的技術,以供電服務過程中客戶反映的熱點事件為例對呼叫中心95598工單進行挖掘分析,通過研究驗證認為:利用文本分類的挖掘方式能快速、高效地實現對工單自動、有效的分類;可從工單實際內容出發,及時、準確地找出隱藏在多種同業務類型中的熱點事件工單,從而減少人為參與辨別時的主觀影響。

此外,從分類后的工單中還能進一步挖掘出供電服務中對客戶產生用電訴求的影響:通過客戶訴求溯源反映出供電服務活動中存在的問題,為供電服務質量的分析提供依據;通過分析營銷業務與熱點事件工單之間的關系,為供電企業進行主動服務以及提升營銷業務管控水平提供指導建議;將分類后的熱點事件工單與營銷業務相關聯進行研究,可分析出不同營銷業務對客戶的滿意度或投訴率的影響情況,以此為營銷業務服務的風險大小以及風險的預警提供基礎。

參考文獻

[1] 吳剛.江蘇電力客戶服務系統研究[J].電力信息化,2004(2):49?53.

[2] 龍樹全,趙正華,唐華.中文分詞算法概述[J].電腦知識與技術,2009,5(10):2605?2607.

[3] 龐觀松,蔣盛益.文本自動分類技術研究綜述[J].情報理論與實踐,2012,35(2):123?128.

[4] 陸玉昌,魯明羽,李凡,等.向量空間法中單詞權重函數的分析和構造[J].計算機研究與發展,2002,39(10):1205?1210.

[5] 楊杰明.文本分類中文本表示模型和特征選擇算法研究[D].長春:吉林大學,2013.

[6] ZHANG W, YOSHIDA T, TANG X. A comparative study of TF* IDF, LSI and multi?words for text classification [J]. Expert systems with applications, 2011, 38(3): 2758?2765.

[7] 李榮陸.文本分類及其相關技術研究[D].上海:復旦大學,2005.

[8] 閆瑞,曹先彬,李凱.面向短文本的動態組合分類算法[J].電子學報,2009,37(5):1019?1024.

[9] 鄭霖,徐德華.基于改進TFIDF算法的文本分類研究[J].計算機與現代化,2014(9):6?9.

[10] 周茜,趙明生,扈旻.中文文本分類中的特征選擇研究[J].中文信息學報,2004,18(3):17?23.

[11] 趙世奇,張宇,劉挺,等.基于類別特征域的文本分類特征選擇方法[J].中文信息學報,2005,19(6):21?27.

[12] 徐燕,李錦濤.基于區分類別能力的高性能特征選擇方法[J].軟件學報,2008,19(1):82?89.

[13] YANG Y M, PEDERSON J O. A comparative study on feature selection in text categorization [C]// Proceedings of 1997 14th International Conference on Machine Learning. Nashville: Morgan Kaufmann, 1997: 412?420.

[14] 蔣良孝.樸素貝葉斯分類器及其改進算法研究[D].武漢:中國地質大學,2009.

[15] 張華鑫,龐建剛.基于SVM和KNN的文本分類研究[J].現代情報,2015,35(5):73?77.

[16] 季桂樹,陳沛玲,宋航.決策樹分類算法研究綜述[J].科技廣場,2007(1):9?12.

[17] 黃曉斌,趙超.文本挖掘在網絡輿情信息分析中的應用[J].情報科學,2009,27(1):94?99.

[18] 胡龍茂.中文文本分類技術比較研究[J].安慶師范學院學報(自然科學版),2015,21(2):49?53.

[19] 何國輝,吳禮發.基于機器學習的文本分類技術的研究[J].計算機與現代化,2009(8):4?6.

[20] 蒲筱哥.自動文本分類方法研究述評[J].情報科學,2008,26(3):469?475.

[21] 石志偉,劉濤,吳功宜.一種快速高效的文本分類方法[J].計算機工程與應用,2005(29):180?183.

[22] 張征杰,王自強.文本分類及算法綜述[J].電腦知識與技術,2012(4):825?828.

[23] 蘇金樹,張博鋒,徐昕.基于機器學習的文本分類技術研究進展[J].軟件學報,2006(9):1848?1859.

主站蜘蛛池模板: 91久久偷偷做嫩草影院| 永久免费精品视频| 五月天香蕉视频国产亚| 999在线免费视频| 国产在线视频欧美亚综合| 玖玖精品视频在线观看| 91视频青青草| 亚洲色图欧美| 国产午夜一级毛片| 日本a级免费| 精品国产欧美精品v| 久久久久亚洲精品成人网 | 欧美激情视频一区| 中文字幕无码av专区久久| av一区二区三区高清久久| 乱人伦视频中文字幕在线| 狠狠v日韩v欧美v| 免费国产高清精品一区在线| 国产毛片不卡| 亚洲中文字幕在线观看| 久久情精品国产品免费| 四虎永久在线精品国产免费| 无码综合天天久久综合网| 亚洲欧美另类视频| 91一级片| 中文字幕天无码久久精品视频免费 | 国产精品专区第1页| 欧美成人免费午夜全| 91毛片网| 日韩在线观看网站| 欧美性久久久久| 97精品久久久大香线焦| 国产日韩欧美成人| 日韩欧美国产中文| 亚洲黄色成人| 在线欧美日韩国产| 黄色片中文字幕| 日本精品αv中文字幕| 素人激情视频福利| 日韩经典精品无码一区二区| 国产欧美日韩在线一区| 91视频区| 欧美在线一级片| 国产精品天干天干在线观看| 国产精品lululu在线观看| 国产成人综合网在线观看| 中文字幕丝袜一区二区| 亚洲乱强伦| 中国特黄美女一级视频| 亚洲午夜国产精品无卡| 日本亚洲成高清一区二区三区| 99精品欧美一区| 全部无卡免费的毛片在线看| 麻豆精选在线| 国产在线98福利播放视频免费| 国产18在线| 免费jjzz在在线播放国产| 中文字幕调教一区二区视频| 久久激情影院| 久久香蕉国产线看精品| www亚洲天堂| 成人午夜免费观看| 欧美视频在线观看第一页| 人妻少妇乱子伦精品无码专区毛片| av在线手机播放| 色妞永久免费视频| 日本一本在线视频| 91色爱欧美精品www| 国产在线自乱拍播放| 91国内在线观看| 亚洲精品第五页| 无遮挡国产高潮视频免费观看| 国产99欧美精品久久精品久久| 久久国产V一级毛多内射| 国产第一色| 亚洲欧美人成人让影院| 青青青视频蜜桃一区二区| 日韩毛片免费| 青青草国产免费国产| 国产真实自在自线免费精品| 99精品福利视频| 91麻豆精品国产高清在线|