999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于文本挖掘的投訴熱點智能分類

2013-10-23 09:56:08夏海峰陳軍華
關鍵詞:數據挖掘分類文本

夏海峰,陳軍華

(上海師范大學信息與機電工程學院,上海200234)

手機通話、短信、網絡GPRS等服務作為電信行業的基本服務,時刻與用戶緊密聯系著,提高服務質量任重而道遠.首先從管理流程上來講,目前客戶投訴分析面臨很多挑戰:投訴內容難分析.信息量大、非結構化,文本內容難分析,需要人工逐條查閱,工作繁瑣且效率低下;投訴點多難聚焦.倉庫管理系統(WMS)中對投訴分類固定粗放投訴散點多,投訴管理人員無法對投訴進行統一歸類集中分析,只能逐條分析.優化抓手難獲取.對投訴原因分析少,無法及時了解客戶對服務和產品的不滿意原因,造成對產品服務優化工作抓手獲取難等.這些問題都影響了客戶投訴分析的質量.

為了解決這些問題,引入文本挖掘的理念和方法,探索了一套基于投訴文本的數據挖掘模型,提出了投訴熱點智能分類的概念,在原有的導航分類的基礎上,利用投訴文本數據,根據文本挖掘[1]的相關概念,采用SVM算法[2]、統計學知識,最終創建投訴導航樹.因為投訴分類種類過多,分詞部分以“費用”相關投訴文本為例,進行相應的研究工作.

1 相關概念

文本數據挖掘(Text Mining)[3]是指從文本數據中抽取有價值的信息和知識的計算機處理技術.顧名思義,文本數據挖掘是從文本中進行數據挖掘(Data Mining).從這個意義上講,文本數據挖掘是數據挖掘的一個分支.文本數據挖掘是一個邊緣學科,由機器學習、數理統計、自然語言處理等多種學科交叉形成.文本挖掘的關鍵技術主要包括以下幾點:

(1)信息抽?。畔⒊槿∈菑淖匀徽Z言文本中抽取預先指定的實體、關系、事件等信息,形成結構化的數據并填入數據庫的過程.信息抽取常用于改善信息檢索,幫助用戶直接定位所需的信息,無需閱讀文檔的全部內容.

(2)文本分類.文本分類是利用計算機對文本集(或其他實體或物件)按照預先定義的分類體系或標準進行自動分類標記.文本分類是采用基于主題對文檔按主題進行自動歸類.投訴熱點模型是基于主題的應用.

(3)文本聚類.文本聚類是基于“同類的文檔相似度較大,而不同類的文檔相似度較小”理論,假設對文檔集合進行有效地組織、摘要和導航,方便人們從文檔集中發現相關的信息.

(4)關聯規則.關聯規則是描述一個事物中某些屬性同時出現的規律和模式.它的核心是將各種信息載體中的共現信息定量化的分析方法,以揭示信息的內容關聯和特征項所隱含的寓意,藉此可以發現研究對象之間的親疏關系,挖掘隱含的或潛在的有用的信息.

2 基于文本挖掘的文本分類過程和關鍵技術

2.1 投訴熱點智能分類整體流程

選取最近1000條投訴分類文本作為模型的基礎,按順序進行3個階段(圖1)的操作:預處理階段、文本表達階段、知識挖掘階段,經過這3個階段的處理之后,形成最終的導航參考分類模型.

圖1 投訴監控熱點智能分類操作流程圖

2.2 文本預處理

文本預處理的文檔來源于客戶投訴文本內容.投訴文本內容是典型的非結構化或半結構化的數據,缺乏關系數據庫中數據的結構化和組織性.因此,要對原始文檔進行預處理,使其轉化為較為規整且能反應文檔內容的特征表示.做簡單的文檔說明:(a)整理已有的投訴文本內容;(b)提取投訴原因的分類;(c)信息訓練集和測試集;(d)進行特征選取,信息待分類投訴文本.

2.3 文本表達

文本表達的過程主要是對預處理出來的文檔進行詞法的分割、劃分,最終提取出關鍵詞字段,具體的過程主要包含以下4個方面:

2.3.1 中文分詞

中文分詞指的是將一個漢字序列切分成一個一個單獨的詞.中文分詞是文本挖掘的基礎,其處理過程就是分詞算法,對于輸入的一段中文,進過分詞之后,能夠達到被電腦自動識別語義的效果.在中文分詞階段,作者采用的是中國科學技術研究所研制的漢語詞法分析系統(ICTCLAS)[4],具體的操作由以下幾個部分構成:

(a)詞典配置.配置用戶字典文件userdict.txt和系統配置文件Configure.xml.

(b)結果驗證.通過分割一段文字,來實際檢驗效果.“用戶來電反映,之前通過上海市世紀聯華服務充值50元,但現用戶發現未到賬 .”,最后可劃分為:“用戶/來電/反映,之前/通過/上海市/世紀聯華/服務/充值/50元,但/現用戶/發現/未到賬”.

(c)模型演練.通過對1000條投訴文本的演練,將經過分詞處理的文本,進行統計、匯總.去除其中部分特殊”高頻“,主要包括常見的結構助詞等等;同時去除詞頻很小的一些劃分詞.通過以上方法獲得了2000多個關鍵詞,再通過人工的干預,將具有相同意義的詞語進行組合、合并,最終得到了897個的關鍵詞.

2.3.2 權重賦值

TF-IDF(term frequency-inverse document frequency)[5-7]是一種用于信息搜索和信息挖掘的常用加權技術.TF-IDF的主要思想是:如果某個詞或短語在一篇文章中出現的頻率TF高,并且在其他文章中很少出現,則認為此詞或者短語具有很好的類別區分能力,適合用來分類.TF詞頻(Term Frequency)指的是某一個給定的詞語在該文件中出現的次數.IDF反文檔頻率(Inverse Document Frequency)的主要思想是:如果包含詞條的文檔越少,IDF越大,則說明詞條具有很好的類別區分能力.

(a)計算詞頻.通過對897個關鍵詞的詞頻的統計(公式1).

得到了每個關鍵詞的TF值(如圖2),TF值越大的話,也就說明了該詞在文本中出現的次數越多,也就意味著該詞更加能代表文本所要表達的意思.

圖2 關鍵詞對應TF的值

(b)計算逆文檔頻率.選取1000條投訴文本的記錄內容作為語料庫(corpus),來模擬出語言的使用環境,采用如下公式進行計算(公式2):

如果1個詞語越常見,那么分母就越大,逆文檔頻率就越小越接近0.通過對897個關鍵詞的詞頻的統計(圖3),計算出對應的IDF的值作為統計的依據.

(c)計算TF-IDF.TF-IDF與一個詞在文檔中的出現次數成正比,與該詞在整個語言中的出現次數成反比(公式3).所以,自動提取關鍵詞的算法就是計算出文檔的每個詞的TF-IDF值,然后按降序排列,取排在最前面的幾個詞(圖4).

圖3 關鍵詞對應的IDF的值

圖4 關鍵詞對應的TF-IDF的值

2.3.3 特征選取

根據生成的TF-IDF排列倒序表,用盡可能少的詞語表示文本,要求盡可能減少語義丟失,能夠將不同語義的文本區分開來.從訓練集中初步梳理出各類別對應的特征詞,合并同義詞.通過訓練模型,測試集測試結果,調整特征詞.在調整的過程中主要注意以下兩點:(a)消除沒有區分度的特征詞;(b)調整容易混淆的類.

最終給每個特定的類別定義其關鍵字,來加以區分(表1).

表1 不同類別的區分

2.4 知識挖掘

知識挖掘的過程主要進行的是對分詞出來的結果進行分類,形成具有區分度的不同投訴類別.

2.4.1 LIBSVM 模型訓練

LIBSVM[8]是臺灣大學林智仁副教授等開發設計的一個簡單、易于使用和快速有效的SVM模式識別與回歸的軟件包.利用開源分類工具-LIBSVM,核函數采用RBF函數進行模型訓練,最后訓練得到的模型文件*.range、*.model文件,并且創建類別代碼維表(表2),由于篇幅問題,只取其中的2條分類路徑加以說明.

表2 類別代碼維表

2.4.2 對新增投訴文本進行權值賦值和特征表示

新增的投訴文本(格式:投訴編號-投訴內容)進行相應的分詞、權值賦值特征表示之后,輸入到LIBSVM軟件之中進行比對,進行模型的預測和類別的輸出(表3).

表3 測試文本輸出結果

2.4.3 預測類別與文本對應

將類別編碼維表和測試文本輸出結果表按照預測結果進行對應,將測試投訴文本對應到3層投訴類別(表4).

表4 測試文本分類結果

3 實驗結果檢測與分析

3.1 評估指標選擇

目前有多種方法來評估文本挖掘,下面列出幾種比較公認的評估方法和指標(表5).

表5 檢測指標

分類正確率主要針對分詞技術,投訴熱點智能分類采用的是目前普及率和好評率較高的開源分詞系統,因此不考慮分類正確率指標.同時,投訴熱點模型主要創造并演進了分類算法,在分類算法中不考慮查全率指標(查全率默認為100%),因此模型的評估主要采用了查準率的指標(公式4).

Pi為正確分類的導航量,Bi為錯誤分類的導航量.

3.2 統計結果

采用本文作者所闡述的方法對不同類型的投訴文本進行處理,形成的三級導航路徑,將其與人工分類導航進行比對,進行準確率的統計(表6).

表6 準確率統計

4 結語

投訴熱點智能監控模型主要應用了文本挖掘中的兩類核心技術:文本分詞技術和分類技術.通過文本挖掘技術,以達到將投訴文本智能分類的目的.通過一個類型的投訴導航文本的計算,已完成模型的生成,又隨機取出幾個投訴文本來進行檢測,說明了該方法的有效性,最后統計出了不同類型分類下的準備率.

常見的分類方法包括:最鄰近分類(KNN)、特征選擇方法、貝葉斯分類、支持向量機(SVM)和基于關聯的分類.著重講述了基于SVM的文本分類的方法,在后期的實踐過程中,將綜合其余的幾種常見文本分類方法進行相關性的研究,不斷地優化當前設計模型,以達到更好的分類效果.

[1]范明,孟小峰.數據挖掘概念與技術[M].北京:機械工業出版社,2001.

[2]方輝,王倩.支持向量機的算法研究[J].長春師范大學學報:自然科學版,2007,26(3):90-91.

[3]王興起,王維才,謝宗曉等.文本挖掘技術在信息安全風險評估系統中的應用研究[J].情報理論與實踐,2013,36(4):107-110.

[4]夏天,樊孝忠.利用JNI實現 ICTCLAS系統的Java調用[J].計算機應用,2004,24(2):178-182.

[5]徐鳳亞,羅振聲.文本自動分類中特征權重算法的改進研究[J].計算機工程與應用,2005,41(1):181-184.

[6]景麗萍,黃厚寬,石洪波.用于文本挖掘的特征選擇方法TF-IDF及其改進[J].廣西師范大學學報:自然科學版,2003,21(1):142 -146.

[7]盧中寧,張保威.一種基于改進TF-IDF函數的文本分類方法[J].河南師范大學學報:自然科學版,2012,40(6):158-160.

[8]吳其葉.科技查新的查準度和查全度與文獻檢索的查全率和查準率的差異[J].現代情報,2003,23(9):8-9.

[9]朱培根,梅衛江,石秀鋒等.基于LIBSVM代用燃料有效功率增量預測方法的研究[J].石河子大學學報:自然科學版,2012,30(5):657 -660.

猜你喜歡
數據挖掘分類文本
分類算一算
探討人工智能與數據挖掘發展趨勢
在808DA上文本顯示的改善
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
一種基于Hadoop的大數據挖掘云服務及應用
主站蜘蛛池模板: 一区二区三区毛片无码| 欧美v在线| 国产免费人成视频网| 毛片网站免费在线观看| 欧美一级在线| 国产在线八区| 国产一国产一有一级毛片视频| 少妇露出福利视频| 91精品专区国产盗摄| 特级精品毛片免费观看| 久久久久久久久18禁秘 | 真人高潮娇喘嗯啊在线观看| 久久 午夜福利 张柏芝| 亚洲国产AV无码综合原创| 国产又爽又黄无遮挡免费观看| 日日拍夜夜操| 国产人妖视频一区在线观看| 福利在线不卡| 2020国产精品视频| 精品国产福利在线| 国产在线一区视频| 超碰色了色| 成人国产精品视频频| 婷婷伊人五月| 免费一极毛片| 青青青国产精品国产精品美女| 九色视频一区| 色综合中文字幕| 国产亚洲欧美在线视频| 亚洲欧洲自拍拍偷午夜色无码| 992tv国产人成在线观看| 欧美日韩国产精品综合| 亚洲一区色| 不卡无码网| 亚洲精品无码日韩国产不卡| 高清无码手机在线观看| 欧美成人aⅴ| 国产亚洲高清视频| 亚洲av色吊丝无码| 国模视频一区二区| 久久久久国产精品熟女影院| 日韩毛片在线视频| 在线观看精品国产入口| 国产免费网址| 国产极品美女在线| 啦啦啦网站在线观看a毛片| 日本手机在线视频| 999国内精品视频免费| 国产成人精品男人的天堂| 国产99视频精品免费视频7| 亚洲aaa视频| 丰满的熟女一区二区三区l| 天堂网亚洲系列亚洲系列| 日韩天堂视频| 亚洲国语自产一区第二页| 日韩午夜福利在线观看| 欧美成人精品在线| 久久这里只精品国产99热8| 区国产精品搜索视频| 97免费在线观看视频| 国产精品短篇二区| 婷婷综合缴情亚洲五月伊| 亚洲免费人成影院| 国产簧片免费在线播放| 亚洲第一天堂无码专区| 2020国产免费久久精品99| 少妇精品在线| 91九色最新地址| 欧洲高清无码在线| 精品欧美日韩国产日漫一区不卡| 91精品久久久无码中文字幕vr| 视频二区欧美| 国产精品欧美在线观看| 亚洲国产清纯| 亚洲天堂视频在线观看| 熟女日韩精品2区| 色哟哟国产精品一区二区| 看av免费毛片手机播放| 国产乱人伦精品一区二区| 亚洲女同欧美在线| 久久久久青草大香线综合精品| 伊人五月丁香综合AⅤ|