李 顥,張吉皓
(1.上海郵電設計咨詢研究院有限公司,上海 200092;2.中國電信集團公司客服運營支撐中心,上海 200040)
在日常生產經營中,運營商每天都能獲取幾百TB的各類數據。這些數據日積月累,形成了一座巨大的“數據寶庫”。借助傳統的數據挖掘技術和工具,已經可以實現針對結構化數據的挖掘和分析,為生產經營活動提供準確、實時、有效的技術支持(如市場預測、業務預警、精準營銷等)。而針對非結構化數據(如投訴內容等文本、圖片等)的大量分析仍需要依靠人工配合開展,此外還缺少有效的方法和工具,從而容易造成大量數據沉淀在各個平臺和系統中的狀況,數據價值難以得到體現。在這種背景下,利用文本挖掘技術,充分挖掘出文本內容等非結構化數據背后所蘊含的信息,將有助于發揮出數據的價值,從而更好地服務于日常工作。
基于海量的客戶投訴工單,借助大數據工具構建基于非結構化數據的文本分類模型,可實現投訴文本的自動分類應用。此外,利用熱詞可進一步挖掘投訴工單中具有普遍性,且客戶關注度高的熱點問題,及時獲知用戶對產品、業務和服務的感知,提煉體驗主題。

表1 常見的開源文本分類工具
文本挖掘是對于非結構化數據進行處理、分析及應用的技術的統稱。一般來說,首先利用文本切分技術,抽取文本特征,將文本數據轉化為能描述文本內容的結構化數據,然后利用聚類、分類和關聯分析等數據挖掘技術,形成結構化文本,并根據該結構發現新的概念,獲取相應的關系。目前在新聞媒體、電子商務等領域,文本挖掘技術已得到了廣泛的應用[1]。
隨著技術的發展,市面上出現了眾多文本分類工具,常見的開源文本分類工具如表1所示。
本文將結合運營商的投訴工單,進行文本自動分類模型的構建以及應用探索。
總體而言,此次文本分類應用的實施路徑分為標簽設計、模型構建以及實例應用3個階段,如圖1所示。

圖1 文本挖掘及分類應用總體實施路徑
首先基于客戶生命周期以及服務質量差距模型設計投訴分類標簽,然后將投訴工單樣本打上相應的標簽,形成模型構建所需的訓練樣本集,通過多次迭代優化,完成分類模型的構建。(注:文中涉及建模所用到的投訴工單為某運營商的“寬帶服務”投訴工單,投訴工單量為5 757條,其中訓練樣本4 665條,測試樣本1 092條。基于多次文本挖掘項目經驗,為保證模型分類效果,每個分類的最小訓練樣本量為200個,此次文本挖掘對訓練樣本量進行了適度擴展)
后期將該模型部署上線,可用以輔助投訴工單的分析和體驗主題的輸出。
投訴標簽設計是為了便于后期分析,重新定義投訴原因的過程。從寬帶服務的了解、購買、交付、使用、付費、求助和終止七大服務環節入手,聚焦用戶感知與感知期望的差距,提煉并重新設計了12項分類標簽,具體如表2所示。寬帶服務分類標簽定義如表3所示。
(1)分類算法選擇
選擇樸素貝葉斯算法來實現對于給定投訴工單的分類。樸素貝葉斯算法具有算法簡單、分類速度快、開發難度小、適應性強等特點,用通俗的語言可解釋為:
1)對于一條待分類的投訴工單x,對其進行分詞,假設該投訴工單有300個字,可分拆成100個分詞。
2)標簽體系的集合包含多個分類標簽,本文中體驗分類標簽有12項,則分類標簽為y1,y2,…,y12。
3)投訴工單內每個分詞對應這12項體驗分類標簽各有一個概率,其概率即為分詞的特征屬性。將投訴工單所包含的100個分詞對應于某一個分類標簽y1的概率加總,得到投訴工單x對應于該分類標簽y1的概率P(y1|x)。同理可以得到P(y2|x),…,P(y12|x)。
4)選擇概率值最大的P所對應的那個標簽y作為投訴工單所屬的分類標簽。
在實際應用的過程中,通常用TF-IDF(Term Frequency-inverse Document Frequency,詞頻-逆文檔頻率)權重來代表分詞對分類的貢獻度,近似地替代分詞的分類概率[2-3]。
(2)分類模型構建
基于寬帶投訴工單,通過選定的樸素貝葉斯算法構建分類模型,最終實現給定投訴工單的自動分類。整個模型構建分為模型訓練以及測試兩個步驟:

表2 寬帶服務分類標簽
首先,通過人工識別的方式,根據設定的標簽體系分類,給2 545個投訴工單樣本打上體驗標簽,形成訓練集。運用textgrocery軟件,對訓練文本進行中文分詞和文本預處理,然后基于樸素貝葉斯算法自動計算特征向量和分類貢獻度(TF-IDF值),最終輸出形成分類規則表。則得到共約64萬條規則(53 297分詞×12分類×1個TF-IDF值=639 564條規則),模型的初步構建完成[4]。模型訓練流程如圖2所示,分類規則示意如表4所示。
其次,將1 092條投訴工單的測試集(測試樣本量與訓練樣本量之比一般在1:3到1:4之間,此次文本挖掘采用的測訓比為1:4)導入模型,將模型分類結果與人工分類結果進行比對,初建模型的準確率為49%。

表3 寬帶服務分類標簽的詳細定義

圖2 模型訓練流程
影響模型準確率的因素主要有3類:體驗標簽的質量、訓練樣本的質量和待預測文本的質量。
◆體驗標簽的質量:包括完整性、獨立性和復雜性3個維度。
完整性:標簽是否覆蓋所有的文本,完整性越好,模型分類越準確;
獨立性:分類之間語義邏輯不交叉,獨立性越好,模型分類越準確;
復雜性:分類是否復雜,分類越簡單,模型分類越準確。
◆訓練樣本的質量:包括準確性、規模性、完整性和平衡性4個維度。
準確性:人工訓練樣本分類越準確,模型分類越準確;
規模性:各分類的訓練樣本數量越多,模型分類越準確;
完整性:訓練的文本是完整的文本,不存在文本截斷現象,導致語義邏輯缺失;
平衡性:各分類的樣本量越均衡,模型分類越準確。
◆待預測文本的質量:主要指差異性。
差異性:待預測文本與訓練樣本的分詞差異越小,模型分類越準確。
為了進一步提升模型自動分類的準確性,采取了調整分類體系、擴充分類樣本、增加停用詞以及調整底層算法等方法。其中調整分類體系是為了保證體驗標簽的獨立性,從而提升體驗標簽的質量。擴充分類樣本是為了增加訓練樣本的規模,從而提升訓練樣本的質量。增加停用詞庫是通過減少無意義的分詞,從而提升訓練樣本的質量,以減少對模型的干擾。調整底層算法是通過在原有分類之上增加分類層級,從而使得大類與大類之間、小類與小類之間的樣本量更加均衡,從而提升訓練樣本的質量。
經過8次不同方面的調整優化,最終使模型準確率達到61%(具體調優過程如表5所示),但相較于其他文本挖掘模型,還有一定的提升空間[5-7]。
在此基礎上,還自主開發了文本挖掘應用工具,該工具目前已支持通過賬號遠程登錄網頁界面進行操作,可用于輔助投訴工單分析和體驗主題輸出。
(1)輔助投訴工單分析
通過分類模型輸出給定分類下的投訴工單數量統計,如表6所示。一方面,可有效減少人工投入,另一方面實現了對分服務環節進行月度投訴量的監控。同時,在發現數據異常后,還可以通過分析該分類下的關鍵詞,快速定位投訴原因。
(2)體驗主題輸出
根據分類標簽和熱點關鍵詞的變化趨勢發現新增投訴、異常投訴和高比例投訴,從而確定體驗主題,具體操作步驟如圖3所示。
本文結合現有的大數據以及語義分析技術,明確了總體實施路徑,通過設計分類標簽,探索并構建了文本挖掘模型,初步實現了基于客戶投訴工單中的非結構化數據文本的自動分類應用。
但在對投訴工單進行挖掘的過程中,仍有一些問題值得研究和探討,具體如下:
(1)現有模型的準確率仍有提升的空間
現有模型準確率為61%,仍具有一定的提升空間。可以在樣本、工具和算法3個方面對模型進行優化。具體來說,在樣本優化方面,增加某一分類下的訓練樣本的數量,進而提升模型對于這類分類下的文本識別能力,進而幫助提升整體的模型準確率。在工具優化方面,可以在textgrocery基礎上繼續進行二次開發[8]。在算法優化方面,可以嘗試其他分類算法,如支持向量機(Support Vector Machine)算法應用于文本挖掘等[9]。
(2)模型具有快速復制的優勢
現有模型所涉及的分類算法以及原理對于非結構化(文本)數據的自動分類具備一定的通用性,因此可以通過重新定義分類標準,制作訓練及測試樣本集,快速實現對于某一特定分類標準下的文本自動分
類。這將有助于最大程度地發揮出模型效能,為企業的提質增效提供有力的工具支撐,這是企業在人工智能落地應用的一次探索。

表6 2016年投訴工單自動分類結果
(3)基于客戶投訴的文本挖掘應用可以進一步優化
目前,自主開發的文本挖掘應用功能相對單一,后續可將文本聚類、實體識別、情感識別等功能補充到現有的文本挖掘應用中,屆時應用范圍將擴展到輿情分析[10-11]、熱點話題識別、自動摘要和趨勢分析方面;同時,充分利用數據可視化技術,將文本分析結果通過標簽云、關聯關系、時間序列的形式進行呈現[12],提高將文本數據轉化為價值的效率,更好地支撐企業運營。

圖3 體驗主題輸出流程
[1] 王國平,郭偉宸,汪若君. IBM SPSS Modeler數據與文本挖掘實戰[M]. 北京: 清華大學出版社, 2014.
[2] 李丹. 基于樸素貝葉斯方法的中文文本分類研究[D]. 保定: 河北大學, 2011.
[3] 華秀麗,朱巧明,李培峰. 語義分析與詞頻統計相結合的中文文本相似度量方法研究[J]. 計算機應用研究,2012,29(3): 833-836.
[4] 劉懷亮,杜坤,秦春秀. 基于知網語義相似度的中文文本分類研究[J]. 現代圖書情報技術, 2015,31(2): 39-44.
[5] 張鍵鋒,王勁. 基于文本挖掘與神經網絡的音樂風格分類建模方法[J]. 電信科學, 2015,31(7): 80-85.
[6] 葉明. 智能手機電子取證中文本分析的研究[D]. 武漢:武漢郵電科學研究院, 2014.
[7] 彭杰,石永革,高勝保. 基于對話內容的交互型文本會話主題挖掘[J].電信科學, 2016,32(9): 139-145.
[8] 張雯雯,許鑫. 文本挖掘工具述評[J]. 圖書情報工作, 2012,56(8): 26-31.
[9] 崔建明,劉建明,廖周宇. 基于SVM算法的文本分類技術研究[J]. 計算機仿真, 2013,30(2): 299-302.
[10] 黃曉斌,趙超. 文本挖掘在網絡輿情信息分析中的應用[J]. 情報科學, 2009,27(1): 94-99.
[11] 琚春華,鮑福光,戴俊彥. 一種融入公眾情感投入分析的微博話題發現與細分方法[J]. 電信科學, 2016,32(7): 97-105.
[12] 袁海,陳康,陶彩霞,等. 基于中文文本的可視化技術研究[J]. 電信科學, 2014,30(4): 114-122. ★