楊孟金 陳建
摘要:運營商對于用戶的投訴理解不全面, 無法準確地從投訴數據中獲取用戶的痛點和需求, 運營商迫切需要一個針對用戶投訴數據進行快速提取和分析的方法, 對用戶的需求進行靈活和高效的響應。
關鍵詞:數據挖掘;文本挖掘;投訴分析;運營商
1 運營商客戶投訴信息處理的難點
運營商現有的投訴跟蹤體系中, 用戶的投訴信息和數據可從多渠道獲取,如網上營業廳、掌上營業廳、呼叫中心、社交網絡等,并且主要以文本形式和錄音形式進行存儲, 運營商的客戶服務部門和客戶響應中心根據每月投訴類型節點的數量, 確定投訴分析的范圍,主要通過投訴工單、呼叫中心錄音重聽等抽樣調研的方式進行分析, 分析的準確性和全面性不足;另外,投訴錄音無法智能,而投訴文本記錄是以中文文本的方式進行存儲的, 均為非結構化信息,無法直接進行分析。
2 數據挖掘方法的思路與可行性
文本挖掘(Text Mining)是對自然語言文本中所包含的數據進行分析的一種數據挖掘方法, 文本挖掘技術本身由機器學習、語言學統計、自然語言處理等多種技術結合而成,應用在投訴分析中,可以快速、 高效地對中文文本進行自動化的處理和分析,主要思路介紹如下。
(1)投訴數據獲取
從投訴數據的來源看,除了錄音信息外,其他的投訴數據均為中文文本數據,網上營業廳、掌上營業廳和呼叫中心的投訴數據均存儲在運營商自建信息系統的數據庫中,社交網絡的投訴數據可以通過 API 抓取,數據的可獲得性較好。
(2)投訴數據預處理
中文文本挖掘的難點之一在于機器對中文自然語言的處理,中文語法的復雜性、多義性一直是制約中文文本挖掘技術發展的主要瓶頸之一。 隨著中文自然語言處理技術的不斷發展,出現了多個較為成熟的中文分詞開源項目,中文分詞的準確性和合理性得到了較好的保障。
(3)投訴數據處理
對經過預處理的投訴數據進行建模分析,如詞 頻 統 計、投 訴 聚 類 分 析、主題模型分析等一系列知識挖掘處理,自 動 化 地 處 理 投 訴 數 據 ,并 輸出 結 果。
(4)基于文本挖掘的對策與建議
根據投訴數據處理結果,確定用戶投訴的熱點與需求,將結果快速反饋給相關部門,對問題業務進行優化,提升用戶滿意度和客戶感知。從數據投訴分析的思路上看,現有的條件和技術已基本可以滿足客戶投訴分析的自動化和智能化分析要求,基于運營商現有的技術架構和投訴處理思路,本文設計了如下基于數據挖掘的客戶投訴分析流程,如圖 1 所示。
3 基于數據挖掘的客戶投訴分析
(1)投訴數據倉庫整合
從運營商現有的數據獲取情況看,用戶的投訴數據在多個業務系統中與官方運營的社交網絡賬戶中均可獲取,但是未經過整合。 可以通過數據接口,建立統一投訴數據倉庫的方法將各業務系統中和分散在 Web 側的投訴數據進行整合,全面監測用戶投訴情況。
(2)投訴數據預處理
統一存儲在投訴數據倉庫中的業務數據需要進行分析前的預處理,因為各個業務數據存儲的中文文本信息各有特點,存在部分干擾。
(3)投訴數據中文分詞
中文文本挖掘與英文文本挖掘的重要區別在于:英文單詞之間分割擁有天然優勢,單詞之間有空格分割,但是中文單詞無法直接進行分析。 隨著中文分詞技術的發展,現在已經有較為成熟的中文分詞工具,如中國科學院計算所的 ICTCLAS 商用分詞工具、 基于 Lucene 開源項目的 IKAnalyzer 等,分詞效果已經較好,支持細粒度和智能分詞等多種單詞切分模式。 此類分詞工具可便捷地對原文本進行過濾(標點符號、語氣詞、數字、字母等),提供用戶自定義詞庫和消去停用詞,便于應用行業詞典和投訴業務專用詞典。 行業詞典和投訴業務專用詞典需要對數據進行分析后自行建立。
(4)投訴分析
投訴分析使用經過分詞的投訴文本語料,比較常用的分析方法有詞頻統計、通過支持向量機進行機器識別最終實現投訴自動分類識別、利用主題模型進行文本挖掘。 比較成熟的工具有 Libsvm 工具包、 商業數據挖掘軟件 SPSS Modeler 的 text mining模塊、R 語言的 tm 文本挖掘工具包、Stanford 大學的 Text Mining Toolbox 工具等, 通過此類成熟的文本挖掘工具,對客戶投訴問題進行合理有效的分析和分類。
(5)結果輸出和策略建議
根據上述文本挖掘工具的分析, 可以快速獲取用戶熱點投訴關鍵詞、熱 點 投 訴 主 題 等 ,幫 助投訴分析人員快速定位業務投訴的問題所在,發現服務問題與短板,將發現的問題快速反饋給相應的業務部門和系統支撐部門, 及 時 解 決 問 題,提 升 用 戶 感 知,節省大量的投訴分析時間和人力成本。
4 結束語
基于數據挖掘提出了一個適合運營商進行快速投訴分析的方法,利用成熟的文本挖掘技術方法和文本挖掘工具, 開展投訴文本數據挖掘分析工作,可以對運營商各渠道的用戶投訴文本數據實現快速、科學、高效的分析處理,利用對投訴數據的挖掘結果提升用戶感知,提升客戶滿意度,降低用戶投訴量和投訴率, 建立投訴分析快速響應機制,減輕運營商的投訴分析壓力。
參考文獻:
[1]張文彤, 鐘云飛. IBM SPSS 數據分析與挖掘實戰案例精粹[M].北京: 清華大學出版社, 2013.
[2]黃昌 寧, 趙海. 中文分詞十年回顧[J]. 中 文 信 息 學 報, 2007,21(3):8-19.
[3]吳其葉. 科技查新的查準度和查全度與文獻檢索的查全率和查準率的差異[J]. 現代情報, 2003, 23(9):8-9.
(作者單位:南京擎天科技有限公司)