楊孟金 陳建
摘要:運(yùn)營商對于用戶的投訴理解不全面, 無法準(zhǔn)確地從投訴數(shù)據(jù)中獲取用戶的痛點(diǎn)和需求, 運(yùn)營商迫切需要一個(gè)針對用戶投訴數(shù)據(jù)進(jìn)行快速提取和分析的方法, 對用戶的需求進(jìn)行靈活和高效的響應(yīng)。
關(guān)鍵詞:數(shù)據(jù)挖掘;文本挖掘;投訴分析;運(yùn)營商
1 運(yùn)營商客戶投訴信息處理的難點(diǎn)
運(yùn)營商現(xiàn)有的投訴跟蹤體系中, 用戶的投訴信息和數(shù)據(jù)可從多渠道獲取,如網(wǎng)上營業(yè)廳、掌上營業(yè)廳、呼叫中心、社交網(wǎng)絡(luò)等,并且主要以文本形式和錄音形式進(jìn)行存儲(chǔ), 運(yùn)營商的客戶服務(wù)部門和客戶響應(yīng)中心根據(jù)每月投訴類型節(jié)點(diǎn)的數(shù)量, 確定投訴分析的范圍,主要通過投訴工單、呼叫中心錄音重聽等抽樣調(diào)研的方式進(jìn)行分析, 分析的準(zhǔn)確性和全面性不足;另外,投訴錄音無法智能,而投訴文本記錄是以中文文本的方式進(jìn)行存儲(chǔ)的, 均為非結(jié)構(gòu)化信息,無法直接進(jìn)行分析。
2 數(shù)據(jù)挖掘方法的思路與可行性
文本挖掘(Text Mining)是對自然語言文本中所包含的數(shù)據(jù)進(jìn)行分析的一種數(shù)據(jù)挖掘方法, 文本挖掘技術(shù)本身由機(jī)器學(xué)習(xí)、語言學(xué)統(tǒng)計(jì)、自然語言處理等多種技術(shù)結(jié)合而成,應(yīng)用在投訴分析中,可以快速、 高效地對中文文本進(jìn)行自動(dòng)化的處理和分析,主要思路介紹如下。
(1)投訴數(shù)據(jù)獲取
從投訴數(shù)據(jù)的來源看,除了錄音信息外,其他的投訴數(shù)據(jù)均為中文文本數(shù)據(jù),網(wǎng)上營業(yè)廳、掌上營業(yè)廳和呼叫中心的投訴數(shù)據(jù)均存儲(chǔ)在運(yùn)營商自建信息系統(tǒng)的數(shù)據(jù)庫中,社交網(wǎng)絡(luò)的投訴數(shù)據(jù)可以通過 API 抓取,數(shù)據(jù)的可獲得性較好。
(2)投訴數(shù)據(jù)預(yù)處理
中文文本挖掘的難點(diǎn)之一在于機(jī)器對中文自然語言的處理,中文語法的復(fù)雜性、多義性一直是制約中文文本挖掘技術(shù)發(fā)展的主要瓶頸之一。 隨著中文自然語言處理技術(shù)的不斷發(fā)展,出現(xiàn)了多個(gè)較為成熟的中文分詞開源項(xiàng)目,中文分詞的準(zhǔn)確性和合理性得到了較好的保障。
(3)投訴數(shù)據(jù)處理
對經(jīng)過預(yù)處理的投訴數(shù)據(jù)進(jìn)行建模分析,如詞 頻 統(tǒng) 計(jì)、投 訴 聚 類 分 析、主題模型分析等一系列知識(shí)挖掘處理,自 動(dòng) 化 地 處 理 投 訴 數(shù) 據(jù) ,并 輸出 結(jié) 果。
(4)基于文本挖掘的對策與建議
根據(jù)投訴數(shù)據(jù)處理結(jié)果,確定用戶投訴的熱點(diǎn)與需求,將結(jié)果快速反饋給相關(guān)部門,對問題業(yè)務(wù)進(jìn)行優(yōu)化,提升用戶滿意度和客戶感知。從數(shù)據(jù)投訴分析的思路上看,現(xiàn)有的條件和技術(shù)已基本可以滿足客戶投訴分析的自動(dòng)化和智能化分析要求,基于運(yùn)營商現(xiàn)有的技術(shù)架構(gòu)和投訴處理思路,本文設(shè)計(jì)了如下基于數(shù)據(jù)挖掘的客戶投訴分析流程,如圖 1 所示。
3 基于數(shù)據(jù)挖掘的客戶投訴分析
(1)投訴數(shù)據(jù)倉庫整合
從運(yùn)營商現(xiàn)有的數(shù)據(jù)獲取情況看,用戶的投訴數(shù)據(jù)在多個(gè)業(yè)務(wù)系統(tǒng)中與官方運(yùn)營的社交網(wǎng)絡(luò)賬戶中均可獲取,但是未經(jīng)過整合。 可以通過數(shù)據(jù)接口,建立統(tǒng)一投訴數(shù)據(jù)倉庫的方法將各業(yè)務(wù)系統(tǒng)中和分散在 Web 側(cè)的投訴數(shù)據(jù)進(jìn)行整合,全面監(jiān)測用戶投訴情況。
(2)投訴數(shù)據(jù)預(yù)處理
統(tǒng)一存儲(chǔ)在投訴數(shù)據(jù)倉庫中的業(yè)務(wù)數(shù)據(jù)需要進(jìn)行分析前的預(yù)處理,因?yàn)楦鱾€(gè)業(yè)務(wù)數(shù)據(jù)存儲(chǔ)的中文文本信息各有特點(diǎn),存在部分干擾。
(3)投訴數(shù)據(jù)中文分詞
中文文本挖掘與英文文本挖掘的重要區(qū)別在于:英文單詞之間分割擁有天然優(yōu)勢,單詞之間有空格分割,但是中文單詞無法直接進(jìn)行分析。 隨著中文分詞技術(shù)的發(fā)展,現(xiàn)在已經(jīng)有較為成熟的中文分詞工具,如中國科學(xué)院計(jì)算所的 ICTCLAS 商用分詞工具、 基于 Lucene 開源項(xiàng)目的 IKAnalyzer 等,分詞效果已經(jīng)較好,支持細(xì)粒度和智能分詞等多種單詞切分模式。 此類分詞工具可便捷地對原文本進(jìn)行過濾(標(biāo)點(diǎn)符號(hào)、語氣詞、數(shù)字、字母等),提供用戶自定義詞庫和消去停用詞,便于應(yīng)用行業(yè)詞典和投訴業(yè)務(wù)專用詞典。 行業(yè)詞典和投訴業(yè)務(wù)專用詞典需要對數(shù)據(jù)進(jìn)行分析后自行建立。
(4)投訴分析
投訴分析使用經(jīng)過分詞的投訴文本語料,比較常用的分析方法有詞頻統(tǒng)計(jì)、通過支持向量機(jī)進(jìn)行機(jī)器識(shí)別最終實(shí)現(xiàn)投訴自動(dòng)分類識(shí)別、利用主題模型進(jìn)行文本挖掘。 比較成熟的工具有 Libsvm 工具包、 商業(yè)數(shù)據(jù)挖掘軟件 SPSS Modeler 的 text mining模塊、R 語言的 tm 文本挖掘工具包、Stanford 大學(xué)的 Text Mining Toolbox 工具等, 通過此類成熟的文本挖掘工具,對客戶投訴問題進(jìn)行合理有效的分析和分類。
(5)結(jié)果輸出和策略建議
根據(jù)上述文本挖掘工具的分析, 可以快速獲取用戶熱點(diǎn)投訴關(guān)鍵詞、熱 點(diǎn) 投 訴 主 題 等 ,幫 助投訴分析人員快速定位業(yè)務(wù)投訴的問題所在,發(fā)現(xiàn)服務(wù)問題與短板,將發(fā)現(xiàn)的問題快速反饋給相應(yīng)的業(yè)務(wù)部門和系統(tǒng)支撐部門, 及 時(shí) 解 決 問 題,提 升 用 戶 感 知,節(jié)省大量的投訴分析時(shí)間和人力成本。
4 結(jié)束語
基于數(shù)據(jù)挖掘提出了一個(gè)適合運(yùn)營商進(jìn)行快速投訴分析的方法,利用成熟的文本挖掘技術(shù)方法和文本挖掘工具, 開展投訴文本數(shù)據(jù)挖掘分析工作,可以對運(yùn)營商各渠道的用戶投訴文本數(shù)據(jù)實(shí)現(xiàn)快速、科學(xué)、高效的分析處理,利用對投訴數(shù)據(jù)的挖掘結(jié)果提升用戶感知,提升客戶滿意度,降低用戶投訴量和投訴率, 建立投訴分析快速響應(yīng)機(jī)制,減輕運(yùn)營商的投訴分析壓力。
參考文獻(xiàn):
[1]張文彤, 鐘云飛. IBM SPSS 數(shù)據(jù)分析與挖掘?qū)崙?zhàn)案例精粹[M].北京: 清華大學(xué)出版社, 2013.
[2]黃昌 寧, 趙海. 中文分詞十年回顧[J]. 中 文 信 息 學(xué) 報(bào), 2007,21(3):8-19.
[3]吳其葉. 科技查新的查準(zhǔn)度和查全度與文獻(xiàn)檢索的查全率和查準(zhǔn)率的差異[J]. 現(xiàn)代情報(bào), 2003, 23(9):8-9.
(作者單位:南京擎天科技有限公司)