劉世偉+呂景楠+莫蘭



【摘 要】為了降低客戶升級投訴數(shù)量,通過對客戶投訴現(xiàn)狀進行分析,發(fā)現(xiàn)投訴處理環(huán)節(jié)的短板和不足,并利用大數(shù)據(jù)工具,使用海量的客戶投訴數(shù)據(jù)建立預測模型,對有升級傾向的投訴客戶進行預判,在投訴升級之前預先解決客戶的問題,從而提升客戶滿意度。
【關(guān)鍵詞】大數(shù)據(jù) 客戶投訴 決策樹 預測模型
doi:10.3969/j.issn.1006-1010.2017.08.016 中圖分類號:TP181 文獻標志碼:A 文章編號:1006-1010(2017)08-0079-06
引用格式:劉世偉,呂景楠,莫蘭. 基于客戶投訴信息的創(chuàng)新預測方法研究[J]. 移動通信, 2017,41(8): 79-84.
Research on an Novel Prediction Method Based on Customer Complaint Information
LIU Shiwei, LV Jingnan, MO Lan
[Abstract] In order to reduce the number of customers complaints against upgrade, the status of customers complaints was analyzed and shortcomings of complaint link were elaborated. By virtue of mathematical tools, the prediction model based on massive customers complaints was established to determine the potential customers apt to complain. Thus, the appeal of customers could be solved before upgrade to enhance the satisfaction of customers.
[Key words]big data customer complaint decision tree prediction model
1 研究背景
隨著移動業(yè)務產(chǎn)品、營銷活動開展的多樣化,客戶建議、投訴越來越多,同時工信部對運營商新增了“用戶申訴率”和“不明扣費申訴率”兩條紅線的考核,這也增加了運營商投訴部門的工作壓力。面對客戶規(guī)?;耐对V,應當建立更加科學化的系統(tǒng)管理機制,改善當前傳統(tǒng)管理方式,使兩條紅線指標控制在合理的范圍內(nèi),進而避免客戶產(chǎn)生升級投訴,更好地提升客戶忠誠度和滿意率,增加業(yè)務產(chǎn)品的良好口碑。
數(shù)字化、系統(tǒng)化使得企業(yè)擁有大量的客戶投訴數(shù)據(jù),但并沒有很好地利用這些數(shù)據(jù)進行挖掘分析,也未能有效地從這些數(shù)據(jù)中找到客戶的需求點,無法真正了解客戶的意圖。服務及產(chǎn)品改進和創(chuàng)新需要了解客戶最真實的需求,對客戶投訴信息的挖掘和分析是關(guān)鍵。但是,目前還沒有基于客戶投訴信息來獲得改進和創(chuàng)新思路的成功方法,更多是人工根據(jù)多年的工作經(jīng)驗進行淺層次的數(shù)據(jù)分析,難以形成說服力的建議。
因此,可以通過對客戶投訴數(shù)據(jù)進行深度的大數(shù)據(jù)分析和挖掘,提煉出各維度的權(quán)重,從投訴信息中挖掘隱含的客戶需求和商機,進而獲得服務及產(chǎn)品改進和創(chuàng)新思路的方法。有效地利用客戶投訴數(shù)據(jù)建立模型,對有升級傾向的投訴客戶進行預判,在投訴升級之前預先解決客戶的問題,以提高客戶滿意度。通過建模構(gòu)建了中國移動投訴信息挖掘平臺,使得信息處理系統(tǒng)化、有序化和智能化,工作價值得到進一步提升,從而形成長效工作機制,為中國移動轉(zhuǎn)型和可持續(xù)發(fā)展提供強有力支撐和幫助,加強投訴信息利用和創(chuàng)新,提高企業(yè)核心競爭力。
2 客戶投訴分析
2.1 客戶投訴的現(xiàn)狀
投訴是客戶不滿意的表達,更能貼切反映客戶對產(chǎn)品業(yè)務的滿意度??蛻敉对V數(shù)據(jù)主要通過文本和語音格式保留、投訴系統(tǒng)記錄保留這兩種方式存儲。當前客戶投訴信息主要用于解決客戶投訴的具體問題,對投訴背后的隱性問題分析很少,也沒有有效地通過投訴信息挖掘獲得服務和產(chǎn)品改進、創(chuàng)新思路。另外,當前客戶投訴處理環(huán)節(jié)比較傳統(tǒng)化,未有較好的創(chuàng)新點。
2.2 客戶投訴面臨的問題
(1)投訴預警不及時
投訴預防不到位,缺乏事前分析的信息、工具,對客戶投訴的熱點問題、風險問題缺乏有效的監(jiān)控手段。同時投訴處理環(huán)節(jié)效率較低,處理效果欠佳,相對應的投訴處理手段有限,未能做到精準的客戶投訴信息定向挖掘。另外,應對客群關(guān)系欠缺有效的策略,導致投訴頑疾長期存在,投訴處理沒有形成較好的閉環(huán)。
(2)投訴數(shù)據(jù)不準確
客戶投訴信息中記錄字段多,并且字段信息記錄出現(xiàn)缺失、錯誤。另外,前臺的手工填寫文本字段太多,沒有統(tǒng)一的分類選擇標準,文本信息太過繁雜。而客戶投訴信息的缺失、異常和噪聲數(shù)據(jù)太多會直接影響數(shù)據(jù)挖掘結(jié)果。
(3)衍生的問題
由此衍生出升級投訴量波動大、升級投訴無法預測、投訴缺少過程管控、重點投訴無法規(guī)避以及關(guān)鍵環(huán)節(jié)無法回歸、重點問題重復發(fā)生等問題,因此需進一步借助模型數(shù)據(jù)分析來優(yōu)化并解決當前問題,以提升客戶滿意度。
3 決策樹模型助力客戶投訴
3.1 預測模型的處理方法
中國移動擁有海量的客戶投訴數(shù)據(jù)并不斷更新,要獲得服務、產(chǎn)品改進及創(chuàng)新思路,必須借助數(shù)據(jù)分析和挖掘。利用數(shù)據(jù)挖掘技術(shù)提取可能升級投訴的客戶,以達到事前預警升級的目的,可采用國際通用CRISP-DM(Cross-Industry Standard Process for Data Mining,跨行業(yè)數(shù)據(jù)挖掘標準流程)數(shù)據(jù)挖掘建模有效地解決這個問題。
CRISP-DM將模型分為6個階段:商業(yè)理解→數(shù)據(jù)理解→數(shù)據(jù)準備→建模→評估→部署。CRISP-DM數(shù)據(jù)挖掘建模標準化流程如圖1所示。
3.2 升級投訴預警模型數(shù)據(jù)挖掘?qū)嵺`
(1)數(shù)據(jù)準備
1)數(shù)據(jù)清洗體系建設
將升級投訴數(shù)據(jù)來源進行梳理整合,主要包括如下:
數(shù)據(jù)來源確認:確認升級工單的7個數(shù)據(jù)來源,對數(shù)據(jù)大小和數(shù)據(jù)質(zhì)量進行初步驗證。
數(shù)據(jù)質(zhì)量管理:將缺失數(shù)據(jù)、異常數(shù)據(jù)、噪聲數(shù)據(jù)進行數(shù)據(jù)清洗,保證數(shù)據(jù)符合建模的要求。
數(shù)據(jù)預備體系建設:將數(shù)據(jù)來源、數(shù)據(jù)清理、數(shù)據(jù)整合/規(guī)約、數(shù)據(jù)驗證、入庫等各階段任務進行統(tǒng)一系統(tǒng)管理,實現(xiàn)整個前端數(shù)據(jù)處理流圖的自動化和智能化管理。具體如圖2所示。
2)數(shù)據(jù)梳理成果
在數(shù)據(jù)梳理成果中,主要是數(shù)據(jù)梳理的建模維度和字段,具體包括如下:
寬表設計:很多常用模型在集團規(guī)范中都有明確的業(yè)務描述和寬表設計,可以直接參考使用。業(yè)務人員結(jié)合經(jīng)驗定義寬表結(jié)構(gòu),并對寬表字段進行適當添加、刪減、調(diào)整。技術(shù)人員在業(yè)務人員指導下對某些重要字段進行衍生,如通話次數(shù)衍生出占比、趨勢、波動。
通過預先設定數(shù)據(jù)處理的可視化功能節(jié)點,以達到可視化進行數(shù)據(jù)清洗和數(shù)據(jù)轉(zhuǎn)換的目的。針對縮減并集成后的數(shù)據(jù),通過組合預處理子系統(tǒng)提供各種數(shù)據(jù)處理功能節(jié)點,能夠以可視化的方式快速有效地完成數(shù)據(jù)清洗和數(shù)據(jù)轉(zhuǎn)換過程。
數(shù)據(jù)清洗:對缺失數(shù)據(jù)進行填充,如終端信息不全由業(yè)務部門提供后補充。有些缺失數(shù)據(jù)也可以通過技術(shù)手段(如均值、中位數(shù)、眾數(shù)等)填充。對業(yè)務意義相同的數(shù)據(jù)進行合并加工,如“NOTE3”與“note3”。諸如流量等指標會出現(xiàn)異常大/小的數(shù)值,可采取“封頂保底”或者分層的策略,視情況使用。
數(shù)據(jù)抽?。簭牟煌臄?shù)據(jù)來源中,通過ETL(Extract Transform Load,數(shù)據(jù)倉庫技術(shù))工具或者編程技術(shù)生成寬表數(shù)據(jù),供后期做數(shù)據(jù)挖掘。
3)數(shù)據(jù)梳理總結(jié)
在數(shù)據(jù)梳理過程中,針對遇到的各項問題采取了相應的解決方案,具體如下:
字段分類過多:分類字段的類別維度太小,漸趨于明細數(shù)據(jù),如問題細項有940多個分類。字段分類過多容易造成模型過度擬合及泛化性能較差,可以在系統(tǒng)設定時采用選項的方式而不是手工輸入方式。
數(shù)值型數(shù)據(jù)過多:基于特征選擇的結(jié)果梳理字段后,參與建模字段中分類型字段有17個,數(shù)值型(連續(xù)型)數(shù)據(jù)字段有11個。對數(shù)值型數(shù)據(jù)的建模容易產(chǎn)生過度擬合或無屬性可分的情況,可以采取分箱或手工生成衍生字段來解決此問題。
缺失值數(shù)據(jù)嚴重:部分重要建模字段的缺失值嚴重,主要是投訴反饋維度的相關(guān)字段,數(shù)據(jù)缺失值會導致模型的結(jié)果擬合效果差。基于數(shù)據(jù)狀況,可以采用忽略該條記錄、手工填補遺漏值、利用缺省值填補遺漏值等處理方法。
噪聲數(shù)據(jù):異常值(噪聲數(shù)據(jù))會嚴重影響后期的建模效果。對于異常點的數(shù)據(jù),可以采用直接刪除異常數(shù)據(jù)的方法,也可以基于異常點檢驗的方法再刪除。
(2)數(shù)據(jù)探索
1)整體投訴數(shù)據(jù)統(tǒng)計分析
數(shù)據(jù)探索主要是整理歷史客戶的整體投訴數(shù)據(jù),然后根據(jù)相關(guān)整理的字段、因子進行科學統(tǒng)計分析,探索數(shù)據(jù)特征。對客戶整體和一次升級客戶進行分析,從投訴問題分類、投訴業(yè)務、投訴問題的緊急程度等方面進行深入分析。
2)數(shù)據(jù)探索結(jié)果
根據(jù)數(shù)據(jù)探索發(fā)現(xiàn),數(shù)據(jù)業(yè)務影響客戶的升級投訴占比很大,同時費用投訴也是主要因素,總體概況如下:
涉及數(shù)據(jù)業(yè)務和國際/港澳臺業(yè)務的投訴升級比率較高,并且這兩部分客戶的價值遠高于普通客戶,因此應重點關(guān)注這兩部分業(yè)務的投訴客戶,防止因投訴而流失重點客戶。
客戶在一次投訴沒有徹底解決或沒有相應答復時會第一時間進行升級投訴,這需要在發(fā)現(xiàn)客戶投訴時第一時間安撫客戶,防止因其情急而升級投訴。
費用和業(yè)務退訂涉及到公司內(nèi)部系統(tǒng)數(shù)據(jù)對質(zhì)量管控的支持,后續(xù)可以建立與數(shù)據(jù)支持部門的溝通合作,對費用和業(yè)務查詢快速響應,及時解決客戶咨詢的問題。
有過歷史投訴的客戶更容易升級,他們熟悉投訴流程,這需要建立重復投訴客戶名單,防止客戶多次升級投訴,并且當投訴和抱怨積累一定次數(shù)時,都會轉(zhuǎn)化為升級。
針對一次升級客戶,事件的緊急程度和處理結(jié)果的滿意度與是否升級投訴沒有直接關(guān)聯(lián)。
(3)模型算法的選擇
根據(jù)前期梳理的數(shù)據(jù)源,分析數(shù)據(jù)源中各字段屬性,然后依據(jù)分類算法的對比分析,篩選出基于現(xiàn)有數(shù)據(jù)源最優(yōu)的模型。
目前基于預測目標分類用戶的算法模型有很多,比較常用的是邏輯回歸、支持向量機、神經(jīng)網(wǎng)絡和決策樹。具體如下:
1)邏輯回歸是對訓練數(shù)據(jù)的擬合,得到一個回歸模型,對數(shù)據(jù)進行預測。
2)支持向量機是二類分類模型,為特征空間上的間隔最大的線性分類。
3)神經(jīng)網(wǎng)絡是模仿人體神經(jīng)系統(tǒng)的感知機模型,算法較為復雜。
4)決策樹是一種基本的分類與回歸方法,它可以被認為是一種if-then規(guī)則的集合。決策樹是數(shù)據(jù)挖掘技術(shù)中的一種重要的分類方法,它是一種以樹結(jié)構(gòu)(包括二叉樹或多叉樹)形式來表達的預測分析模型。
通過對邏輯回歸模型、支持向量機模型、神經(jīng)網(wǎng)絡模型、決策樹模型的詳細介紹及模型應用場景的分析,基于現(xiàn)有數(shù)據(jù)源質(zhì)量和模型的適用條件,最終選擇決策樹作為實施模型。
(4)建立模型
1)確定維度字段
對字段的重要程度進行初步預判,主要通過業(yè)務判斷、特征選擇、相關(guān)性分析選擇影響模型的字段,將選出的字段參與特征選擇過程,剔除對建模結(jié)果影響不顯著的字段,同時將與結(jié)果相關(guān)性強的字段為母本衍生出新的字段,并直接剔除母字段即利用新生成字段進行建模分析。
基于7個數(shù)據(jù)來源,形成客戶投訴屬性、投訴反饋、客戶消費行為、客戶屬性四大維度60個模型字段。經(jīng)特征選擇(主成份分析/降維)后,新增衍生字段維度,調(diào)整為五大維度28個字段參與建模。參與建模的維度字段如圖3所示:
2)建模流程
通過決策樹分類算法運算,得出評估模式的值或者預測值,最終將原始數(shù)據(jù)集進行分類,輸出預測結(jié)果。建模流程如圖4所示。
3)模型參數(shù)設置
決策樹模型設計的重要參數(shù)有Boosting次數(shù)、N折交叉驗證、決策樹葉子修剪程度和誤分類的成本,具體如下:
Boosting實驗次數(shù):Boosting采用投票方式判別,不會出現(xiàn)過度擬合問題,當實驗次數(shù)設置越大時,花費時間越久。
交叉驗證:設置折疊次數(shù)K次,則將數(shù)據(jù)分為K份,每次運行選擇其中一份作檢驗集,其余的全作為訓練集,該過程重復K次,使得每份數(shù)據(jù)都用于檢驗一次。
修剪嚴重性:表示決策樹的修剪程度,為防止決策樹過度擬合,需修剪決策樹的枝葉,根據(jù)決策樹節(jié)點的深度,一般設置為75~80。
誤分類的成本:基于模型效果的評估,當設置矩陣中某一類成本高時,則模型會自動向成本低的方向移動,可以根據(jù)模型的目標追求準確率或覆蓋率進行設置。
4)模型優(yōu)化過程
初期模型中將7個來源表中的投訴數(shù)據(jù)進行合并,整合各個數(shù)據(jù)表中的因子、字段,根據(jù)整理出的原始數(shù)據(jù),采用決策樹模型中的C5.0算法建立模型,通過模型算法的運算得出模型樣本的命中率為22%,能夠有效地達到初期設想。為了提高模型預測的準確性,分別采用衍生字段、參數(shù)調(diào)優(yōu)、分箱處理等方法對模型進行優(yōu)化,具體如下:
衍生字段:針對原數(shù)據(jù),區(qū)分7個來源表的投訴數(shù)據(jù),衍生投訴來源字段,如是否來電原因。衍生服務請求級別字段,對其細化分類。
參數(shù)調(diào)優(yōu):根據(jù)字段細分結(jié)果,進一步優(yōu)化衍生投訴類行為數(shù)據(jù),如計算當前受理號碼歷史升級投訴次數(shù)等,對模型剪枝(75~80),增加模型預測錯誤成本。
分箱處理:對數(shù)值型變量進行分箱處理。
最后通過增加客戶消費行為數(shù)據(jù),對數(shù)值型數(shù)據(jù)分箱處理,采用C5.0算法建立模型,模型命中率提高為78%。
5)模型效果評估
判斷一個模型是否可接受,需要考察該模型對數(shù)據(jù)集的分類效果,其中重要的檢測指標是準確率、命中率和覆蓋率。C5.0模型的結(jié)果可以通過分析節(jié)點,以輸出矩陣的方式展現(xiàn),模型結(jié)果還可以輸出字段重要性的排名。根據(jù)模型訓練結(jié)果,總體上能夠有效地預測產(chǎn)生升級投訴的客戶及原因,強有力地控制兩條紅線處于合理的區(qū)間。
6)模型部署
將構(gòu)建好的模型導出為SQL(Structured Query Language,結(jié)構(gòu)化查詢語言)或PMML(Predictive Model Markup Language,預言模型標記語言);將SQL或PMML嵌入腳本,定時執(zhí)行腳本生成名單后派送。
4 結(jié)束語
本文基于大數(shù)據(jù)工具,利用客戶投訴數(shù)據(jù)建立模型,構(gòu)建了智能化的投訴信息挖掘平臺。通過模型可以加強升級投訴預防工作,在降低客戶投訴升級的同時提高客戶滿意度,并控制了兩條紅線,使得兩條紅線指標呈現(xiàn)良性化趨勢。系統(tǒng)智能化集成簡化了成熟的投訴處理流程,使得客戶投訴問題的解決更加快捷和準確,節(jié)約了大量的人力資源,從而有效地降低了投訴處理成本。并且通過建??梢詮耐对V信息中挖掘隱含的客戶需求和商機,進而獲得服務及產(chǎn)品改進和創(chuàng)新思路的方法。
參考文獻
[1] 薛薇,陳歡歌. 基于Clementine的數(shù)據(jù)挖掘[M]. 北京: 中國人民大學出版社, 2012.
[2] 周志華. 機器學習[M]. 北京: 清華大學出版社, 2016.
[3] 陸富琪. 電信增值業(yè)務及其發(fā)展模式分析[J]. 信息網(wǎng)絡, 2004(3): 21-24.
[4] 盛朕業(yè),才鳳艷. 顧客忠誠的內(nèi)涵及價值衡量[J]. 商業(yè)時代, 2006(25): 35-36.
[5] 郭麗麗,丁世飛. 深度學習研究進展[J]. 計算機科學, 2015(5): 28-33.
[6] 左超,耿慶鵬,劉旭峰. 基于大數(shù)據(jù)的電信業(yè)務發(fā)展策略研究[J]. 郵電設計技術(shù), 2013(10): 1-4.
[7] 羅芳,李志亮. 基于分類的機器學習方法中的決策樹算法[J]. 寧德師專學報: 自然科學版, 2009(1): 40-42.
[8] 季桂樹,陳沛玲,宋航. 決策樹分類算法研究綜述[J]. 科技廣場, 2007(1): 9-12.
[9] 丁俊民,廖振松. 基于大數(shù)據(jù)建模的投訴預測與應用[J]. 信息通信, 2015(9): 291-292.
[10] 董智純,楊林,詹念武,等. 一種基于大數(shù)據(jù)技術(shù)的投訴分析與預測系統(tǒng)[J]. 信息通信, 2015(9): 285-286.
[11] 周文杰,楊璐,嚴建峰. 大數(shù)據(jù)驅(qū)動的投訴預測模型[J]. 計算機科學, 2016(7): 217-223.