李惟肖


【摘 ?要】客戶流失預測作為客戶關系管理的主要問題,一直受到研究學者們的關注。企業通過內部和外部的數據信息,對客戶流失情況進行預測,針對還未流失但有流失傾向的客戶采取相應的營銷策略。大數據時代使得數據信息爆炸式增多,如何處理高維數據信息成為客戶流失預測的難點。利用粗糙集理論進行屬性約簡可以降低數據維度,并有效地實現客戶特征選擇,從而降低客戶流失預測的運算難度,提高預測性能。
【Abstract】Customer churn prediction, as the main problem of customer relationship management, has always been the focus of researchers. Based on internal and external data information, enterprises can forecast customer turnover and adopt corresponding marketing strategies for customers who have not yet lost but have a tendency to lose. The era of big data makes data information increase explodes, and how to deal with high-dimensional data information becomes the difficulty of customer churn prediction. The attribute reduction using rough set theory can reduce the data dimension and effectively realize the customer feature selection, so as to reduce the operational difficulty of customer churn prediction and improve the prediction performance.
【關鍵詞】粗糙集;客戶流失預測;屬性約簡;特征選擇
【Keywords】rough set; customer churn prediction; attribute reduction; feature selection
【中圖分類號】F274;TP18 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 【文獻標志碼】A ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 【文章編號】1673-1069(2021)07-0120-02
1 引言
客戶關系管理理論是20世紀90年代由營銷管理理論衍生出的理論分支,一直備受從業者和學者的廣泛關注。客戶關系管理就是圍繞客戶,一個客戶為中心進行的營銷過程,這一過程通過客戶獲得管理、客戶識別管理、客戶保持管理3個階段來實現客戶與企業之間長期的合作關系。這樣不僅有助于降低企業的交易成本和開發成本,也能提高營銷效率,增強營銷效果。
客戶流失管理是客戶關系管理的重要組成部分,客戶流失一般來說就是指客戶不再消費本企業的產品或服務,也是每個企業都會面臨的問題。客戶流失是一個不確定事件,客戶流失的形成非一朝一夕,但是往往又悄無聲息、無法察覺。因此,只能通過數據分析掌握這種不確定的流失規律,從而防范因客戶流失產生的經營風險和收益損失。近年來,有許多因素都促成了客戶流失預測的快速發展,大數據、人工智能、云計算等互聯網技術和信息技術不斷發展,使得企業可以通過收集客戶信息,再運用大數據計算、機器學習、數據挖掘等技術手段處理數據,建立客戶流失預測模型。通過模型可以提取客戶的特征信息,分析預示客戶流失的行為,計算客戶在未來流失的概率。但同時,數據增多也造成了數據“維度災難”,分析高維數據需要花費大量的時間和成本。因此,需要在高維的數據中提取出與客戶流失相關的客戶特征,并對這些特征進行屬性約簡,兼顧預測精度和預測效率。
2 粗糙集理論
粗糙集理論是1982年由波蘭Pawlak教授提出的,用來處理模糊、不確定、不完整信息和知識的工具,它能在保持分辨能力不變的情況下,通過知識約簡,實現決策或分類。與其他方法相比,粗糙集方法僅利用數據本身所提供的信息發現問題的規律。粗糙集理論可以與神經網絡、遺傳算法等機器學習技術相結合,實現更廣泛、更強大、更優良的功能,在知識獲取、智能算法、知識的不確定性度量、數據挖掘等方面都有成熟的應用。
定義1:粗糙集理論的知識表達系統表示為S=(U,A,V,F),其中:U={u1,u2,…,u|U|}是研究對象的非空有限集合,稱為論域;A={a1,a2,…,a|U|}是屬性的非空集合;V=UVa,其中a∈A,Va是屬性a的值域;f:U×A→V是一個信息函數,反映了每個研究對象每個屬性的信息,即?坌a∈A,x∈U,f(x,a)∈Va。知識表達系統也叫信息系統,S=(U,A,V,f)可以簡化為S=(U,A)。
定義2:當集合A能被集合C和集合D表示,且滿足A=C∪D,C∩D=?覫那么稱集合C為條件屬性集,集合D為決策屬性集。
屬性子集C'?哿C關于D的重要性被定義為:σCD(C')=γC(D)-γC-C'(D)。
當C'={a}時,屬性a?哿C關于D的重要性被定義為:σCD(a)=γC(D)-γC-(a)(D)。
定義3:對于給定的信息系統S=(U,A,V,f),若R?哿ind(K),X?哿U,則X的R上近似集和X的R下近似集被定義為:
3 粗糙集屬性約簡
粗糙集屬性約簡是粗糙集理論的一個核心內容。大數據時代,數據信息量的增大讓學者們能更準確真實地進行知識發現,但高維的數據也讓整個研究過程變得復雜和煩瑣。在信息系統中,并不是所有的信息都對人們作出決策或進行預測有幫助,這其中包含了大量對目標問題毫無貢獻的冗余屬性。因此,在保證信息系統分類不變的情況下,從眾多數據信息中去除冗余屬性,不僅可以保持結果的準確性,還能降低運算的難度和減少運算的時間。這就是粗糙集屬性約簡的過程。
給定一個信息系統S=(U,A,V,f),集合C為系統的條件屬性集,集合D為系統的決策屬性集。當A滿足以下2個條件時,稱A是條件屬性C關于決策屬性D的一個相對屬性約簡:
①posA(D)=posC(D)。
②對于A的任何一個真子集B,posB(D)=posC(D)。
條件①保證了原有的相對正域不變,條件②說明了A這個相對屬性約簡中的屬性不可再減少。設條件屬性集C={ci|i=1,2,…,n},那么對于屬性ci來說,如果滿足posC=posC-{C},則說明屬性ci對于決策是不重要的,可以刪除。條件屬性集C中的每一個屬性都需要經過這一判斷的過程,從而形成相對屬性約簡集合A。
4 基于粗糙集屬性約簡的客戶流失預測
客戶流失預測包含2個方面:一個是識別流失客戶;另一個就是客戶價值評估。識別流失客戶就是識別潛在的流失客戶,在客戶流失之前采取行動挽留客戶,這可以看作是一種“防御性”的營銷方法。因為吸引新用戶的成本比挽留老用戶的成本要高3~8倍,但是老客戶的利潤貢獻是新客戶的10倍以上。客戶價值評估是客戶流失預測的另一關鍵任務,不是所有的客戶都會給企業帶來利益。實際上,根據80/20法則,大多數情況下,20%的關鍵客戶為企業創造了80%的收入。那么這種情況下,企業就需要識別客戶并對客戶價值進行評估,形成具有相似特征的多個客戶群體,向不同的客戶群體分配不同的資源,這樣才能以更少的成本支出獲得更多的經濟收益。進行客戶流失預測的主要目的是希望根據預測結果有針對性地進行營銷挽留,如果只有準確的預測而沒有個性化的營銷方案是不夠的,所以識別流失客戶和客戶價值評估對于客戶流失預測來說同等重要。粗糙集屬性約簡在客戶流失預測中的應用也主要在這2個方面。
粗糙集屬性約簡在識別流失客戶中的應用主要體現在特征選擇。在海量的數據中選擇最有效的特征以降低數據維度,從而提高預測的性能。粗糙集屬性約簡常與機器學習方法結合進行客戶流失預測,但高維數據會使機器學習的算法大幅增加。而且粗糙集特別適用于處理不確定性的問題,能夠處理不完整、不確定的數據。粗糙集理論是在保證不丟失原始信息的情況下,對數據屬性進行約簡,約簡過后的屬性特征是剔除了冗余特征后具有代表性的屬性特征,因為這些屬性特征包含了全部的信息,所以預測的結果還是有很高的可信度,卻可以大大降低機器學習的運算時間和運算量。
粗糙集屬性約簡在客戶價值評估中的應用主要體現在客戶畫像。通過粗糙集進行特征選擇后,每個客戶在這些特征中的表現不一樣,因此可以得到全方位的客戶畫像。對于企業來說,看重客戶選擇自己的產品或服務時能給自己帶來多少收益,這也就是企業眼中的客戶價值,企業通常根據客戶畫像來評價和分析客戶價值。對于有流失傾向的客戶,需要通過客戶畫像才能制定出個性化的、精確化的、有針對性的客戶挽留營銷方法。有高流失風險同時又有高價值的客戶,企業可以花費更多的成本進行挽留。同時客戶畫像也反映了客戶需求、客戶偏好、客戶行為等信息,針對這些信息可以提前準備營銷策略和產品配置,從而預防客戶流失,盡可能地延長客戶的生命周期,從而企業可以獲得更長遠更持久的利益。
5 結語
本文指出了在客戶流失預測中采用粗糙集理論進行屬性約簡,可以有效地處理不確定、不完整的數據信息,在保證信息完全的情況下降低數據維度,減少預測時間。通過粗糙集屬性約簡可以對數據集進行特征選擇,幫助企業構建客戶畫像、分析客戶價值。粗糙集屬性約簡去除了冗余數據,保證了客戶流失預測的準確性,讓企業可以有針對性地對有流失風險的客戶進行挽留。