王 昱,朱芝孺
(重慶大學 經濟與工商管理學院,重慶 400030)
數據庫營銷指企業搜集和積累大量的市場數據并對數據進行分析,以識別對某類營銷活動或產品感興趣的目標客戶,再對目標客戶進行關系維護與深度挖掘,并根據挖掘得到的信息制定和實施營銷策略。根據二八定律,企業80%的利潤都來自于20%的顧客。因此,如何從龐大的消費者群體中準確識別對于企業具有重要價值的目標客戶,建立以目標客戶為主導的營銷體系,是企業在當前激烈的市場競爭中獲取競爭優勢的一個重要途徑。
在數據庫營銷中,目標客戶定位的精度是提升企業營銷經營業績的一個關鍵因素。Knott等[1]指出,一個零售業務銀行的目標客戶定位精度提高0.7%可使得客戶的收益提高20%。從數據挖掘的角度出發,可以將數據庫營銷中目標客戶定位視為有監督學習問題,即根據消費者歷史數據建立模型以預測其是否響應(購買產品)或響應概率。因此,大量研究將數據挖掘中的有監督學習方法,如人工神經網絡、支持向量機、決策樹、基于案例的推理、遺傳算法等,應用于預測和定位目標客戶。但是在實際情況中,企業的目標客戶數量一般遠低于非目標客戶,即存在類別不均衡問題。這一重要的問題特性使得傳統的監督學習方法難以有效處理數據庫營銷中的類別不均衡問題,對于目標客戶的預測效果較差。
為了解決類別不均衡問題,近期研究提出了基于數據集層面的過抽樣和欠抽樣方法[2],以及基于算法層面的方法[3]。但是,對于樣本比例的調整可能矯枉過正,使得結果出現過擬合,或損失樣本中重要的信息而出現欠擬合,從而降低目標客戶定位的準確性。此外,這些方法往往結構復雜,實用性低且可解釋性有限[4]。針對上述問題,本文將無數據輸入假定且支持增量學習的K-近鄰規則引入數據庫營銷,并根據數據庫營銷問題的數據特性提出一種改進的K-近鄰規則。通過在實際數據集上的實證對比分析,證明所提出的改進的K-近鄰規則不僅能夠取得較高的目標客戶定位精度,提高數據庫營銷的效果,還具有高度的可解釋性,為市場營銷管理者提供有效的決策支持。
記 由 來 自 m 個 類 別 C1,C2,…,Cm的 n 個 訓 練 樣 本XX2,…,Xn構成的數據集合為S,其中 Xi=(xi2,...,),(i=1,2,…,n)為d維歐氏空間中的樣本點,并且每個訓練樣本的類別標記已知。對于一個未知類別的樣本X,K-近鄰規則的基本原理是從S中選擇與X最為相似的K個訓練樣本(近鄰),提取其類別標記進行比較學習。若以k1,k2,…,km表示K個近鄰中分別屬于類別 C1,C2,…,Cm的樣本數,則可以定義K-近鄰規則的學習函數為:

根據式(1),K-近鄰規則的分類規則為:

K-近鄰規則一般采用歐氏距離作為樣本的相似性測度,樣本的距離越近則其相似性越高。兩個樣本Xi和Xj之間的歐氏距離定義為:

K-近鄰規則不需假定數據輸入滿足某種或某些分布,并且作為非參數算法,其結果的可解釋性更強,在很多情況下其精度比一些較復雜的參數算法更高[5]。但是,該算法中需要設定一個關鍵的參數K:若K值太小,算法易受到訓練數據中的噪音影響;若K值太大,最近鄰中可能包含過量的樣本點,從而影響算法的性能。
為了有效地處理參數K的合理設定問題以提高K-近鄰規則的性能,本文提出一種參數K的取值優化方法。考慮每個訓練樣本 Xi,(i=1,2,…,n)與樣本 X 的距離,若將這些距離按升序排列,則以樣本個數為橫軸,距離為縱軸的曲線一般呈“S”型的上升趨勢。用線段連接距離最小值點與最大值點,并令其斜率為L,則L反映了從樣本總體而言,訓練樣本距樣本X的距離隨K的增加而增大的快慢程度。在曲線上搜索斜率為L的切點,其對應的距離為d1和d2,如圖1所示。

圖1 距離升序變化曲線示意圖
記歐氏距離小于等于d1值的訓練樣本集合為T1,歐氏距離小于等于d2值的訓練樣本集合為T2,則有T1?T2。根據K-近鄰規則對樣本相似性的定義,距離越小的樣本其相似性越高,則T1包含與樣本X最為相似的訓練樣本,而T2不僅包含T1,還包含曲線趨勢較平穩,即距離處于一個相對穩定的區間的樣本。與T1相比,T2中這部分樣本和樣本X相似性更低,且個數遠大于T1。如果所選擇的K個近鄰中包含這一部分相似性相對較低的訓練樣本,則這些“冗余”的近鄰可能會影響K-近鄰規則的預測結果。因此,為了充分利用樣本X的近鄰信息,同時減少冗余信息的影響,在應用K-近鄰規則對樣本X進行分類預測時,設置K個近鄰為距樣本X的距離小于等于d1的訓練樣本。對于不同的樣本,其與各個訓練樣本的歐氏距離分布不同,因此對應的K值也不同,即在K-近鄰規則中需要根據每個樣本的屬性取值動態確定其K值。
(1)屬性取值規范化
由于K-近鄰規則中一般使用距離對樣本相似性進行測度,因此為了避免量綱較大的屬性在距離計算中所造成的偏差,需要對各個屬性進行規范化處理。本文采用的方法為最小-最大規范化方法,記樣本 Xi,(i=1,2,…,n)中屬性 Al,(l=1,2,…,d)的取值,max(Al)和 min(Al)分別為屬性Al在樣本集合中的最大值和最小值,則規范化后的屬性取值為:

(2)擬合距離曲線并設定K值
在計算得到每個訓練樣本 Xi,(i=1,2,…,n)與樣本 X的距離并按升序排列后,為了得到圖1所示的連續可導的曲線并尋找斜率為L的切點,需要對距離與樣本數之間的關系進行擬合。若使用單一的曲線擬合全體數據,可能出現擬合偏差較大,精度不高的情況。為了提高擬合精度,本文對其采用分段擬合的方式。分段擬合將圖1中橫軸劃分為若干段,再在每一段中擬合距離與訓練樣本個數的函數關系。在得到每一段的擬合曲線后,按照距離從小到大的順序依次從各段曲線中尋找斜率為L的切點,所得到的切點對應的樣本個數即為最優的近鄰數K。
(3)預測樣本屬于各個類別的概率
在確定樣本X的近鄰后,一般的K-近鄰規則采用多數投票方式對樣本X的類別標記進行預測,即選擇K個近鄰中出現次數最多的類別。這一方式存在的主要問題是未考慮距離大小對于類別標記的預測作用。因此,本文采用加權投票方式,即根據每個近鄰的距離設置投票權重。對于樣本 X 的近鄰 Xk,(k=1,2,…,K),其權重 wk的計算公式為:

其中,d(X,Xk)表示樣本 X與近鄰 Xk的距離。式(5)意味著近鄰離樣本的距離越小,則其權重越大。根據K個近鄰的權重可以得到樣本 X屬于類別C1,C2,…,Cm的概率為:

其中,1(·)為邏輯判別函數,如果“·”為真,則1(·)=1,否則1(·)=0 。
為驗證本文所提出的改進K-近鄰規則對于數據庫營銷的有效性,選取CoIL 2000預測競賽數據作為數據集[4]。該數據集包含了9822個歐洲家庭是否購買休閑車保險的記錄,其中訓練集合包含5822條數據記錄,用于建立數據庫營銷模型,測試集合包含另外4000條數據記錄,用于評估模型效果。每條數據記錄包含86個屬性,其中85個屬性為關于產品使用和社會人口統計的屬性,最后1個屬性為類別標記(1表示購買保險,0表示不購買)。在5822個訓練樣本中,僅348個是實際購買的樣本,少數類樣本占總樣本數的348/5822=5.97%,屬于典型的類別不均衡數據集。
本文中用于對比的模型為Laurikkala等提出的領域清理規則欠抽樣算法NCL[6]和Kim等[4]提出基于局部進化特征選擇的人工神經網絡算法ELSA/ANN。NCL是采用K-近鄰規則處理類別不均衡問題的經典算法之一;ELSA/ANN使用遺傳算法進行屬性選擇,然后應用人工神經網絡預測響應概率。
有監督學習模型中最常用的評價指標為精確度。然而對于數據庫營銷這一存在類別不均衡的問題,人們往往更加關注對于少數類(實際購買的客戶)的預測準確性。因此,本文采用受試者工作特征曲線(ROC)和命中率(Hit Rate)作為評價數據庫營銷模型效果的指標,這兩個指標均在數據庫營銷研究中得到了廣泛應用。
ROC反映在閾值變化時假正率(FPR)和真正率(TPR)的相對變化情況,其中FPR和TPR的計算公式為:

式(7)中,FP、TP、FN、TN的定義如表1中混淆矩陣所示。

表1 混淆矩陣
當模型的假正率越低,同時真正率越高,即ROC下方的面積越大時,模型的效果越好。
命中率這一指標反映在給定潛在目標客戶數量的情況下,模型所識別的實際目標客戶數量。比如,根據模型的預測結果從100名客戶中選擇30名響應概率最高的客戶作為潛在目標客戶,其中有12名為實際的目標客戶,則模型的命中率為40%。因此,以命中率作為評價準則符合數據庫營銷的理念,是評價數據庫營銷模型的一個有效準則。命中率指標的具體計算公式為:

式(8)中,depthi一般被稱為深度,指被選取作為潛在目標客戶的數量占客戶總體的比例,通常選取五分位點,如5%、10%、15%等,M為客戶總體數量,TPi為在給定潛在目標客戶數量下模型得到的真正率。顯然,命中率越高,說明模型的效果越好,即在給定潛在目標客戶數量下能夠命中越多的實際目標客戶。
將本文所提出的改進K-近鄰規則和NCL應用于CoIL 2000數據集,得到的兩種模型的ROC對比結果如圖2所示。
從圖2可以看出,本文提出的改進K-近鄰規則(IKNN)的ROC明顯處于NCL上方,說明隨著概率閾值的變化,在預測為正類的樣本中,改進K-近鄰規則所得到的實際正類樣本占比更大,對于識別少數類的目標客戶能夠取得比NCL更好的效果。
將NCL和ELSA/ANN以及本文所提出的改進K-近鄰規則應用于CoIL 2000數據集,得到三種模型在不同深度下的命中率如表2所示。

圖2 改進K-近鄰規則和NCL的ROC

表2 三種模型在不同深度下的命中率
表2的結果表明,當設定較小的潛在目標客戶比率,即深度較小時,本文提出的改進K-近鄰規則能夠有效提高數據庫營銷的命中率。當深度較大時,相對于ELSA/ANN仍然具有近似相同的命中率。考慮到在數據庫營銷問題中,營銷管理者往往設定較低的潛在目標客戶比率以降低成本,但同時希望命中盡可能多的目標客戶,因此,本文提出的改進K-近鄰規則可以有效應用于數據庫營銷。此外,相對于結構復雜和具有“黑箱”性質的人工神經網絡,K-近鄰規則具有高度的可解釋性,能夠更加有效地為營銷管理者提供決策支持。
數據庫營銷中一個關鍵問題是準確識別目標客戶,而目標客戶一般在客戶總體中所占的比例較小,即存在類別不均衡問題。此外,營銷管理者為了制定有效的產品營銷策略,需要模型具有較高的解釋性。針對上述兩個問題,本文提出了基于改進K-近鄰規則的數據庫營銷模型,將其應用于實際的數據集并與其它模型進行對比實證分析,結果表明提出的改進K-近鄰規則能夠提高目標客戶識別的準確性和結果的可解釋性,可以有效應用于數據庫營銷問題。