999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

代價敏感的目標客戶選擇半監督集成模型研究

2018-11-23 05:44:58劉瀟瀟劉敦虎
中國管理科學 2018年11期
關鍵詞:分類監督模型

肖 進,劉瀟瀟,謝 玲,劉敦虎,黃 靜

(1.四川大學商學院,四川 成都 610064;2.成都信息工程學院管理學院,四川 成都 610225; 3.四川大學公共管理學院,四川 成都 610064)

1 引言

隨著大數據時代的來臨,企業掌握的客戶數據越來越多,一些企業開始利用數據庫營銷(Database Marketing)來避免傳統營銷中存在的低效率,高成本等弊端,用以從海量客戶數據中快速挖掘出客戶多樣化和個性化的需求。作為數據庫營銷中最重要的問題之一,目標客戶選擇建模用于從潛在客戶中識別出企業的目標客戶,即對企業營銷手段最可能做出響應的客戶,從而幫助企業制定營銷戰略。

目標客戶選擇建模實質上是屬于客戶分類的范疇[1],即將客戶分為兩類:對企業產品的營銷宣傳活動(如發送郵件或者短信等)做出響應,進而購買產品的客戶和不響應的客戶。目前,常用的目標客戶選擇模型主要包括人工神經網絡[2](Artificial Neural Networks, ANN)、遺傳算法[3](Genetic Algorithm,GA)、數據分組處理(Group Method of Data Handling,GMDH)神經元網絡[4]和支持向量機[5-6](Support Vector Machine, SVM)等。許多現實的客戶數據的類別分布往往是高度不平衡的,即會對企業的營銷活動做出響應的客戶比不響應的客戶少很多[7]。在這種情況下,上述傳統的分類模型可能會將所有的客戶預測為不響應的客戶,難以取得令人滿意的目標客戶選擇性能。為了解決這一問題,目前常用的方法是重抽樣技術(如隨機向上抽樣和隨機向下抽樣)來平衡訓練集的類別分布,再訓練分類模型。

上述研究對目標客戶選擇建模都做出了重要貢獻,但通過仔細分析,還存在以下不足:1)重抽樣技術存在缺陷。隨機向上抽樣將導致少數類中重復樣本太多,而隨機向下抽樣得到的結果就是最終的訓練集樣本數量往往很少,它們均可能會影響目標客戶選擇建模的性能。2)目前,國內外關于目標客戶選擇的研究大都采用監督式分類建模的研究范式[8],即僅使用原始含類別標簽的訓練集來訓練分類模型,進而預測新的客戶樣本的類別。而實際上,企業往往只針對少量客戶進行營銷宣傳活動,并賦予響應或不響應的類別標簽。而剩下大量未進行營銷宣傳的客戶,則無法標記它們的類別[9]。此時,如果仍然采用監督式客戶分類建模研究范式,通常都會由于訓練樣本個數太少而造成過擬合,反而導致模型性能的下降[10]。實際上,無類別標簽的客戶數據也可為構建模型提供有用信息[9]。因此,如何有效地使用大量沒有類別標簽的數據提高模型的學習性能,是目標客戶選擇建模中亟待解決的問題。

事實上,在目標客戶選擇領域,不同類別客戶的錯分代價相差很大,如果把一個不響應的客戶誤分成響應的客戶給企業造成的損失僅僅是很少的郵寄相關宣傳資料的營銷費用,而如果把一個響應的客戶誤分成不響應的客戶,那么企業就不會對該客戶郵寄宣傳資料,從而失去該客戶因購買了產品或服務而給企業帶來的利潤。代價敏感學習(Cost Sensitive Learning,CSL)恰好能夠很好地處理這種分類問題[11],它在訓練模型時為少數類樣本賦予比多數類樣本更高的錯分代價,從而讓模型更多地關注少數類樣本。如Xiao Jin等[12]利用代價敏感學習機制,提出了動態集成客戶分類模型,實驗分析表明該模型分類的正確率更高。

為了解決第二個問題,近年來在機器學習領域發展起來的半監督學習(Semi-supervised Learning,SSL)為我們提供了一種很好的思路[13],其主要思想是研究如何綜合使用有、無類別標簽的樣本來提高模型的學習性能。目前已有將半監督學習用于目標客戶選擇的研究[14],但已有的研究都只是構建了單一的半監督分類模型來進行目標客戶選擇。由于在現實中用于目標客戶選擇建模的數據往往包含了大量噪聲,大大增加了分類難度。因此,單一分類模型難以實現在整個樣本空間上的準確分類。若能夠將多個單一模型進行組合,即引入多分類器集成技術(Multiple Classifiers Ensemble, MCE)[15],讓每個分類器都能在各自的優勢空間中發揮作用,進而提高模型的目標客戶選擇性能。

本文將CSL,SSL以及MCE中的隨機子空間方法(Random Subspace,RSS)相結合,構建了代價敏感的目標客戶選擇半監督集成模型(Cost-sensitive Semi-supervised Ensemble Model, CSSE)。該模型融合了CSL,SSL和MCE的優勢,既能夠較好地處理類別不平衡的數據,也能夠將無類別標簽樣本中包含的大量信息加以利用,同時還能利用集成方法RSS進一步提高模型的目標客戶選擇性能。在CoIL預測競賽的目標客戶選擇數據集上進行實證分析,結果表明,與兩種監督式集成模型、兩種單一的半監督式模型以及兩種半監督式集成模型相比,本文提出的CSSE模型具有更好的目標客戶選擇性能。

2 相關理論介紹

2.1 代價敏感學習

對于CSL的研究最早可以追溯到1984年Breiman等[16]提出的代價敏感學習研究框架。針對二分類問題,代價敏感學習技術的研究集中在以下兩個方面[17]:(1)根據樣本的不同錯分代價來改變正類和負類占總樣本數的比例來構建類別平衡的樣本集,然后應用分類模型進行建模;(2)在不改變訓練集的基礎上,改造分類模型的內部結構,即改造分類模型的目標函數使其成為代價敏感的分類模型。由于該方法考慮了不同類型錯分代價不同的情況,并基于最小化總體誤分代價的原理來設計分類模型,進而能更好的適應目標客戶選擇問題。這其中代表性的方法就是代價敏感的SVM。

SVM是Cortes和Vapnik于1995年首先提出的,目前是機器學習領域的研究熱點之一[18-19]。SVM的核心思想是通過某種事先選擇的非線性映射(核函數)將輸入向量映射到一個高維特征空間,該算法的目標是在這個空間里構建最優分類超平面,使正負兩類樣本之間有最大的間隔。

圖1 支持向量機原理圖

s.t.yi(wxi+b)-1+ξi≥0,ξi≥0i=1,2,…,n

(1)

s.t.yi(k(w,xi)+b)≥1-ξiξi≥0,i=1,2,…,n

(2)

2.2 RSS多分類器集成模型

分類問題是數據挖掘領域的基本研究問題,傳統的分類學習常常使用單一分類模型來預測類別標簽。由于現實中用于分類建模的數據往往包含大量噪聲,單一的分類模型很難將全部樣本正確分類。而MCE則是將多個分類器的分類結果通過某種方式集成起來,得到最終的分類結果。作為MCE中常用的模型之一,RSS[20]的基本思想是隨機抽取特征子集形成不同的特征子空間,經過映射得到若干個訓練子集,從而構造出不同的基本分類器。RSS一方面能夠降低原始數據集特征空間的維數,另一方面由于每次抽取的特征子集不同因而映射形成的訓練子集也不同,很大程度上增加了用于集成的基本分類器之間的多樣性,有利于提高集成的效果。葉云龍等[21]提出了一種基于RSS的多分類器集成算法,實證分析發現該算法不僅優于單一分類器的分類性能,而且一定程度上優于Bagging算法。

2.3 半監督分類

半監督學習最早由Shahshahani和Landgrebe[22]在1994年提出,目前已經成為數據挖掘領域的一個研究熱點,并逐步形成自身的理論體系。半監督分類的基本思想就是綜合利用少量有類別標簽的樣本和無類別標簽的樣本所提供的信息來建立分類模型,并利用該模型來預測新的樣本的類別。它與監督式分類方法最大的區別在于,構建分類模型時加入了無類別標簽的樣本,而無類別標簽樣本中也包含了很多有用信息,因此半監督分類可望構建出更加準確的分類模型。目前,國內外學者提出了很多半監督分類模型,如王嬌等[23]將RSS與半監督學習相結合,構造了基于RSS的半監督協同訓練模型(RASCO),Hady和Schwenker[24]在模型中引入了協同訓練的思想,構建了基于Bagging的半監督協同訓練模型(CoBag),隨后蘇艷等[25]又提出了基于動態RSS的半監督協同訓練模型(DRSCO),Li Yiyang等[26]在建模過程中利用K-近鄰分類方法來提高對無類別標簽數據集選擇性標記的準確度,構建了基于Bagging的半監督集成模型(Semi-Bagging)。

3 CSSE模型

3.1 建模的基本思路

已有的目標客戶選擇模型多采用重抽樣方法來解決數據集類別分布不平衡的問題,但是忽略了正負類樣本錯分代價相差很大的情況。同時,已有的研究大都采用監督式學習的研究范式,無法綜合使用有、無類別標簽的樣本來提高模型的學習性能。此外,從少量幾篇基于SSL的目標客戶選擇建模的研究來看,他們都構建的單一半監督分類模型。為了彌補這些不足,本文將CSL,SSL以及MCE中的RSS相結合,構建了代價敏感的目標客戶選擇半監督集成模型(Cost-sensitive Semi-supervised Ensemble Model, CSSE)。該模型融合了CSL,SSL和MCE的優勢,既能夠較好地處理類別不平衡的數據,也能夠將無類別標簽樣本中包含的大量信息加以利用,同時還能利用集成方法RSS進一步提高模型的目標客戶選擇性能。

3.2 對U中樣本的選擇性標記

由于L一般包含的樣本比較少,導致難以訓練出分類性能很高的分類模型,使得CSSE模型在訓練過程中可能會錯誤標記U中的一部分樣本,如果將其加入到L中,無疑是人為地引入了更多的噪聲,反而會降低模型的分類性能。因此,對U中樣本的選擇性標記是非常重要的,有利于取得更好的分類性能。為了達到這一目的,本文使用概率輸出值Probi1作為衡量是否將樣本加入L的指標,并針對正負類樣本設置不同的閾值。

3.3 對類別不平衡數據的處理

在現實的目標客戶選擇問題中,用于建模的客戶數據往往存在類別高度不平衡的問題,若采用傳統方法建模會造成大量正類樣本不能被識別。常用的解決方法是對原始不平衡數據集采用重抽樣的方法,如隨機向上抽樣和隨機向下抽樣。區別于以上針對數據樣本的方法,本文使用Davenport[11]提出的代價敏感的SVM作為CSSE的基本分類模型。我們可以在訓練模型階段調整SVM中的參數設置,增加損失函數C的值,賦予正類樣本和負類樣本不同的權重(W1,W2),同時選擇合適的核函數t在克服數據類別不平衡的同時,提高正類樣本識別的準確度。

3.4 詳細建模步驟

輸入:初始有類別標簽訓練集L,其樣本個數為n,無類別標簽數據集U,其樣本個數為m,測試集Test,其樣本個數為p,訓練得到的基本分類模型的個數N,每次迭代中選擇性標記正類和負類樣本時選取的標記閾值θ1和θ2,U中選擇性標記的樣本的百分比k。

輸出:測試集Test上的N個基本分類模型的集成分類結果。

初始化:L′=L,Q=Φ,s=1。

步驟1. 計算選擇性標記樣本集Q與U的樣本百分比b=size(Q)/m,size是用來計算Q中樣本個數的函數,若b>k,轉到步驟4;

步驟3. 分別使用三個分類模型來預測U中全部樣本的類別標簽,并將預測一致的樣本放置在候選集Uj中。若Uj為空,轉到步驟2,否則從Uj中根據正負樣本比例選取Probi1大于θ1的正類樣本和Probi1小于θ2的負類樣本添加到L’中,同時也將它們添加到Q中并從U中剔除;

步驟4. 使用隨機子空間法(RSS)在L′上抽取一個特征子集,并映射得到訓練子集,使用代價敏感的SVM訓練得到一個基本分類模型Cs;

步驟5. 若s

步驟6. 使用N個基本分類模型分別對測試集Test中的樣本進行分類得到分類結果R1,R2,…,RN;

步驟 7. 使用多數投票法集成N個基本分類模型的分類結果R1,R2,…,RN得到最終的分類結果。

圖2 CSSE模型的流程圖

4 實證分析

4.1 數據集描述

為了分析本文提出的CSSE模型的目標客戶選擇性能,我們運用2000年的CoIL預測競賽[27](CoIL2000數據集)中Benchmark保險公司推銷大篷車保險的真實數據來進行實證分析。該數據集包含9822個樣本,每個客戶樣本包含86個變量,其中1~85個變量是描述客戶信息的特征變量,第86個變量是響應變量,表示客戶所屬的類別標簽,該數據集將全部客戶劃分為會對企業營銷活動做出響應的少數類客戶(正類)和不會做出響應的多數類客戶(負類),且正負類樣本比例為1∶7.55,由此可知該數據集屬于類別分布不平衡數據集。

4.2 實驗設置

為了進行實驗分析,我們從數據集中隨機抽取30%的樣本作為測試集Test,然后將剩余70%的樣本按照從1∶1、1∶2、1∶3、1∶4到1∶5的比例分為初始有類別標簽訓練集L和無類別標簽數據集U,并且要保證L,Test,U中正負類樣本的比例與原始數據集相同。

由于本文所使用的數據集的維度較高(包含85個屬性),可能存在特征冗余的問題,而特征選擇一方面有助于建立更易解釋、具有更好泛化能力的目標客戶選擇模型,另一方面使用降維后的數據也可減少計算時間,從而降低時間成本。Kim等[28]首先將GA與ANN相結合對數據進行降維處理,然后訓練ANN模型選擇目標客戶,并在與本文相同的數據集上進行實證分析。本文首先采取Fisher Score算法[29]在訓練集L上進行特征選擇。首先分別計算每個特征的得分,然后根據特征的得分從高到低進行排序,最后選取排在前面30%的特征來構建目標客戶選擇模型。

本文提出的模型運用了林智仁教授開發設計的libsvm工具箱,同時為了訓練代價敏感的SVM,需要在建模階段調整模型的參數使得模型在運行時發揮出最優分類性能。經過反復實驗,對于初始標記訓練集L的最優參數設置為:懲罰系數C=100,正類樣本懲罰系數的加權值W1=100,負類樣本懲罰系數加權值W2=10,t=2(核函數類型選擇RBF核函數)。在CSSE模型中,θ1,θ2,N和k是四個重要參數,經過反復實驗,當我們取θ1=1,θ2=-1,N=40,k=60%,此時模型能夠取得較好的目標客戶選擇性能。

為了分析本文提出的CSSE模型的目標客戶選擇性能,將CSSE模型的性能與下面六種目標客戶選擇模型進行了比較:1)Ho[20]提出的監督式集成模型(Random Subspace, RSS);2)Breiman[30]提出的監督式集成模型Bagging;3)王嬌等[23]提出的基于RSS的單一半監督協同訓練模型RASCO;4)蘇艷等[25]提出的基于動態RSS的單一半監督協同訓練模型DRSCO;5)Hady和Schwenker[24]提出的基于Bagging的半監督集成協同訓練模型CoBag;6)Li Yiyang等[26]提出的半監督式集成模型Semi-Bagging。對于這六種對比模型,我們選擇傳統的SVM作為基本分類算法,且基本分類器個數與CSSE模型中設置一樣,N=40。值得一提的是,這六種模型都沒有考慮類別分布不平衡對模型性能的影響,因此考慮到比較的公平性,本研究采用隨機向上抽樣來平衡數據集的類別分布,再構建相應的模型。此外,在RASCO模型中,有一個重要參數q,表示模型在每次循環中標記的樣本個數,而在CoBag模型中也有一個重要參數θ,表示該模型在每次循環中標記的樣本個數。通過反復實驗,并以AUC值作為評價標準,我們發現當q=100,θ=200時,兩個對比模型均可取得最優性能。

最后,每一種方法的分類結果均是取10次實驗結果的平均值,所有實驗均是在MATLABR2010b軟件平臺上編程實現。

4.3 模型性能的評價準則

為了對目標客戶選擇模型的性能進行評估,本文采用四個評價指標:

(1)AUC準則

由于現實的目標客戶選擇數據集的類別分布都是高度不平衡的,正負類樣本比例差距較大,此時若選擇總體分類精度作為評價指標并不太實用,而ROC(Receiver Operating Characteristic)曲線恰好能夠很好地評價面向類別不平衡的分類模型的性能。為了更好的說明ROC曲線,我們首先引入目標客戶選擇混淆矩陣,如表1所示。其中,TP表示正確分類的正類樣本個數,FN代表實際為正類預測為負類的樣本個數,FP指實際為負類預測為正類的樣本個數,TN表示正確分類的負類樣本個數。針對兩類問題的ROC曲線是一個真正率——偽正率圖,其中橫坐標表示偽正率=FP/(FP+TN)×100%,縱坐標表示真正率=TP/(TP+FN)×100%。由于直接比較不同模型的ROC曲線比較困難,因此使用AUC(Area Under the ROC Curve)值來評價模型性能。

表1 目標客戶選擇混淆矩陣

(2)命中率

在現實的目標客戶選擇中,企業最關注的是會對企業營銷行為做出響應的客戶,因此命中率[4]是一個常用的評價指標。首先使用模型預測得到測試集中所有客戶做出響應的概率,然后依據概率將其從大到小進行排序,最后選擇前面r%的客戶作為目標客戶。命中率的計算公式如下:

(3)

其中,N表示所有潛在的目標客戶數,即測試集中樣本個數,Nr表示根據模型選擇的目標客戶數,Nr(y=1)表示選擇的目標客戶中真正會響應的客戶數。

(3)提升圖(Lift Chart)

提升指數衡量的是與不利用模型相比,當我們使用目標客戶選擇模型時,對潛在客戶的正確預測能力“提升”了多少。本文所使用的數據集的客戶響應率是6%,即在不使用模型時目標客戶的命中率是6%,那么當我們選取r%的客戶作為目標客戶時,提升指數lift=Hit rate/6%。提升圖[9]的橫軸表示將客戶依據預測出的響應概率從大到小排序后抽取的客戶比例,縱軸表示的是與之對應的提升指數(lift)。顯然,提升指數越大表明模型的目標客戶選擇性能越好。

(4)洛倫茲曲線(Lorenz Curve)

作為另一個常用于評價目標客戶選擇模型性能的準則,洛倫茲曲線[4]能夠線性直觀的展示出各個模型的比較結果。它的橫軸表示選出的目標客戶占所有客戶數的比例r%,縱軸表示選擇比例為r%時與之對應的累計命中率。圖中的對角線僅表示在不同比例下隨機選取的目標客戶對應的累計命中率,并不涉及任何模型的使用。當洛倫茲曲線越凸向左上角,即與對角線圍成的面積越大,則說明該模型的目標客戶選擇性能越好。

4.4 模型性能比較分析

4.4.1 模型的AUC值比較

圖3展示了本文提出的CSSE模型與其它六種模型在CoIL2000上的AUC值,其中橫坐標表示U和L中的樣本比例從1∶1變化到5∶1。仔細分析圖3,我們可以得到以下結論:

圖3 七種模型在不同比例下的AUC值

(1)CSSE模型在五種不同比例下均具有最大的AUC值,因此,CSSE模型的整體目標客戶選擇性能要優于其他六種模型。六種對比模型均采用隨機向上抽樣的方法來平衡數據集類別分布,但它們的AUC值均低于CSSE模型,這說明與這六種模型相比,本文提出的代價敏感的目標客戶選擇半監督集成模型CSSE可以更有效地解決目標客戶選擇數據集中存在的類別分布不平衡問題。AUC 值通常被用于評價模型在類別分布不平衡數據集上的總體分類性能,CSSE模型在該評價指標上表現優異,這也說明了和已有的模型相比,CSSE模型將CSL,SSL和RSS方法進行融合確實具有更好的整體性能。

(2)在七種模型中,CSSE、DRSCO、CoBag、RASCO以及Semi-Bagging模型都屬于半監督分類模型,而RSS和Bagging模型屬于監督式分類模型。從圖中可以看出大多數半監督分類模型如CSSE、DRSCO和CoBag的AUC值均大于兩種監督式分類模型RSS和Bagging。然而,也有一些半監督分類模型的目標客戶選擇性能比較差,如RASCO模型和兩種監督式分類模型的AUC值不相上下,而Semi-Bagging模型的AUC值更是低于兩種監督式分類模型的AUC值。這表明,在多數情況下從大量無類別標簽的數據集中選擇性標記一部分樣本加入到訓練集中,確實能夠提高目標客戶選擇的性能。但是如果模型的選擇性標記的機制不夠合理,導致大量被錯誤標記類別的樣本加入到訓練集中,從而很難提高模型的性能,有時甚至會損害模型的目標客戶選擇性能;

(3)隨著U和L中的樣本比例不斷增大,半監督分類模型中的CSSE、DRSCO和CoBag的AUC值雖然存在較小波動,但總體上保持較高水平并優于監督式分類模型RSS和Bagging,因為后面兩種模型的AUC值大體上呈現出逐漸減小的趨勢。特別地,本文提出的CSSE模型,當U和L中的比例不斷增大時,它的AUC值與監督式分類模型的AUC值的差距在逐漸變大。這表明,當數據集包含大量無類別標簽的樣本時,相比于傳統的監督式分類模型,本文提出的半監督分類模型CSSE更具優勢。

4.4.2 模型的命中率比較

圖4給出了本文提出的CSSE模型和其他六種對比模型的命中率,其中,(a)~(e)分別表示U和L中的樣本比例從1∶1變化到5∶1的結果,同時,在每個子圖中,我們還給出了目標客戶選擇比例(r%)從10%增加到50%時,各個模型的命中率比較。

根據圖4,我們可以得出以下結論:

(1)當U和L中的樣本比例從1∶1增加到5∶1時,CSSE模型的命中率在各種不同的目標客戶選擇比例時均大于其他模型,這說明CSSE模型的目標客戶選擇性能是優于對比模型的;

(2)在每個子圖中,隨著目標客戶選擇比例的增加,各個模型的命中率雖然存在一些波動,但是總體上均表現出逐漸下降的趨勢。分析其原因,可能是因為我們是根據每個模型預測得到的測試集中所有客戶做出響應的概率從大到小進行排序,最后選擇前面r%的客戶作為目標客戶。因此,目標客戶選擇比例越小,就越可能選中那些真正的響應客戶,命中率自然相對就越高;

(3)大多數半監督式集成模型的命中率要高于2種監督式集成模型,而且隨著U和L中的樣本比

圖4 七種模型命中率的比較

例增大,半監督模型的命中率仍能保持在較高水平,而RSS和Bagging的命中率值則呈下降趨勢,這說明當數據集包含大量無類別標簽的樣本時,半監督分類模型具有明顯優勢。分析其原因,可能是因為監督式模型只使用少量有類別標簽的數據集L來建模,而半監督分類模型則能夠同時使用L和大量無類別標簽數據集U中的樣本來建模。

4.4.3 模型的提升圖比較分析

圖5展示了CSSE模型和其他六種模型的提升指數,其中,(a)~(e)分別表示U和L中的樣本比例從1∶1變化到5∶1的結果。同時,在每個子圖中,我們還給出了目標客戶選擇比例(r%)從10%增加到100%時,各個模型的提升指數的比較。

仔細分析圖5,我們能夠得出與4.4.2小節類似的結論:

(1)當U和L中的樣本比例從1∶1增加到5∶1時,CSSE模型的提升指數在不同的目標客戶選擇比例時均明顯大于其他模型的,這說明該模型具有最好的目標客戶選擇性能;

(2)在每個子圖中,隨著目標客戶選擇比例的增加,各個模型的提升指數雖然存在一些波動,但是總體上均表現出逐漸下降的趨勢;

(3)大多數半監督式集成模型的提升指數要高于2種監督式集成模型,而且隨著U和L中的樣本比例增大,半監督模型的優勢更加明顯。

4.4.4 模型的洛倫茲曲線比較

由于篇幅所限,我們僅給出了U和L中的樣本的比例為5∶1時七種不同分類模型的洛倫茲曲線,見圖6。從圖中可以看出,當目標客戶選擇比例為10%、20%和30%時,CSSE模型的洛倫茲曲線均在其他模型的曲線上方,此時CSSE模型的累計命中率明顯高于其他六種模型。在現實企業的目標客戶選擇問題中,企業的潛在客戶通常很多,但由于營銷預算的限制,我們往往只能選擇排在前面的很小一部分的客戶作為目標客戶,從而向他們郵寄宣傳資料,即目標客戶選擇的比例通常比較小。因此,與其它模型相比,本文提出的CSSE模型可望在現實企業的目標客戶選擇中取得更好的性能。

5 結語

近年來,數據庫營銷成為客戶關系管理領域的研究熱點。而目標客戶選擇是數據庫營銷的重中之重,它能幫助企業提高客戶響應率,增強核心競爭力,同時節約大量營銷成本。在現實的目標客戶選擇建模中,往往只能獲取少量有類別標簽的樣本,而剩下的大量樣本都無法獲取類別標簽。已有研究大都使用監督式建模研究范式,僅在少量有類別標簽

圖5 七種模型的提升指數比較

圖6 七種模型的洛倫茲曲線比較

樣本集L上建模,很難取得令人滿意的效果。為解決這一問題,本文引入SSL技術,將其與CSL和多分類器集成中的RSS方法相結合,提出了代價敏感的目標客戶選擇半監督集成模型CSSE。該模型使用代價敏感的SVM來解決目標客戶選擇建模中樣本數據類別分布不平衡問題,還能夠同時使用有、無類別標簽的客戶樣本來建模。進一步地,該模型利用RSS方法訓練一系列基本分類模型,并通過集成得到最終的分類結果。為了分析本文提出的CSSE模型在目標客戶選擇方面的性能,本文在某保險公司目標客戶選擇數據集上進行實證分析,同時將其與兩種監督式集成模型、兩種單一的半監督模型以及兩種半監督集成模型相比較。我們選取AUC值、命中率、提升圖和洛倫茲曲線作為模型評價準則。實驗結果表明,CSSE模型具有更好的目標客戶選擇性能。

猜你喜歡
分類監督模型
一半模型
分類算一算
重要模型『一線三等角』
突出“四個注重” 預算監督顯實效
人大建設(2020年4期)2020-09-21 03:39:12
重尾非線性自回歸模型自加權M-估計的漸近分布
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
監督見成效 舊貌換新顏
人大建設(2017年2期)2017-07-21 10:59:25
夯實監督之基
人大建設(2017年9期)2017-02-03 02:53:31
主站蜘蛛池模板: 亚洲欧州色色免费AV| 欧洲日本亚洲中文字幕| 国产真实乱人视频| 国产成人1024精品下载| 国产欧美日韩在线一区| 国产精品无码制服丝袜| 四虎综合网| 日韩欧美网址| 日本欧美成人免费| 免费又爽又刺激高潮网址 | 国产精品漂亮美女在线观看| 另类专区亚洲| 久久综合婷婷| 欧美成人午夜影院| 日韩午夜福利在线观看| 国产精品永久不卡免费视频| 黄色免费在线网址| 国产无码性爱一区二区三区| 中文字幕1区2区| 97se亚洲综合在线韩国专区福利| 中文字幕人妻无码系列第三区| 人妻少妇久久久久久97人妻| 日韩高清成人| 国产黄色爱视频| 东京热av无码电影一区二区| 久久国产精品电影| 一本无码在线观看| 黄色国产在线| 国产丝袜一区二区三区视频免下载| 美女视频黄频a免费高清不卡| 欧美亚洲国产日韩电影在线| 国产AV无码专区亚洲精品网站| 一级毛片免费高清视频| 一级爆乳无码av| 91精品国产麻豆国产自产在线| 国产理论精品| 亚洲一区二区三区麻豆| 51国产偷自视频区视频手机观看| 狠狠五月天中文字幕| 国产真实乱子伦精品视手机观看| 亚洲国产一区在线观看| 亚洲天堂视频网| lhav亚洲精品| 国产在线视频自拍| 成人欧美日韩| 亚洲三级视频在线观看| 国产精品久久久久久久久kt| 日本一区高清| 国产97视频在线| 国产丝袜啪啪| 成人午夜免费视频| 91 九色视频丝袜| 亚洲国产av无码综合原创国产| 精品91自产拍在线| 91口爆吞精国产对白第三集| 亚洲国产精品久久久久秋霞影院| 毛片基地视频| 亚洲无码不卡网| 亚洲天堂网2014| 欧美无专区| 日本成人在线不卡视频| 2024av在线无码中文最新| 成人国产精品2021| 国产啪在线91| 日韩免费无码人妻系列| 中文字幕 91| 欧美精品综合视频一区二区| 2021精品国产自在现线看| 色哟哟国产精品| 亚洲视频在线青青| 五月天天天色| 欧美视频在线第一页| 亚洲国产精品成人久久综合影院| 丝袜亚洲综合| 免费在线一区| 亚洲第一页在线观看| 91久久国产综合精品女同我| 她的性爱视频| 日韩欧美中文字幕在线韩免费| 一级黄色网站在线免费看| 亚洲欧美自拍中文| 精品少妇人妻无码久久|