999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

邏輯回歸和支持向量機在客戶信用分類中的應用

2023-03-03 05:45:42代雯月DAIWenyue
價值工程 2023年5期
關鍵詞:分類模型

代雯月 DAI Wen-yue

(四川文理學院數(shù)學學院,達州 635000)

0 引言

隨著經(jīng)濟的快速的發(fā)展,人們的消費觀念也在增強,客戶分類的應用也在頻繁運用于各商業(yè)銀行中,商業(yè)銀行也在市場經(jīng)濟中發(fā)揮著至關重要的作用。與此同時,商業(yè)銀行運營過程中面臨著諸多風險,其中判別客戶信用以此來進行客戶分類是商業(yè)銀行面臨的主要營銷之一,利用判別分析對銀行客戶進行預判是有效降低信用風險的方法,所以正確分類客戶類型的重要性越發(fā)突出。

客戶信用分類是指,根據(jù)個人的各種相關經(jīng)濟指標建模,指標的選取可以使用專家選擇或者大眾評估得到,進一步根據(jù)這些指標所建立的模型是對個人是否能履約各種承諾和信用程度高低的全面評價,并用簡單明了的符號或文字表達出來,以滿足社會需要的市場行為。

1 數(shù)據(jù)集說明與問題分析

1.1 數(shù)據(jù)集說明

此數(shù)據(jù)集來自UCI機器學習庫被公開的信息,是關于一家葡萄牙銀行機構從2008年5月到2010年11月的直接電話營銷活動,旨在促進現(xiàn)有客戶的定期存款,內(nèi)含兩個數(shù)據(jù)集,數(shù)據(jù)集1(bank-full.csv)共有45211條數(shù)據(jù),數(shù)據(jù)集2(bank.csv)是數(shù)據(jù)集1中隨機選取的10%的子集,共有4521條數(shù)據(jù)。每一個數(shù)據(jù)樣本有17個屬性。前16個是預測變量(自變量),依次表示為“年齡”,“工作”,“婚姻”,“教育”,“違約”,“余額”,“住房”,“貸款”,“聯(lián)系人通訊類型”,“天數(shù)”,“月數(shù)”,“持續(xù)時間”,“接觸次數(shù)”,“活動日數(shù)”,“聯(lián)系人數(shù)量”,“營銷活動結果”(分別用X1—X16表示),最后一個為響應變量(因變量),表示“訂閱定期存款”(用Y表示,當Y=1時表示“是”,當Y=0時表示“否”),這是真實的商業(yè)數(shù)據(jù)銀行根據(jù)客戶當時的社會經(jīng)濟情況,以此來預測客戶是否可能購買儲蓄產(chǎn)品從而接受營銷,此數(shù)據(jù)集具有普適性和一般性。

1.2 問題分析

首先,以分類模型理論為基礎,基于判別分析思想,選取并對比邏輯回歸模型和支持向量機模型,說明模型的可行性;然后,對數(shù)據(jù)進行預處理,包括數(shù)據(jù)集的劃分、平衡、類別變換,以此建立兩種判別函數(shù)模型求出判別結果;其次,針對模型判別結果,利用混淆矩陣對比錯判率,利用ROC曲線進行性能評估;最后,選取相對最優(yōu)模型來進行客戶的判別分類,根據(jù)判別表達式得出客戶預約定期存款的概率較小,刻畫出潛在的客戶人群。

2 模型選擇與建立

2.1 判別分析思想

判別分析是多元統(tǒng)計推斷中應用于對樣品進行判別分類的一種實用性很強的統(tǒng)計方法,是一種通過對已知分類樣本的研究得出具體模型,將模型用于未知樣本的判別分類中的多元統(tǒng)計分析方法。不論用什么具體的判別分析方法處理問題,通常模擬出用來衡量與所有已知樣本組別的接近程度的標志值,即判別函數(shù)值,同時也需要指定具體的判別準則,用以判定待判別樣品的組別。常用的有距離式準則、費歇準則、貝葉斯準則,逐步判別準則等。

2.2 邏輯回歸

邏輯回歸(Logistic Regression,LR)是研究二元分類的表現(xiàn)變量(因變量)與預測變量(自變量)之間關系的一種多變量統(tǒng)計分析方法,屬于概率型非線性回歸,是二分數(shù)據(jù)的廣義線性模型。由于因變量二分類數(shù)據(jù)的取值特點(一般設置為取0或1),該模型實際上就是在一般線性回歸的基礎上,引入了一個邏輯轉(zhuǎn)化函數(shù)Sigmoid,因此邏輯回歸被認為是一個被Sigmoid函數(shù)所歸一化后的線性回歸模型[1]。

對于二分類因變量Y和解釋變量X,令概率p為:

借助Sigmoid函數(shù)的轉(zhuǎn)換,此時的Logistic回歸模型為:

β向量中各分量(β1,β2…βp)′的符號決定了發(fā)生比是會隨著解釋變量X的增加而上升還是下降,其變化的速度由│βi│所決定。一般會將閾值設置為0.5,如果輸出結果p大于等于0.5時,把待判樣本歸為1類,反之歸為0類。

2.3 支持向量機

支持向量機(Support Vector Machines,SVM)是一種二分類模型,它的本質(zhì)思想是構建特征空間上不同類別間隔最大的分類器,通過轉(zhuǎn)化為凸二次規(guī)劃問題,從而實現(xiàn)間隔最大化。SVM的目標是找到一個最優(yōu)決策超平面,使不同的兩類樣本之間的距離達到最大,其中距離超平面最近的點稱為“支持向量”。假設數(shù)據(jù)集的樣本D={(x1,y1),(x2,y2)…(xm,ym)},yi∈{-1,+1}是線性可分的,對于超平面(ω,b),要使得不同類支持向量間的間隔距離最大化,即:

這就是支持向量機的基本型[1]。

2.4 模型對比

邏輯回歸與支持向量機都是分類算法和監(jiān)督學習算法,如果不考慮核函數(shù)兩者都屬于線性分類。但是,兩者之間也存在著顯著的差異:首先,支持向量機只考慮局部的邊界線附近的點,而邏輯回歸考慮全局;其次,支持向量機不直接依賴于數(shù)據(jù)分布,分類平面不受一類點影響,而邏輯回歸則受所有數(shù)據(jù)點的影響,一般需要先對數(shù)據(jù)做平衡性處理;最后,在解決非線性問題時,支持向量機采用核函數(shù)的機制,而LR通常不采用核函數(shù)的方法。

由于支持向量機并不是基于經(jīng)驗風險最小化原則,因此其經(jīng)驗風險可能較大,為了解決這個問題,本文將邏輯回歸引入到傳統(tǒng)支持向量機中,利用邏輯回歸的輸出概率為支持向量機的輸出結果提供支持信念,其目的是降低支持向量機對預測樣本進行判別的經(jīng)驗風險[2]。

3 模型求解與分析

3.1 數(shù)據(jù)的預處理

將數(shù)據(jù)集2(bank.csv)中的4521條數(shù)據(jù)視為測試集,用于模型結果的測試,將數(shù)據(jù)集1(bank-full.csv)中的45211條數(shù)據(jù)減去數(shù)據(jù)集2(bank.csv)中的4521條數(shù)據(jù)后的結果記為數(shù)據(jù)集3,將其視為訓練集,共有40690條數(shù)據(jù),用于模型的訓練。

通過簡單的統(tǒng)計發(fā)現(xiàn)樣本分配差距很大,其中Y=1的那部分樣本占了13.16%,樣本具有不平衡性,采取了欠采樣、過采樣、人工數(shù)據(jù)合成三種方法分別進行了數(shù)據(jù)平衡化處理,但卻發(fā)現(xiàn)平衡后數(shù)據(jù)的預測精度還不如原始數(shù)據(jù)的精度值高。經(jīng)過文獻閱讀,這類數(shù)據(jù)的不平衡性由于銀行做客戶分類,客戶具有一定的偏好性,即具有一個先驗概率問題。因此后面的分析使用原始數(shù)據(jù)進行。

此外,數(shù)據(jù)不缺在缺失值,由于采用的是R語言,在使用邏輯回歸模型時會自動對因子型變量設置虛擬變量,從而實現(xiàn)了對分類變量的量化。至此數(shù)據(jù)處理完畢,可應用于后續(xù)數(shù)據(jù)分析。

3.2 模型的性能評估

將預處理完后的數(shù)據(jù)分別建立邏輯回歸和支持向量機的判別模型,借助R語言[3],通過對比選擇錯判率更低的模型對測試集數(shù)據(jù)進行預測,兩類模型的預測結果混淆矩陣如表1和表2所示。

表1 邏輯回歸的混淆矩陣

表2 支持向量機的混淆矩陣

模型結果的性能評估往往采取ROC(Receiver Operating Characteristic)曲線,全稱為“受試者工作特征曲線”,源于雷達信號分析技術。ROC曲線的橫軸是“假正例率”(FPR),縱軸是“真正例率”(TPR),如果曲線越靠近左上角,則說明分類模型的分類結果準確率越高。AUC(Area Under ROC Curve)指ROC曲線與坐標軸圍成的面積,相對于ROC曲線,它是一個更加直觀的準確率評判標準,面積越大,則說明分類模型的分類性能較好,兩類模型的ROC曲線如圖1和圖2所示。

圖1 邏輯回歸ROC曲線

圖2 支持向量機ROC曲線

通過判對率和ROC曲線的性能評估可知,邏輯回歸的效果要更優(yōu)于支持向量機,因此在分析客戶是否預約定期存款上選擇邏輯回歸模型。為了更直觀的看出16個預測變量對響應變量的具體影響,將采用逐步回歸法依次篩選有效的預測變量[4],最終的顯著性變量表和邏輯回歸結果如表3和表4所示。

表3 顯著性變量表

表4 邏輯回歸結果

邏輯回歸判別表達式為:

3.3 模型的結果分析

通過對訓練集建立的逐步邏輯回歸可知,對16個預測變量整體而言,“age(X1)”、“job(X2)”、“default(X5)”、“days(X10)”、“months(X11)”、“previous(X15)”顯著性不明顯,即這六個方面各自差異并不能很好的體現(xiàn)客戶對于是否訂閱定期存款的偏好。其中的“marital(X3)”、“housing(X7)”、“l(fā)oan(X8)”、“campaign(X13)”、“pdays(X14)”變量對最后結果的影響顯著,且為負向影響,即其數(shù)值越大則表明客服訂閱定期存款的可能性約低,其中“housing”的負向影響程度最大,“pdays”的影響程度最小。其中的“education(X4)”、“balance(X6)”、“contact(X9)”、“duration(X12)”、“poutcome(X16)”變量對最后的結果影響也為顯著,且為正向影響,即其數(shù)值越大則表明客服訂閱定期存款的可能性約高,其中“poutcome”的正向影響程度最大,“balance”的正向影響程度最小。

根據(jù)最終擇優(yōu)選出的邏輯回歸方法,根據(jù)訓練集中已有的數(shù)據(jù)建立的判別模型,預測出在測試集的4521個客戶人群中,可以得出:有272個客戶會訂閱定期存款,其余的4249個客戶不會訂閱定期存款。

4 總結

為判別銀行客戶是否預約定期存款,建立邏輯回歸判別模型與支持向量機判別模性,并進行綜合比較,最后建立最優(yōu)逐步邏輯回歸模性。得出最終以下結論:從整體上講,“marital”、“education”、“balance”、“housing”、“l(fā)oan”、“contact”、“duration”、“campaign”、“pdays”和“poutcome”這10個預測變量對結果有較強的影響,其中,變量“poutcome”的正向影響因素最顯著,即其數(shù)值越大則表明客服訂閱定期存款的可能性約高,變量“housing”的負向影響因素最顯著,即其數(shù)值越大則表明客服訂閱定期存款的可能性約低。從分類變量上講,應著重關注單身人員、受教育程度更高的客戶、具有貸款的、余額越多、與客接觸的時間越長則越有可能前來訂閱定期存款。此外,盡量減少在二月份進行營銷活動,適當增加三月份的營銷活動,在營銷活動中接觸客戶人數(shù)適當就好,越多并不代表成功率越高。

猜你喜歡
分類模型
一半模型
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
分類討論求坐標
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
主站蜘蛛池模板: 国产成熟女人性满足视频| 中文国产成人精品久久| 韩日无码在线不卡| 六月婷婷综合| 亚洲婷婷在线视频| 91成人在线免费观看| 91麻豆国产视频| 欧美亚洲一区二区三区在线| 人妻一本久道久久综合久久鬼色| 九九热精品视频在线| 午夜福利无码一区二区| 在线中文字幕日韩| 91蝌蚪视频在线观看| 精品久久久久无码| 亚洲欧美成人影院| 精品一区二区久久久久网站| 中文国产成人精品久久一| 国产免费网址| 91在线一9|永久视频在线| 免费亚洲成人| 99久久性生片| 欧美午夜在线视频| 亚洲高清在线播放| 九九视频免费在线观看| 免费毛片视频| 高清无码一本到东京热| 在线观看精品自拍视频| 亚洲人视频在线观看| 99在线免费播放| 亚洲aaa视频| 国产日本欧美在线观看| 另类专区亚洲| 精品一区国产精品| 午夜高清国产拍精品| 欧美成a人片在线观看| 国产成人午夜福利免费无码r| 中国一级毛片免费观看| 在线毛片网站| 亚洲成人在线网| 99在线视频精品| 中文字幕第4页| 一级毛片在线免费看| 在线日韩一区二区| 国产精品 欧美激情 在线播放| 亚亚洲乱码一二三四区| 国产精品亚洲欧美日韩久久| jizz在线观看| 手机在线免费不卡一区二| 五月婷婷亚洲综合| 在线精品自拍| 欧美精品黑人粗大| 国产白浆视频| 国产麻豆精品久久一二三| 欧美笫一页| 精品久久综合1区2区3区激情| 亚洲色图另类| 日韩国产 在线| 欧美日韩91| 欧美激情首页| 亚洲成人动漫在线观看| 在线99视频| 91人妻在线视频| 毛片a级毛片免费观看免下载| 国产乱人伦精品一区二区| www.亚洲一区| 啊嗯不日本网站| 97人人做人人爽香蕉精品| 国产成人av一区二区三区| 国产91丝袜| 香蕉在线视频网站| 思思99热精品在线| 97久久人人超碰国产精品| 国产麻豆91网在线看| 99这里只有精品免费视频| 亚洲va视频| 狠狠色丁婷婷综合久久| 2021国产乱人伦在线播放| 国产成人精品一区二区三区| 成人在线天堂| 91在线丝袜| 97超碰精品成人国产| 亚洲男人天堂2018|