999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于核SVM的銀行客戶分類研究

2021-06-15 15:13:04倪非凡趙黎麗謝立
中國市場 2021年13期

倪非凡 趙黎麗 謝立

[摘 要]人工智能技術為金融行業(yè)的發(fā)展帶來更多的機遇。針對銀行客戶潛在價值的分析與發(fā)掘,幫助金融機構制定合理的策略,處理客戶關系。文章面向真實銀行數(shù)據(jù)集,提出基于支持向量機(SVM)模型的客戶分類方法,并引入核函數(shù)來增強SVM的擬合能力,通過與K-means、隨機森林、決策樹等傳統(tǒng)機器學習分類算法進行實驗分析比較,結果表明,基于核函數(shù)的SVM算法具有良好的效果,能準確地實現(xiàn)客戶分類,更有助于加強對客戶的了解。

[關鍵詞]SVM;核函數(shù);銀行客戶分類

[DOI]10.13939/j.cnki.zgsc.2021.13.017

1 引言

隨著信息技術的發(fā)展,銀行等金融機構對智能信息分析技術的依賴逐漸增加。客戶的分類分析有助于金融機構對客戶進行資源整合、價值發(fā)掘以及關系管理,從而為金融機構實現(xiàn)利益最大化提供幫助。但大部分金融機構僅僅注重客戶資產(chǎn)等基本的屬性,不能發(fā)掘客戶的潛在特征,這是銀行發(fā)展現(xiàn)狀的短板,需加強與高新技術的結合,利用大數(shù)據(jù)、人工智能等新技術,為進一步探索客戶特征提供可能。

目前在銀行領域應用SVM算法進行客戶分類的研究成果還不多見。為了使得金融行業(yè)能夠更加準確地把握客戶信息,增強客戶管理能力,實現(xiàn)客戶的精準分類,文章首先將銀行客戶真實數(shù)據(jù)進行清洗,并進行數(shù)據(jù)集劃分;其次,在SVM模型中引入核函數(shù),增強SVM模型的泛化能力;最后,進行模型的性能測試。同時對分類結果進行分析,與幾個常用的機器學習算法在分類準確度上進行比較,并從健壯性和性能角度綜合評價了SVM模型,結果表明,引入核函數(shù)的SVM模型具有良好的分類能力。

2 基于核SVM的銀行客戶算法

文章采用SVM算法對銀行客戶進行分類分析研究,同時引入核函數(shù)加強SVM的分類能力。

SVM是一種二分類機器學習模型,其本質(zhì)上為定義在特征空間上的最大間隔分類器,當SVM算法增加核函數(shù)后,其實質(zhì)上變?yōu)榉蔷€性。SVM的目的是找到最大間隔的分類界限。

設樣本集合X={X1, X2, X3, …, Xn}中包含正樣本和負樣本兩類樣本,樣本Xi(i=1, 2, 3, …, n)對應標簽yi(i= 1, 2, 3, …, n), yi具有兩種取值,當yi=1時,表示yi屬于正樣本;當yi=-1時,表示yi屬于負樣本。樣本集合X可分為線性可分和線性不可分兩種類型,下面分別針對不同類型進行簡要說明。

2.1 樣本線性可分

直接對樣本集合X進行分類。超平面α為分類對間隔,表達式如下所示:

ω×a+b=0 (1)

其中,ω為超平面α的法向量。a為系數(shù),b為任意常數(shù)。此時分類問題轉變?yōu)閷ふ易顑?yōu)的超平面α,即尋找最優(yōu)系數(shù)a和最優(yōu)常數(shù)b,使SVM具有最好的分類效果,該最優(yōu)問題可以歸結為下面公式:

min‖ω2‖2+ρnk=1ζk(2)

s.t.Yk(ω2·Xk+b)≥ζk, ζk≥0, k=1, 2, 3, …, n(3)

其中,ρnk=1ζk是損失項,ρ為損失系數(shù)。

根據(jù)式(2)和式(3)構建拉格朗日函數(shù),由于不容易直接求得原問題的解,但與其對偶問題有相同的最優(yōu)解,因此該問題的解可由其對偶問題求得:

max f(γ)=L(ω, b, γ)=nk=1γk-12nk-1nl=1γkγlYkYlXTkXl(4)

s.t.nk=1γkYk=0, 0<γk<ρ(5)

假設拉格朗日乘子γ*k的最優(yōu)值根據(jù)式(4)和式(5)求得,那么原問題的最優(yōu)解由下式表示:

ω0=nk=1γ*kYkXk(6)

b0=1n1+n2n1k=1(1-ω0X(s1)k)+n2k=1(-1-ω0X(s2)k)(7)

其中,X(s1)k為正樣本中的第k個支持向量,n1為正樣本中支持向量的總個數(shù),X(s2)k為負樣本中第k個支持向量,n2為負樣本中支持向量的總個數(shù)。

首先將SVM分類器進行樣本訓練,然后將實時數(shù)據(jù)輸入到SVM中,根據(jù)下式可計算輸出樣本的類別:

L(ω0X(t)+b0)=1,X∈T-1,X∈F(8)

其中,X(t)為測試樣本,T表示該樣本屬于正樣本,F(xiàn)表示該樣本屬于負樣本。

2.2 樣本線性不可分

當分類樣本線性不可分時,需將每一個樣本的維度進行升高,在高維空間實現(xiàn)線性可分。

此時式(4)和式(5)變?yōu)槿缦滦问剑?/p>

max f(γ)=nk=1-12nk=1nl=1γkγlYkYlψ(Xk)Tψ(Xl)(9)

s.t.nk=1γkYk=0, 0<γk<ρ(10)

其中,ψ為線性空間變換,樣本Xk的映射結果為ψ(Xk)。 令P(Xk, Yl)=ψ(Xk)Tψ(Yl), Qk, l=YkYtP(Xk, Xl), 代入式(9)和式(10)得到如下公式:

min(12γTQγ-eTγ)(11)

s.t.YTγ=0, 0≤γk≤ρ(12)

其中,Q稱為核函數(shù)。

文章選取了真實的銀行客戶數(shù)據(jù),具有多維特征,屬于樣本線性不可分數(shù)據(jù)類型,因此需要引入核函數(shù)解決此問題。通過選取核函數(shù),可實現(xiàn)樣本從低維向高維空間轉換,并求解式(11)和式(12)。

3 算法框圖

本研究主要采用SVM算法實現(xiàn)對銀行用戶的分類,首先對客戶數(shù)據(jù)進行預處理,然后輸入訓練數(shù)據(jù)對SVM分類器進行模型訓練,再將測試數(shù)據(jù)輸入分類器進行測試,最后對分類結果進行了分析。整體的框架如圖1所示。

4 實驗分析

4.1 數(shù)據(jù)集描述

文章的權威數(shù)據(jù)集來自某銀行的真實客戶信息[1]。包含年齡、工作類型、婚姻狀況、文化水平、是否有負債、年收入、有無房貸、有無個人貸款等信息。

原始數(shù)據(jù)中眾多特征是離散型的變量,同時存在缺失值,這些因素對實驗結果產(chǎn)生重大影響,因此對原始數(shù)據(jù)進行了預處理。首先去除數(shù)據(jù)集中的缺失值,其次對離散數(shù)據(jù)進行預熱處理。將整個數(shù)據(jù)劃分為訓練集和測試集,分別存儲于不同的文件中,便于讀取。

4.2 數(shù)據(jù)預處理

對數(shù)據(jù)集中所有的特征均采用預熱處理,具體來說,將年齡分成4個類別,將年收入分成5個類別,將每年最后一次聯(lián)系的月份情況分為3個類別,將距離上一次聯(lián)系客戶的天數(shù)的相關情況分為5個類別,將在此活動之前和此客戶執(zhí)行的聯(lián)系人數(shù)的相關情況分為4個類別。

4.3 評價指標

本研究比較了SVM、K-means[2-4]、決策樹(Decision Tree)[5]、隨機森林(Random Forest)[6]四種常見機器學習分類模型的性能,涉及的實驗均使用python語言編譯,8核CPU下運行,編譯環(huán)境為jupyter notebook。

其中SVM采用了不同類型的核函數(shù),具體情況如表1所示。

研究采用準確率(accuracy)、精確率(precision)、召回率(recall)評價各模型的預測性能,計算公式如下。

其中,TN表示將負類預測為負類的數(shù)量,F(xiàn)P表示將負類預測為正類的數(shù)量,F(xiàn)N表示將正類預測為負類的數(shù)量,TP表示將正類預測為正類的數(shù)量。

5 實驗結果

本小節(jié)主要從模型的分類準確度、模型效率以及模型健壯性角度對SVM以及各類常見分類算法進行了對比說明。

5.1 模型分類的準確度

SVM具有較高的準確率和較低的損失,其中引入poly核函數(shù)的SVM具有最高的準確率、精確率和召回率,具有最低的損失,因此具有最好的分類效果。引入poly核函數(shù)的SVM模型的準確率達到93%,精確率達到88%,召回率達到34%,損失僅為2.79,同時引入rbf核函數(shù)、sigmoid核函數(shù)和linear核函數(shù)的SVM模型的準確率依次為91%、89%和89%,精確率分別為70%、68%和66%,召回率依次為20%、28%和17%,分類損失依次為3.35、3.60和3.64,證明了SVM在二分類問題上具有很強的適應能力,也很大程度上得益于選取的核函數(shù)。在本研究中,選取poly核函數(shù)的SVM分類器分類效果最佳。

5.2 魯棒性分析

數(shù)據(jù)采集的過程中受不可抗拒因素的影響,導致部分數(shù)據(jù)出現(xiàn)缺失或收集到無關數(shù)據(jù)的情況,實驗階段首先對數(shù)據(jù)進行了預處理,補全了缺失值,去除了無關數(shù)據(jù),理論上更具理想化,與真實數(shù)據(jù)存在一定差異。為了說明模型對真實數(shù)據(jù)同樣具有較強的擬合能力,進行了健壯性分析,即隨機在訓練集和測試集上加入不同比例的噪聲后進行預測,模型預測結果如表2所示。

結果表明,增加噪聲后,SVM-poly模型當分類準確率略微有所降低,從93%稍稍降低到85%,損失略微有所升高,從2.79稍稍升高到3.23,因此,SVM模型原始數(shù)據(jù)具有魯棒性。

5.3 模型性能分析

為了更加全面地評估各模型的分類能力,分別計算了各模型在訓練和預測時所需的時間,如表3所示。

6 結論

文章采用SVM模型對銀行客戶進行了分類分析,引入核函數(shù),并與常見機器學習分類算法K-means、決策樹和隨機森林進行了對比研究,從分類的準確度、健壯性以及性能方面進行了詳細的分析,充分證明了SVM分類算法在二分類問題上的優(yōu)越性,并得到如下結論。

(1)在分類準確度方面,準確率提升了2.20%~46.77%,精確度平均提升20.70%,召回率平均提升53.84%,分類的損失平均降低22.61%。

(2)在健壯性方面,SVM-poly模型在添加不同噪聲的數(shù)據(jù)集上依然能夠準確地分類,準確率僅僅稍微有些降低。

(3)在時間效率方面,SVM-poly稍微耗費時間,這可能是由于SVM模型本身的計算較為復雜,同時引入了核函數(shù)的緣故。

綜上,在二分類問題上,SVM模型具有較強的分類能力。加入合適的核函數(shù)會加強SVM模型的分類能力,但依然存在進步的空間。隨著經(jīng)濟的發(fā)展,金融行業(yè)與信息技術緊密結合,將機器學習算法應用到實際中,可以為金融行業(yè)帶來更多的機遇。

參考文獻:

[1]https://archive.ics.uci.edu/ml/machine-learning-databases/00222/[Z].2020-08-27.

[2]謝修娟,李香菊,莫凌飛.基于改進K-means算法的微博輿情分析研究[J].計算機工程與科學,2018,40(1):155-158.

[3]郭璘,周繼彪,董升,等.基于改進K-means算法的城市道路交通事故分析[J].中國公路學報,2018,31(4):270-279.

[4]周本金,陶以政,紀斌,等.最小化誤差平方和k-means初始聚類中心優(yōu)化方法[J].計算機工程與應用,2018,54(15):48-52.

[5]KIM Y H,KIM M J,SHIN H J,ET AL.MRI-based decision tree model for diagnosis of biliary atresia[J].European Radiology,2018.

[6]XIA J,GHAMISI P,YOKOVA N,ET AL.Random forest ensembles and extended multi-extinction profiles for hyperspectral image classification[J].IEEE Transactions on Geoence & Remote Sensing,2018(1):1-15.

[作者簡介]倪非凡(1998—),女,漢族,浙江杭州人,研究方向:經(jīng)濟統(tǒng)計、數(shù)據(jù)分析等。

主站蜘蛛池模板: 污网站在线观看视频| 这里只有精品免费视频| 国产福利一区在线| 久久精品国产在热久久2019| 日本精品视频一区二区| 国产精品久久久久久搜索| av色爱 天堂网| 丁香婷婷激情综合激情| 精品国产三级在线观看| 亚洲天堂区| 亚洲欧州色色免费AV| 国产一级在线播放| 欧美精品v欧洲精品| 国产麻豆福利av在线播放| 国产免费高清无需播放器| 玖玖免费视频在线观看 | 日本免费新一区视频| 日韩欧美91| 午夜限制老子影院888| 91在线精品免费免费播放| 日韩123欧美字幕| www亚洲精品| 精品黑人一区二区三区| 极品国产一区二区三区| 国产精品性| 国产一区在线观看无码| 久久亚洲天堂| 日韩在线视频网站| 国产女人水多毛片18| 99re在线视频观看| 国产91小视频| 国产一级毛片高清完整视频版| 中文国产成人精品久久| 国产女人在线| 成人字幕网视频在线观看| 国产视频自拍一区| 亚洲视频二| 国产在线观看人成激情视频| AV不卡在线永久免费观看| 日本亚洲国产一区二区三区| 精品视频福利| 伊人91在线| 久久国产免费观看| 色网站免费在线观看| 日韩黄色在线| 91色国产在线| 美女无遮挡免费视频网站| 日韩美一区二区| 蜜桃臀无码内射一区二区三区| 国产第一页免费浮力影院| 婷婷综合色| a级毛片在线免费| 免费毛片全部不收费的| 综合天天色| 99草精品视频| 久久精品欧美一区二区| 91网站国产| 高清无码手机在线观看 | 亚洲天堂免费| 91福利一区二区三区| 亚洲精品国产成人7777| 欧美特级AAAAAA视频免费观看| 欧美三级视频在线播放| 国产精品jizz在线观看软件| 伊人网址在线| 高清色本在线www| av天堂最新版在线| 精品国产黑色丝袜高跟鞋| 在线观看亚洲人成网站| 欧美区国产区| 国产人成在线观看| 国产乱子伦一区二区=| 亚洲综合第一页| 国产成人精品一区二区秒拍1o| 日韩在线成年视频人网站观看| 亚洲综合色婷婷中文字幕| av尤物免费在线观看| 久久无码高潮喷水| 午夜毛片免费观看视频 | 午夜在线不卡| 日韩无码一二三区| 一级毛片免费观看久|