999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于信用評分和數據挖掘對商業貸款違約情況的預測方法研究

2020-04-20 11:24:52聶紀予
全國流通經濟 2020年4期

摘要:隨著貸款消費的發展,信貸管理中存在著諸多問題并且也面臨著一些難以掌控的風險,如果能利用數據挖掘技術,通過對貸款人的各類數據進行分析,從而得出一個相對準確的借貸判斷,那么對于金融部門會有很大價值。本文對數據挖掘的關鍵技術和相關挖掘分析方法進行了分析與解釋,利用現有的數據對多個模型進行比較得出了相對準確性較高的建模方法,最后對這一方法對社會的價值進行了簡要的評述。

關鍵詞:貸款違約;支持向量機;CART;信用評分模型

中圖分類號:F832.33;F224 文獻識別碼:A文章編號:2096-3157(2020)04-0144-04

一、研究背景

隨著國家經濟實力的穩步發展,國民生活條件得到了進一步的提高,人們的支出也隨之加大,貸款這種方式也因此越來越受到人們的青睞。而且信息技術的不斷發展使貸款脫離了銀行的限制,越來越多的商業團體也開通了貸款業務,如螞蟻花唄等方式使得貸款消費更加得大眾化,選擇貸款消費的人也越來越多。貸款違約現象給金融部門會帶來嚴重的經濟損失。因此,建立合適的個人信用評分方法迫在眉睫。

為保障銀行或者其他金融部門的安全,信用評分應運而生。該模型利用客戶的歷史資料和行為特征,對客戶進行評分,從而來決定客戶所能持有的金額限度,保證還款等業務的安全性。20世紀40年代以來,信用評分技術發展速度驚人。以美國為代表的西方資本主義國家已經建立了非常完善的信用評分系統。我國目前也在進行這方面的研究,但是還不太成熟,這個領域中仍然還有很多機會。

傳統的理念當中,采用的變量較少,每個變量均與客戶信用具有較強的關聯關系,對信用評估起著決定性作用。但當前的大數據背景,使得可用于評分的變量增多,每個變量的比重有所下降,但變量的聯合可以進行更好的預測。當然這需要對大量的數據進行復雜的分析處理。而處理許多變量和弱特征時,就需要一種復雜的技術算法作為其基礎。

利用數據挖掘的方法來處理貸款問題在國外已有初步研究。Herzog等在對抵押預期的分析中,發現收入波動性大的借款人更有可能發生拖欠行為[1]。我國這方面的研究起步較晚,但在研究的階段也取得了一定的成果。孫大力提出在應用信用評分模型時除了借鑒國外的成熟方法,還應注意結合我國國情與特殊情況,特別關注總體樣本、個人信用動態變化、特征變量的選取、臨界值判斷等具體問題[2]。王春峰等采用多種方法,主要有Logit回歸、線性判別法、神經網絡模型和遺傳規劃模型等,研究了信用風險控制理論[3]。

二、數據與方法

1.研究數據

在本研究中,筆者選用了UCI網站的數據集(http://archive.ics.uci.edu/ml/datasets/default+of+credit+card+clients)。該數據集共包含30000條數據。因變量Y是是否違約,0是未違約,1是違約。自變量給出了23個選項。

2.模型描述

根據UCI上的違約信用評分數據,我們采用混合SVM的方法建立分類模型,模型判別的結果是消費者是否違約。我們的建模思路主要分以下兩步進行。第一步,使用CART模型選擇合適的特征;第二步,將第一步選出的特征放入SVM進行分類。

首先,我們對所使用方法的基本原理進行簡要介紹。

(1)CART算法

CART(Classification And Regression Tree,分類回歸樹)是在給定輸入X條件下輸出隨機變量Y的條件概率分布的學習方法,本身屬于決策樹分類法。決策樹的生成過程就是使用滿足劃分準則的特征不斷將數據集劃分為純度更高,不確定性更小的子集。對于當前數據集D的每一次劃分,我們都希望根據某特征劃分之后的各個子集的純度更高,不確定性更小。這里我們選擇CART方法進行分類,對特征重要性排序,從而選出有研究價值的特征。

CART二分每個特征(包括標簽特征、連續特征,即分類型與數值型數據均可),經過最優二分特征及其最優二分特征值的選擇、切分、二叉樹生成、剪枝來實現CART算法。與其他決策樹算法不同的是,CART選擇使得基尼系數最小的剪枝方法。圖1所示為CART算法與其他決策樹算法的對比,決策樹的ID3算法和C4.5算法利用熵來度量,生成了相對較為復雜的多叉樹,且只能處理分類問題。CART算法使用基尼系數來代替信息增益比,基尼指數Gini(D)表示表示在樣本集合中一個隨機選中的樣本被分錯的概率。如圖2所示,基尼指數越大,樣本的不確定性也就越大,可以作為熵模型的一個近似替代,由此避免大量對數運算,簡化模型同時也不至于完全丟失熵模型的優點。

其中:

基尼指數(基尼不純度)= 樣本被選中的概率 ×樣本被分錯的概率(1)

在分類問題中,假設有K類,樣本點屬于第k類的概率為pk,則基尼系數表達式為:

Gini(p)=∑Kk=1pk(1-pk)=1-∑Kk=1p2k(2)

對于分類問題:設Ck為D中屬于第k類的樣本子集,則基尼指數為:

Gini(D)=1-∑Kk=1|Ck||D|2(3)

對于樣本D,如果根據特征A的某個值a,把D分成D1和D2兩部分,則在特征A的條件下,D的基尼系數表達式為:

Gini(D,A)=|D1||D|Gini(D1)+|D2||D|Gini(D2)(4)

(2)支持向量機模型

SVM(Support Vector Machine,支持向量機)的分類思想本質上和線性回歸LR分類方法類似,即求出一組權重系數,通過線性表示進行分類。先使用一組訓練集來訓練SVM中的權重系數,得到分割超平面,該平面即為分類的決策邊界,分在平面兩邊的就是兩類。進而找到離分隔超平面最近的點,確保它們離分隔面的距離盡可能遠,最大化支持向量到分隔面的距離。顯然,經典的SVM算法(圖3)只適用于兩類分類問題。

但經過改進之后,SVM也可以適用于多類分類問題。實際上,低維非線性的分界線在高維是線性可分的。由于從輸入空間到特征空間的這種映射會使得維度發生爆炸式的增長,因此上述約束問題中的內積運算會非常大以至于計算機無法承受。通常需要構造一個kernel函數。通過kernel核函數,將低維函數轉化為高維函數,只需要在輸入空間內就可以進行特征空間的內積運算。

常用的核函數包括線性核函數、多項式核函數、高斯(RBF)核函數、sigmoid核函數等,每種核函數均具有自己的特征和使用情形。

三、計算與結果分析

1.模型預處理

在模型建立之前,首先要進行數據的預處理。數據的預處理主要包含以下幾個方面:

第一,對數據集進行了切分處理,在切分過程保持正負樣本比例。以下是數據集切分結果(表2),切割中訓練集和測試集的比例是8∶2。

第二,通過欠采樣和過采樣處理正負樣本分布不均的問題。為了解決類別不平衡對模型輸出的影響,通過采用欠采樣和過采樣的方式,來調整數據的不平衡。為了保證結果的可比性,要始終保持同一測試集對效果進行檢驗,通過采樣的方式來調整數據的不平衡。欠采樣是從不違約的人數中隨機抽取,進而使不違約人數數量減小,與為違約人數相同。過采樣是從違約的數據集中有放回抽樣,進而使違約人數數量增加,與未違約人數相同。表3是在核函數為RBF函數的時候,樣本未處理與欠采樣、過采樣的模型效果對比,可見采樣的方式可以顯著提高模型效果。

第三,對數據進行歸一化處理。常見的數據歸一化的方法有兩種,第一種方法是利用min-max標準化的離差標準化方法,max為樣本數據的最大值,min為最小值。該方法是對原始數據的線性變換,使結果落到[0,1]區間。第二種方法是z-score的標準差標準化方法。該方法下經過處理的數據符合標準正態分布。將數據進行歸一化,便于不同單位或量級的指標能夠進行比較和加權,也能顯著提高模型的訓練速度。

第四,對分類型數據進行離散化處理。對于數值型數據來說,不同數據之間的差值是有意義的,較小的差值可以反映變量的相似情況。但是對于分類型數據來說,不同代碼數字之間的差值是無意義的,因此采用one-hot的編碼方法進行二元化處理。表4是利用該編碼處理的一個例子,從中可以更清晰地看到編碼方法。

第五,利用CART進行特征選擇。利用Salford System公司的軟件CATR 4.0和MART 2.0進行特征選取。這樣不僅能很好地解決分類與回歸問題,而且可以對變量的重要程度進行排名,是很好的特征選取工具。得到的結果如圖5所示。

2.模型調參

模型調參主要分為三個部分:利用不同的核函數進行處理,進行特征選擇和對原始數據進行采樣。在核函數調參過程中,主要使用了線性核(linear)、多項式核(poly)、徑向基函數(rbf)函數進行模型調整;在數據的特征選擇中,主要使用CART方法,選擇了重要程度更高的特征;在于原始數據采樣中,采用了不處理、欠采樣和過采樣三種方法對數據進行處理。

3.模型評估

對于模型效果的評價,主要選擇以下指標來說明模型效果。

根據混淆矩陣可以得到TP、FN、FP、TN四個值,TP即為預測正確的違約用戶的個數,FN為預測錯誤(預測為不違約)的違約用戶個數,根據這四個值即可計算精確率、召回率和F1。

精確率(Precision)為TP/(TP+FP),即為在預測為違約的用戶中,預測正確(實際為違約)的人占比。

召回率(Recall)為TP/(TP+FN),即為在實際為違約的用戶中,預測正確(預測也為違約)的用戶占比。

F1值是精確率和召回率的調和均值,即F1=2PR/(P+R),相當于精確率和召回率的綜合評價指標。在輸出結果不平衡的模型中,F1值是對模型結果的綜合考量。

第一類錯誤,為FN/(TP+FN)。即在預測違約的用戶中,實際是不違約的用戶。

第二類錯誤,為FP/(FP+TN)。即在預測不違約的用戶中,實際是違約的用戶的占比。

在商業信貸模型中,用戶違約帶來的損失是更大的,因此,第二類錯誤是重點關注的指標。

表5為不同模型下的計算結果,可以看出,CART1+SVM(RBF)能夠產生最好的分類效果。并且在該方法在欠采樣的情況下,第二類錯誤也可以得到很好的控制。

四、結論

準確的信用評分模型和對用戶是否違約的判斷,對銀行業務來說是至關重要的,因為用戶違約對銀行帶來的損失是非常大的。這也要求模型要做到對違約用戶的有效甄別。

就建模過程來講,本研究的意義在于建模過程和方法的指導。研究表明,CART1+SVM(RBF)能夠產生最好的分類效果。因此,在利用SVM建模的時候,推薦使用CART1先進行變量選擇,利用重要的變量進行SVM,能夠取得更好的效果。CART1+SVM(RBF)的方法,不僅具有較好的召回率和精確度,而且犯第二類錯誤的概率也更小。

參考文獻:

[1]Herzog,I.P.,&Earley,J.S.Home Mortgage Delinquency and Foreclosure[J].New York:National Bureau of Economic Research,1970,34~41.

[2]孫大利.個人信用評分模型綜述與應用分析[J].中國信用卡,2006,(9):27~34.

[3]王春峰,萬海暉,張維.基于神經網絡技術的商業銀行信用風險評估[J].系統工程理論與實踐,1999,(9):24~32.

作者簡介:聶紀予,唐山市第二中學學生。

主站蜘蛛池模板: 亚洲国产av无码综合原创国产| 天堂成人av| 欧美笫一页| 秘书高跟黑色丝袜国产91在线 | 成人午夜视频在线| 九九热在线视频| 欧美午夜久久| 日本高清有码人妻| 中文字幕无码中文字幕有码在线 | 国产人免费人成免费视频| 四虎精品国产AV二区| 国产精品不卡片视频免费观看| 思思99思思久久最新精品| 全色黄大色大片免费久久老太| 久久久久免费精品国产| 久久精品视频一| 国产成人精品一区二区三区| 露脸真实国语乱在线观看| 国产精品视频观看裸模| 日韩午夜福利在线观看| 欧美一级黄片一区2区| 日本人妻丰满熟妇区| 日本伊人色综合网| 又黄又湿又爽的视频| 美女扒开下面流白浆在线试听| 毛片视频网址| 日韩欧美成人高清在线观看| 久久黄色免费电影| a网站在线观看| 伊人狠狠丁香婷婷综合色| 久热re国产手机在线观看| 亚洲成在线观看| 亚洲国产在一区二区三区| 日韩小视频在线播放| 青青青视频蜜桃一区二区| 国产午夜精品鲁丝片| 国产微拍一区二区三区四区| 99国产精品免费观看视频| 国产网站免费看| WWW丫丫国产成人精品| 99精品国产电影| 中文字幕无线码一区| 亚洲最猛黑人xxxx黑人猛交 | 国产18在线| 99久视频| 国产精选自拍| 又爽又大又黄a级毛片在线视频 | 色综合中文| 亚洲精品视频免费看| 日日噜噜夜夜狠狠视频| 国产青青草视频| 欧美精品不卡| 99热免费在线| 亚洲无码37.| 亚洲欧洲日韩综合色天使| 国产午夜在线观看视频| 一本无码在线观看| 风韵丰满熟妇啪啪区老熟熟女| 亚洲人成色在线观看| 久久国产黑丝袜视频| 91无码人妻精品一区二区蜜桃| 一本大道香蕉久中文在线播放| 尤物特级无码毛片免费| 日韩小视频在线播放| 国产成人8x视频一区二区| 高清无码一本到东京热| 伊人蕉久影院| 激情乱人伦| 青青青国产视频手机| 亚洲三级片在线看| 伊人久久精品无码麻豆精品| 天天综合网在线| 亚洲欧美天堂网| 色偷偷综合网| 久无码久无码av无码| 综合色在线| 亚洲国产欧美国产综合久久| 日韩福利在线观看| 成人福利在线看| 一级毛片免费观看久| 色综合婷婷| 色成人亚洲|