999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于數據挖掘的信用卡信用評分模型

2014-08-16 01:08:38劉武成談超洪
網絡安全與數據管理 2014年9期
關鍵詞:數據挖掘分類方法

劉武成,談超洪

(1.廣西大學 計算機與電子信息學院,廣西 南寧 530004;2.廣西經濟信息中心,廣西 南寧 530022)

銀行通常運用判斷技術或信用評分模型來決定是否接受一個客戶的信貸。大部分銀行采用基于性格、資金、抵押品、能力和條件的3C、4C或5C的判斷方法。而對于信用卡申請客戶,銀行使用信用評分或者預測模型對申請人分類。通常,線性判別分析和Bayes判別是兩種在信用評分模型中常用的統計方法[1-5]。但是,隨著信息與計算機技術的發展進步,數據挖掘的新技術不斷出現。SAS/EM和SPSS等數據挖掘工具不但提供經典的方法,同時支持一些新興的預測模型和分類技術,例如決策樹、神經網絡、支持向量機(SVM)和 K-臨近值(KNN)。參考文獻[5]將神經網絡模型應用在評估埃及銀行的信用風險并比較其與判別分析、概率值分析和邏輯回歸的傳統的技術的性能。一個大型的信用卡供應商每年必須評估數萬甚至數十萬的信用卡申請人。因此,統計方法和自動化申請程序是極其必要的。數據挖掘軟件的出現,銀行可以方便地部署一個預測模型快速而有效地分析大量申請人。此外,一個好的信用風險記分模型可以讓管理者在處理信用卡申請人時做出更好更正確的決定。本文的目的是提出一種信用卡申請人分類的信用評分模型,以解決現有信用評分模型難以適應大規模非結構化數據、缺失數據等問題,并比較該信用評分模型下分類回歸樹模型 (CART)、Bayes模型和神經網絡模型(NN)在信用卡申請人分類預測中的性能表現。

1 信用評分模型的基本方法

信用評分模型能夠將信用卡申請人的未來行為以量化形式進行預測,使用指標形式清晰地表示,可判斷申請人在未來特定時間里違約的概率。信用評分模型廣泛使用在銀行、信貸公司、事業單位、保險公司等涉及消費信用的企事業單位中。信用評分模型運用先進的數據挖掘技術,通過對申請人的人口特征、信用歷史記錄和行為記錄等大量的數據進行系統分析,挖掘數據中蘊含的行為模式、信用特征,捕捉歷史信息和未來信用表現之間的關系,預測申請人今后的信用表現。

根據大量可量化的借貸人特征,信用評分模型評估借貸人的信貸風險,即貸款人按照承諾償還貸款的可能性。近些年來,信用評分模型已應用在住房貸款、小型企業貸款、保險的申請和續延[4]。信用評分是一個基于統計和數據挖掘研究方法的分類過程。一直以來,判別分析和線性回歸是構建信用評分模型應用最廣泛的技術。除此之外,還有 Logistic回歸、概率單元分析、非線性平滑方法特別是K-臨近值、最優化理論、馬爾可夫模型、遞歸劃分、專家模式、遺傳算法和神經網絡等[1]。

構建一個信用評分模型,首先獲取申請人填寫的客戶相關資料和銀行提供的內部信息,接著對信息進行量化處理,然后選用合適的數據挖掘技術,建立信用評分模型,對數據進行分析驗證,得出客戶的綜合信用評分,設定一個合理的閾值,判定客戶是否通過申請。其流程如圖1所示。

圖1 信用評分模型流程圖

一個預測效果好的記分模型需要先前發放貸款或申請人的歷史數據和借貸人特征數據,實現對于信用良好的客戶評定的分數高,對于信用欠佳的客戶評定的分數低的結果。個人信用評分模型的重要指標可以大體劃分為人口、經濟、就業和行為指標[3]。人口指標包括年齡、性別、婚姻狀況、地址所屬區、民族、家屬人數。這些變量典型地反映了很多區域、性別和其他相關差異。經濟指標包括月收入、財產等;就業指標包括工作年數、工作技能等;行為指標包括借貸歷史、借貸數目等。模型的重要指標可以幫助更好地分辨好/壞的申請人[3]。舉例來說,年長女性的風險通常低于年輕男人。通常情況下,年紀越大,違約風險越低,已婚申請人的家屬的違約風險較高。

從文獻綜述和銀行信用卡中心部門的可靠數據可知,選用典型合適的指標構建模型,其具體描述如表1所示。

不同指標對信用評分的結果影響不同。因此,本文提出根據指標對結果的相關性,對指標進行量化處理時,將不同指標乘上相應的影響因子,以便達到更準確的評估判別結果。其表達式為:

其中,xi表示指標i量化后的值,δi表示歸一化后的指標i的影響因子,yi表示修改后的指標的量化值。δi=1,n表示指標數。本文中n為14。

表1 變量描述

2 基于數據挖掘的信用評分模型

2.1 三種數據挖掘方法

分類回歸樹是基于統計理論的非參數的數據挖掘技術[6]。基本思想是從根節點開始采用自頂向下的(Topdown)的遞歸方式在每個節點上對樣本集按照給定標準選擇分支屬性,然后按照相應屬性的所有可能取值向下建立分支、劃分訓練樣本,直到一個節點上的所有樣本都被劃分到同一個類,或者某一節點中的樣本數量低于給定值。其特點是在計算過程中充分利用二叉樹的結構,即根節點包含所有樣本,在一定的分割規則下根節點被分割為兩個子節點,這個過程又在子節點上重復進行,成為一個回歸過程,直至不可再分成為葉節點為止[7]。本文CART采用“二分法”進行分支,其定義公式為:

貝葉斯(Bayes)判別分析方法是在信用評分模型中常用的統計方法。其思路是基于貝葉斯統計理論,根據已獲得的每個類別的樣本數據,分析并總結客觀事物分類的規律性,建立合適的判別函數,然后利用判別函數對新樣本所屬類別進行判定[8-9]。貝葉斯定理求出某類總體的后驗概率,即:

其中,qj是 j類的先驗概率,pj(x)是 j類的概率密度分布函數,k為類的個數。

神經網絡是對人腦或自然的神經網絡結構和功能的抽象和模擬,主要由輸入層、隱藏層和輸出層構成[10]。BP神經網絡的主要思想是采用Delta學習規則的權值修正策略,把學習的過程分為兩個部分,一部分是信息流經過輸入和隱含層的處理計算輸出,另一部分是利用輸出層誤差估計前一層的誤差,再用這個誤差估計更前一層的誤差,形成誤差值的反向傳播,借此調節網絡的權重[11]。本文神經網絡隱藏側節點采用的激活函數為tansig函數,表達式如式(4)所示,輸出層及誒單的激活函數為logsig函數,表達式如式(5)所示。

2.2 基于數據挖掘的評分模型

SPSS是一款應用十分廣泛、集成度非常高的數據挖掘軟件,它提供了新興的預測模型和分類技術。本文選取分類回歸樹、Bayes判別和神經網絡3種方法,運用SPSS軟件平臺,分別構建分類回歸樹模型、Bayes判別模型和神經網絡模型。具體步驟如下。

(1)數據輸入和抽樣。去除缺失數據,把未缺失數據作為輸入數據。

(2)數據轉換。信用評分模型的目標變量是申請人狀態,即一個具有接受或拒絕兩個狀態的二進制變量。即設置目標變量 Tar,如果 Tar=0,說明為壞客戶;反之Tar=1,說明為好客戶。

(3)數據屬性調整和設定目標變量。設置Tar為定位目標變量,其他為輸入變量。

(4)數據集劃分。把樣本集合劃分成訓練集和驗證集,訓練樣本數據用來訓練模型,驗證樣本數據用來驗證所建模型。樣本數據分為訓練樣本(65%)和驗證樣本(35%)。

(5)選擇數據挖掘方法。本文選取了分類回歸樹、Bayes判別和神經網絡3種方法。在模型中分別運用分類回歸樹、Bayes判別和神經網絡進行分析驗證。數據樣本包括3 610個信用卡申請人,其中 1 083(30%)申請人被拒絕,2 527(70%)申請人被接受。

首先,步驟(1)提出了缺失數據,這是由于海量信用信息數據中,直接剔除缺失數據,并不會影響數據集的整體完備性;步驟(2)及步驟(3)可以保證對非結構化數據的有效處理;步驟(4)可以保證利用已有數據進行分析訓練和后繼的驗證;步驟(5)可以驗證本信用評分模型在3種數據挖掘方法下的性能表現,選出最適應本信用評分模型的數據挖掘方法。

3 實驗分析

在SPSS數據挖掘工具中構建分類回歸樹、Bayes判別和神經網絡的信用記分模型,并分別對應相應的模型輸出。將分類回歸樹、Bayes判別和神經網絡3個預測模型被連接到計算準確率的節點進行運算,同時利用評價節點進行分析評估。

3.1 分類回歸樹實驗結果

決策樹易于理解并且可以簡單轉換成一組規則;另外,它不需要先驗數據就可以對范疇數據和數值數據進行分類。由于具有以上優勢,決策樹方法廣泛應用于分類與預測。分類回歸樹是剪枝過程中基于最小成本原則的決策樹方法。根據實驗結果分析,分類回歸樹模型有5條判別申請人狀態的規則,具體如表2所示。

表2 申請人狀態規則

3.2 Bayes判別模型實驗結果

Bayes判別是線性判別中一種常用的方法。考慮各樣本總體出現概率的大小,預報的后驗概率及錯判率的估計以及錯判之后造成的損失,是Bayes判別應用于分類與預測的主要優勢。

在SPSS工具中,選擇Mahalanobis距離逐步判別法,得到兩個線性判別函數的變量和相關系數。應用Bayes判別模型,在預測申請人狀態里采用9個具有統計意義的輸入變量,分別是年齡、性別、就業、財產、貸款數目、住房、家庭電話、期限和貸款歷史。表3的兩個線性函數分別對應兩個申請人狀態,每一列數字都是個判定方程對應自變量的系數。

通過計算樣本在每個判定函數的判定方程的值,根據最大函數值來確定該樣本所對應的級別。判別結果表明女性和年長的申請人被接受的可能性更大。更大數目和更長期限的申請人很可能被拒絕。

表3 Bayes判別結果

3.3 神經網絡模型實驗結果

采用一個具有以下特征的BP神經網絡模型進行信用卡申請人分類。

用于構建NN模型的13個輸入變量:年齡、性別、婚姻狀況、財產、工作、現居地址、住房、家庭電話、期限、借貸歷史、借貸數目、就業,借貸次數。

只有兩個值的一個輸出變量:1表示接受,0表示拒絕。

神經網絡模型中,輸入層有29個神經元輸入,隱藏層有3個神經元輸入,輸出層有1個神經元輸出。在神經網絡中,沒有數學模型,只有重要性按降序排列的輸入變量如表4所示。最重要的5個變量是借貸歷史、期限、貸款數目、現居地址和現存貸款數目。

表4 神經網絡輸入變量

3.4 各模型之間的比較

在提出的模型條件下,為了選出預測申請人狀態效果最佳的模型,對3個模型進行比較。訓練樣本和驗證樣本的準確率如表5所示。相對而言,神經網絡模型預測準確率較高。

表5 各模型比較

數據挖掘技術包括傳統的統計方法以及在機器學習和人工智能方面的非傳統的方法。非傳統的統計學方法中最重要的兩種方法是神經網絡和決策樹。這兩種數據挖掘技術比傳統的統計學方法更能模擬復雜的非線性和交互作用。本次研究的重點是構建和評估包括邏輯回歸、決策樹和神經網絡在內的3種信用記分模型,旨在進行信用卡申請人分類。結果顯示神經網絡模型具有相對稍高的預測準確度。信用評分模型的性能取決于數據結構,數據質量和分類的目的。

成熟的技術,如 ANNS,MARS和 SVM,已經證明只能稍微提高分類準確率。在實際應用中,用戶更加喜歡相對容易理解的分類方式,如決策樹和邏輯回歸。隨著數據挖掘軟件的發展,越來越多的銀行已經意識到數據挖掘模型易于部署并能夠有效增加其競爭優勢。

[1]VEDALA R,KUMAR B R.An application of Naive Bayes classification for credit scoring in e-lending platform[C].International Con-ference on Data Science& Engineering(ICDSE), 2012:81-84.

[2]MARIKKANNU P,SHANMUGAPRIYA K.Classification of customer credit data for intelligent credit scoring system using fuzzy setand MC2-Domain driven approach[C].Electronics Computer Technology(ICECT),2011(3):410-414.

[3]HE JING, Zhang Yanchun, Shi Yong, et al.Domaindriven classification based on multiple criteria and multiple Constraint-Level programming for intelligent credit scoring[C].IEEE Transactions on Knowledge and Data Engineering,2010,22(6):826-838.

[4]VOJTEK M,KOCENDA E.Creditscoringmethods[J].Czech Journal of Economics and Finance, 2006,56(3-7):152-167.

[5]ABDOU H, POINTON J, EL-MASRY A.Neural nets versus conventional techniques in credit scoring in Egyptian banking[J].Expert System with Applications, 2008(35):1275-1292.

[6]董連英,邢立新,潘軍,等.高光譜圖像植被類型的CART 決策樹分類[J].吉林大學學報,2013,1(1):83-89.

[7]馮少榮,肖文俊.基于樣本選取的決策樹改進算法[J].西南交通大學學報,2009,10(5):643-647.

[8]胡國勝.入侵檢測的 Fisher、Bayes和 MSE識別算法及等價性證明[J].計算機應用與軟件,2012(4):293-296.

[9]董文娟,朱遠鑫,萬明剛,等.沉積環境判別與分類的Bayes判別分析法[J].成都大學學報,2011,2(30):139-142.

[10]周玉,錢旭,張俊彩,等.可拓神經網絡研究綜述[J].計算機應用研究,2010,1(27):1-5.

[11]王燕妮,樊養余.改進BP神經網絡的自適應預測算法[J].計算機工程與應用,2010,46(17):23-26.

猜你喜歡
數據挖掘分類方法
分類算一算
探討人工智能與數據挖掘發展趨勢
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
一種基于Hadoop的大數據挖掘云服務及應用
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 国产三级视频网站| 91系列在线观看| 国产一级α片| 国产乱肥老妇精品视频| 人妻精品久久无码区| 亚洲一道AV无码午夜福利| 欧美在线一级片| 欧美国产在线精品17p| 在线观看欧美国产| www亚洲精品| 国产网友愉拍精品视频| 欧美激情二区三区| 亚洲无线观看| 亚洲综合极品香蕉久久网| 亚洲国产天堂在线观看| 久久精品免费看一| 少妇极品熟妇人妻专区视频| 国产精品熟女亚洲AV麻豆| 国产视频自拍一区| 日韩色图在线观看| 一级毛片中文字幕| 亚洲精品中文字幕午夜| 国内精品久久人妻无码大片高| 日本高清免费一本在线观看 | a毛片免费看| 日韩午夜伦| 久久夜色精品| 国产成人精品一区二区| 国产午夜人做人免费视频| 国产精品视频公开费视频| 国产成人一区在线播放| 国产成人精品一区二区三区| 欧美成人精品高清在线下载| 国产青青操| 亚洲色图欧美激情| 一级黄色网站在线免费看| 天天干天天色综合网| 国产香蕉一区二区在线网站| 伊人久久综在合线亚洲91| 国产精品国产三级国产专业不| 久久精品aⅴ无码中文字幕| 凹凸精品免费精品视频| 亚洲欧洲天堂色AV| 国产幂在线无码精品| 欧美h在线观看| 狠狠v日韩v欧美v| 白浆视频在线观看| 亚洲乱强伦| 在线观看国产黄色| 日韩第九页| 国产理论一区| 成人午夜网址| 亚洲中文字幕在线观看| 国内精品九九久久久精品| 欧美精品影院| 国产毛片网站| 啪啪啪亚洲无码| 色婷婷成人网| 国产精品视频导航| 999在线免费视频| 呦女精品网站| 免费网站成人亚洲| 国产女人18毛片水真多1| 国产乱码精品一区二区三区中文 | 日本三级欧美三级| 亚洲五月激情网| 亚洲VA中文字幕| 国产av剧情无码精品色午夜| 中文字幕亚洲精品2页| 久久午夜夜伦鲁鲁片不卡| 色综合久久88色综合天天提莫 | 精品久久久久无码| 97成人在线视频| 91精品情国产情侣高潮对白蜜| 伊人中文网| 欧美笫一页| 欧美福利在线| 人妻丰满熟妇av五码区| 毛片在线播放a| 国产女人在线| 日本成人福利视频| 99一级毛片|