999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于模糊二范數二次曲面支持向量機的信用評分研究

2018-04-08 11:23:20何楊李洪心
統計與決策 2018年5期
關鍵詞:模型

何楊,李洪心

(東北財經大學管理科學與工程學院,遼寧大連116025)

0 引言

由于全球經濟增速放緩,大宗商品價格繼續下降,全球物價水平增速下行,部分經濟體面臨通縮壓力。金融市場波動劇烈,關聯性明顯。全球總債務水平處于歷史高位,其不可持續性提升了風險等級。在這種經濟形勢下,許多債務人到期不還貸導致許多金融機構損失慘重。然而,借貸機構不能僅僅通過拒絕貸款申請來規避信用風險。因而,有效的信用風險評估已經成為了增進信用競爭市場的一個關鍵因素。當下,金融機構已非常廣泛地使用信用評分模型來做授信決策。

在過去的幾十年里,為了使信用分類的準確性最大化,大量的理論研究與量化方法用于發展信用評分模型,其中,有些統計模型也非常普遍地應用在了信用評分上[1-5]。為了提高信用評分分類的準確性,研究者們不斷嘗試新方法,并發現用支持向量機模型來做信用評分有很好的效果[6-12]。本文將先利用一些常用的支持向量機(SVM)模型做信用評分,通過更進一步的研究,建立模糊二范數二次曲面支持向量機(Fuzzy 2-norm QSSVM)模型應用于信用評分,最后用兩組真實數據來檢驗模糊二范數QSSVM模型的分類準確性和效率。

1 用于信用評分的模型

1.1 支持向量機

支持向量機是由Vapnik等人利用結構風險最小化的原則根據統計學習理論(SLT)提出來的。簡單的說,它是一種分類模型,用于解決凸二次規劃問題的求解。支持向量機是數據挖掘的一種重要方法,其建立在統計學理論上,可以研究非線性、小樣本的分類計數。通過映射將給出的數據進行提升維度,引入核函數,可將線性問題推廣到非線性分類問題。支持向量機,其“機”代表的是機器,是機器學習的核心方法,可以對數據進行分析、對模式作以識別,用于分類與回歸分析。

SVM的基本思想是通過一個非線性映射Φ(x)將輸入空間的樣本映射到高維空間,并在這個高維空間中利用結構風險最小化原理和分類間隔最大化思想確定最優分類超平面,f(x)=wTΦ(x)+b,其中w和b分別表示這個超平面的權值和闕值。在給定訓練點線性SVM問題可以表示為以下約束二次規劃問題:

其中,εi為松弛變量,C>0是罰參數,用來控制對錯分樣本的懲罰程度。

在支持向量機中核函數是一個關鍵因素,核函數能夠有效的解決數據空間到非線性空間的轉換,對內積函數的替代也能夠有效解決維數問題。核函數的引入,作為支持向量機重要的組成部分,能夠完美的實現空間轉換,并通過空間中不同的非線性決策面得到各種不同的支持向量機算法。

1.2 二次曲面支持向量機

下面簡單地介紹二次曲面支持向量機(QSSVM)模型。

通過最大化所有訓練點關于g(x)=0的相對幾何邊緣之和,并且對所有訓練點的錯分誤差最小化,得到以下QSSVM模型:

其中,松弛變量εi被用來度量xi錯分的邊緣值,ct>0是罰參數。

QSSVM模型可以按如下進一步簡化,首先,設向量w由矩陣W上三角部

接著,本文可以按照如下步驟針對訓練點xi∈Rm構建一個維矩陣M,i=1,2,...,l;在M的第j

ii行(j=1,2,…,m)中,如果w的第p個要素是wjk或者wkj(k=1,2,...,m),那么把Mi的第j行第p個要素定義為,否則定義為0。然后,定義:

問題(1)可以再變換為:

其中,矩陣G為半正定矩陣,那么,問題(2)便是一個擁有線性約束的凸二次規劃問題。

1.3 加權二范數支持向量機

其中,Φ(x):Rm→Rn是一個核函數分別為被標記為+1和-1的訓練點的數目,(也就是n1+n2=n),和分別為被標記+1和-1的訓練點的罰常數。通過德國和澳大利亞的信用數據的實證研究發現,此模型的特征加權策略采取T檢驗過程能達到最有效的結果[13]。

2 模糊二范數二次曲面支持向量機模型

為了提出模糊二范數二次曲面支持向量機模型,下面首先設計新的模糊隸屬度函數來計算每個訓練點的相對重要性。不同的模糊隸屬度函數將很大程度地影響分類器的分類效果,因此設計一個合適的隸屬函數是非常重要的。在這里,為了建立一個基于每個訓練點與其所在類別的二次中心曲面之間的二次邊際距離[11]的新的模糊隸屬度函數,本文首先求解模型(2)得到一個有效二次曲面分類機的參數向量(ˉ,ˉ)。然后,關于這個二次曲面,分別計算所有在類別1和2訓練點的平均函數邊際(即functional margin)為:

除此之外,本文將設計新的模糊隸屬度函數來考慮到訓練點間的相似度,從而將奇異點和噪點從有效的訓練中分離出來。因此,對于每個訓練點以及d(),下面的隸屬度函數被設計出來計算模糊隸屬度:

為了建立模糊二范數QSSVM模型來做信用評分,本文首先通過公式(4)來計算T檢驗特征權重(,j=1,2,...,n),然后通過隸屬度函數(6)并將替換,計算出所有訓練點的模糊隸屬度(,i=1,2,...,n)。基于QSSVM模型(1),用松弛變量向量ε=(ε1,ε2,...,εn)的二范數的平方替代松弛變量向量ε,加入相同樣本類內離散度S(W,b,c)和T檢驗特征權重(j=1,2...,n)后得到如下模型:

其中:

3 實證

3.1 用德國和澳大利亞的數據進行計算試驗

信用評分方法除要求達到一定的準確性之外,其可解釋性、簡潔性、效率等性能也非常重要[17]。因此,在這一部分,本文用德國和澳大利亞的信用數據(來自于UCI機器學習知識庫[18)]來檢驗模糊二范數二次曲面支持向量機模型在信用評分上的準確性和效率。同時,在這兩組數據上也測試含有高斯核的支持向量機模型(SVM)、含有高斯核的加權二范數支持向量機模型、含有二次核函數的加權二范數支持向量機模型、二次曲面支持向量機模型(QSS-VM)。兩組信用數據的基本信息見表1所示。

表1 德國和澳大利亞信用數據

這兩組數據包含20個變量,包括客戶基本信息(性別、年齡、學歷、職業、婚姻等),經濟狀況(個人月收入、個人月開銷、住房情況等),信用卡消費狀況(信用卡張數、信用額度、使用頻率、月刷卡金額等);信用記錄(逾期記錄)。各變量名稱及類型的具體信息見表2所示。

表2 數據各變量及類型

兩個信用數據集合當中,所有名義變量都轉換成了整數變量,同時序數和連續變量保持不變。然后,對于被轉換后的訓練點有的輸入屬性都線性擴展到[0,1],這樣做是為了規避大數值變量相對于小數值變量的屬性優勢。因而定義為:

在對德國和澳大利亞信用數據進行以上預處理之后,本文用10折交叉驗證方法來檢驗所有模型的性能。首先對德國的數據進行檢驗,在模型檢驗當中,采用交叉驗證是為了克服過擬合問題,習慣于使一個數據集(也就是測試數據集)在訓練階段進行模型測試。而用10折交叉檢驗方法對德國信用數據進行檢驗,所有數據集隨機劃分為10個大小相等的樣本。在這10個樣本當中,保留一個樣本作為測試數據集的檢驗模型,其他9個樣本作為訓練數據集。按照這種方法,交叉檢驗會重復10次,10個樣本中的每一個樣本都會作為一次測試數據集。因而,10折交叉檢驗過程的錯分率就等于10次交叉檢驗中被錯分的點的總數量除以德國數據集點的總數量。這種方法的優點在于,所有的觀察值都會作為培訓和測試的點,并且每一個觀察值當且僅當被測試一次。對于德國的信貸數據集,為了使得實驗的結果更具有統計意義,本文通過100次隨機劃分這個數據集來重復100次10折交叉驗證過程。對所有的模型,都計算100次10折交叉驗證過程所得到錯分率的平均值、標準差、最小值和最大值,并且得到每次實驗所用的平均CPU時間,見表3所示。在這里,模糊二范數QSSVM模型的CPU運行時間包括計算所有訓練點模糊隸屬度的時間。

表3 德國信用數據檢驗

此外,用同樣的方法來對澳大利亞的信用數據來進行測試,6種模型也都做一遍檢驗,得到的錯分率和CPU運行時間見表4所示。

表4 澳大利亞信用數據檢驗

3.2 模型結果

(1)從表3和表4可以看出,模糊二范數二次曲面支持向量機(F2N-QSSVM)模型所得錯分率的均值、標準差、最小值、最大值分別為11.69、0.39、11.06、12.98,最大值和W2NSVM的最小值差不多,可以明顯的看出來,F2N-QSSVM所得錯分率的均值、標準差、最小值、最大值要比其他模型所得錯分率的均值、標準差、最小值、最大值都要小。從而說明F2N-QSSVM在一定程度上提高了準確率、查準率和全查率。

(2)模糊二范數二次曲面支持向量機(F2N-QSSVM)模型的計算時間要比其他模型的計算時間都要長,主要是因為本文提出的這個模型花費了時間去計算所有訓練點的模糊隸屬度,而其他模型并沒有這項,計算訓練點的模糊隸屬度也是提高了模型的精準性。

(3)由于這個模型是一個線性約束凸二次規劃問題,通過著內點算法和信任區域反射算法來快速得到該模型的全局最優解,這使它有較好的推廣能力,并能提高分類性能。通過兩個真實數據的測試(德國和澳大利亞的信用數據)可以看出,模糊二范數二次曲面支持向量機(F2N-QSSVM)模型比其他模型達到更好的分類效果。如果奇異點所占訓練點的比例越高,F2N-QSSVM在分類效果上的優越性越明顯。

4 結論

在大數據時代背景下,可以充分利用客戶基本信息和歷史信息,并利用信用評分模型來對客戶進行評估分析,本文首次構建基于模糊二范數二次曲面支持向量機模型,通過對UCI機器學習庫的數據研究表明,相對于其他經典的支持向量機模型,該模型最大的特點是通過引入T檢驗特征加權設計了新的隸屬度函數來計算訓練點的模糊隸屬度,通過內點算法和信任區域反射算法來快速得到全局最優解,在信用評分領域的應用能達到更精準的分類效果。因此,此模型應該被廣泛應用于信用機構來進行授信決策,這樣不僅能為機構規避風險,減少銀行違約損失,提高銀行自身優勢和競爭力,也能提高信用卡用戶的申請效率。在未來的研究中,有興趣針對大規模數據開發更有效率的信用評分模型。

參考文獻:

[1]Fisher R A.The Use of Multiple Measurements in Taxonomic Problems[J].Annals of Human Genetics,1936,(7).

[2]Martin D.Early Warning of Bank Failure:A Logistic Regression Approach[J].Journal of Banking and Finance,1977,(1).

[3]Wiginton J C.A Note on the Comparison of Logic and Discriminant Models of Customer Credit Behavior[J].Journal of Financial and Quantitative Analysis,1980,(15).

[4]Twala B.Multiple Classifier Application to Credit Risk Assessment[J].Expert Systems With Applications,2010,(37).

[5]Han J,Kamber M.Data Mining:Concepts and Techniques(2nd)[M].San Francisco,CA:Morgan KauFmann,2006.

[6]Gestel T V,Baesens B,Garcia J.A Support Vector Machine Approach to Credit Scoring[J].Journal of Bank and Finance,2003,(2).

[7]Yu L A,Huang W,Lai K K,et al.A Reliability-based RBF Network Ensemble Model for Foreign Exchange Rates Predication[J].Neural Information Processing,2006,(4234).

[8]Huang C L,Chen M C,Wang C J.Credit Scoring With a Data Mining Approach Based on Support Vector Machines[J].Expert Systems With Applications,2007,(33).

[9]Zhou L,Lai K K,Yen J.Credit Scoring Models With AUC Maximization Based on Weighted SVM[J].International Journal of Information Technology and Decision Making,2009,(4).

[10]Vapnik V N.The Nature of Statistical Learning Theory[M].New York:Springer-Verlag New York,1995.

[11]Luo J,Fang S C,Deng Z B,et al.Soft Quadratic Surface Support Vector Machine[J].Asia-Paci fi c Journal of Operational Research,2015.

[12]Yan X,Bai Y,Fang S C,et al.A Kernel-free Quadratic Surface Support Vector Machine for Semi-supervised Learning[J].Journal of the Operational Research Society,2015.

[13]Guyon I,Gunn S,Nikravesh M,et al.Feature Extraction:Foundations and Applications.New York,NY:Springer,2006.

[14]Deng N Y,Tian Y J,Zhang C H.Support Vector Machines-Optimiaztion Based Theory,Algorithms and Extensions[M].Boca Raton:CRC Press,2012.

[15]Wchter A,Biegler L T.On the Implementation of an Interior-point Filter Line-search Algorithm for Large-scale Nonlinear Programming[J].Mathematical Gramming,Series A,2006,(106).

[16]Coleman T,Branch M A,Grace A.Optimization Toolbox User's Guide,Version 3.1.Natick[M].MA:The MathWorks,Inc,2006.

[17]陸愛國,王玨,劉紅衛.基于改進的SVM學習算法及其在信用評分中的應用[J].系統工程理論與實踐,2012,32(3).

[18]Bache K,Lichman M.UCI Machine Learning Repository[EB/OL].http://archive.ics.uci.edu/ml.

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 黄色片中文字幕| 亚洲精品国产综合99| 国产成人一区| 亚洲国产日韩视频观看| 欧美精品亚洲日韩a| 国内视频精品| 伊人久久青草青青综合| 亚洲中文制服丝袜欧美精品| 亚洲无卡视频| 四虎影视无码永久免费观看| 久久无码免费束人妻| 亚洲天堂成人| a毛片免费看| 欧美精品在线免费| 亚洲娇小与黑人巨大交| 日本三级欧美三级| 亚洲精品欧美日本中文字幕| 亚洲国产精品VA在线看黑人| 国产网友愉拍精品| 欧美va亚洲va香蕉在线| 久久黄色免费电影| 亚洲伊人天堂| P尤物久久99国产综合精品| 少妇精品久久久一区二区三区| 色窝窝免费一区二区三区 | 久久久噜噜噜久久中文字幕色伊伊| 91午夜福利在线观看| 国产91熟女高潮一区二区| 亚洲欧美综合在线观看| 国产高清无码第一十页在线观看| 日韩A∨精品日韩精品无码| 色综合婷婷| 岛国精品一区免费视频在线观看| 不卡色老大久久综合网| 在线欧美a| 亚洲国产av无码综合原创国产| 色综合激情网| 在线观看亚洲精品福利片| 国产精品吹潮在线观看中文| 亚洲精品第五页| 国产全黄a一级毛片| 国产精品亚洲一区二区三区在线观看| 久久久久亚洲AV成人网站软件| 久久这里只有精品国产99| 国产精品成人一区二区不卡| 亚洲欧美日韩久久精品| 国产欧美精品一区二区| 在线另类稀缺国产呦| 成人福利在线免费观看| 91一级片| 国产精品极品美女自在线| 日韩在线成年视频人网站观看| 永久免费av网站可以直接看的 | 久久福利片| 中国一级毛片免费观看| 欧美中文字幕在线二区| 欧美在线网| 亚洲成人www| 国产在线一二三区| 天天色综网| 亚洲日本www| 人妻一区二区三区无码精品一区| 国产AV无码专区亚洲A∨毛片| 91久久国产成人免费观看| 国产人碰人摸人爱免费视频| AV天堂资源福利在线观看| 国产成人毛片| 亚洲黄网在线| 超碰aⅴ人人做人人爽欧美| 精品亚洲欧美中文字幕在线看| 国产自无码视频在线观看| 国产精品对白刺激| 一级香蕉人体视频| 无码中文字幕精品推荐| 亚洲男人天堂久久| 亚洲精品第一在线观看视频| 国产精品久久自在自线观看| 亚洲二区视频| 一本大道香蕉高清久久| 亚洲第一成年人网站| 亚洲中文字幕97久久精品少妇| 亚洲一区国色天香|