鄒柏松
(中南民族大學 經濟學院,湖北 武漢 430074)
?
信用風險分類預測單一模型研究及實證分析
鄒柏松
(中南民族大學 經濟學院,湖北 武漢 430074)
目前,我國商業銀行所面臨的信用風險隨著信貸業務的不斷發展而逐步增加,如何對企業信用風險進行有效區分和管理,是商業銀行亟待解決的問題。基于此,本文依據信用評估指標體系分別對Logistic回歸模型、貝葉斯判別模型、支持向量機模型這三類模型進行了設計與構建,同時對三類模型分別進行實證分析和結果評價,從分類準確率和模型穩健性兩方面對結果進行比較,作為進一步建立組合分類預測模型的基礎。本文的研究成果,有利于推動我國商業銀行信用風險定量度量方法的研究,從而有助于提高商業銀行的風險控制水平,使得不良資產得以降低,在提高我國商業核心競爭力以及促進消費信貸市場的發展等方面有巨大的意義。
單一模型;信用風險;統計方法;數據挖掘
近年來,我國信用風險管理水平正在逐步提升,可是隨著金融業對外資銀行政策的逐步開放,我國的商業銀行所需面對的國際和國內競爭壓力越來越大,在如今這樣嚴峻的內外形勢的考驗下,為了和國際接軌,需要研究構建以計量模型為基礎的信用風險管理系統,從而有效和全面地控制風險。
隨著我國商業銀行信貸業務的不斷發展,銀行將面臨更大的信用風險,如何對企業信用風險進行有效區分和管理,是商業銀行亟待解決的問題。尤其是我國信用風險管理體系還不夠完善,關于信用風險的度量方法多是借鑒國外現有模型,針對這一情況,本文結合上市公司財務指標數據,選取目前廣泛應用的Logistic回歸、貝葉斯判別法等統計方法和支持向量機模型等數據挖掘方法,分別比較其實證結果的優劣。
1.二項Logistic回歸模型原理
Logistic函數,即為增長函數,在個人信用評估這一方面,Logistic回歸的應用相對來說已經比較成熟,同時普遍認為在諸多統計學方法中穩健性和精確性較高,在分類問題中具有較好的特性。由于本文中輸出變量只有0和1兩個值,因此文中采用二項Logistic回歸模型進行建模和預測,模型可以在充分借鑒一般線性回歸模型的理論和思路的基礎上轉換而來。
首先,對于一元線性回歸模型yi=β0+βixi+εi,其回歸方程E(yi)=β0+βixi是對輸出變量均值的預測。當輸出變量為0/1二分類變量時,如果仍采用一元線性回歸模型建立回歸方程,則是對輸入變量為xi時輸出變量yi=1的概率的預測。由此給出的啟示是:可利用一般線性回歸模型(可以是一元,也可是多元)對輸出變量取值為1的概率P進行建模,這時候,回歸方程所輸出的變量其取值范圍為0~1,回歸方程的一般形式如下所示:
(1)
在應用到實際的過程中,它們之間通常是非線性關系,一般情況下都和增長函數一致,所以應該采用非線性轉換來處理概率P的轉換。通過上述分析,進行的兩步處理如下:
(1)把P轉換為Ω
(2)
其中,Ω是指發生比或者相對風險,表示某一事件發生和不發生概率之間比值,Ω值越高,相關公司就越有可能違約,Ω值的取值范圍介于0和+∞之間。
(2)把Ω轉換為lnΩ
(3)
其中,lnΩ被稱為LogitP。經過這個步驟的轉換之后,LogitP和Ω之間依舊呈現出一致的或增長或下降的關系。
這兩個步驟的轉換被稱為Logit變換,經過Logit變換,就能夠完成在一般線性回歸模型中構建輸出變量以及輸入變量間的多元分析模型的過程,即
(4)
稱式(4)為Logistic回歸方程,顯然LogitP與輸入變量之間是線性關系。將Ω代入,有
(5)
于是有
(6)
上式(6)是十分有代表性的增長函數,主要體現出了概率P以及輸入變量它們兩者的非線性關系。
Madalla就曾經選擇運用Logistic模型來進行非違約和違約貸款申請人的區分,通過研究得出,在違約概率P<0.551的情況下屬于非風險貸款,在違約概率P≥0.551的情況下屬于風險貸款,本文中也將該判別標準應用于ST類公司和非ST類公司的判定中。
Logistic回歸模型的參數估計通常采用極大似然法來計算,具體算法如下:

(7)
式(7)即為似然函數。對該似然函數取對數得到:
(8)
通過上式得到的βi(i=1,…,k)的估計值就是極大似然估計。通過證明得出,在樣本隨機時,漸進正態性、有效性和相合性等是Logistic回歸模型的極大似然估計的重要特點,它一方面解決了線性回歸方法之中的部分缺陷,另一方面它的實際意義也能夠通過相對風險十分明顯地體現出來。
2.Logistic模型實證分析
本文利用Clementine軟件進行建模和預測,為避免變量之間的多重共線性,采取逐步回歸的方法建立模型,對測試樣本重復10次2-折交叉驗證來評估模型的準確率,其基本的流程如圖1、圖2所示:

圖1 Logistic訓練模型圖

圖2 Logistic測試模型圖
10次建模和預測得到的預測準確率及穩定性評估值如表1所示:

表1 Logistic模型預測結果
其模型收益(Gain)曲線圖如下:

圖3 Logistic訓練模型圖
(注:由于本文采取10次2-折交叉驗證的方法,因此10次結果的平均值是用來進行Gain圖繪制的數據,下同)
其中隨機曲線表示在完全隨機的情況下一定百分比的數據能夠預測出的ST類公司的百分比,顯然,這是一條45度傾斜的直線。由圖3看出,大約30%的數據就可以預測出80%的ST類公司(標記值為“1”),分類預測的效果較好。
1.貝葉斯(Bayes)判別的基本原理
貝葉斯判別包含于貝葉斯方法的范圍之內,貝葉斯方法主要是對不確定性進行研究的一種推理方法,其中用貝葉斯概率來對不確定性進行詳細的表示,而且貝葉斯概率屬于一種主觀概率。通常,經典概率反映的是事件的客觀特征,這一概率不會隨人們主觀意識的變化而變化,而貝葉斯概率則不同,它是人們對事物發生概率的主觀估計。
首先假設已經對研究的對象有了一定程度上的認識是貝葉斯判別法的基本思想,先驗概率通常被用來對這種認識進行描述。對于多個總體的判別來說,不是考慮構建判別式,而是對待判樣本屬于各總體的條件概率p(l|x),l=1,2,…,k進行計算,對k個概率的大小進行比較,之后再把判定新樣本來自概率最大的那一個總體。

(10)

(1)訓練樣本的觀測值
設個體分為k類,并分別從第g類中抽得ng(g=1,2,…,k)個訓練樣本,p個屬性值,依次用x1,x2,…,xp表示,觀測值如表2所示:

表2 g類訓練樣本


(2)建立判別函數
1)計算各類均值及協方差陣

(11)



(12)

2)判別系數
計算協方差陣S的逆矩陣
令
(13)
(14)
其中
(15)
3)建立判別函數
建立判別函數如下:
(16)
對于任一樣X0=(x1,x2,…,xp),代入式(16)中,得出k個值,若其中y(g*)(X0)最大,則該個體X0=(x1,x2,…,xp)屬于g*類(g*=1,2,…,k)。
2.貝葉斯(Bayes)判別模型實證分析
基于Clementine軟件的貝葉斯判別模型對信用風險分類預測的基本流程如下:

圖4 Bayes訓練模型圖
與Logistic回歸模型類似,在進行分類預測時如果采用貝葉斯判別,也需要進行變量的篩選,將判別能力強的變量挑選出來構建判別函數,即逐步判別分析法,如圖4。其模型收益(Gain)曲線圖如圖5所示:

圖5 貝葉斯(Bayes)判別模型收益(Gain)曲線圖
由圖5看出,大約30%的數據就可以預測出75%的ST類公司(標記值為“1”),分類預測的效果較好。從總的預測準確率來看,Logistic回歸模型略好于Bayes判別的結果,但Bayes判別模型的穩健性則略強于Logistic回歸模型。
以上即本文采用的兩種基于統計方法的分類預測模型,這兩種模型均為實際應用中比較成熟的模型,相對來說,其準確率和穩健性都較好,以下將利用兩種基于數據挖掘方法的模型進行分類預測。
1.支持向量機(SVM)的基本原理
結構風險最小化原則是支持向量機(SVM)所遵守的主要原則,該方法可以使訓練及規模和VC維之間達到平衡的狀態,因此有利于支持向量機在全局最優解這一目標實現的同時也實現推廣能力達到最佳的目標。支持向量機(SVM)的基本思想如下,為保證推廣性的置信范圍以及經驗風險達到最小值,同時實現對其的正確分類,從輸入空間非線性將非線性可分數據集映射到相應的高維特征空間,并在該高維特征空間中對有關規劃問題進行求解,同時構建出一個離超平面最近的向量和超平面之間的距離達到最大的最優分類超平面。
2.支持向量機(SVM)模型實證分析
基于Clementine軟件的支持向量機模型對信用風險分類預測的基本流程如圖6、圖7所示:

圖6 支持向量機(SVM)訓練模型圖

圖7 支持向量機(SVM)測試模型圖
利用10次2-折交叉驗證的方法得到的結果如表3所示:

表3 支持向量機(SVM)模型分類預測結果
其模型收益(Gain)曲線圖如圖8所示:

圖8 SVM模型收益(Gain)曲線圖
通過對模型結果的研究能夠看出,該模型的準確率也比較高,且30%的數據就可以預測出80%的ST類公司,說明模型效率較高。
以上兩大類模型各有優劣,基于統計方法的模型優勢在于模型的可解釋性較好,從判別方程系數可以直觀地看出財務指標的重要程度,同時,建立在統計分析基礎之上的模型通常穩定性較好,其不足之處在于建模過程中對樣本要求較高,樣本數據的選取對模型結果的影響較大。基于數據挖掘(或機器學習)方法的模型優勢在于模型在訓練過程中反復進行迭代,可以達到較高的預測精度,但由于是暗箱操作,只能獲得模型的最終結果而無法獲知具體各變量的引用情況。
我國股市大幅崩盤導致大量上市公司違約現象不斷產生,因此使得我國商業銀行所面臨的信用風險越來越大,金融業面臨的最為重要的風險之一即為信用風險,同時信用風險也是我國加入世貿組織之后金融市場所面臨的一個重大挑戰。基于此,分別利用統計模型和數據挖掘模型進行實證分析,比較各模型自身優劣,并進行實證分析和結果評價。在實際應用中,為充分利用這幾類模型的優勢,可以將以上幾種模型進行組合,以達到更好的效果。
[1]陳秀梅,程晗.眾籌融資信用風險分析及管理體系構建[J].財經問題研究,2014(12):47-51.
[2]羅方科,陳曉紅.基于Logistic回歸模型的個人小額貸款信用風險評估及應用[J].財經理論與實踐,2017,38(1):30-35.
[3]方匡南,范新妍,馬雙鴿.基于網絡結構Logistic模型的企業信用風險預警[J].統計研究,2016,33(4):50-55.
[4]劉祥東,王未卿.我國商業銀行信用風險識別的多模型比較研究[J].經濟經緯,2015,32(6):132-137.
[5]林漢川,張萬軍,楊柳.基于大數據的個人信用風險評估關鍵技術研究[J].管理現代化,2016,36(2):95-97.
[6]丁東洋,周麗莉,劉樂平.貝葉斯方法在信用風險度量中的應用研究綜述[J].數理統計與管理,2013,32(1):42-56.
[7]史小康,何曉群.個人信用風險評分的貝葉斯有偏連接模型研究[J].統計與信息論壇,2015,v.30;No.173(2):3-8.
[8]鄔建平.基于粗糙集和支持向量機的電子商務信用風險分類[J].數學的實踐與認識,2016,46(13):87-92.
[9]隋學深,喬鵬,丁保利.基于支持向量機的貸款風險等級分類真實性審計研究[J].審計研究,2014(3):21-25.
[10]韓兆洲,林少萍,鄭博儒.多類支持向量機分類技術及實證[J].統計與決策,2015(19):10-13.
責任編輯:周小梅
2017-05-28
鄒柏松(1987-),男,湖北宜昌人,碩士,中級經濟師,研究方向為區域經濟學。
TM417
A
1009-1890(2017)02-0016-05