一、引言
個(gè)人住房貸款是指貸款人向借款人發(fā)放的用于購買各類自用住房的貸款,具體是指購房人在向房地產(chǎn)開發(fā)商購買房產(chǎn)時(shí),自己先交首期房款,其余部分由銀行貸款墊付,并用所購買的房產(chǎn)權(quán)益作為抵押,按月償還貸款本息(月供)的一種貸款方式。由于個(gè)人住房貸款不良率低,有利于商業(yè)銀行資產(chǎn)結(jié)構(gòu)的改善,所以我國商業(yè)銀行一般認(rèn)為個(gè)人住房貸款是銀行的優(yōu)質(zhì)貸款,長(zhǎng)期以來其風(fēng)險(xiǎn)沒有引起足夠的重視,直到最近幾年我國商業(yè)銀行事件頻繁發(fā)生,關(guān)于個(gè)人住房貸款風(fēng)險(xiǎn)的討論才開始升溫。從近幾年的情況來看,在個(gè)人住房貸款的風(fēng)險(xiǎn)中,有一半以上是來源于信用風(fēng)險(xiǎn)。而信用風(fēng)險(xiǎn)的評(píng)估是商業(yè)銀行信用風(fēng)險(xiǎn)管理的基礎(chǔ)和關(guān)鍵環(huán)節(jié),因此,怎樣分析貸款人的信用狀況,對(duì)信貸管理者如何衡量個(gè)人住房貸款的風(fēng)險(xiǎn)具有極大的價(jià)值。本文利用交通銀行長(zhǎng)沙分行的個(gè)人住房貸款資料,建立logistic回歸模型,其目的是為商業(yè)銀行發(fā)放個(gè)人住房貸款需要對(duì)個(gè)人進(jìn)行信用評(píng)估時(shí)提供一個(gè)初步的信用評(píng)估模型,同時(shí)希望通過建立信用評(píng)估模型的過程,發(fā)現(xiàn)目前中國商業(yè)銀行在建立信用評(píng)估模型時(shí)遇到的難點(diǎn)、問題,并探索解決辦法。
二、Logistic回歸分析法
假設(shè)用表示發(fā)放一筆貸款這一事件,用Y=1表示到期后借款人違約(通常稱為一個(gè)“壞”的貸款),Y=0表示借款人不違約(通常稱為一個(gè)“好”的貸款)。我們的目的是利用已有的樣本資料建立模型,對(duì)借款人違約(即Y=1)的概率p進(jìn)行預(yù)測(cè)。
在Logistic回歸模型中,假設(shè):
Logit(p)=ln(p1-p)=β0+β1x1+…+βkxk
其中p表示Y=1(即“壞”的貸款)的概率,xi是描述借款人特征的一些指標(biāo)(這些指標(biāo)被認(rèn)為與違約的概率有關(guān),又稱為解釋變量),p/(1-p)稱為發(fā)生比(odds)。
我們可以利用已有的樣本指標(biāo)對(duì)模型中的參數(shù)進(jìn)行估計(jì),并對(duì)模型進(jìn)行相關(guān)的統(tǒng)計(jì)檢驗(yàn)及計(jì)量經(jīng)濟(jì)檢驗(yàn)。待得到一個(gè)較為穩(wěn)定的、預(yù)測(cè)準(zhǔn)確性較高的模型后,模型即可投入使用:即一個(gè)新的借款人的相關(guān)指標(biāo)數(shù)據(jù)輸入模型,對(duì)其違約發(fā)生比(或違約概率)進(jìn)行預(yù)測(cè)。在實(shí)際使用時(shí),通常將違約發(fā)生比或違約概率通過某種線性變換轉(zhuǎn)換成分?jǐn)?shù),銀行可以根據(jù)申請(qǐng)人的信用得分情況決定是否發(fā)放貸款及發(fā)放的額度。
三、實(shí)證分析
(一)變量選取與數(shù)據(jù)的處理
研究選取的指標(biāo)全部來自于某銀行個(gè)人住房貸款資料冊(cè),在參考了已有文獻(xiàn)以及考慮到盡量保留原始指標(biāo)的基礎(chǔ)上,本文選取了性別、年齡、教育程度、戶籍性質(zhì)、婚姻狀況、供養(yǎng)人口、個(gè)人月收入、家庭年收入、單位性質(zhì)、職務(wù)、職稱、目前有無使用交行產(chǎn)品、貸款期限、貸款金額,共14個(gè)指標(biāo)進(jìn)入Logistic回歸模型作為自變量;客戶質(zhì)量作為因變量。由于15個(gè)變量都是分類變量,在建立模型時(shí)必須將它們用虛擬變量來表示,具體情況如下:
1.性別(X1):男,X1=1;女,X1=2。
2.年齡(X2):30歲以下(不包括30歲),X2=1;30-40歲(包括30歲,不包括40歲),X2=2;40歲以上(包括40歲),X2=3。
3.教育程度(X3):研究生以上,X3=1;大學(xué)本科,X3=2;大學(xué)大專,X3=3;中專及高中,X3=4;其他,X3=5。
4.戶籍性質(zhì)(X4):本地,X4=1;外地,X4=2。
5.婚姻狀況(X5):未婚,X5=1;已婚,X5=2;離異,X5=3;喪偶,X5=4。
6.供養(yǎng)人口(X6):0個(gè),X6=0;1個(gè),X6=1;2個(gè),X6=2;3個(gè)及以上,X6=3。
7.個(gè)人月收入(X7):2千以下(不包括2千),X7=1;2千-4千(包括2千,不包括4千),X7=2;4千-6千,(包括4千,不包括6千),X7=3;6千以上(包括6千),X7=4。
8.家庭年收入(X8):5萬以下(不包括5萬),X8=1;5萬-10萬(包括5萬,不包括10萬),X8=2;10萬-15萬(包括10萬,不包括15萬),X8=3;15萬-20萬(包括15萬,不包括20萬),X8=4;20萬-25萬(包括20萬,不包括25萬),X8=5;25萬以上(包括25萬),X8=6。
9.單位性質(zhì)(X9):行政事業(yè)單位,X9=1;企業(yè),X9=2;個(gè)體私營,X9=3;其他X9=4。
10.職務(wù)(X10):高級(jí)領(lǐng)導(dǎo),X10=1;中級(jí)領(lǐng)導(dǎo),X10=2;一般員工,X10=3;其他,X10=4。
11.職稱(X11):高級(jí),X11=1;中級(jí),X11=2;初級(jí),X11=3;無,X11=4。
12.目前有無使用交行產(chǎn)品(X12):有,X12=1;無,X12=2。
13.貸款期限(X13):10年,X13=1;15年,X13=2;20年,X13=3;20年以上,X13=4。
14.貸款金額(X14):10萬以下(不包括10萬),X14=1;10萬-20萬(包括10萬,不包括20萬),X14=2;20萬-30萬(包括20萬,不包括30萬),X14=3;30萬-40萬(包括30萬,不包括40萬),X14=4;40萬以上(包括40萬),X14=5。
15.客戶信譽(yù)(Y):好,Y=0;壞,Y=1。
其中需要說明的是:年齡(X2)指的是貸款人申請(qǐng)貸款時(shí)的年齡。供養(yǎng)人口(X6)指的是貸款人撫養(yǎng)孩子的個(gè)數(shù),不包括父母。家庭年收入(X8)的算法是如果貸款人未婚、離婚或喪偶,就只算自己的年收入,如果貸款人已婚,就把自己和配偶的年收入加一起作為家庭年收入。客戶信譽(yù)(Y)好與壞的判斷標(biāo)準(zhǔn)有兩個(gè),人民銀行對(duì)貸款人的征信報(bào)告和貸款人的還款記錄,由銀行的專業(yè)人員綜合以上兩方面對(duì)客戶信譽(yù)進(jìn)行好與壞的評(píng)定。
本文從某銀行個(gè)人住房貸款的9000多個(gè)客戶中采用簡(jiǎn)單隨機(jī)抽樣的方法選取500個(gè)樣本,再對(duì)500份原始資料中的各項(xiàng)指標(biāo)用虛擬變量來表示,最后整理匯總(見附表1)。所有數(shù)據(jù)的處理都運(yùn)用統(tǒng)計(jì)軟件SAS進(jìn)行處理。
(二)因變量與自變量的二元分析
二元分析對(duì)連續(xù)性變量來說會(huì)通過擬和單變量Logistic模型來檢驗(yàn)自變量的顯著性,而對(duì)名義變量或序次變量則實(shí)行卡方顯著性檢驗(yàn)。由于本文在前面已經(jīng)對(duì)變量進(jìn)行過預(yù)處理,因此所有的自變量都已轉(zhuǎn)換成名義變量或序次變量,所以本文對(duì)這些變量進(jìn)行了卡方顯著性檢驗(yàn),并選擇所有二元分析結(jié)果中P值小于0.25的變量作為后續(xù)的建模分析的侯選變量,這里之所以選擇P值為0.25是因?yàn)槿绻贿x擇大一點(diǎn)的顯著性水平,有可能在建立模型時(shí)會(huì)遺漏一些重要的自變量,這些重要的自變量可能在做二元分析時(shí)會(huì)呈現(xiàn)與因變量弱相關(guān)的關(guān)系,但當(dāng)它們與其它的變量放在一起的時(shí)候就會(huì)顯示出它們的重要性,所以放棄這些重要的變量就會(huì)導(dǎo)致模型的偏差。
通過逐一對(duì)所有的自變量進(jìn)行卡方顯著性檢驗(yàn)的二元分析,并按照上文論述的選取標(biāo)準(zhǔn),本文從中選取了以下幾個(gè)變量作為候選變量:性別、戶籍性質(zhì)、個(gè)人月收入、家庭年收入、單位性質(zhì)、職務(wù)、職稱、貸款期限、貸款金額。具體的檢驗(yàn)結(jié)果見表1。

(三)Logistic回歸模型的建立
在確定了建立模型的候選變量后,下一步我們需要對(duì)利用這些變量建立Logistic回歸模型,在這個(gè)過程中我們首先要考慮的是選擇變量進(jìn)入模型的方法,通常的會(huì)有三種方法來完成這個(gè)任務(wù):第一個(gè)是Forward方法,這一方法是根據(jù)經(jīng)驗(yàn),先選定一個(gè)回歸變量,然后逐個(gè)引入其他回歸變量,“只進(jìn)不出”,其優(yōu)點(diǎn)是計(jì)算量小,缺點(diǎn)是可能將最優(yōu)方程遺漏;第二個(gè)是Backward方法,這一方法是先引進(jìn)所有的變量,然后逐一淘汰,“只出不進(jìn)”,選出估計(jì)的標(biāo)準(zhǔn)誤差最小者,優(yōu)點(diǎn)是計(jì)算量小,缺點(diǎn)也是可能將最優(yōu)方程遺漏;第三個(gè)是Stepwise方法,這一方法的基本思想是,對(duì)于全部回歸變量,按照其對(duì)因變量Y的影響程度的大小,從大到小逐次逐個(gè)引入到線性回歸方程,每引入一個(gè)回歸變量后,均對(duì)回歸系數(shù)進(jìn)行檢驗(yàn),一旦發(fā)現(xiàn)作用不顯著的回歸變量,就加以剔除,如此往復(fù),直至無法進(jìn)入新自變量為止,較之Forward、Forward方法,這一方法計(jì)算量會(huì)增加許多,但不會(huì)遺失“最優(yōu)方程”。在本文中我們選擇第三種方法,即Stepwise方法,顯著性水平保持默認(rèn)的0.05(如果有需要,可以調(diào)整來比較獲取不同的結(jié)果以得到比較理想的模型),最后的模型結(jié)果為性別(X1)、家庭年收入(X8)、職稱(X11)以及貸款期限(X13)進(jìn)入了最終的模型當(dāng)中,具體的過程可見附件的Logistic模型結(jié)果,根據(jù)這個(gè)結(jié)果本文給出了下面的擬合模型:
Logit(p)=-0.0641-0.4943x1-0.375x8+0.4106x11-0.3959x13
這是加法模型,為了更好的進(jìn)行系數(shù)的解釋,需要對(duì)兩邊進(jìn)行指數(shù)轉(zhuǎn)換,結(jié)果會(huì)轉(zhuǎn)換為事件發(fā)生比與以自然指數(shù)為底的乘法模型,這樣就可以對(duì)模型系數(shù)進(jìn)行合理的解釋了,首先說明系數(shù)的正負(fù)對(duì)發(fā)生比的影響方向,正的系數(shù)值會(huì)使得當(dāng)自變量值的增加時(shí)對(duì)應(yīng)的發(fā)生比增加,相反,負(fù)的系數(shù)值會(huì)使得當(dāng)自變量值增加時(shí)對(duì)應(yīng)的發(fā)生比減少,從本文的模型結(jié)果來看,其中的自變量對(duì)發(fā)生比的影響都符合現(xiàn)實(shí)情況,即家庭年收入越高,那么相應(yīng)的發(fā)生比(為“壞”客戶的可能性)就會(huì)越低(在其它條件不變的情況下),對(duì)變量性別來說,女性的信譽(yù)會(huì)比男性的好,本文中的模型反映的也是這種結(jié)果,職稱在本文的模型中影響也符合行業(yè)經(jīng)驗(yàn)的,即職稱越高,其信譽(yù)也就越好,最后是貸款期限的影響,這個(gè)因素看起來可能不會(huì)那么明顯,但是只要稍微轉(zhuǎn)換一下思考的角度就可以給出合理的解釋,當(dāng)貸款期限越長(zhǎng)的時(shí)候,一般來說,其每期供款額就會(huì)越少(這里可能還需要考慮貸款金額),所以其還款壓力相應(yīng)的就會(huì)減少,這樣的話,其變“壞”的可能性就會(huì)降低,即其會(huì)表現(xiàn)出好的信譽(yù)。
四、模型的評(píng)價(jià)
模型的評(píng)價(jià)指標(biāo)有很多,它們從不同的角度來對(duì)建立的模型進(jìn)行評(píng)價(jià),由于本文建立的Logistic模型是關(guān)于預(yù)測(cè)違約的模型,因此本文對(duì)模型的評(píng)價(jià)側(cè)重于模型的預(yù)測(cè)的準(zhǔn)確性,對(duì)準(zhǔn)確性的度量有三種不同的方法:(1)類R2指標(biāo),該指標(biāo)類似與線性回歸分析中的R2;(2)預(yù)測(cè)概率與觀測(cè)值之間的關(guān)聯(lián),有若干指標(biāo)來度量這種關(guān)聯(lián)性;(3)分類表,這種方法是現(xiàn)在用得比較多的一種方法,這個(gè)方法的原理就是利用已經(jīng)建立的Logistic模型來對(duì)違約概率進(jìn)行預(yù)測(cè),并把這些預(yù)測(cè)概率與預(yù)先設(shè)定的一個(gè)闕值來進(jìn)行比較,從而來決定把觀測(cè)分類為發(fā)生或不發(fā)生,同時(shí)把這些分類結(jié)果與預(yù)分類的觀測(cè)組成一個(gè)分類表來計(jì)算該Logistic模型預(yù)測(cè)的準(zhǔn)確性,其中會(huì)有幾個(gè)指標(biāo)來度量這種準(zhǔn)確性。
本文將會(huì)運(yùn)用第三種方法分類表法來對(duì)模型的準(zhǔn)確性進(jìn)行評(píng)價(jià),在運(yùn)用這種方法的時(shí)候有一個(gè)問題需要解決,很多的時(shí)候,我們建立的Logistic模型對(duì)建模樣本的預(yù)測(cè)分類是比較準(zhǔn)確的,但我們建立預(yù)測(cè)模型的最終的目的是要把它用于非建模樣本或未來的客戶上,而往往當(dāng)模型用于這些樣本的時(shí)候會(huì)表現(xiàn)出很低的準(zhǔn)確性,這就是所謂的“過度擬合”的問題,要解決這個(gè)問題我們一般有兩種方法可以運(yùn)用:第一種方法被稱為“交叉確認(rèn)”,它的思想是把樣本分為以下幾個(gè)部分:訓(xùn)練集、測(cè)試集和驗(yàn)證集,它們扮演著不同的角色,訓(xùn)練集用來建立模型,測(cè)試集用來調(diào)整模型以得到最佳模型,而驗(yàn)證集則用于對(duì)模型的各個(gè)方面進(jìn)行評(píng)價(jià),包括模型的準(zhǔn)確性。使用這種方法的前提是樣本量需要足夠大,因?yàn)槿绻麡颖玖刻贂?huì)導(dǎo)致分割樣本后每種類型的樣本集比較小,從而會(huì)導(dǎo)致結(jié)果的不準(zhǔn)確,由于本文所擁有的樣本量為500,顯然,在把它分割為三個(gè)部分或兩個(gè)部分后會(huì)使得每部分的樣本量不夠,為此我們考慮另外一種方法,也就是下面將要介紹的第二種方法;這種方法被稱為刀切法,它的原理是這樣的:在原始數(shù)據(jù)中省略一個(gè)觀測(cè),然后運(yùn)行Logistic模型,計(jì)算這一省略觀測(cè)的預(yù)測(cè)概率,并根據(jù)觀測(cè)值和預(yù)測(cè)值進(jìn)行分類,重復(fù)這一過程,直到每個(gè)觀測(cè)得到分類。在本文中我們?cè)O(shè)定的闕值從0.05到1的區(qū)間,并且間隔為0.05,最后的結(jié)果具體可見附件分類表,從該分類表中可以看出,在闕值為0.5的時(shí)候正確率是最高的,并且通常的情況下,我們也是取0.5為闕值,所以在本文我們最終的確定的闕值為0.5,其對(duì)應(yīng)的正確率為78.6%。這一方面說明模型有較好的預(yù)測(cè)精度,但同時(shí)也說明了模型的預(yù)測(cè)能力還需要進(jìn)一步提高。模型的預(yù)測(cè)性沒有達(dá)到比較完美的程度,其主要原因可能是:(1)對(duì)客戶各方面信息的考察還不夠全面;(2)由于目前我國的個(gè)人征信體系還沒有完全建立起來,銀行對(duì)客戶信譽(yù)好與壞的判斷還存在著較大的主觀性。因此,對(duì)商業(yè)銀行來說,除了對(duì)信貸工作人員進(jìn)行專業(yè)培訓(xùn)外,還應(yīng)該注意盡可能全面地考察客戶(包括潛在客戶)的貸款申請(qǐng)信息及交易信息,從而可以對(duì)客戶的特征進(jìn)行更加全面的分析和了解,為建立信用評(píng)估模型挑選特征變量時(shí)有更多的選擇,提高模型的預(yù)測(cè)精度。
參考文獻(xiàn):
[1]石慶焱.個(gè)人信用評(píng)分的主要模型與方法綜述[J],統(tǒng)計(jì)研究,2003,(8).
[2]王濟(jì)川,郭志剛.Logistic回歸模型:方法與應(yīng)用[M],北京:高等教育出版社,2001.
[3]楊軍.商業(yè)銀行客戶評(píng)價(jià)[M],北京:中國財(cái)經(jīng)經(jīng)濟(jì)出版社,1999.
(作者單位:交通銀行長(zhǎng)沙分行)