韓 穎
(銅陵學(xué)院新校區(qū),安徽 銅陵 244061)
P2P網(wǎng)絡(luò)借貸(簡(jiǎn)稱“P2P網(wǎng)貸”)又稱為互聯(lián)網(wǎng)金融點(diǎn)對(duì)點(diǎn)借貸,隨著計(jì)算機(jī)技術(shù)的快速發(fā)展,傳統(tǒng)金融業(yè)與互聯(lián)網(wǎng)相互融合,形成了新的行業(yè)——互聯(lián)網(wǎng)金融,而P2P網(wǎng)絡(luò)借貸則是互聯(lián)網(wǎng)金融的一個(gè)重要的組成部分,P2P網(wǎng)絡(luò)借貸平臺(tái),是P2P借貸與網(wǎng)絡(luò)借貸相結(jié)合的互聯(lián)網(wǎng)金融(ITFIN)服務(wù)網(wǎng)站,P2P借貸是英文peer to peer lending的簡(jiǎn)寫,其中peer指的是個(gè)人.近幾年來,P2P網(wǎng)貸平臺(tái)大量涌現(xiàn),同時(shí)也伴隨著巨大的風(fēng)險(xiǎn),為了了解P2P網(wǎng)絡(luò)借貸借款人的信用風(fēng)險(xiǎn),本文通過建立二元Logistic回歸模型分析影響借款人借款行為的影響因素,從而可以減小借款違約率,降低借款人的信用風(fēng)險(xiǎn),同時(shí)為能夠建立一個(gè)能使客戶放心的、安全的、高效的交易平臺(tái)提供決策依據(jù),使P2P網(wǎng)貸行業(yè)得到健康地發(fā)展,為客戶提供更優(yōu)質(zhì)的服務(wù).
當(dāng)回歸模型里的被解釋變量為二分類變量時(shí),二元Logistic回歸模型[1]是研究被解釋變量與解釋變量之間關(guān)系的常用方法,本文中將被解釋變量分為正常借款人(沒有違約)和非正常的借款人(違約客戶),這正是一個(gè)二分類問題,二元Logistic回歸模型能很好地解決此類問題.二元Logistic回歸模型里解釋變量可以是分類變量,也可以是數(shù)值型變量,此模型的核心思想是:假設(shè)用y表示借款人申請(qǐng)貸款這一事件,取值為1時(shí)表示借款人沒有正常還款(違約),取值為0時(shí)表示借款人正常還款(履約),用1和0作為被解釋變量的取值進(jìn)行回歸[3].本文通過建立二元Logistic回歸模型得到借款人發(fā)生違約的可能性,即因變量取值為1的概率,所以回歸模型結(jié)果具有直觀含義.

本文采用的分析數(shù)據(jù)來自P2P網(wǎng)貸公司(青蚨普惠)關(guān)于借款人信息數(shù)據(jù),它全面記錄了每一個(gè)借款人的信息資料,由于部分?jǐn)?shù)據(jù)缺失,并且本文里重點(diǎn)對(duì)P2P網(wǎng)貸平臺(tái)里安徽省借款人的信用進(jìn)行信用評(píng)價(jià),本文選取了安徽省5個(gè)地區(qū)的借款人的177條信息,這5個(gè)地區(qū)分別為合肥、安慶、馬鞍山、阜陽和蚌埠.迄今為止,正常的借款人(沒有違約)人數(shù)為120位,非正常的借款人(違約)人數(shù)為57位.
其中,借款人的信息資料里包括借款人的姓名、性別、年齡、借款人所在地區(qū)、借款人電話號(hào)碼、開戶銀行、銀行賬號(hào)、身份證號(hào)、工作性質(zhì)、有無住房、婚姻狀況、借款合同金額、借款期數(shù)、借款利率、期供(每期還款額)、產(chǎn)品類型、客戶狀態(tài)、合同編號(hào)、客戶經(jīng)理和戶口所在地等信息.
由于客戶資料的隱私性,這些借款人信息資料只是內(nèi)部資料,沒有公開,但是資料信息較為全面,可以將以此數(shù)據(jù)資料作為數(shù)據(jù)分析的來源,分析我國(guó)(特別是安徽省)目前P2P網(wǎng)貸平臺(tái)的現(xiàn)狀以及風(fēng)險(xiǎn),具有很好的現(xiàn)實(shí)指導(dǎo)意義.
在建立回歸模型前,要對(duì)數(shù)據(jù)進(jìn)行整理,同時(shí)還需要對(duì)數(shù)據(jù)進(jìn)行轉(zhuǎn)換,數(shù)據(jù)整理是為了確保模型建立的有效性,將原始數(shù)據(jù)里與借款人個(gè)人信用風(fēng)險(xiǎn)評(píng)價(jià)體系沒有關(guān)系的數(shù)據(jù)去掉,例如將借款人姓名、合同編號(hào)、借款人電話號(hào)碼、開戶銀行、銀行賬號(hào)、身份證號(hào)、客戶經(jīng)理、戶口所在地等這些數(shù)據(jù)信息刪除.數(shù)據(jù)轉(zhuǎn)換是將數(shù)據(jù)按照同一種方法、同一種模式將里面存在不規(guī)范的數(shù)據(jù)進(jìn)行轉(zhuǎn)換.
指標(biāo)的選取對(duì)模型的建立相當(dāng)重要,特別是自變量的選取.通過閱讀大量文獻(xiàn)[5]并結(jié)合P2P網(wǎng)貸平臺(tái)客戶資料的特點(diǎn),從借款人基本信息、借款狀況、財(cái)務(wù)信息等方面,確定了下列借款人4個(gè)方面的信息指標(biāo)作為借款人信用風(fēng)險(xiǎn)評(píng)價(jià)的備選指標(biāo).
2.3.1借款人基本信息
借款人自身的信息,包括性別、年齡、婚姻狀況、借款人所在地,這些信息為借款人的基本信息資料,獲取這些數(shù)據(jù)資料的難度不大,同時(shí)通過基本信息資料能夠了解借款人的基本償還債務(wù)的能力,此類指標(biāo)對(duì)借款人是否有違約風(fēng)險(xiǎn)有一定的影響作用.
2.3.2借款人職業(yè)信息
借款人職業(yè)相關(guān)的信息,包括所屬行業(yè)、工作年限.
2.3.3借款人固定資產(chǎn)信息
主要指借款人住房性質(zhì)(有無自有住房),根據(jù)此類信息可以掌握借款人的固定資產(chǎn)狀況.
2.3.4借款產(chǎn)品信息
借款產(chǎn)品信息包括產(chǎn)品類型、借款期限、借款合同金額、月還本息、借款利率,這些指標(biāo)對(duì)借款人是否有違約風(fēng)險(xiǎn)影響作用很大.
通過以上的分析,表1給出了借款人信用風(fēng)險(xiǎn)評(píng)價(jià)備選指標(biāo)表,包括一級(jí)指標(biāo)和二級(jí)指標(biāo).

表1 借款人信用風(fēng)險(xiǎn)評(píng)價(jià)備選指標(biāo)表
從借款人信用風(fēng)險(xiǎn)評(píng)價(jià)備選指標(biāo)表中可以看到,其中的備選指標(biāo)有12個(gè),解釋變量指標(biāo)比較多,有些指標(biāo)間存在著很強(qiáng)的相關(guān)關(guān)系,例如借款金額與月還本息這兩項(xiàng)指標(biāo)具有明顯的正相關(guān)關(guān)系,一般借款金額越大,月還本息就越大,如果我們將這兩個(gè)指標(biāo)同時(shí)都引到回歸模型里會(huì)造成多重共線性的后果.如果模型里的解釋變量之間存在多重共線性,會(huì)對(duì)Wald統(tǒng)計(jì)量產(chǎn)生影響,進(jìn)而影響模型的參數(shù)估計(jì)及預(yù)測(cè)效果.因此應(yīng)消除多重共線性,
對(duì)于可能產(chǎn)生的多重共線性本文采用VIF(方差膨脹因子)進(jìn)行檢驗(yàn),VIF越大,顯示共線性越嚴(yán)重.一般認(rèn)為當(dāng)VIF值>10時(shí),存在較強(qiáng)的多重共線性,通過共線性的檢驗(yàn),除去月還本息(x11)和工作年限(x12)這兩個(gè)變量,保留在模型里有10個(gè)變量.
對(duì)應(yīng)的10個(gè)解釋變量的取值情況如表2所示,其中的解釋變量包括數(shù)值型變量和分類型變量,下表為10個(gè)解釋變量和被解釋變量(y)的具體取值信息.

表2 變量分類取值表
首先得出樣本數(shù)據(jù)及變量的描述性統(tǒng)計(jì)量的基本信息,如表3和表4所示.

表3 樣本數(shù)據(jù)說明表

表4 樣本描述性統(tǒng)計(jì)量表
表3顯示本文的有效樣本量為177個(gè),其中,違約的借款人有57人,沒有發(fā)生違約的借款人有120人,同時(shí),表4給出了變量的簡(jiǎn)單描述性統(tǒng)計(jì)量,篩選后的10個(gè)變量的均值和標(biāo)準(zhǔn)差,發(fā)生違約與不發(fā)生違約的借款人對(duì)應(yīng)的變量的均值和標(biāo)準(zhǔn)差相差不大.
對(duì)二元Logistic回歸方程進(jìn)行檢驗(yàn)包括回歸方程的顯著性、回歸系數(shù)的顯著性檢驗(yàn)、回歸方程的擬合優(yōu)度檢驗(yàn).
3.1.1回歸方程的顯著性檢驗(yàn)
3.1.2回歸系數(shù)的顯著性檢驗(yàn)
3.1.3回歸方程的擬合優(yōu)度檢驗(yàn)
在logit回歸模型里,對(duì)于模型的擬合程度的好壞,可以從兩個(gè)方面來考察,第一:回歸方程能夠解釋被解釋變量變差的程度,第二,由回歸方程計(jì)算出的預(yù)測(cè)值與實(shí)際值之間吻合的程度,即方程錯(cuò)判率的高低.常見的指標(biāo)有:1)Cox&Snell R2統(tǒng)計(jì)量;2)Nagelkerke R2統(tǒng)計(jì)量;3)混淆矩陣;4)HL 檢驗(yàn).
本文用y表示借款人借款這一事件,取值為1時(shí)表示借款人沒有正常還款(違約),取值為0時(shí)表示借款人正常還款(履行合約),用1和0作為被解釋變量的取值建立回歸模型,得到模型系數(shù)的綜合檢驗(yàn)如表5所示.

表5 模型系數(shù)的綜合檢驗(yàn)[4]
從表5中可知,本步所選變量均進(jìn)入方程,似然比卡方檢驗(yàn)的觀測(cè)值為17.360,概率p值為0.002,如果顯著性水平為0.05,此時(shí)p值遠(yuǎn)遠(yuǎn)小于顯著性水平,應(yīng)拒絕所有回歸系數(shù)同時(shí)為0的原假設(shè),認(rèn)為所有回歸系數(shù)不同時(shí)為0,解釋變量整體與logit P之間的線性關(guān)系顯著,因此采用該模型合理.

表6 模型匯總
表6顯示了當(dāng)前模型的擬合程度優(yōu)劣的指標(biāo),-2倍的對(duì)數(shù)似然函數(shù)值越小則模型的擬合優(yōu)度越高,同時(shí),Nagelkerke R2為 0.561,可以看出,模型的擬合程度較好.
通過在SPSS統(tǒng)計(jì)軟件里選擇向后逐步進(jìn)入法建立二元回歸模型,經(jīng)過十步回歸,最終保留在模型里的解釋變量為年齡(X2)、工作性質(zhì)(X4)、借款人所在地(X5)、合同金額(X7)和借款利率(X9).結(jié)果如表7所示.
從Logit回歸方程中可以看出,留在模型里的5個(gè)指標(biāo)是:年齡、工作性質(zhì)、借款人所在地、合同金額和借款利率.這5個(gè)指標(biāo)對(duì)模型具有顯著的影響作用,對(duì)評(píng)價(jià)借款人信用風(fēng)險(xiǎn)起著關(guān)鍵性的作用.其中:借款人的年齡越大,其違約的可能性越低,信用風(fēng)險(xiǎn)就越小;借款人的工作性質(zhì)里職位越高,其違約的概率越小,風(fēng)險(xiǎn)越低;借款人所在地經(jīng)濟(jì)越發(fā)達(dá),違約的概率就越小,風(fēng)險(xiǎn)越低,借款人的借款合同金額越大,違約的概率越大,風(fēng)險(xiǎn)越高,借款人的借款利率越大,違約的概率越大,風(fēng)險(xiǎn)越高,同時(shí),Exp(B)值代表自變量對(duì)因變量的影響程度,取值越大,說明違約的概率就越高,從回歸模型可知,年齡、借款人的工作性質(zhì)、借款人所在地對(duì)因變量影響較大,而借款合同金額、借款利率對(duì)因變量的影響效果相對(duì)而言較小.

表7 方程中的變量

表8 分類表
表8顯示了Logit回歸初始階段的混淆矩陣[6],120人沒有逾期且模型預(yù)測(cè)正確,正確率為100%,57個(gè)人逾期了但模型均預(yù)測(cè)錯(cuò)誤,正確率為0%,模型總的預(yù)測(cè)正確率為67.8%,效果不是很理想.
從表9的結(jié)果可以看出,當(dāng)所選擇的指標(biāo)作為方程的解釋變量時(shí),模型對(duì)于沒有逾期的分類準(zhǔn)確率為90.8%,對(duì)于逾期的分類準(zhǔn)確率為42.1%,模型總的分類準(zhǔn)確率達(dá)到75.1%.這個(gè)結(jié)果比之前沒有解釋變量進(jìn)入模型時(shí)準(zhǔn)確率要提高很多,因此二元Logit模型評(píng)價(jià)效果較好.

表9 分類表a
(1)借款人的年齡、工作性質(zhì)、借款人所在地、借款合同金額、借款利率對(duì)借款人的違約率有顯著的影響;(2)從回歸模型可知,在影響因素里,年齡、借款人的工作性質(zhì)、借款人所在地對(duì)因變量影響較大,而借款合同金融、利率對(duì)因變量的影響效果相對(duì)較小.(3)當(dāng)所選擇的指標(biāo)作為方程的解釋變量時(shí),模型總的分類準(zhǔn)確率達(dá)到75.1%,比之前沒有解釋變量進(jìn)入模型時(shí)的分類準(zhǔn)確率要提高很多,二元Logit模型評(píng)價(jià)效果較好.
因此,本文認(rèn)為,對(duì)于借款人而言,不要一次性借高數(shù)額的貸款,這樣違約的風(fēng)險(xiǎn)就大,對(duì)于監(jiān)管部門而言,應(yīng)該實(shí)現(xiàn)大數(shù)據(jù)資源共享,逐步完善個(gè)人征信體系[7],能夠充分讀取到借款人的個(gè)人信息,從而降低借款人信用風(fēng)險(xiǎn).
參考文獻(xiàn):
〔1〕薛薇.SPSS統(tǒng)計(jì)分析方法及應(yīng)用[M].北京:電子工業(yè)出版社,2013.212-229.
〔2〕袁羽.基于Logistic回歸的P2P網(wǎng)絡(luò)貸款信用風(fēng)險(xiǎn)度量[J].上海社會(huì)科學(xué)院,2014(04):32-36.
〔3〕董梁,虎明雅.基于Logistic回歸模型的P2P網(wǎng)貸平臺(tái)新進(jìn)借款人信用風(fēng)險(xiǎn)研究[J].江蘇科技大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2016(9):3-5.
〔4〕溫小霓,武小娟.P2P網(wǎng)絡(luò)借貸成功率影響因素分析——以拍拍貸為例[J].金融論壇,2014(3):1-2.
〔5〕王夢(mèng)佳.基于Logistic回歸模型的P2P網(wǎng)貸平臺(tái)借款人信用風(fēng)險(xiǎn)評(píng)估[J].北京外國(guó)語大學(xué),2015(6):13-16.
〔6〕汪莉.基于Logistic回歸模型的中小企業(yè)信用評(píng)分研究[J].合肥工業(yè)大學(xué),2008(4):30-35.
〔7〕杜永紅,石買紅,史慧敏.大數(shù)據(jù)環(huán)境下P2P網(wǎng)貸平臺(tái)的風(fēng)險(xiǎn)防范與評(píng)估 [J].會(huì)計(jì)之友,2016(22).
赤峰學(xué)院學(xué)報(bào)·自然科學(xué)版2018年3期