基于數(shù)據(jù)挖掘的小微商鋪信用風險分析

2018-11-21 01:52:50董小剛

長春工業(yè)大學學報 2018年5期

關(guān)鍵詞：模型

程暉，董小剛

(長春工業(yè)大學數(shù)學與統(tǒng)計學院，吉林長春 130012)

0 引言

近年來，互聯(lián)網(wǎng)金融業(yè)發(fā)展迅猛。由于傳統(tǒng)銀行服務小微企業(yè)的收益與成本不大匹配，同時傳統(tǒng)銀行的業(yè)務辦理速度較慢，以互聯(lián)網(wǎng)為媒介的P2P信貸經(jīng)營模式得到快速發(fā)展[1]。2005年，英國尤努斯教授首次提出網(wǎng)絡信貸服務平臺概念[2]。P2P信貸的產(chǎn)生，雖然給中小企業(yè)和個人帶來了福音，實現(xiàn)了金融資源的優(yōu)化配置，但是其自身也存在著巨大的風險和問題，由于監(jiān)管上的空白，P2P網(wǎng)貸各種攜款潛逃、非法集資、高利貸等惡性事件時有發(fā)生。

P2P信貸平臺存在巨大風險，信用風險研究角度也較為廣泛。馬運全[3]分別就網(wǎng)絡借貸中逆向選擇、道德風險和運作中存在的問題展開研究。艾金娣[4]分別就存在的制度風險和信用風險展開研究并提出相關(guān)防范措施。何曉玲[5]和付英軍[6]認為主要是由于我國法律在這一塊的空白帶來的立法不完善和監(jiān)管缺失的政策性風險，以及我國個人信用評價體系不健全帶來的信息不對稱下的信用風險和網(wǎng)絡信貸平臺自身建設(shè)的風險。雖然上述研究從不同角度分析了影響P2P網(wǎng)絡信貸平臺存在的風險因素，但是并沒有更加細致地找出相關(guān)因素。文中使用R語言進行了全流程數(shù)據(jù)挖掘，選取的指標較為全面，并且使用了多種數(shù)據(jù)挖掘方法進行信用風險分析，可以普及到校園數(shù)據(jù)及各種大數(shù)據(jù)中；同時，文中旨在從借款人個人信用風險的角度去分析，為減少P2P網(wǎng)絡信貸平臺風險和完善我國P2P網(wǎng)絡借貸行業(yè)治理提供有效建議。

1 數(shù)據(jù)來源及變量說明

近年來，信用風險的研究越來越多。姚鳳閣[7]利用網(wǎng)絡借貸平臺中的借款人信息數(shù)據(jù)，選取了借款人信用等級、投標成功次數(shù)、投標流標次數(shù)、借款總額、利率、期限、每月還款、用戶年齡、性別等9個指標,對P2P網(wǎng)絡借貸平臺借款人信用風險的影響進行分析，得出投標成功次數(shù)是影響借款人信用風險的最大因素且呈正相關(guān),和借款人的借款期限、性別、年齡與借款人信用風險之間不存在相關(guān)關(guān)系的結(jié)論。方匡南[8]選取商業(yè)銀行客戶信用卡信貸數(shù)據(jù)中的家庭人口數(shù)、性別、年齡、婚姻、學歷、職業(yè)、個人月收入、信用卡使用頻率、客戶是否為違約客戶、信用卡張數(shù)、戶籍所在地、所在地都市化程度、個人月開銷占家庭月收入比例、月刷卡金額和家庭月收入共15個方面的信息來對P2P網(wǎng)絡借貸平臺借款人信用風險的影響進行分析。馮廣慶[9]針對大學生群體選取了申請人的性別、年級、在校表現(xiàn)情況以及家庭狀況來分析對大學生信用風險的影響，得出在大學生群體中女性比男性違約風險更高的結(jié)論。葛軍[10]在信用卡信用風險研究中選取了申請人的性別、學歷、年齡、婚姻、月收入、家庭人數(shù)、保險、職稱、單位性質(zhì)等9個指標變量，得出學歷越高信用度越高和已婚者的違約概率比未婚者的違約概率低等結(jié)論。榮麗平[11]根據(jù)P2P網(wǎng)絡借貸的特點，選取借款人年齡、性別、文化程度、工作年限、婚姻狀況、月收入范圍、是否購車、房產(chǎn)狀況以及借款成功次數(shù)和逾期筆數(shù)等指標來對借款人的信用等級進行預測。

文中收集了文獻[2]中附錄的小微商鋪信貸數(shù)據(jù)，通過剔除原始數(shù)據(jù)缺失值以及重復的樣本數(shù)據(jù)信息，得到借款人的16個指標信息，對得到的數(shù)據(jù)通過數(shù)據(jù)挖掘技術(shù)進行分析，主要通過邏輯回歸的方式進行分析，并且通過其他數(shù)據(jù)挖掘技術(shù)，如決策樹、神經(jīng)網(wǎng)絡、隨機森林、梯度提升等方式進行對比分析。這16個指標包括：是否為不良貸款、資產(chǎn)收益率、貸款原因/用途、信用記錄中拖欠交易次數(shù)、店鋪資產(chǎn)負債率比率、申請人學歷、店鋪經(jīng)營時間、店鋪年營業(yè)額、申請人信用記錄、是否為本地戶籍、申請人年齡、店鋪月租金、申請人信用等級、店鋪面積、雇員人數(shù)、所屬行業(yè)。為了更好地度量P2P網(wǎng)絡借貸平臺的信用風險，文中用一個二值變量Y(BAD)來表示因變量，即若為不良貸款，則Y用1表示；若非不良貸款，則Y用0表示。具體見表1。

2 Logistic模型介紹

在分析分類變量時，常常采用對數(shù)線性模型的方法，文中用的是對數(shù)線性模型中的Logistic模型。Logistic模型[12]的優(yōu)點在于它對自變量分布的假設(shè)條件沒有限制，自變量可以是連續(xù)變量或離散變量；Logistic模型中的因變量是一個二分類變量。

事件發(fā)生的概率為

p(yi=1|xi)=p[(α+βxi+εi)>C]=

p[εi>(-α-βxi+C)]

當C=0時，有

p(yi=1|xi)=p[εi≤(α+βxi)]=

這個函數(shù)即為Logistic函數(shù)。

若將事件發(fā)生的概率p(yi=1|xi)記為pi，則pi表示第i個觀測發(fā)生的概率，所以Logistic回歸模型為

則事件不發(fā)生的概率為

所以，事件發(fā)生概率與不發(fā)生概率之比為

兩邊同時取對數(shù)即可將原先的非線性函數(shù)轉(zhuǎn)換成一個線性函數(shù)，即

表1 信用風險度量指標量化處理

在線性回歸中，常采用最小二乘法和極大似然估計法估計未知總體參數(shù)，由于Logistic回歸模型是一種非線性模型，最常采用的模型估計方法是極大似然估計法。

評價Logistic模型是否有效，通常是從兩個方面來看，一方面是查看模型的擬合優(yōu)度，即AIC準則和SBC準則，通常情況下，AIC和SBC取值越小，模型擬合得越好；另一方面是檢查模型的預測準確性。

3 實證分析

通過數(shù)據(jù)分區(qū)的方式把原始數(shù)據(jù)分成訓練集和驗證集，比例為70%和30%，通過訓練數(shù)據(jù)集訓練模型，驗證集來驗證模型的效果。Logistic回歸模型是文中使用的重要模型之一，Logistic回歸模型[12-13]雖然對自變量分布的假設(shè)條件要求沒那么高，但它對共線性卻非常敏感，當自變量之間存在高度的自相關(guān)時，會導致估計的標準誤差膨脹，故將應用Logistic回歸模型時需對是否存在共線性進行檢驗。文中采用的是方差膨脹因子(VIF)作為是否存在多重共線性的判斷標準，檢驗結(jié)果見表2。

表2 多重共線性檢驗

所有變量的邏輯回歸結(jié)果見表3。

表3 所有變量的邏輯回歸結(jié)果

從檢驗結(jié)果可以看出，方差膨脹值(VIF)的平方根均小于2，說明這15個自變量間不存在多重共線性問題。所以，可利用統(tǒng)計軟件R將這15個自變量進行Logistic回歸建模。從輸出結(jié)果來看，有2 816條樣本參與了建模。本次擬合出來的Logistic回歸模型為：

0.200 7x6-0.042 3x7-0.000 6x8+0.130 6x9-0.019x10-1.179 5x11+

0.637 3x12+0.010 9x13+0.105 2x14+0.095 9x15

從參數(shù)的顯著性檢驗結(jié)果可以得到，在這15個指標變量中只有x1,x3,x4,x6,x11,x12,x13為顯著非零，由于不顯著變量較多，這里通過AIC準則進行變量選擇，部分輸出結(jié)果見表4。

表4 向后消除法回歸匯總

剔除X10后的邏輯回歸結(jié)果見表5。

表5 剔除X10后的邏輯回歸結(jié)果

對于逐步回歸的結(jié)果分析發(fā)現(xiàn)，x10不顯著，去除x10之后，模型的參數(shù)都顯著，從而得到最終的模型，模型中包含了變量x1,x3,x4,x6,x11,x12,x13，所以最終的Logistic回歸模型為:

0.438 4x3+0.082x4-

0.206 5x6-1.360 2x11+

0.648 7x12+0.014 9x13

從模型可以看出，對發(fā)生違約風險影響最大的是x11，其次是x1，再次是x12。通過上述參數(shù)估計可以計算出優(yōu)比估計Odds，見表6。

表6 優(yōu)比估計

由表6知:當x1提高一個單位時，不良貸款的發(fā)生比為原來的0.351倍;當信用記錄中x3提高一個單位時，不良貸款的發(fā)生比為原來的1.550倍;當x4提高一個單位時，不良貸款的發(fā)生比為原來的1.085倍;當x6提高一個單位時，不良貸款的發(fā)生比為原來的0.813倍;當x11提高一個單位時，不良貸款的發(fā)生比是原來的0.257倍;當x12增加一個單位時，不良貸款的發(fā)生比將為原來的1.913倍(和表1信用等級B做比較);當x13提高一個單位時，不良貸款的發(fā)生比為原來的1.015倍。優(yōu)比估計中點估計的值大于1，說明所選的自變量對事件的發(fā)生概率有正的作用。因此，x3,x4,x12,x13對事件的發(fā)生概率有正的作用，即拖欠交易次數(shù)越多，店鋪資產(chǎn)負債比越高(影響很小)，申請人信用等級越低，店鋪面積越大(影響很小)，發(fā)生不良貸款的可能性越高；x1,x6,x11有負的作用，即資產(chǎn)收益率越高，店鋪經(jīng)營時間越長，店鋪月租金越貴，發(fā)生不良貸款的可能性將會降低。

預測精度見表7。

表7 預測精度

從表7可以看出，預測精度為0.97，預測效果很好。

將驗證數(shù)據(jù)集代入上述模型進行驗證，得到針對驗證數(shù)據(jù)集的ROC曲線下面積AUC為0.974。驗證集的ROC曲線如圖1所示。

圖1 驗證集的ROC曲線

一般認為ROC曲線下面積達到0.75，該模型就具備了較好的預測能力。因此，從驗證集上的ROC來看，模型擬合的預測效果非常好。

4 模型比較

除了使用邏輯回歸進行建模，文中還采用決策樹、隨機森林、支持向量機等數(shù)據(jù)挖掘模型進行建模，通過對比模型的準確率、正例命中率、模型的可解釋性及ROC曲線下的面積來進行模型選擇。一般情況下，準確率、正例命中率和ROC曲線下面積介于0～1之間，取值越大越好，可解釋性越強越好。因而綜合各方面考慮，文中選取了邏輯回歸作為最終的信用風險[14]模型。

模型比較見表8。

表8 模型比較

5 結(jié) 語

通過采集P2P網(wǎng)絡信貸平臺上的借款人信息，選取了2 816條借款人是否不良貸款、資產(chǎn)收益率、貸款原因/用途、信用記錄中拖欠交易次數(shù)、店鋪資產(chǎn)負債率比率、申請人學歷、店鋪經(jīng)營時間、店鋪年營業(yè)額、申請人信用記錄、是否為本地戶籍、申請人年齡、店鋪月租金、申請人信用等級、店鋪面積、雇員人數(shù)、所屬行業(yè)等16個指標信息，利用R軟件進行AIC回歸選擇模型，最終得知資產(chǎn)收益率(x1)、信用記錄中拖欠交易次數(shù)(x3)、店鋪資產(chǎn)負債比率(x4)、店鋪經(jīng)營時間(x6)、店鋪月租金(x11)、申請人信用等級(x12)、店鋪面積(x13)這7個指標變量顯著非零，再利用這7個變量進行Logistic回歸建模，并對該模型的預測準確性進行檢驗，最后得出該模型的預測準確性為0.97，并且模型驗證集的ROC值遠大于0.75，預測效果較好。

所以，在P2P網(wǎng)絡信貸平臺上,出借人可以著重考慮小微商鋪借貸人的資產(chǎn)收益率(x1)、信用記錄中拖欠交易次數(shù)(x3)、店鋪資產(chǎn)負債比率(x4)、店鋪經(jīng)營時間(x6)、店鋪月租金(x11)、申請人信用等級(x12)、店鋪面積(x13)這7個指標。一般來說，信用等級越低，不良事件發(fā)生的概率就越高；拖欠交易次數(shù)越多，發(fā)生不良貸款的可能性越高；店鋪資產(chǎn)負債比越高，發(fā)生不良貸款的可能性相對較高。此外，資產(chǎn)收益率越高，發(fā)生不良貸款的可能性越低；店鋪經(jīng)營時間越長，發(fā)生不良貸款的可能性越低；店鋪月租金越貴，發(fā)生不良貸款的可能性越低。這是由于店鋪租金越貴(店鋪一般處在繁華地段)，投入成本較多，需要大量流動資金周轉(zhuǎn)。