999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

Lasso-Cox模型在個人信用風險評估中的應用

2021-02-07 07:33:26李淑錦嵇曉佳
資源開發與市場 2021年2期
關鍵詞:模型

李淑錦,嵇曉佳

(杭州電子科技大學 經濟學院,浙江 杭州310018)

1 文獻綜述

國內外學者關于信用風險評估的研究主要集中于探討影響借貸違約行為的因素、風險評估的模型選擇及應用方面。

在個人借貸違約行為的影響因素研究方面,學者們發現有內外部因素之分,也可以表現為硬信息和軟信息兩個方面。傅彥銘、臧敦剛、戚名鈺[1]基于借款人的信用等級、申請的貸款金額、期限、利率、收入等因素研究了對個人借款者信用風險的影響;李思瑤、王積田、柳立超[2]則考慮借款者的信用等級、收入水平、學歷和所處地區等因素對個人借款者違約的影響;李延喜、孫大同、賽騫[3]基于個人借款者的特征,如年齡、學歷、借款金額等指標來判別其是否會影響違約的風險;王浩名、馬樹才[4]通過對借款人的信用等級、FICO 分數等級、負債與收入比等因素研究了對違約概率的影響;王冬一、華迎、朱峻萱[5]在個人財務狀況、房產車產、收入、學歷等基本信息的基礎上,加入社會關系來動態評估個人借款者的違約風險。除借款者個人特征,信用等級等方面數據會包含一些信用風險信息,借款者的消費行為和宏觀層面因素也會對其違約行為產生影響。王正位、周從意、廖理等[6]研究表明,高頻的消費行為所蘊含的信息能提高對借款者風險的識別效率;遲國泰、張亞京、石寶峰[7]研究發現,宏觀經濟因素對個體借款者的還款情況存在影響,實證結果表明景氣指數、居民消費價格指數、城市人均可支配收入對其未來違約狀態的影響是顯著的。

在信用風險評估模型研究方面,有靜態和動態模型之分,代表性的靜態評估模型包括判別分析法和Logistic 回歸方法等。如,方匡南、章貴軍、張惠穎[8]研究發現,Logistic 回歸模型在我國信用風險研究中具有更強的應用性和一定的代表性。SVM、隨機森林、BP 神經網絡、決策樹[9-12]等靜態評估模型也被運用到信用風險研究中,并取得了一定的研究成果。靜態評估模型只能分析借款者在特定時間段內的違約概率,不能評估特定時點上的違約風險,而動態評估模型卻可以。最常用的動態評估模型是生存分析模型,其中最具代表性的是成比例Cox 模型。Narain B[13]第一次將生存分析方法運用到信用評估中;Banasik J、Crook J N、Thomas L C[14]在前人研究的基礎上發現,普通的靜態評估模型如Logistic 回歸與Cox 方法相比具有很好的評估效果;Stepanova M、Thomas L C[15]運用Cox模型預測了個人借款者的違約概率;鄧麗純、杜偉勇[16]運用Cox 模型預測了上市公司財務危機;劉忻梅、丁研、段羽中[17]運用Cox PH模型篩選了影響上市公司信用風險的財務指標。

綜上所述,在個人借款者的信用風險評估中,最重要的是建立信用風險評估指標體系和選擇合適的評估方法,學者們在研究過程中主要使用Logistic、SVM、決策樹等靜態方法進行實證研究。這些模型各有優缺點,如Logistic回歸模型是較為經典的一個傳統預測模型,具有高穩定性、高可解釋性、建模難度低的特點,但導致欠擬合現象;SVM 適用小樣本,且能處理非線性模型,但對大樣本處理結果較差,且穩定性較低;決策樹作為大數據處理問題的一個新模型,具有預測精度高、數據要求低、概率圖解釋清晰的特點,但也具有穩定性差,且僅用于離散變量的特性。這些靜態方法的缺點是只能判別個人借款者在一定的期限內是否違約,卻無法評估借款者什么時候違約。

本文的研究目的在于不僅發現影響個人借款者違約的重要影響因素,而且同時定量分析個人借款者在什么時刻違約。與傳統的靜態評估方法相比較,生存分析方法具有兩個方面優勢:一是生存分析可有效利用刪失(Censored,本文特指在研究期間未發生違約的樣本)數據;二是擴展的生存分析模型可納入時間變量,且預估每個時點個人借款者違約的可能性。

從學者們的研究中可以發現,在評估個人借款違約時,選取的評估指標會對最終的評估結果產生很大的影響。在眾多的特征信息中如何篩選出準確的、能反映個人信用風險的有效指標,成為建立信用風險評估指標體系的關鍵所在。常用的篩選方法有主成分分析法、Lasso方法等。方匡南、章貴軍、張惠穎[8]研究表明,Lasso方法篩選的預測變量較向前逐步回歸和向后逐步回歸法都能獲得更好的預測結果,因此本文擬采用Lasso方法建立有效的個人借款者信用風險的評估指標。

向暉[18]曾將單一模型和混合模型進行對比,發現混合模型的預測精度、穩健性、解釋性等均優于單一模型。Lasso 和生存分析模型的特點具有以下兩個特點:一是Lasso和生存分析模型具有一定的互補性,生存分析易造成欠擬合問題,而Lasso 正好能解決多重共線性和擬合問題;二是兩個模型都可以解決非線性問題,且二者對數據的假設要求條件均較低。因此,將Lasso和生存分析模型相結合構建新的評估方法,可大大提高模型的預測精度和模型的整體可解釋性,為信用評估模型和評估指標的運用提供了新思路。

2 研究方法

2.1 Cox 模型

生存分析常被用于醫學實驗中不同變量對被研究個體生存狀態的影響,也就是在變量發生變化時,對個體生存時間的影響。信用風險研究中,生存狀態的轉變主要依據借款者是否發生違約,因此“T”特指從借款者完成借款的時間起點到發生違約事件所經歷的月數。通常事件的生存特征由生存函數、危險函數和概率密度函數體現,本文運用生存分析方法研究在一定時期內借款者違約的影響因素,并給出相應的風險函數和風險概率,以發現個人借款者的“生存特征”。

生存函數:生存函數又稱“累計生存率”,是指在t時刻企業個體的累計存活概率,一般用函數S(t)表示,數學形式為:

式中,T為個人借款者從籌資成功到發生違約情況所經歷的月數;F(t)指個體生存時間T 的分布函數。

f(t)為概率密度,通常被用來衡量某個隨機變量在任意一個確定的時間點附近取值的可能性,函數表達式為:

h(t)為危險函數,又被稱為“風險函數”,是指個體在t時刻是未違約的,但在下一瞬間t+Δt(Δt→0)會發生違約的可能性,采用危險函數h(t)表示:

由定義可知,生存函數S(t)和危險函數h(t)可以轉換,計算公式為:

生存分析中有各種風險函數表示方法,本文主要采用Cox 模型。Cox 模型為半參數模型,模型中有一部分的結構是已知的,需要估計參數,而另外一部分結構未知。因此,Cox 模型一部分取決于估計的β值,另一部分則由依據時間t,但與協變量無關的基礎風險函數h0(t)決定,表達式為:

式中,h0(t)為基準風險函數,是指當解釋變量為0 時個人借款者發生違約風險的概率;X(t)是包含了以下元素的解釋變量:m個借款人特征指標x1,x2,…,xm,包括基本情況、工作情況、資產情況和信用情況;n個借款信息xm+1,xm+2,…,xm+n指標,這些指標是不隨時間變化的;s 個動態的宏觀經濟指標y1(t),y2(t),…,ys(t),這些指標是動態的,為時間依存變量,隨著時間變化而變化。本文中,若協變量不考慮宏觀經濟指標,該模型是Cox PH 模型;若協變量考慮宏觀經濟指標yi(t),則該模型就是擴展Cox模型。β1,β2,…,βp是模型通過極大似然函數和訓練集數據估計得出的回歸系數[19]:

因此,每個借款人在任何時刻,以及任何一段時間的違約概率可以通過公式(1)和(5)獲得[21]。

Cox模型參數估計中帶有懲罰項的偏似然函數形式如下:

式中,ln(β)為擴展的Cox 模型的對數偏似然函數。

2.2 Lasso - Cox模型

由于大數據具有數據量大、存在冗余變量的特點,因此本文首先采用基于偏似然估計原理的Lasso方法對借款者違約的評估指標進行篩選。首先,充分考慮各自變量與因變量之間的關系,合理界定信用風險評估指標對因變量是否存在顯著影響;然后,基于所選出的特征自變量利用擴展的Cox 預測進行預測,定量分析個人借款者的違約特征。

為提高變量選擇的效果,需對λ參數進行調整,本文采用十折交叉驗證方法來確定調和參數λ。交叉驗證法首先把數據分成數量大致相等的K 份,對于第k份數據,用其他K - 1 份的數據擬合模型fk,然后計算當fk用于預測第k 份數據時的預測誤差。令k =1,2,…,K,重復上述過程,最后匯總K 個模型的預測誤差。實踐中常令K =10,即十折交叉驗證。十折交叉驗證的預測誤差表示為:

式中,k(i)是表示N 個樣本中觀測i 屬于第k(k =1,2,…,K)份數據的指示函數;fk表示使用剔除第k份數據后擬合的模型。

假定擬合了一組含有調和參數的模型表示為fk(x,λ),定義為:

那么,CV(f,λ)就是一條隨λ的變化而變化的檢驗誤差曲線,找到使其最小的λ,就是Lasso- Cox 回歸模型的調和參數:

在經過十折交叉驗證得出估計的^λ值后,根據公式(9)得出βLasso的估計值,根據公式(5)得出被觀察樣本在t時刻發生違約的概率,即:

3 評估指標選擇及數據來源

3.1 評估指標選擇

李杰、劉露、Chao - Hsien Chu[24]對個人信用風險的研究發現,個人借款者的基本情況、資產情況、工作情況、信用情況和借款信息均會對其未來的違約狀況產生影響。本文構建了信用風險評估指標體系(表1)。從表1 可見,評估指標的數據分為數值型數據和非數值型數據,數值型數據的賦值為實際值,而連續的字符(如婚姻狀況)通常分為“波段”,然后將每個“波段”替換為二進制虛擬變量。

表1 信用風險評估指標體系及其處理方式

在評估個人借款者違約風險時考慮宏觀經濟變量可提高信用評估模型對違約率的預測準確性[25],本文將居民消費指數(CPI)、經濟景氣指數(ECI)、失業率(URI)、國房景氣指數(CERCI)等納入信用風險評估指標體系。CPI 反映了通貨膨脹程度和宏觀經濟對職工實際工資產生的影響,居民的實際收入影響其還款的壓力;ECI 能夠直接地表示宏觀經濟的景氣程度;URI 反映了失業率,URI 高,意味著經濟情況不景氣、失業人數多,借款者中會有一部分面臨失業的壓力而影響還款情況;CERCI 綜合反映了全國房地產業運行的景氣狀況,該指標的上漲可能是某些房產擁有者財富增加而降低違約風險,或者增加另外一些準備買房或背負房貸的借款者的還款壓力而增加違約風險,因此該指標對個人借款者信用風險的影響是不確定的。

3.2 數據來源及處理

基于個人信用卡還款數據的不可得性,因此本文選取P2P平臺上的個人借款數據,通過Python 爬蟲獲取來自于我國P2P網絡借貸平臺中處于領軍企業的“人人貸”的數據。數據集中了1,048,575 個樣本,其中未違約人數1,035,133 人、違約人數13,442人。基于數據可非自然分布的研究結論[26],本文將對樣本數據進行了1 ∶1 的平衡處理。在違約案例13,442組的基礎上,隨機篩選13,442組非違約樣本對數據進行平衡處理。數據的描述性統計具體見表2。

表2 樣本的描述性統計

4 實證研究

本文采用十折交叉驗證,在違約案例13,442 樣本的基礎上,隨機篩選了13,442 個非違約樣本進行研究。其中十分之一的數據,即隨機選擇1344 個違約樣本和1344 個非違約樣本組成測試集,其他的12,098 個違約和12,098 個未違約樣本隨機均勻分布在9 個訓練集中,利用訓練集的數據進行Lasso變量選擇和模型的參數估計。

4.1 Lasso評估指標選擇

本文首先對16 個靜態指標進行了相關性檢驗,具體結果見表3。從表3 可見,一些指標間存在著近0.7698 的高度線性相關性。若不進行降維處理,不僅會降低模型的運行效率,也會使實證結果出現過擬合現象,影響模型的精確度,因此本文對指標進行篩選。

Lasso模型是通過構造懲罰函數來達到精簡模型的效果,會將一些呈現共線性或者與因變量沒有相關性的冗余變量通過將其回歸系數設置為0 的方式剔除,保留自變量子集簡練且收縮的優點。基于此,本文首先通過Lasso篩選出對違約狀況影響顯著的協變量指標,再應用Cox 回歸模型對借款者的違約風險進行擬合,建立違約預測模型,然后利用訓練集的數據擬合出Alpha和Lasso 回歸系數的關系(圖1)。從圖1 可見,在Alpha 取值在10-5和10-3之間時,模型自變量的系數趨于穩定。而模型需要確定具體的調和參數,即最小的λ值來使得模型的篩選誤差最小,因此還是需要借助十折交叉檢驗方法,即公式(12)來確定最小的λ值。基于最小的調和參數值,模型最終篩選了7 個信用風險評估指標,分別是:信用分數、信用等級、年齡、利率、借款期限、剩余期限和收入。

表3 各信用風險評估指標的相關關系

圖1 Alpha和Lasso回歸系數的關系

4.2 Cox PH模型的參數估計及其檢驗

根據Lasso模型篩選的7 個變量,在不考慮宏觀經濟變量的情況下,利用公式(6)得到的參數估計值(表4)。

表4 Lasso- Cox PH模型的參數估計

從表4 可見,7 個變量均通過了顯著水平為5%的顯著性檢驗(其中6 個變量通過了1%的顯著性檢驗)。信用分數、信用等級、年齡、利率、借款期限對違約的影響是負相關的,剩余期限與違約呈正相關,與預期一致。收入水平與違約狀態呈正相關,是由于樣本群的收入大部分集中于中低收入,因此違約概率被稀釋,導致高收入違約概率反而升高。

在考慮利用生存分析模型時,應首先確定該模型是否適合信用風險評估的問題。這是由于模型的應用存在某些假設前提或者某些特性,這些情況都有可能使得模型與相關數據之間不匹配,因此應首先檢驗模型對數據的適應性。許多方法都可以達到檢驗模型對數據適應性的目的,本文通過似然比檢驗,檢驗結果見表5。

表5 Lasso- Cox模型的Omnibus檢驗

表5 中,原假設為H0:βi=0,備擇假設為H1:存在βi≠0。結果顯示,模型整體的Sig. =0.000 <0.05,應拒絕原假設,接受備擇假設,即對模型總體檢驗有顯著意義。也就是說,存在至少一個偏回歸系數不為零的因素,因此可利用該模型對數據做進一步分析。

4.3 Cox 模型的參數估計

前人的研究表明,宏觀經濟情況可在一定程度上影響借款者的違約概率。而擴展的Cox 模型(Extended Cox model)是有時間依賴的模型,能很好地結合宏觀動態變量進行研究。加入宏觀變量后的評估指標共有11 個變量(表6),均通過顯著水平為1%的顯著性檢驗。信用分數、信用等級、利率、借款期限、剩余月數、收入、經濟景氣指數、國房景氣指數對違約的影響呈負相關,年齡、失業率、居民消費指數與違約呈正相關。其中,信用分數、信用等級、利率、借款期限、收入、國房景氣指數、失業率與違約率的關系是符合預期的,剩余月數與違約率在此時與違約率呈正相關,則可能與宏觀經濟因素有關,如宏觀政策的利好消息,會使得居民的實際收入上漲,進而降低違約率。居民消費指數與違約率的關系主要與通貨膨脹有關,在本文中與違約率呈現正相關則說明通貨膨脹使貨幣的購買力降低,增加借款人的還款壓力進而增加違約可能性。

表6 加入宏觀變量后Lasso- Cox 模型的回歸系數及其顯著性

Cox 模型與相關數據之間的匹配程度結果見表7。從表7 可見,模型整體的顯著性為0.000,小于1%,因此拒絕原假設,接受備擇假設,即對模型總體檢驗有顯著意義。也就是說,存在至少一個偏回歸系數不為零的因素,可以使用該模型對相關數據進行進一步分析。

表7 加入宏觀因素后Lasso- Cox模型系數的Omnibus檢驗

4.4 預測結果分析

在預測分析中,模型有可能將優質借款人誤判為劣質借款人,或者將劣質借款人誤判成優質借款者,這都會影響到優質借款者的權益或者侵害投資者的相關權益,因此第一類錯誤率和第二類錯誤率與模型的預測效果息息相關。其中,第一類型錯誤是優質借款人被模型誤判為劣質借款人,第二類型錯誤表示有違約風險的劣質借款人被識別為沒有違約風險的優質借款人。在不考慮宏觀因素影響的情況下,Logistic、Cox PH 和Lasso- Cox PH 模型各個模型的預測結果見表8。從表8 可見,與Logistic 回歸模型相比,Cox PH 模型的預測精確度總體上高達91.11%,遠遠高于Logistic 模型;而Cox PH 模型和Lasso- Cox PH 模型相比,通過Lasso 對冗余變量進行篩選,Lasso- Cox 模型精度大于將全部指標都納入模型的Cox模型,且經過Lasso處理后模型的第一類錯誤率和第二類錯誤率均大大下降。Lasso - Cox模型犯第一類錯誤的概率僅有1.41%,犯第二類錯誤的概率也由Cox PH模型的9.6%下降至7.07%,說明利用Lasso方法進行變量處理是必要的。

表8 Logistic回歸、Cox PH和Lasso- Cox PH模型在不含宏觀變量時的預測結果

Logistic 回歸、擴展的Cox 和Lasso - Cox 模型在含宏觀變量時的預測結果見表9。因為Logistic模型為靜態回歸模型,為了同步考慮宏觀變量對其評估結果的影響,根據每一筆借款數據的起始借款日期的宏觀月度數據納入模型,以一個靜態的樣本來進行實證建模的。而Cox 模型、Lasso - Cox 模型則是借助整個借款期間的宏觀月度數據來進行動態建模。從表9 可見,無論是經典的Logistic 模型,還是Cox模型、Lasso - Cox 模型,加入宏觀變量后其預測準確度都有一定程度的提升。Logistic模型和Cox模型相比,總體來說Cox模型呈現更高的準確度,因此Cox模型在判斷個人借款者是否違約具有更好的表現。而Cox 模型與Lasso - Cox 相比,可以看出經過Lasso變量選擇后的Lasso - Cox 模型的預測效果具有更好的提升。在Lasso處理變量后,模型的第一類錯誤率和第二類錯誤率均下降了,尤其是Lasso -Cox的第二類錯誤率接近于0,模型的優度得到進一步提升。

表9 Logistic回歸、Cox PH和Lasso- Cox PH在含宏觀變量時的預測結果

5 結論與討論

本文利用“人人貸”平臺借款者的借款數據和個人信息建立信用風險評估指標體系,并采用不同的模型進行模擬實驗,對Lasso- Cox 模型和Cox 模型、Cox模型和Logistic模型對“人人貸”借款者的違約概率進行了評估,預測結果表明Cox 模型的預測準確率高于Logistic模型的預測準確率。將Lasso 模型和Cox模型結合構造的Lasso- Cox 模型,通過Lasso 模型首先將評估指標進行篩選,再利用Cox 模型進行評估,得到95.76%的預測準確率,預測精度大幅度提升。將動態的宏觀變量也納入到評估指標中,結果發現在加入4 個宏觀變量后,各模型的預測效果均有了很好的提升,其中Lasso- Cox 模型的預測準確度高達98.88%。

主要結論:①動態的Cox 模型在信用風險評估中預測精度更高。在評估指標一致時,Logistic 模型的第一類錯誤率和第二類錯誤率均高于Cox 模型,而Cox模型能將不同時間點的違約狀況考慮進模型,根據不同時間點的基準生存函數得到不同時間點的生存率,因此預測精度更高。②Lasso 方法能很好地識別信用風險評估指標中的重要變量。對于P2P個人借款者來說,他們的信息是高維度的,正因為存在著數十個相關指標,因此有些變量的相關性就很高,出現過擬合現象而降低了模型的精確性。因此,經過Lasso模型對變量進行篩選后的Cox 模型預測精度遠遠高于不進行指標處理的Cox 模型。③宏觀變量是個人借款者信用風險的影響因素,有助于提升信用風險評估模型的預測精度。加入宏觀變量的模型預測結果都得到了提升,在考慮宏觀變量的條件下,Lasso - Cox 模型預測準確率高達98.88%,這無疑是一個更加有效的評估結果,也在一定程度上說明宏觀變量能夠增加信用風險評估的準確性,并進一步說明該類變量在個人信用風險評估中的影響因素。

本文對個人信用風險評估方面的貢獻表現在兩個方面:一是在建立我國個人借款者的信用風險評估指標時引入了動態的宏觀經濟指標;二是借鑒Lasso模型和Cox 模型的優點,創建了新的Lasso -Cox模型。研究結果表明,Lasso- Cox 模型大幅提高了個人借款者信用風險評估的精度。不足之處在于,由于銀行信用卡信息的保密性,本文只能選擇P2P平臺的數據來進行個人借款者違約風險的預測,數據來源受限。

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 欧美另类图片视频无弹跳第一页| 中文字幕亚洲乱码熟女1区2区| 国产三区二区| 99re热精品视频中文字幕不卡| 91青草视频| 日韩国产亚洲一区二区在线观看| 亚洲热线99精品视频| 欧美一级一级做性视频| 中文字幕在线一区二区在线| 波多野结衣在线se| 国产内射在线观看| 国产尤物视频网址导航| 免费一级毛片在线播放傲雪网 | 天堂网国产| 无码 在线 在线| 欧美a在线看| 亚洲无码电影| 亚洲青涩在线| 九九这里只有精品视频| 91福利在线看| 欧美啪啪视频免码| 再看日本中文字幕在线观看| 91精品国产自产在线观看| 国产真实乱人视频| 国模粉嫩小泬视频在线观看| 国产99热| 欧美国产视频| 秋霞国产在线| 亚洲人成在线精品| 久久精品无码中文字幕| 不卡网亚洲无码| 免费xxxxx在线观看网站| 免费毛片a| 欧美一级黄色影院| 亚洲最猛黑人xxxx黑人猛交| 91黄色在线观看| 国产a v无码专区亚洲av| 99er这里只有精品| 国产成人高清精品免费| 婷婷亚洲视频| 日韩美毛片| 人人91人人澡人人妻人人爽| 蜜桃臀无码内射一区二区三区| 午夜成人在线视频| 99成人在线观看| 国产精品香蕉在线观看不卡| www.av男人.com| 美女毛片在线| 免费国产高清视频| 波多野结衣的av一区二区三区| 青青草原国产免费av观看| 精品久久蜜桃| 热久久国产| 国产黄色爱视频| 亚洲人成色在线观看| 国产综合亚洲欧洲区精品无码| 无码精品一区二区久久久| 国产男女XX00免费观看| 国产精品亚洲专区一区| 欧美日韩在线亚洲国产人| 特级aaaaaaaaa毛片免费视频 | 亚洲成人动漫在线观看| 国产精品片在线观看手机版 | 国产69精品久久久久孕妇大杂乱 | a级毛片免费网站| 99在线观看国产| 伊人色天堂| 黄色免费在线网址| 日韩欧美在线观看| 色老头综合网| 国产av剧情无码精品色午夜| 国产精品毛片一区| 国产一级毛片网站| 91毛片网| 伊人久久福利中文字幕| 日韩精品一区二区三区大桥未久| av在线手机播放| 一级看片免费视频| 亚洲无码37.| 中文字幕永久在线看| 亚洲专区一区二区在线观看| 91破解版在线亚洲|