999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于機器學習算法的網絡小額借款項目評估與篩選

2022-05-27 13:38:48歐陽夢倩
管理現代化 2022年2期
關鍵詞:模型

□ 歐陽夢倩

(中共廣東省委黨校(廣東行政學院) 經濟學教研部, 廣東 廣州 510053)

[基金項目]2021年度全國黨校(行政學院)系統重點調研課題(2021DXXTZDDYKT065);廣州市哲學社科規劃2021年度課題(2021GZQN04)。

一、引 言

隨著我國互聯網普及率不斷提升,小額借款從線下走向線上,讓金融發展成果更多地惠及人民群眾。然而,網絡小額借款存在明顯的信息不對稱問題,其中借款項目具有較高的信用風險。在互聯網金融、傳統金融體系和實體經濟部門之間聯系日益緊密的趨勢下,網絡小額借款的信用風險可能跨市場、跨地區進行傳播,甚至引發系統性金融風險[1]。中國銀保監會同中國人民銀行等部門起草的《網絡小額貸款業務管理暫行辦法(征求意見稿)》要求,經營網絡小額貸款業務的小額貸款公司的業務系統應“具有健全的風險防控體系,包括數據驅動的風控模型、反欺詐系統、風險識別機制、風險監測手段、風險處置措施等,評定和防控客戶信用風險主要借助互聯網平臺內生數據信息”。這意味著,在利潤最大化和風險防控的雙目標下,經營網絡小額貸款業務需要準確預測借款項目的收益和風險,設法在收益較高的借款項目中發掘出風險較低的借款項目,并投資這些質量較優的借款項目。

部分文獻使用機器學習算法建立信用評分模型或利潤評分模型[2],為評估借款項目質量提供技術性支持。信用評分模型強調借款項目是否違約的二元狀態;借款項目的違約概率越低,該模型對借款項目質量的評價就越高。張衛國等[3]提出一種基于非均衡模糊近似支持向量機的信用風險評估方法,該方法對借款項目是否違約有更好的分類效果;據該方法又進一步建立了信用評分模型。利潤評分模型強調借款項目所能帶來的收益;無論借款項目是否違約,只要借款項目帶來的收益越高,該模型對借款項目的評價就越高。Serrano-Cinca和Gutiérrez-Nieto[4]使用內部收益率衡量投資借款項目的預期利潤,發現相比基于邏輯回歸的傳統信用評分模型,基于多元回歸的利潤評分模型在挑選借款項目方面有更好的表現。

然而,信用評分模型或利潤評分模型不能完全滿足經營網絡小額貸款業務的需求。Bastani等[5]將這兩個模型組合在一起,提出一種兩階段的借款項目評估方法,該方法傾向將較好的評價給予那些一定風險水平下收益較高的借款項目。Guo等[6]和Chi等[7]通過在給定預期收益條件下最小化借款項目投資組合的風險,得到最優借款項目組合,實現較好的投資業績。這些文獻的實證分析數據來源于Lending Club或Prosper平臺,在這兩個平臺上借貸交易有較為完善的社會信用體系支撐。在我國社會信用體系仍不成熟的情況下,綜合考慮風險和收益的借款項目評估方法的應用效果有待進一步探討。

在已有文獻的基礎上,本文利用“人人貸”網絡借貸平臺數據,結合借款違約率和收益率構建基于機器學習算法的借款項目評估方法。研究設計是:第一,根據借款項目信息構造特征變量,利用機器學習算法構建借款項目違約率和收益率的預測模型,包括特征變量篩選、在訓練數據上擬合模型并篩選出樣本內預測效果最優的模型、評價最優模型在測試數據上的樣本外推能力;第二,使用第一步得到的最優模型在測試數據上預測出借款項目的預期違約率和預期收益率,以閾值過濾和線性組合兩種方式綜合利用這兩個指標,篩選出質量較優的借款項目,并分析篩選效果。

本文的創新點主要體現在:

第一,本文利用機器學習算法在網絡小額借款項目信息中挖掘出能夠有效預測借款違約率和收益率的信息,用以構建網絡小額借款項目的評估方法,豐富了小額借款項目評估在我國網絡環境下的研究發現。網絡小額借款項目信息具有非結構化、真實度低、數量有限等特征;如何從中抽取出有效信息是網絡環境下評估小額借款項目需要重點解決的問題。

第二,本文在綜合考慮借款項目風險和收益的基礎上建立評估方法,并與僅考慮風險或收益的借款項目評估方法進行比較,為網絡小額貸款相關企業作為投資者挑選借款項目提供實踐指導。以往文獻多從信用評級角度出發,試圖構造更精準的借款人信用評級方法,或者建立更優的借款項目違約風險評價體系,著重衡量借款項目的信用風險,為審批借款項目提供參考依據;而較少文獻從投資者角度出發,評估借款項目可能帶來的收益,直接給出選擇借款項目的方法。

第三,本文將借款人是否填寫某項信息和借款描述內容用于預測借款違約率和收益率,從增加信息含量方面提高預測準確性。借款人是否填寫某項信息反映了借款人對自身信用情況的認知,借款描述內容則反映了借款人的教育程度、財務能力、借款意愿等多方面的綜合情況,但仍較少文獻考慮這兩項信息對借款違約率或收益率的預測作用。

二、相關文獻評述

(一)借款項目質量的衡量

部分文獻使用機器學習算法預測借款違約率,為評估借款項目質量提供準確參考。在銀行個人貸款方面,信用評價最重要的工具就是信用評級[8],即用統計方法預測一個逾期客戶逾期一個借款項目的概率。由于機器學習算法能夠較精確地刻畫變量之間的復雜關系,有學者將機器學習算法應用于個人借款項目的違約預測[9-11]。在網絡小額借款方面,借款客戶多為信用風險較高、缺乏高質量抵押品的個人或小微企業,是傳統金融業務的長尾客戶;客戶數量龐大,但單個客戶的借款金額較小。這對統計方法的大數據處理能力提出較高要求,而機器學習算法在此方面也較有優勢,故有學者亦將機器學習算法應用于網絡小額借款項目的違約預測,取得了較好的預測效果[12-14]。

相比借款違約率,以收益情況為預測目標的模型對投資者評估借款項目質量可能更具實際意義。在銀行個人貸款方面,Barrios等[15]提出使用累計收益與未償還債務之比衡量收益情況,并以此為預測目標構建模型;實證分析發現,此模型比以違約率為預測目標的模型有更高的組合回報。在網絡小額借款方面,Serrano-Cinca和Gutiérrez-Nieto[4]認為,一方面,違約借款項目對應的借款人可能在還款日期之后補交還款;另一方面,違約風險較高的借款項目往往具有較高的借款利率,為投資者帶來更高的投資收益。據此他們提出以收益率為預測目標構建借款項目的評分方法,結果發現與以違約率為預測目標的評分方法相比,該方法篩選出的借款項目的收益更高。

有文獻發現,綜合考慮違約情況和收益情況可篩選出質量更高的借款項目。在銀行個人貸款方面,Stewart[16]將與銀行利潤相關的商業消費預測和FICO信用分數結合在一起,構建批準信用卡的決策模型,發現在相同壞賬率下,該決策模型可通過提高收益要求來實現更高的收益。在網絡小額借款方面,Guo等[6]和Chi等[7]首先預測借款項目的違約率和收益率,用以刻畫借款項目的風險和收益,然后在給定預期收益的條件下最小化借款項目投資組合的風險,得到最優的借款項目組合,實現較好的投資業績。Bastani等[5]基于Serrano-Cinca和Gutiérrez-Nieto[4]的結果提出一種兩階段評價模型,第一階段以違約率為預測目標構建模型,篩選出違約可能性較低的借款項目,第二階段以收益率為預測目標構建模型,在第一階段篩選出的借款項目中挑選出最終的借款項目。結果發現,此兩階段評價模型挑選出的借款項目信用等級較低,收益率較高,適合那些風險偏好較高的投資者。相比之下,以Serrano-Cinca和Gutiérrez-Nieto[4]的評分方法挑選出的借款項目呈現信用等級多樣化和收益率差異較大的特征,適合那些偏好借款項目類型多元化的投資者,而以違約率為預測目標的模型傾向挑出信用等級較高而收益率較差的借款項目。本文認為,Bastani等[5]與Serrano-Cinca和Gutiérrez-Nieto[4]的挑選結果存在差異的原因是,Bastani等[5]在模型中增加考慮了借款項目違約率,使模型更擅長于在投資回報高的借款項目中挖掘出實際違約風險低的借款項目。

(二)網絡借款項目質量的影響因素

學者們對借款項目違約率的影響因素進行了豐富的探討。研究發現,借款項目信息(如借款利率等)[17]、借款人基本信息(如年齡、學歷等)[18-19]、借款人工作情況(如工作行業、工作經驗等)[18,20]、借款人經濟情況(如月收入、房產情況等)[21]、借款人歷史借貸行為(如歷史成功借款次數等)[22-23]、借款人信用情況(信用等級)[24]和借款描述[20,25]等對借款項目違約率有顯著影響。

借款項目收益率與違約率應存在部分相同的影響因素。因為借款項目的借款利率在借貸關系成立時就已確定,且在還款期內保持不變,所以借款項目收益率主要取決于它是否發生違約以及違約的嚴重程度。這意味著,影響借款項目違約率的因素也會影響其收益率。Serrano-Cinca和Gutiérrez-Nieto[4]與Bastani等[5]發現,用于預測借款項目違約率的信用等級、借款利率、借款金額、年收入、房產情況、工作時長等信息也可有效預測借款項目的收益率。

三、數據與變量

本文借助“人人貸”網絡借貸平臺數據,構建網絡小額借款項目的評估和篩選方法。人人貸平臺成立于2010年,具有較高的市場占有率,所服務的借款客戶群體涵蓋范圍廣;基于該平臺數據的研究結論具有一定的代表性和廣泛性。

(一)數據處理

本文選取人人貸平臺2010年10月至2017年7月期間的借款項目作為研究對象,并對借款項目數據進行處理:第一,刪除信息存在亂碼的借款項目;第二,刪去狀態為不可投、申請中、已流標、還款中的借款項目,這些借款項目的違約情況和收益情況不可知;第三,排除還款方式為先息后本的借款項目,選擇此還款方式的借款項目極少;第四,刪去機構擔保標、實地認證標和智能理財標,這三種借款項目或有第三方機構背書或有抵押擔保物,違約風險遠小于信用認證標,本文與廖理等[26]一樣僅對信用認證標作分析。

在最終的有效樣本中共有27 865個借款項目;其中51個借款項目已逾期,4 036個借款項目已由人人貸平臺墊付償還,23 778個借款項目已還清。

(二)預測變量:違約率和收益率

違約率變量由借款項目是否違約二值變量delay刻畫,如借款項目違約,delay取值為1;否則為0。當借款人超過規定還款時間30天未還款,人人貸平臺會將借款人的借款項目標記為“已逾期”;而當借款人超出規定還款時間90天仍未還款,人人貸平臺則會將其借款項目標記為“已墊付”;當完成所有月份的還款后,則被標記為“已還清”。參考廖理等[27]和丁杰等[28],本文將“已墊付”和“已逾期”兩種狀態都視為違約,將“已還清”視為正常還款。在最終樣本27 865個借款項目中,違約借款項目所占比例為14.67%,遠小于正常還款借款項目的比例85.33%,體現出這兩種類別樣本的不平衡性;故在構建違約率預測模型時,有必要對樣本不平衡問題進行處理。

收益率變量的構造則是參考廖理等[29]關于內部收益率的計算方法,根據借款項目的借款金額和每期實際還款金額,由式(1)求解得到:

(1)

其中,totali表示借款項目i的借款金額,Ti表示借款項目i的還款期長,repaymentit表示借款項目i在還款期內第t期的實際還款金額,irri表示借款項目i的內部收益率。

(三)特征變量

本文根據借款項目投標網頁界面上的信息,構造特征變量。特征變量可分為七類:第一類是借款項目信息,包括借款金額、借款利率、還款期長;第二類是借款人基本信息,包含年齡、性別、教育程度和婚姻狀況;第三類是借款人工作信息,包括所屬行業、公司規模、公司所在地和工作經驗;第四類是借款人財產信息,包括工資水平、房產情況、房貸情況、車產情況和車貸情況;第五類是借款人歷史借款信息,包括逾期金額、逾期次數、成功借款筆數、申請借款筆數;第六類是借款人信用信息,包括信用等級;第七類是借款描述信息,包括文本長度、文本可理解性、文本復雜度和文本主題。

值得注意的是,本文還根據借款人是否填寫了某項信息生成相應的二值變量,也作為借款項目的特征變量。人人貸平臺允許借款人選擇性填寫部分信息,如婚姻狀況、公司規模等。從借款人的角度看,如果他認為披露這些信息會對成功借款造成負面影響,那么他很可能選擇不填寫這些信息;這意味著,選擇不填寫某項信息在一定程度上說明借款人的違約風險較高,故借款人是否填寫某項信息對借款項目違約率和收益率應有預測作用。

表1 由LDA主題模型得到的6個主題的代表性詞匯

本文對連續型變量,使用平均值填補空缺值;對類別型變量,使用眾數填充空缺值。為避免特征變量量綱不同對模型預測的影響,本文還對連續型變量做標準化處理。

四、違約率和收益率預測模型的構建與分析

本部分將第三部分所得數據劃分為訓練數據和測試數據,在訓練數據上構建違約率和收益率預測模型,再將這兩個模型應用于測試數據上,得到相應借款項目的違約率和收益率預測值,供第五部分評估和篩選借款項目使用。接下來,首先,闡述違約率和收益率預測模型的構建流程;然后,介紹在流程中衡量預測模型樣本內外預測能力的指標;最后,按照流程順序,分析預測模型在數據上的構建結果。

(一)預測模型的構建流程

借款違約率和收益率預測模型的構建流程相似,均可分為以下三步。

第一步,篩選出重要的特征變量。如預測目標為借款違約率,則先用Smote+Tomek處理訓練數據的樣本不平衡問題;如預測目標為借款收益率時,則無需做此處理。然后,在訓練數據上使用基于隨機森林的遞歸特征消除(recursive feature elimination,簡稱RFE)方法篩選出重要性排在前20%的特征變量集F。具體過程是:利用隨機森林估計全部特征變量的重要性,剔除其中重要性最低的一個特征變量,接著再次利用隨機森林重新估計余下特征變量的重要性,同樣剔除其中重要性最低的一個特征變量,如此重復下去直至達到期望的特征變量數量,得到最終的特征變量集F。

第二步,挑選出最優的機器學習算法來訓練模型。在訓練數據上,以第一步得到的F為特征變量,利用邏輯回歸(logit)/線性回歸(ols)、支持向量機(svm)、隨機森林(rf)、梯度提升樹(gdbt)和神經網絡(nn)算法構建預測模型。在訓練數據上,使用K折交叉驗證法評估各個算法構建的模型的樣本內預測效果(K=5);其中,如預測目標為借款違約率,則須在K-1個子集的并集上先使用Smote+Tomek處理樣本不平衡問題,再訓練模型。比較篩選出樣本內預測效果最優的算法;用此算法在整個訓練數據上訓練得到最優預測模型。

第三步,評價模型在樣本外的預測能力。利用第二步得到的最優預測模型在測試數據上做預測,評估最優預測模型的樣本外推能力。

本文所使用的算法均由Anaconda3軟件和scikit-learn庫實現;除將邏輯回歸設置為不帶懲罰選項,且以牛頓法為優化算法,其余算法均使用scikit-learn庫的默認參數設置。另外,借款違約率模型預測出的結果是取值范圍為[0,1]的概率值,表示該借款項目違約的概率;本文將此概率值大于0.5的借款項目判為違約,而小于0.5的借款項目判為正常還款,作為最終違約預測結果。

(二)預測模型的衡量指標

對于違約率預測模型,本文選取正確率ACC、查準率Precision、查全率Recall、F1Score和AUC五個指標,在不同的經濟意義上考察模型的預測效果。根據借款項目的真實違約情況和違約率預測模型的預測結果,可將借款項目劃分為四類,如表2所示。

表2 混淆矩陣

正確率ACC是衡量模型預測效果最基礎的指標,是指預測類型與真實類型相同的借款項目在全部借款項目中所占的比例,如式(2)所示,反映了模型預測結果的正確程度。

(2)

當違約借款項目數量遠遠小于正常還款的借款項目數量時,正確率更多地反映了模型將真實正常還款的借款項目預測為正常還款的能力。

實際上,我們更關心模型對違約借款項目的甄別效果,主要分為兩方面:一方面是模型預測違約借款項目的精確程度,可由查準率Precision衡量;查準率是在被預測為違約的借款項目中真實類型也為違約的借款項目所占的比例,如式(3)所示。

(3)

如果模型查準率較低,則會錯誤地將部分正常還款的借款項目預測為違約,那么投資者將因為放棄投資這些借款項目而失去賺取利息的機會。另一方面是模型將全部違約借款項目甄別出來的能力,可由查全率Recall衡量;查全率是在真實類型為違約的借款項目中被預測為違約的借款項目所占的比例,如式(4)。

(4)

若模型查全率較低,則會錯誤地將部分違約借款項目預測為正常還款,那么投資者將因投資這些借款項目而損失本金以及投資其他借款項目的機會成本。

為綜合考慮查準率和查全率,本文選取F1Score衡量模型對違約借款項目的甄別效果,計算方法見式(5)。

(5)

此外,本文還使用了機器學習中常用的模型性能衡量指標AUC值。AUC值(Area Under Curve)是ROC曲線下與坐標軸圍成的面積,較全面地反映了模型的預測效果,且不受樣本類別不平衡問題的影響。

(6)

(7)

(8)

(9)

MAE是預測值與真實值之間的平均距離,MSE是預測值與真實值之間的平方距離的均值,比MAE更能凸顯誤差;無論MAE還是MSE,取值越小說明模型預測效果越好。EVS和R2都表示特征變量對收益率方差變化的解釋程度,取值越大說明解釋程度越高,模型預測效果越好。

(三)預測模型的構建結果分析

表3展示由遞歸特征消除法篩選出的預測借款違約率和收益率的重要特征。借款金額、借款利率、還款期長、年齡、教育程度、歷史逾期金額、歷史成功借款次數、歷史申請借款次數、信用等級、借款描述長度和內容等特征對預測借款違約率和收益率都有重要作用。教育程度表征了借款人守信的行為特征[26],歷史成功借款次數和歷史申請借款次數反映了借款人在網絡借貸平臺上的聲譽[23],借款描述長度體現了借款人的努力程度和愿意披露的信息量[30],而借款描述內容反映了借款人的品質、能力和生活狀況[31],這些因素刻畫了借款人的行為品格和還款能力,應能較好地預測借款項目的違約率和收益率。

公司規模、工作地點所屬省份、工作經驗、收入水平等工作信息未被選為預測違約率或收益率的重要特征,說明由這些特征分類的借款項目在違約率和收益率上差異較小。這可能是因為人人貸平臺給借款人評定的信用等級已著重綜合考慮了借款人的工作情況,使信用等級相比工作信息更能解釋違約率和收益率的變化。此外,借款人是否填寫某項信息也未被選為任一預測指標的重要特征,意味著借款人對是否填寫信息的選擇更多地出自于保護個人隱私的考慮。

從整體看,預測違約率和收益率的重要特征均涵蓋借款項目特征、人口統計特征、歷史借款記錄特征、信用情況和借款描述等信息,而差異主要體現在房貸、車產等資產負債信息上。這側面反映了,相比違約的嚴重程度,資產負債信息對預測借款人是否違約更具價值。

表3 各預測模型的特征篩選結果

圖1給出基于各機器學習算法的違約率模型在訓練數據上的正確率ACC、查準率Precision、查全率Recall、F1Score、AUC值。從算法看,與邏輯回歸和線性支持向量機相比,隨機森林、梯度提升樹和神經網絡在各指標上都表現更好,說明違約率與借款項目特征之間不是簡單的線性關系,借助隨機森林、梯度提升樹和神經網絡等非線性算法構建違約率模型更合適。

從衡量指標看,在正確率上,隨機森林、梯度提升樹和神經網絡都超過了95%,這可能僅是因為它們將正常還款借款項目預測為正常還款的能力較強。但是在實際的違約預測問題中,我們往往更關心模型對違約借款項目的預測結果,因此這里要著重考察預測模型的查準率和查全率。在查準率上,隨機森林、神經網絡和梯度提升樹依次降低;在查全率上,梯度提升樹、隨機森林、神經網絡依次降低。本文認為,相比因錯失投資正常還款借款項目損失的機會成本,投資者應更想避免投資到違約借款項目所帶來的損失,即投資者期望預測模型的查全率越高越好。故這里選擇梯度提升樹構建違約率預測模型是最優的。再者,相比隨機森林和神經網絡,梯度提升樹的F1Score和AUC值更高,進一步說明了在5種機器學習算法中,梯度提升樹是構造違約率預測模型最優的機器學習算法。

注:作者基于人人貸平臺爬蟲數據計算得到。圖1 違約率預測模型在訓練數據上的表現

表4給出基于各機器學習算法的收益率模型在訓練數據上的平均絕對誤差MAE、均方誤差MSE、解釋方差得分EVS和可決系數R2。從數值誤差的角度看,由表4的(Ⅰ)和(Ⅱ)可知,線性回歸、神經網絡、線性支持向量機、梯度提升樹、隨機森林的MAE依次降低;線性支持向量機、線性回歸、神經網絡、梯度提升樹、隨機森林的MSE依次降低。從方差解釋的角度看,由表4的(Ⅲ)和(Ⅳ)可知,隨機森林、梯度提升樹、神經網絡、線性回歸方程、線性支持向量機的EVS和R2均是依次降低的。可見,無論使用何種性能度量指標,線性回歸的表現都欠佳,說明收益率和借款項目特征之間的關系也很可能是非線性的。由于隨機森林構建的模型在數值誤差和方差解釋上都具有較好的表現,本文選擇隨機森林構建收益率預測模型。

表4 收益率預測模型在訓練數據上的表現

在分別選定構造兩個預測模型的最優機器學習算法后,在全部的訓練數據上,使用梯度提升樹構建違約率預測模型,使用隨機森林構建收益率預測模型,然后用訓練好的兩個模型在測試數據上進行預測。表5展示違約率和收益率預測模型在測試數據上的表現。

由表5,違約率預測模型在測試數據上的正確率ACC略小于訓練數據上的0.974 7,查準率Precision、查全率Recall、F1Score 和AUC值分別大于其在訓練數據上對應的指標(0.893 2、0.940 3、0.916 1、0.995 9)。這說明違約率預測模型具有較強的泛化能力。收益率預測模型在測試數據上的平均絕對誤差MAE、均方誤差MSE分別小于其在訓練數據上的對應指標(0.138 6、0.247 0),而在測試數據上的解釋回歸模型的方差得分EVS和可決系數R2分別高于其在訓練數據上的對應指標(0.753 5、0.753 4),說明該模型在測試數據上準確預測收益率的能力相對較弱,但能較好地解釋在測試數據上特征變量與收益率之間的復雜關系。

表5 各預測模型在測試數據上的表現

五、借款項目的評估與篩選

前一部分已得到違約率和收益率預測模型在測試數據上的預測值,本部分參考Serrano-Cinca和Gutiérrez-Nieto[4]與Stewart[16]的研究思路,討論如何根據這兩個預測值篩選出質量較優的借款項目,為網絡小額貸款相關企業作為投資者選擇借款項目提供實踐指導。這里將1減去違約率模型預測的概率值作為借款項目的預期還款率,將收益率模型的預測結果作為借款項目的預期收益率;使用預期還款率而不是預期違約率是為了與預期收益率保持相同的影響投資者投資意愿的方向。接下來,結合預期還款率和預期收益率構建兩種借款項目篩選方法:門檻篩選法和權重篩選法,先確定這兩種篩選方法的最優參數,再應用到測試數據上篩選出指定數量的借款項目,統計這些借款項目的實際違約比率和實際收益率均值,據此比較這兩種方法的篩選效果。

(一)門檻篩選方法

門檻篩選方法是先對預期還款率設置過濾閾值,再根據預期收益率排序篩選出借款項目。具體地,對預期還款率設定一個閾值α(α∈{0,0.01,0.02,…,0.99}),保留預期還款率大于α的借款項目,再在這些借款項目中篩選出預期收益率最高的k個借款項目(k=5,10,15,20)。

表6 所選借款項目實際收益率均值隨篩選方法系數的變化情況

從篩選結果的實際違約比率看,無論閾值α和項目數k分別取何值,被篩選出的借款項目的實際違約比率均為,即這些借款項目實際都是正常還款的,說明預期收益率可在一定程度上替代預期還款率去辨別借款項目是否違約。從篩選結果的實際收益率均值看,表6(Ⅰ)展示在不同k值下,門檻篩選法所選借款項目集合的實際收益率均值隨閾值α的變化情況。可知,當k=5時,隨著閾值α增加,收益率均值一直保持在0.020 0的水平不變;預期收益率較高的借款項目,其預期還款率一般也較高,此時無論預期還款率的過濾閾值取何值,預期收益率最高的5個借款項目是固定的。當k=10,15,20時,收益率均值隨閾值α的變化趨勢相同,隨閾值α增加,實際收益率均值先保持不變而后突然增加,并在α=0.99處取得最大值。這說明,當項目數k較大時,對預期還款率設置較高的閾值有助于剔除部分風險較高的借款項目,從而實現較好的收益表現。根據實際收益率隨閾值α的變化趨勢,可確定門檻篩選法在k=5,10,15,20下的最優閾值均為0.99。

(二)權重篩選方法

權重篩選法是將預期違約率和預期收益率做線性組合,再按照該線性組合值排序篩選借款項目。具體地,按照權重β和1-β(β∈{0,0.01,0.02,…,0.99,1})對預期借款違約率和調整的預期收益率(對預期收益率做歸一化處理)進行加權平均;然后,根據加權平均值對借款項目進行排序,并篩選出排名前k的借款項目(k=5,10,15,20)。

從篩選結果的實際違約比率看,無論權重β和項目數k分別取何值,所篩選出的借款項目均是正常還款的,與門檻篩選法的結果相同。從篩選結果的實際收益率均值看,表6(Ⅱ)展示在不同k值下,權重篩選法所選借款項目集合的實際收益率均值隨權重β的變化趨勢。在不同的項目數k下,實際收益率均值都呈現相似的變化趨勢,先保持在一定水平周圍小幅度地變化,后約至β=0.9處轉而迅速下跌。當k=5時,實際收益率均值隨著權重β的增加,先保持在0.020 0不變而后迅速下降;當k=10,15時,隨權重β增加,實際收益率均值先在波動中緩慢增加,之后快速下跌;當k=20時,實際收益率均值的變化趨勢又有所不同,先快速達到最高點而后在波動中下跌,約至β=0.9處開始迅速下跌。這說明,在權重篩選方法下,適當放松對借款項目預期還款率的要求可能有助于在更大的風險下獲得更高的收益。根據實際收益率隨權重β的變化情況,確定權重篩選法在k=5,10,15,20下的最優權重β分別為0.00、0.59、0.60、0.13。

(三)不同篩選方法的比較

前面分別討論了門檻篩選方法和權重篩選方法的篩選結果,本節將比較分析這兩種篩選方法在各自最優參數(閾值或權重)下得到的各個借款項目,并與僅使用預期還款率和預期收益率進行篩選的方法進行對比。表7展示在不同項目數k下不同篩選法所選借款項目的實際收益率;其中(Ⅰ)是實際收益率最高的20個借款項目的排序,(Ⅱ)~(Ⅴ)分別是在項目數k=5,10,15,20時,具有最優閾值的門檻篩選法和具有最優權重的權重篩選法所得借款項目的實際收益率及其均值,(Ⅵ)和(Ⅶ)分別是預期還款率和預期收益率排名前20的借款項目實際收益率情況,以及排名前5、10、15、20的借款項目的實際收益率均值。

由表7(Ⅰ),實際收益率排名前5的借款項目的實際收益率依次為0.086 3、0.071 0、0.063 3、0.051 9、0.051 2。從表7的(Ⅱ)~(Ⅴ)可知,在k=5時,門檻篩選法和權重篩選法均挑選出實際收益率排名第5的借款項目(實際收益率為0.051 2)并將之排在第1位,且所選借款項目的實際收益率均值相同;此時權重篩選法與門檻篩選法的篩選效果一樣好。當k=10時,門檻篩選法和權重篩選法也都挑選出實際收益率排名第5的借款項目,且前者給予該借款項目的排序高于后者,但是門檻篩選法所選借款項目的實際收益率均值稍低于權重篩選法。綜合來看,門檻篩選法與權重篩選法的篩選效果差異不大。當k=15時,門檻篩選法挑選出了實際收益率排名5、6、14的借款項目,而權重篩選法挑選出排名2、5、14的借款項目,且與k=10時一樣,門檻篩選法所選借款項目的實際收益率均值依舊低于權重篩選法;無論從借款項目的排序看,還是從實際收益率總體情況看,門檻篩選法劣于權重篩選法。當k=20時,門檻篩選法與k=15時相同,僅能篩選出實際收益率排名5、6、14的借款項目,而權重篩選法可篩選出實際排名2、5、6、14的借款項目,再考慮到門檻篩選法所選借款項目的實際收益率均值依舊低于權重篩選法,故在此情形下權重篩選法的篩選效果是更優的。

表7 不同篩選法下借款項目的實際收益率

對比表7(Ⅱ)~(Ⅶ)可得,當k=5時,門檻篩選法、權重篩選法和僅使用預期收益率的篩選法都能挑選出實際收益率排名第5的借款項目,而僅使用預期還款率排序的篩選方法未挑選出任一實際收益率排名前5的借款項目。門檻篩選法和權重篩選法的實際收益率均值都為0.020 0,大于僅使用預期還款率篩選的實際收益率均值0.011 3,同時等于僅使用預期收益率時的實際收益率均值0.020 0。當k=10,15,20時,門檻篩選法所挑選的借款項目與僅使用預期收益率的篩選方法相似,而僅使用預期還款率排序的篩選方法依舊未挑選出實際收益率排名前k的借款項目。無論門檻篩選法還是權重篩選法,挑選出的借款項目的實際收益率均值都高于僅使用預期收益率篩選的實際收益率均值,而僅使用預期收益率的實際收益率均值又高于僅使用預期違約率的情形。

從上述k=5,10,15,20的篩選情況看,各篩選方法效果的排序是:權重篩選法>門檻篩選法>僅使用預期收益率篩選>僅使用預期還款率篩選。

六、結論與建議

本文利用“人人貸”網絡借貸平臺數據,借助機器學習算法構建網絡小額借款項目的評估篩選方法,為網絡小額貸款相關企業選擇投資借款項目提供技術性方法。

首先,在訓練數據上挑選出重要的借款項目特征作為特征變量,利用機器學習算法構建借款項目違約率和收益率預測模型;然后,在測試數據上評價這兩個預測模型的樣本外推能力。

結果發現,借款項目的基本信息和借款人人口統計特征、歷史行為記錄、信用等級、借款描述對預測借款違約率和收益率均有重要作用;構建違約率和收益率預測模型最適合的機器學習算法分別是梯度提升樹和隨機森林,基于梯度提升樹的違約率預測模型的樣本外推能力高于基于隨機森林的收益率預測模型。

最后,我們綜合使用違約率和收益率預測模型的預測值構造門檻篩選方法和權重篩選方法,并將這些方法與單獨使用其中一個預測值的篩選方法進行比較。

結果顯示,從篩選借款項目數量為5、10、15、20的情形看,權重篩選法對借款項目的篩選效果優于門檻篩選法,而門檻篩選法又優于僅使用預期還款率或預期收益率排序的篩選方法。

在微觀層面,本研究為網絡小額貸款相關企業評估篩選借款項目提供一定的技術參考。第一,在評估借款項目質量時應著重考察借款項目的基本信息和借款人的歷史借貸行為記錄、年齡、教育程度、借款描述,這些信息對借款項目違約率和收益率有較強的預測作用;此外,在評估借款項目未來違約率時還可考察借款人的房貸和車產情況。第二,相比僅考慮預期違約率或預期收益率的借款項目篩選方法,結合兩者的篩選方法能夠在收益情況較高的借款項目中挖掘出違約風險較低的借款項目。故在篩選投資借款項目時,應綜合考慮借款項目的預期違約率和預期收益率,更全面地評價借款項目質量。

在宏觀層面,本研究為相關部門制定防范化解互聯網金融風險具體措施提供一定的理論支持。在社會信用體系仍不完善的情況下,網絡小額貸款業務難以借助互聯網的“小額分散”特征實現分散借款項目信用風險的目的[34],這導致互聯網金融行業在發展中不斷累積信用風險。借款項目信息的強制披露在一定程度上能夠緩解缺乏權威信用信息參考的弊端。相關部門可將借款人年齡、教育程度界定為強制披露信息,將婚姻狀況等其他信息界定為自愿披露信息,進一步完善網絡小額借款項目的信息披露規則;這有助于網絡小額貸款相關企業及早排除風險收益不匹配的借款項目,將互聯網金融風險控制在合理范圍內,防范化解系統性金融風險。□

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 97超爽成人免费视频在线播放| 青草视频久久| 欧美精品亚洲精品日韩专| 婷婷五月在线| 九色在线观看视频| 福利在线一区| 欧美日韩动态图| 欧美专区在线观看| 91成人在线观看视频| 老司国产精品视频91| 一本大道无码高清| 久久6免费视频| 国产成人区在线观看视频| 国产成人精品免费av| 97se综合| 88av在线看| 日韩精品高清自在线| 久久精品欧美一区二区| 国产麻豆精品久久一二三| 伊人久热这里只有精品视频99| 国产在线观看一区二区三区| 国产午夜福利亚洲第一| 国产在线观看一区二区三区| 刘亦菲一区二区在线观看| 国产综合日韩另类一区二区| 国产性爱网站| 国产一在线| 国产特级毛片| 国产h视频在线观看视频| 亚洲AV无码乱码在线观看裸奔| 播五月综合| 久久美女精品国产精品亚洲| 91人妻在线视频| 国产精品熟女亚洲AV麻豆| 中文字幕免费播放| 国内精品伊人久久久久7777人| 欧美亚洲国产精品第一页| 久久a级片| 亚洲视频在线青青| 日韩一区二区在线电影| 手机永久AV在线播放| 国产丝袜91| 亚洲一级毛片免费观看| 好紧好深好大乳无码中文字幕| 国产精品永久在线| 亚洲一级色| 亚洲欧洲日韩综合色天使| 凹凸精品免费精品视频| 日本午夜精品一本在线观看 | 国产第八页| 国产日韩精品欧美一区灰| 台湾AV国片精品女同性| 亚洲精品制服丝袜二区| 国产微拍一区二区三区四区| 人妻丝袜无码视频| 免费99精品国产自在现线| 亚洲成人网在线观看| 精品少妇三级亚洲| 久久久久亚洲av成人网人人软件| 2021国产v亚洲v天堂无码| 亚洲日韩精品无码专区97| 日韩亚洲综合在线| 中文字幕首页系列人妻| 国产成人精品一区二区不卡| 麻豆国产在线观看一区二区| 毛片一级在线| 免费一极毛片| 视频二区中文无码| 成人亚洲视频| 欧美在线视频不卡| 久久无码av一区二区三区| 亚洲经典在线中文字幕| 亚洲日韩精品综合在线一区二区| 9cao视频精品| 亚洲人成亚洲精品| 亚洲日韩精品综合在线一区二区| 国产精品视频观看裸模 | 欧美精品一区二区三区中文字幕| 国产精品思思热在线| 国产视频a| 亚洲大尺度在线| 久久亚洲日本不卡一区二区|