李杰+方衛東
【摘要】隨著大數據概念的提出,企業和個人越來越重視數據中隱藏的潛在價值。為準確評價P2P網絡貸款平臺借款人的信譽度,本文利用因子分析方法從22個自變量中濃縮出8個“共同因子”,建立信用評價指標體系,并利用Logistic模型對借款人行為進行預測。這種個人信用評價指標體系的篩選保留了大量的信息量,并利用Logistic模型給出了用戶違約概率。
【關鍵詞】P2P網貸 因子分析 評估指標體系 Logistic分析
一、引言
從硅谷到北京,大數據的話題正在被傳播。如今,一個大規模生產、分享和應用數據的時代正在開啟[1]。眾多企業正面臨著海量的管理數據,越來越關注如何從海量的數據中挖掘提煉出對企業有效的決策支持信息,提高企業的生存能力和企業的發展速度。某種程度上,數據就是企業最珍貴的財富。而數據財富的轉化需要一種能夠將大量數據智能化地轉化為有價值的信息的技術,以達到為人們提供決策服務的目的。隨著計算機技術和統計分析方法的發展,量化分析已經成為各個學科領域中廣泛應用的技術方法。根據國際權威高德納咨詢公司的調查分析報告顯示,數據挖掘技術將是今后幾年全世界范圍內重點加大投資研究的十大新興高科技技術之一,它已經引起了學術界和工商界的重點關注,是當今數據庫系統開發、研究和應用領域的一個熱點技術[2]。
自2007年國外網絡貸款平臺模式引入中國以來,國內P2P網絡借貸平臺如雨后春筍般蓬勃發展。這一模式為很多無法從銀行或其他信貸機構獲取貸款的支持的個人消費者、微企業主提供了一種新的融資渠道。然而,P2P網貸面臨諸多風險:個人信用風險,平臺賬戶資金使用不當引發經營風險,法律風險等。目前我國的公民信用體系還不健全,平臺與平臺之間又缺乏聯系和溝通,各個平臺頻頻出現壞賬,借款人不能及時還款,造成了借款人集中違約,借款人信用風險無疑是平臺面臨的最大風險。如何有效地識別借款者并預測其未來的貸款償還表現,控制其信用風險,已成為當前亟待解決的問題。
個人信用評估,是指通過使用科學嚴謹的分析方法,綜合考察影響個人及其家庭的內在和外在的主客觀環境,并對其履行各種經濟承諾的能力進行全面的判斷和評估。本文基于某P2P網絡借貸平臺的個人標的數據,綜合運用因子分析法和Logistic回歸分析法構建P2P網貸平臺個人信用評估模型。從模型的預測結果看,基于Logistic回歸分析的個人信用評估模型有較高的精度,并能預判標的數據違約概率,可控制性強。
二、文獻回顧
自2005年P2P網絡貸款平臺首次在英國出現以來,國外理論界也一直致力于對這種新型互聯網金融借貸模式的探討與研究。國外目前對P2P網貸的研究比較成熟,研究成果非常豐富。Lauri Puro[3]等(2010)通過研究P2P借貸平臺Prosper.com,提出借款人決策建議模型,幫助借款人量化其戰略選擇。Robert&Benjamin(2010)通過研究發現,出借人可以通過網絡平臺獲取借款人的個人信譽,設法從中選取出信譽好的借款人進行投資。這種方式可以有效緩解道德風險,雖然要付出的成本較高,但相比傳統模式還是比較合適的。Durand[4](1941)首先將判別分析法用于信用評分,正式提出使用數理統計模型輔助消費者授信決策的觀念。William Fair & Earl Isaacs(1958)利用判別分析法建立了著名的FICO信用評分系統。Wiginton[5](1980)在信用評分模型中首次嘗試使用Logistic回歸方法,并與判別分析法進行比較。由于Logistic方法前提假設條件少,并且對變量沒有正態性假設的要求,應用廣泛,常用來做信用評分模型,延續至今。
我國社會信用體系建設經歷了三個階段:起步階段、初步發展階段、加速發展階段現在已經進入全面推進社會信用體系建設的加速發展階段。但與美國相比我國的信用體系尚不完善,P2P網絡貸款的研究起步也較晚。對P2P網貸的研究一開始停留在對網貸的介紹,營運模式比較等方面。辛憲[6](2009)通過對國外典型P2P網貸平臺的運營模式進行研究,將P2P企業運營模式歸納為:非盈利公益型(Kiva)、單純中介型(Prosper)和復合中介型(Zopa、Lending Club)三類。陳初[7](2010)也對網貸運營模式進行了研究,將運營模式歸納為:綜合授信(以企業網上行為參數為基礎),“P2P”網絡融資模式,網貸企業做銀行金融業務的外包服務商,為學生提供貸款。隨著信息技術的發展,近年來許多數據挖掘的新方法如神經網絡、決策樹、遺傳算法、專家系統等陸續也被引入信用評分領域中。
三、個人信用風險評估模型兩步走
隨著科學技術的發展,大數據時代的到來,數據的收集變得越來越容易,收集信息越來越詳細,維度也越來越高。盡管大數據給我們提供了更詳細的信息,但是維度越高,數據量越大研究所面臨的困難也越大。找一種合適的統計方法,在海量數據中篩選出有用的信息,降低數據維度,簡化模型,減少時間成本,成為人們關注的焦點。基于此,本文提出個人信用評估模型兩步走的基本思路,模型建立前最重要的一步是變量降維。第一步:先對樣本數據做因子分析。因子分析是一種多變量化簡技術。目的是分解原始變量,從中歸納出潛在的“類別”,相關性較強的指標歸為一類,不同類變量的相關性較低。每一類變量代表了一個“共同因子”,即一種內在結構,因子分析就是要尋找該結構。至于如何利用因子分析法降維,下文會詳細介紹。第二步:利用機器學習領域的Logistic回歸分析將第一步降維后的“共同因子”進行回歸分析,建立預測“好”、“壞”借款人的模型[8]。不直接使用Logistic回歸分析的原因是:一是樣本數據變量較多,數據量大;二是變量之間可能會存在多重共線性。通過第一步的因子分析降維,提高運行效率和模型結果的擬合準確度。
四、實證研究
(一)數據與變量情況
本文數據來源于數多多(DataDuoDuo.com)數據交易平臺,購買的數據包包含翼龍貸網站記錄的自2013年3月到2015年1月的借款人交易數據,共包含47718個觀測,該樣本數據存在嚴重的錯登漏登問題,對樣本數據初步處理,剩余有效觀測個案為25589個,其中11286個為“好”客戶,14303個為“壞客戶”。樣本數據中包含的特征變量44個,可用于建模的變量23個,對變量做以下編碼[9],如表1。
(二)變量降維
本文在翼龍貸樣本數據上使用spss22.0來進行數值實驗。因變量為是否違約,因子分析選入22個自變量,表2記錄了因子分析的KMO和巴特利特檢驗。
從KMO和巴特利特檢驗結果來看,樣本數據中變量之間存在較強的多重共線性,所以樣本數據適合做因子分析降維。因子分析根據計算出來的特征根,選取特征根大于1的9個“共同因子”,分別為:Z1(社會特征),Z2(借還次數),Z3(借還期限),Z4(生活特征),Z5(保險),Z6(收入狀況),Z7(信用記錄),Z8(借款類型),Z9(性別)。spss軟件也給出了樣本數據的各個“共同因子”得分,保存為9個有預測能力的自變量。
(三)Logistic模型估計
二元Logistic回歸是對多元線性回歸方法的一種改進,其形式為[12]:
其中,P(y=1|X)為客戶違約的概率。利用spss22.0軟件做Logistic分析,輸入9個“共同因子”,表3記錄了Logistic分析參數估計結果。
分析輸出結果,有8個自變量的顯著性都小于0.05,通過了顯著性檢驗,FAC9_2因子即Z9(性別)共同因子對模型結果無顯著影響,可以將其剔除,得Logistic回歸方程為:
五、結語
隨著科技的發展,大數據時代的到來,個人信息收集會越來越容易,P2P網貸平臺在進行個人評分模型的構建時,選擇指標的難度卻越來越大,收集的無關指標和冗余指標還會降低模型的預測效果,實際情況和客觀需要都對個人信用風險評分領域的指標處理方法提出了更高的要求。本文利用翼龍貸網站的樣本數據,對個人信用評分中的數據降維方法和模型建立方法做了研究。首先將多個變量濃縮為幾個具有代表性變量,完成對變量的初步篩選。基于此,本文結合傳統的機器學習方法Logistic分析,進行指標的建模。其優點是:可解釋性強、分類精度高,簡單易操作。
參考文獻
[1]Viktor Mayer Schonberger,Kenneth Cukier著.盛楊燕,周濤譯.大數據時代[M].浙江:浙江人民出版社,2013:16.
[2]MehmedKantardzic著.閃四清,陳茵,程雁等譯.數據挖掘——概念、模型、方法和算法[M].北京:清華大學出版社,2003:1-5.
[3]Lauri Puro Jeffrey E.Teich,Hannele Wallenius,Jyrki Wallenius,Borrower DecisionAid for People-to-People Lending.Decision Support Systems,2010:132-161.
[4]Durand D.Risk Elements in consumer Installment financing.New York:National Bureau of Economic Research,1941:60-72.
[5]Wiginton J C.A note on the comparison of logit and discriminant models ofconsumer credit behaviour.Journal of Financial and Quantitative Analysis,1980,15:757-770.
[6]辛憲.P2P運營模式探微[J].商場現代化,2009,7:19-22.
[7]陳初.對中國“P2P”網絡融資的思考[J].人民論壇,2010,9:128-129.
[8]余文建,沈益昌,杜洋.基于Logistic模型的個人信用評分體系研究[J].海南金融,2007,3:82-85.
[9]張成虎,李育林,吳鳴.基于判別分析的個人信用評分模型研究與實證分析[J].大連理工大學學報,2009,30(1):6-10.
[10]黃秋彧,史小康.個人信用風險評分的指標選擇研究[J].新疆財經大學學報,2015,(3):5-15.
[11]王會娟,廖理.中國P2P網絡借貸平臺信用認證機制研究——來自“人人貸”的經驗證據[J].中國工業經濟,2014,4:136-147.
[12]向暉.個人信用評分組合模型研究與應用[D].湖南:湖南大學,2011.