張昶 李曉峰 任媛媛

摘要:隨著網絡技術的飛速發展,P2P互聯網金融平臺催生了大量的理財和借貸行為。但由于互聯網兩端存在著信息不對稱性,會產生大量的借貸信用風險問題。本文利用國內某大型互聯網金融平臺的借貸數據,基于數據挖掘的思路和方法,對數據進行了預處理、挖掘建模以及結果的分析,主要通過決策樹算法找到借貸違約人的普遍特征,挖掘出隱藏在數據背后的知識和模式,并提出互聯網金融平臺的借貸風險治理方案,降低了信息不對稱性,優化互聯網金融平臺的資源配置。
Abstract: With the rapid development of network technology, a large number of financial management and lending behaviors have been happened on peer-to-peer Internet financial platforms. However, due to the information asymmetry at both sides of the Internet, a large number of loan credit risk problems will arise. Based on the thoughts and methods of data mining, this paper uses the loan data of large Internet financial platforms in China to do data pre-process, model mining and results analysis. The decision tree algorithm is used here to find general characteristics of loan defaulters,and the knowledge and patterns hidden behind the data are mined. The loan risk management scheme of Internet financial platform is proposed, which can reduce the information asymmetry and optimize the resource allocation of Internet financial platform.
關鍵詞:P2P互聯網金融平臺;信息不對稱性;借貸信用風險;數據挖掘;決策樹算法
Key words: peer-to-peer Internet financial platform;information asymmetry;loan credit risk;data mining;decision tree algorithm
中圖分類號:F724.6;F832.2 ? ? ? ? ? ? ? ? ? ? ? ? ?文獻標識碼:A ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?文章編號:1006-4311(2019)08-0148-04
1 ?研究背景及意義
1.1 研究背景
近年來,傳統的金融業在技術和商務模式上發生了巨大的變化,各種基于互聯網的金融平臺正在不斷涌現出來,產生了大量的基于互聯網兩端的理財和借貸行為,這在很大程度上改變了人們的生活和消費模式。互聯網金融市場的交易成本大大低于傳統金融市場的交易成本,這部分可觀的交易成本一方面彌補資金供給者更多的收益,另一方面也可以為互聯網企業帶來豐厚的利潤。但是由于現實世界中理性人的機會主義行為,平臺會出現信息不對稱、道德風險、監管和信用機制等問題,從而導致互聯網金融平臺產生較大的信用風險。
基于此,相關學者進行了研究。一些學者基于信息不對稱原理提出平臺的運行機制建議(生蕾,2016)。所謂信息不對稱,即對于某些信息來說,一些參與人擁有,但另一些參與人不擁有或不完全擁有(張維迎,1996),如在互聯網金融平臺,借貸人與平臺管理方之間存在著較為明顯的違約信息不對稱。也有學者通過研究制度經濟學中交易費用成本來分析平臺的根源機制與運行機理,并提出治理方法(劉威,2016)。而在國外的相關研究中,一些學者提到了從大數據的視角分析互聯網金融的客戶行為與風險策略問題(Adair Morse,2015)。
可以看到,國內對于平臺治理的研究更多的是以機制體制的經濟學為切入點,進行策略性研究,研究結果理論依據較為單薄。國外雖然運用到數據挖掘的思路研究風險防患與客戶行為,但是并沒有具體數據挖掘方法的應用研究。所以,與該研究相關的內容并不多。
1.2 研究意義
數據挖掘的方法(CC Wu,2016)可以用于從大量的數據中尋找潛在的知識和模式,利用該方法可以有效降低違約風險。決策樹分類、支持向量機及人工神經網絡等算法均可以用于發現預測型的知識和模式,并控制其精度。
該研究基于互聯網金融平臺產生的大量業務數據,利用數據挖掘的方法有效分析了平臺產生的信用風險問題。通過數據挖掘中高效的數據預處理及數據挖掘算法來處理和分析數據,可以有效的挖掘出隱藏在數據背后的知識和模式,達到自動預測風險人群、指導企業建設智能化互聯網金融平臺的目的。
更為深入的,該研究為互聯網金融企業的借貸風險防控,客戶的行為模式預測提供相關決策,為互聯網金融企業監管機制和運作模式的創新提供思路。最終為企業創建新的商業增長點,并實現社會、互聯網金融企業和借貸兩側的共贏模式。所以運用數據挖掘的方法研究互聯網金融借貸的風險防控和客戶行為模式具有較大的現實意義。
2 ?平臺數據預處理研究
該研究主要分析互聯網金融平臺借貸數據中有可能對是否違約產生影響的字段,如借貸人本身的一些特征字段,包括年齡、收入、學歷、婚姻狀況、性別、從事工作、工作時間、子女情況、所在公司性質等;除此之外還包括貸款人的借貸信息相關字段,如債務占收比、月還款金額、貸款本金及還款期數等。由于這些數據來自于不同的互聯網金融平臺,數據真實且屬性豐富,所以在進行數據挖掘前應進行數據清洗、泛化、字段重要性選擇等相關的數據預處理工作,使數據變得規整并具備較強的可挖掘性。
2.1 數據的清洗
基于該互聯網金融平臺的數據質量及挖掘要求,該數據清洗的研究可分為無效數據刪除及缺失數據填補。
該研究首先通過一些規則的設計去除掉無效數據,這里主要面對的是借貸人的虛假數據填報,由于許多互聯網金融平臺并沒有十分細化的監管和審核機制,導致許多借貸人戶在網上填報一些無效信息。如:在年齡字段出現小于小于10歲或大于100歲的借貸人;從事工作日期早于出生日期;年齡小于10歲卻顯示有子女等問題。由于這些問題數據的數據量較小,所以這里采用了設定啟發式的規則進行篩選并統一刪除的方法進行處理。
其次,數據集會出現一些關鍵字段的數據值空缺的問題。這里采用兩種不同的方法進行處理:空缺數據為數值型,如年齡、收入、貸款本金等,這里采用利用平均值或同類別均值的方法來進行數據的填補;若空缺數據為非數值型,如公司性質、學歷、性別等,這里采用決策樹或貝葉斯歸納的方法進行填補,力求把最有可能出現的值填補進空缺處。
2.2 數據的泛化
該互聯網金融平臺數據中,大部分字段中的數據都是連續的數據值,即使一些非數值型的數據也會出現較為連續的字段值,如在從事工作這一字段中,就包括上百種不同的工作類別。而對于決策樹算法來說,更期望于獲得較為離散的數據值,由此可以更為概括性的以樹形結構的方法對數據進行分類并對知識進行歸納。
所以這里根據不同的標準和規則、以定量和定性的思路進行了連續數據值的離散化處理,使數據粒度變大。在不同的字段中,分別依照現實世界的特征、固定寬度的分箱以及分位數處理等方法,根據字段的特征把數據進行了范化的處理,使各字段均具備了較強的概括性和可挖掘性。
2.3 字段重要性選擇
在該數據集中,對違約可能產生影響的字段較多,但如果這些字段均參與到決策樹的建模過程中,會使得一棵樹的分支節點過多或過度生長,使最終得到的知識和模式過于分散,無法進行概括性的總結。所以這里采用PCA主成分分析的方法對不同的字段進行了重要性的選擇,這里主要利用正交變換,將其分量相關的原隨機向量轉化成其分量不相關的新隨機向量,即將原來的字段重新組合成一組新的線性無關的幾個綜合字段,同時根據挖掘需求從中取出幾個較少的卻盡可能多地反映原有信息的字段,由此,對該數據集進行合理的降維。在該數據集中經過主成分分析,可以得到在決策樹建模中主要使用的字段為歷史違約情況、還款期數、剩余借貸金額、借貸人債務占收比、性別、工作時長、學歷、婚姻及子女狀況。
3 ?數據挖掘分析
3.1 基于單一字段的統計分析
該互聯網金融平臺數據經過數據預處理,各字段已經變得較為規整,在建模前,可以進行一些簡單的數據統計分析,即基于單個字段的違約分析,由此,可以得到違約人的一些特征模式。這里選取了一些與借貸人本身相關的字段進行分析,如圖1所示。
通過性別的字段值在違約中的占比可以看到目前互聯網金融借貸平臺的主要借款人還是以男性為主;子女狀況字段則顯示無子女的違約情況遠大于有子女的違約情況,這說明有子女的借貸人會考慮到家庭和責任等因素,違約成本較高,而無子女的則沒有任何負擔,只需要考慮自己的經濟情況;通過年齡字段可以發現30歲以下的借款人幾乎占整個原始數據的百分之七十,說明互聯網金融平臺的違約風險主要發生在年輕人中;而工作時間字段則印證了這一觀點,工作時長在5年內的占違約總數的90%以上,從這一結果也可以看到資歷較淺、收入不高的員工更容易通過借貸平臺來滿足自己的經濟需求,這種提前消費的做法也就容易導致了違約行為的發生。
通過單一字段的簡單統計分析,我們可以簡單概括出一些違約人的特征信息,但是更為細化的、基于多個字段的復合作用如何對違約行為產生影響,則需要通過數據挖掘的算法進行建模分析。
3.2 基于決策樹算法的建模分析
決策樹算法以信息論原理為基礎,利用信息增益尋找數據庫中具有最大信息量的屬性建立決策樹。這里信息增益是指期望信息或者信息熵的有效減少量。使用信息增益作為判斷屬性選擇的度量,描述了當確定該屬性后對待分類對象不確定性的信息變化程度。選擇具有最高信息增益的屬性作為當前節點的劃分屬性,能使得判定一個未知對象類別時所需的屬性最少,并找到一棵簡單的樹(谷斌,2014)。
這里設S是訓練樣本的集合,其中每個樣本的類標號都是已知的。假定有m個類,集合S中類別Ci的記錄個數是Ni個,i=l,…,m。
設屬性A具有值{a1,…,av},屬性A可以用來對S進行分組,將S分為子集S1,…,Sv,其中Sj包含S中值為aj的那些樣本。設Sj包含類Ci的Sij個樣本。則將S劃分為m個類的信息熵或期望信息為
其中,pi為S中的樣本屬于第i類Ci的概率。當樣本屬于每個類的概率相等時,上述的熵取到最大值。而當所有樣本屬于同一個類時,S的熵為0,也就是沒有不確定性。其他情況的熵介于兩者之間。
熵值反映了對樣本集合S分類的不確定性,也是對樣本分類的期望信息。熵值越小,劃分的純度越高,對樣本分類的不確定性越低。一個屬性的信息增益,就是用這個屬性對樣本分類而導致的熵的期望值下降。
Gain(S,A)是指因知道屬性A的值后導致的熵的期望壓縮。Gain(S,A)越大,說明選擇測試屬性A對分類提供的信息越多,該算法就是在每個節點選擇信息增益Gain(S,A)最大的屬性作為測試屬性(Jiaweihan,2008)。決策樹算法主要學習過程如圖2所示。
該研究基于決策樹的思想,以預處理后的數據為基礎,選取歷史違約情況、還款期數、剩余借貸金額、借貸人債務占收比、性別、工作時長、學歷、婚姻及子女狀況作為輸入字段進行建模,并把所有數據進行訓練集和測試集的劃分,在訓練集中構建決策模型,并把結果帶入測試集中進行精度分析,該研究分別選取ID3、C4.5、C5.0、C&R及CHAID等不同的決策樹進行精度及運行速度的比較,結果如表1所示。
所以這里選用C5.0決策樹對數據處理的結果進行解釋分析,決策樹顯示了違約人的一些特征,概括如下:
①若借貸人存在歷史違約情況,那么其違約的可能性會很大,若借貸人不存在違約歷史,且還款期數大于2期,期借貸違約的風險則會較低。
②若借貸人不存在歷史違約情況,且其為女性,并以還款2期,則違約風險較低。
③若借貸人不存在歷史違約情況,并以還款2期,但剩余還款金額較高,則其存在較高的違約風險。
④若借貸人不存在歷史違約情況,并以還款2期,但其債務占收比高于30%,則違約風險較低;但是在相同的情況下若其債務占收比低于10%且剩余還款金額較少,則其違約風險較高。
⑤若借貸人不存在歷史違約情況,并以還款2期,同時剩余還款金額較少且債務占收比為10%-30%,那么與借貸人本身相關的信息將會對違約產生作用:學歷在本科以上存在較低的違約風險,工作時間在五年以上存在較低的違約風險,有子女存在較低的違約風險,而學歷在大專以下或無子女的借貸人則存在較高的違約風險。
⑥若借貸人不存在歷史違約情況,并以還款2期,同時剩余還款金額較少且債務占收比為高于30%,則婚姻狀況為已婚的違約風險較低,而婚姻狀況為未婚或離異的違約風險較高。
4 ?互聯網金融平臺風險治理
由上述研究可以看到,基于大量互聯網金融平臺的借貸業務數據,利用數據挖掘的方法可以對借貸人的違約情況進行精確的分析,概括出違約人的相關特征,這可以為互聯網金融平臺的違約風險治理提供理論依據。基于該研究,平臺的治理方案可從以下幾方面進行考慮:
①互聯網金融平臺需進一步細化借貸人的信息填報,并審核其真實性,由此增強監管力度,提高借貸門檻。同時,這可以在很大程度上豐富數據挖掘所需的字段,使數據建模在更為有價值的、更為真實的數據基礎之上。平臺可通過建立動態的、有效的網絡個人信用檔案來細化借貸人的相關信息,并使自己的信息系統與官方認定的公共征信服務平臺進行對接,能夠更為有效的審核每個借貸人填寫的相關信息,使其數據真實可信。
②互聯網金融行業需進一步加強信息化建設,研究信息和數據的標準化方案,使各個不同平臺的系統能夠進行實時的、有效的互聯互通,是借貸人的信息和數據在不同平臺中最大程度上進行共享,并通過數據挖掘對海量借貸業務數據進行分析和處理,降低信息的不確定性,減少單個平臺可能出現的信息孤島問題,優化互聯網金融平臺整體資源配置。
③完善互聯網金融體系的配套措施,研究不同的風險控制體系。隨著互聯網金融業務的不斷發展,國家層面應出臺更為細化的法律法規體系進行監管,并集中建立數據分析中心對可能產生的風險進行統一把控,并建立統一的互聯網金融信息披露平臺進行信息發布。除此之外,各平臺也可以通過不同的方法分散違約帶來的風險。如可以與保險公司合作通過數據分析設計不同的網貸保險類的理財產品,或建立專門的保險賠付基金制度等,完善并豐富互聯網金融產業鏈,使市場更為健康地發展。
參考文獻:
[1]生蕾.信息不對稱與互聯網金融發展[J].征信,2015(12):15-18.
[2]張維迎.博弈論與信息經濟學[M].上海:上海人民出版社,1996.
[3]劉威.互聯網金融系統下的交易成本——基于新制度經濟學的研究[J].時代金融,2016(35):49-50.
[4]Adair Morse. Peer-to-Peer Crowdfunding: Information and the Potential for Disruption in Consumer Lending[J]. Annual Review of Financial Economics, 2015(6): 463-482.
[5]CC Wu. Decision tree induction with a constrained number of leaf nodes[J]. Applied Intelligence, 2016, 45:1-13.
[6]谷斌,耿科明,張昶.數據倉庫與數據挖掘實務[M].北京:北京郵電大學出版社,2014.
[7]Jiaweihan,MiehelineKambe.數據挖掘概念和技術[M].機械工業出版社,2008:56-60.
[8]李志強.基于交易成本理論的互聯網金融與中小企業融資關系研究[J].上海經濟研究,2015(3):32-36.
[9]謝平,鄒傳偉,劉海二.互聯網金融的基礎理論[J].金融研究,2015(8):4-12.
[10]鐘向群.探索互聯網金融新模式[J].中國金融,2013(24):45-46.
[11]劉瀾飚,沈鑫,郭步超.互聯網金融發展及其對傳統金融模式的影響探討[J].經濟學動態,2013(8):73-83.
[12]汪煒,鄭揚揚.互聯網金融發展的理論基礎[J].經濟問題探索,2016(6):120-176.
[13]G Lee, U Yun and KM Lee.Analysis of tree-based uncertain frequent pattern mining techniques without pattern losses[J].Journal of Supercomputing, 2016, 72:1-23.
[14]Yeo, Benjamin and Delvin Grant, Predicting service industry performance using decision tree analysis[J].International Journal of Information Management, 2018, 38: 288-300.