李艷萍,武 浩
1.安徽農業大學經濟技術學院,安徽合肥,230013;2.合肥工業大學管理學院,安徽合肥,230009
在金融科技領域,P2P網絡借貸是一種重要的金融創新模式,它為資金需求與供給雙方提供了一個在線匹配與信息交換的服務平臺。P2P平臺的出現為小微企業(SMEs)提供了新的融資渠道,同時在一定程度上解決了融資難與融資貴的問題[1-2]。然而,學者Zhu[3]與封思賢等[4]認為P2P平臺參與者往往信用水平不高且難以提供更多的信用信息,加大了信息不對稱程度,造成了信用評價的困難。如何準確評價與預測小微企業信用風險,成為亟待解決的關鍵問題。
在大數據時代,軟信息受到越來越多的關注。Liberti等[5]認為有些信息是難以用具體的數字分數概括的,需要結合上下文分析的信息才稱為軟信息。在P2P網貸中,軟信息通常以文本形式進行交流,主要包括意見、計劃、經濟預測、借款人的面部特征以及借款申請的文本描述等。一些研究將財務信息定義為硬信息,將非財務信息定義為軟信息[5-9]。
目前,軟信息在P2P網貸中獲得了成功應用[10-12]。第一,軟信息可以反映借款人的信用風險,預測借款成功率[13-15]。第二,軟信息對違約概率也有較好的預測作用[16-17]。如Ge等[18]使用一個結合了流行社交媒體網站數據的獨特數據集,發現借款人對其社交媒體賬戶和社交媒體活動的自我披露可以成功預測違約概率。Gao等[19]發現借款申請說明的可讀性和其中包含的積極情緒也與違約概率有關。Dorfleitner等[20]通過對比歐洲的兩個P2P平臺,發現在借款項目描述中提供了關于教育信息的借款人往往具有更低的違約概率。
軟信息的內容往往是非結構化的,傳統方法不能有效地處理。故Blei等[21]提出了潛在狄利克雷分配(LDA)主題模型,用于識別文檔中的主題并挖掘語料庫中隱藏的信息。到目前為止,LDA分析已被廣泛應用于主題聚合、非結構化文本信息提取、特征選擇等場景中。其中,情感分析就是一種主要的軟信息分析方法,被廣泛用于分析語篇中的態度、情感和評價,并使用情緒分析從借款人的自我報告中提取特征,并基于這些特征和金融特征分析借款人的信用風險。也可以應用情緒分析構建了情緒指數,發現負面情緒與借款成功率呈負相關。為此,本文基于LDA分析與機器學習模型,選取中國P2P平臺上852家借款企業的真實交易數據進行實證分析,深入挖掘借款項目描述軟信息并考察其對網絡借貸信用風險預測能力。
LDA主題模型是一個三層貝葉斯概率模型[21],包括詞、主題和文檔三層結構。它屬于無監督學習,可用于識別隱藏在大規模文檔集合或語料庫中的主題信息。為更好地處理P2P網貸文本信息,研究引入LDA主題模型,提取相應軟信息特征。假設有K個主題,M個文檔,每個文檔有N個單詞,文檔中的主題服從參數為α的狄利克萊分布,主題中的單詞服從參數為β的狄利克萊分布。LDA模型包括以下步驟:
步驟1:從M中選擇一個文檔d;
步驟2:從狄里克萊特分布Dir(α)中抽樣一個主題分布θd;
步驟3:根據采樣的主題分布θd隨機選擇一個主題Zdi;
步驟4:從先前選擇的主題Zdi的多項式分布φzdi中隨機選擇文檔d中的第i個單詞的單詞wi。
本文在上述步驟中選擇了一種常見的Gibbs采樣方法,并給出了圖1中可視化處理過程。

圖1 LDA主題模型的提取過程
在中國的P2P網貸中,小微企業的借貸信息非常稀少。本文對比了網絡借貸市場的76個平臺,根據這些平臺的綜合實力和透明度選擇研究對象,最終選定了為中小企業提供金融服務的P2P網貸平臺“融金寶”。數據集來自兩個渠道:第一,平臺網站(https://www.rjb777.com/);第二,定期發布借款企業還款狀態的微信官方賬號。本文使用R包“Rselenium”從網站上收集了從2016年3月7日到2019年3月15日期間的樣本,包括了1 459家企業的借款信息。然后,本文剔除了那些不能確定是否違約的借款企業,最終獲得852家公司借款信息作為研究樣本。
在訓練LDA主題模型之前,需要確定一個重要的參數,即主題數量。本文從2到20個主題的數量中得到了19個主題分類結果,并檢查提取的主題是否包含定義明確的相關詞。結合語言模型和主觀判斷,選擇了最優的7個主題:投資、工廠、材料、日用品、工程、銷售和創新。表1顯示了每個主題下出現頻率最高的單詞。在確定主題后,LDA主題模型會輸出每一項文本被歸類為7個主題的概率(本文實證分析使用的軟特征是每個借款企業的項目描述屬于7個主題的概率)。

表1 從借款項目描述中提取的軟特征
除了上述七個軟信息特征外,本文還考慮了另外七個解釋變量:注冊資本、員工人數、借款金額、借款利率、借款期限和注冊地點、成立年限。響應變量為違約,當借款企業違反合同約定拒不支付本息時,響應變量被標記為1(發生違約),否則被標記為0(未違約),所有變量的描述性統計結果見表2。

表2 變量的描述性統計
表2中可以看出,違約企業的比例只占總樣本的8%,一方面表示違約發生概率并不高;另一方面使得在訓練時更多關注未違約企業的特征,可能會影響模型分類的準確性。這是一個典型的非平衡數據的二分類問題,本文在數據處理中引入多種重采樣方法解決非平衡問題,以進一步提高模型的預測能力。
將特征集劃分為三類:硬特征集、軟特征集和硬-軟特征集,同時考慮三種流行的機器學習模型,即L1-Logit、支持向量機(SVM)和隨機森林(RF)。隨機選取80%觀測值作為訓練集進行模型訓練,其余的觀測值則作為測試集進行模型測試。此外,本文通過ROC曲線下方的面積大小(AUC)、準確率(ACC)、綜合評價(F1-MEASURE,簡記F1)和召回率(RECALL)等指標對模型性能進行評估。
對于三種預測模型,本文采用5折交叉驗證(CV)在訓練集上選擇最優參數,如L1-logit的λ、SVM的gamma和RF的tree。對于特定特征集上的每個模型,本文在每次實驗中將5折交叉驗證得到的五個AUC進行平均后,選擇平均AUC最高的參數作為最優參數。然后,將擁有最優參數的模型應用于測試集中,計算出所有的評價指標。重復該過程50次,統計模型分類結果見表3。

表3 非平衡樣本下軟特征預測表現
注:(1)表中報告的結果為50次試驗后的平均結果;(2)括號內展示實驗結果的標準差。下同。
表3反映了L1-Logit、SVM和RF在50次重復實驗后在不同特征集上的分類性能??傮w而言,三種預測模型在硬-軟特征集上取得了最佳違約預測效果,在12個實驗(12=3個模型×4個評價指標)中,其預測效果有8次優于其他兩個特征集。對于AUC指標,相比較其他特征集,硬-軟特征集在所有的模型中獲得最佳的表現。加入軟特征后,AUC和Recall兩種指標呈現上升趨勢,如在RF中,分別增加到0.880和0.820。雖然加入軟特征集后,ACC和F1-MEASURE在RF中沒有明顯改進,但在L1-Logit和SVM中,當考慮到軟特征時,兩項指標均有所提升。實證結果充分說明軟信息有助于預測違約概率,它可以作為硬特征的有效補充,用于準確評估企業信用風險。
在二分類問題中,當一類的比例超出另一類的比例很多時,就會出現非平衡數據問題,常出現在欺詐檢測、風險管理等領域。非平衡數據問題導致模型對少數類缺乏關注,從而影響分類效果。為此,本文引入三種常用的重采樣方法:隨機過采樣(簡稱ROS)、隨機欠采樣(簡稱RUS)與隨機過欠采樣(簡稱ROUS)。除額外的重采樣過程外,其余建模過程沒有變化,在硬-軟特征集上模型結果見表4??梢钥闯?,在解決了非平衡數據問題之后,可以提高預測效果,其中ROS方法顯著提高了模型的預測能力,ROU方法也有較好的表現。

表4 非平衡樣本與平衡樣本下硬-軟特征集預測表現
以上結果再次證明,本文構造的包含軟信息在內的特征變量是有效的,能夠準確預測小微企業的信用風險。此外,在利用非平衡數據評價小微企業信用風險時,可以選擇合適的重采樣方法,進一步提高預測效果。
為了進一步說明各軟特征對借款企業信用風險的影響,對全樣本進行Logit回歸(見表5)。以7個硬特征為控制變量,按先后順序或同時加入軟特征,模型的響應變量為違約。特別地,由于7個軟特征的概率和為1,為了避免多重共線性的問題,在模型8中,移除了一個軟特征。

表5 Logit回歸結果
注:(1)*,**,和***分別表示在10%,5%,1%水平下顯著。(2)括號內展示Z統計量。
由表5可知,盡管調整R2并不算高,但眾多軟信息特征都存在統計上的顯著性。進一步,在模型8中,投資在5%的水平上顯著,而日用品在10%的水平上顯著。至于工程,在模型8中不顯著,但在模型5中處于10%水平下顯著。在這三個變量中,工程的系數為正,表明借款人的項目描述中包含的關于工程的信息越多,違約概率越高;而投資和日用品的系數為負,關于投資和日用品的信息意味著借款企業違約的概率較低。總之,軟信息可以幫助篩選違約企業、預測信用風險,從而維護投資人的利益,促進P2P網貸健康發展。
本文以P2P網貸為研究對象,綜合運用LDA主題分析、機器學習模型與Logit回歸,選取中國P2P平臺上852家借款企業的真實交易數據,實證考察了借款項目描述軟信息對小微企業信用風險的預測能力。實證結果表明,軟信息特征能夠有效識別違約企業,有助于分析違約行為,預測企業違約概率。當借款企業提供的借款項目描述與工程有關時,則該企業違約的可能性較大;如果借款項目描述與投資和日用品有關,則違約的可能性較小。實證結果具有較好的管理學啟示:第一,P2P平臺應該規范軟信息發布,減輕金融科技中的信息不對稱程度,降低信用風險發生的概率;第二,小微企業應該積極發布借款項目描述,以獲得市場的支持,解決融資難與融資貴問題;第三,投資者可以從借款項目描述中進行特征分析,識別出可能違約的企業,以避免投資風險。