“人工智能+金融大數據”客戶信用評估

2020-07-14 17:47:44劉芳齊菲菲李祥霞

中國管理信息化 2020年11期

劉芳齊菲菲李祥霞

[摘? ? 要] 隨著大數據時代的到來，金融大數據應用已成為行業熱點趨勢，使得面向金融的大數據技術吸引了越來越多的關注。從大量的金融數據中挖掘有價值的數據是非常重要的，與人工智能結合，由機器代替人去挖掘信息，可實現數據增值。客戶信用評估是金融的一個重要應用，可根據訓練樣本建立模型分析新用戶是否會違約，將客戶分成“信用客戶”和“違約客戶”。本文引入遷移學習和深度學習，描繪了基本的流程，強調了機器學習用于客戶信用評估的優勢。

[關鍵詞] 人工智能;金融大數據;客戶信用評估;遷移學習;深度學習

1? ? ? 引? ? 言

近年來，中國經濟走向新常態，預計2017-2022年，中國金融行業大數據應用市場規模年均復合增長率為55.21%，到2022年，達到497億元。隨著大數據時代的到來，金融大數據應用已經成為行業熱點，已經廣泛應用在精準營銷、智能風險評估、交易欺詐識別等領域，帶來了潛在的、巨大的社會效益和經濟效益。國家開始重視金融大數據，國務院發布《十三五國家科技創新規劃》，規劃中明確提出促進科技金融產品和服務創新、建設國家科技金融創新中心等。國務院頒布的《推進普惠金融發展規劃（2016-2020年）》中更是直接提到“鼓勵金融機構運用大數據、云計算等新興信息技術，打造互聯網金融服務平臺”。黨的十九大報告明確提出，要推動“互聯網、大數據、人工智能和實體經濟深度融合”。國家、高校和企業開始重視金融大數據，面向金融的大數據技術吸引了越來越多的關注。將從大量的金融數據中挖掘有價值的數據與人工智能相結合，由機器代替人去挖掘信息，可實現數據的增值。

人工智能在金融領域中有很多應用，如信用評估。信用評估是銀行業務經營中非常重要的一個環節。信用風險是借款人無愿望或者無力支付其所借貸的款項而產生的風險。因此，需要有一個合適的方法對該風險進行定性、定量，進而有效識別風險，追求利益最大化。但是傳統方法更多的是基于人為的經驗信息進行判斷，如通過信用評分卡。伴隨著金融大數據時代的到來，人為判斷不足以應付快速產生的金融數據，因此需要引入人工智能技術，利用機器學習來處理金融大數據，以有效地進行信用評估。

人工智能越來越引起社會各界的關注。未來以金融大數據為背景，推動發展人工智能在信用評估方面的應用，將會給行業發展帶來不可限量的增長。

在評估的過程中，有訓練集和測試集。根據訓練樣本建立模型分析新用戶是否會違約，分成“信用客戶” 和“違約客戶”。在訓練階段，常常面臨的一個問題是兩類客戶比例分布不均衡，即“好客戶”占多數，而“壞客戶”只占少數。在這種類別不均衡的情況下，找到一個好的方法建立模型，很好地預測新客戶是非常重要的。

在此背景下，本文根據我國金融的發展，引入機器學習中的遷移學習（Transfer Learning，TL）[1]和深度學習（Deep Learning，DL）[2]。遷移學習技術是利用以前所學的先驗知識和技巧應用于新任務的學習。換句話說，遷移學習可以借助源領域中的知識來幫助目標域的學習。目前遷移學習已經應用于文本、圖片、情感、視頻等領域，并取得了一定的成果。筆者期望利用遷移學習技術來幫助金融大數據的學習，通過遷移其他領域的客戶信息來建立客戶信用評估模型，進而解決少數類樣本稀疏帶來的類別不平衡問題。深度學習是人工智能浪潮的巨大推動力之一。在金融服務中深度學習通過在大數據中尋找規律，減少了人工介入和人為干涉，預測客戶信用評估的結果。一般是通過分層特征提取并通過激活函數尋找關聯關系，解決金融大數據。最終將模型應用于銀行等金融大數據分析中。

2? ? ? 相關工作

針對金融領域中的信用評估問題對人工智能技術提出的新挑戰，本文將描述人工智能技術在金融大數據中的應用，并基于遷移學習、深度學習將此模型應用于客戶信用評估。

2.1? ?遷移學習

從心理學和人類智能的角度來看，人類具有利用以前學過的知識幫助新內容學習的能力。比如：一個人騎自行車技術很好，那么他在學騎摩托車過程中就會非常容易;若是一個人對彈鋼琴比較熟悉，那么她會輕松的學會彈古箏。在機器視覺領域中，遷移學習的思想源于 1995 年 NIPS-95 的專題研討會。會上開展了關于“學會學習（Learning to Learn）”的討論。從 1995 年開始，關于遷移學習的研究已經引起了眾多關注，并有多個不同名稱：學會學習、知識轉移、終身學習、多任務學習、歸納轉移、知識整合等[3]。

在 2005 年，美國國防高級研究計劃局（DARPA）的信息處理技術辦公室（IPTO）對遷移學習進行了定義：遷移學習技術能夠遷移以前學到的知識和技能，并將這部分應用于目標域中的新任務學習。其中，遷移學習的目的是從一個或多個源任務中提取知識，并遷移這部分知識應用于目標域中的任務學習。在這一年，NIPS 國際會議上給出了一個關于遷移學習的比較有代表性的定義：遷移學習目的是在不同但相似的領域、任務和分布之間進行知識的遷移。具體的描述如下：

定義（遷移學習）[1]：給定源域和學習任務，遷移學習旨在利用和中學習到的知識，并遷移這部分知識來幫助目標域中預測函數的學習。

圖1展示了傳統的機器學習與遷移學習的學習過程之間的不同之處。從圖1可以看出，前者的目標是對每個任務進行學習，然而后者的目標是利用少量的有標簽訓練數據，通過遷移源領域中的任務知識幫助目標任務的學習。

2.2? ?深度學習

深度學習的概念最先有這個想法的是G.E. Hinton等人[4]在2006年提出，主要就是將樣本數據通過一定的訓練方法得到多層網絡結構的機器學習過程。最初提出的依據是模擬人類大腦結構，通過對大腦吸收的信號進行處理，然后給出數據解釋。以圖像數據為例，靈長類的視覺系統中對這類信號的處理順序依次為：首先是檢測邊緣、紋理等簡單的初始形狀特征，然后再逐步形成更復雜的視覺形狀。同樣地，深度學習通過組合低層特征形成更加抽象的高層表示、屬性類別或特征，給出數據的分層特征表示。

深度學習從數據中自動學習特征，從而代替人工設計特征。把原始數據通過一些簡單的但是非線性的模型，逐層變化提取特征，進而變成為更高層次的，更加抽象的表達，且深層的結構使其具有很強的表達能力和學習能力。

深度學習有著廣泛的應用，例如：圖像分類、語音識別、物品檢測和內容描述。目前已經提出很多深度學習的方法，有卷積網絡、循環神經網絡、長短期記憶網絡、超網絡等，

3? ? ? “人工智能+金融大數據”客戶信用評估流程

利用遷移學習和深度學習進行客戶信用評估，詳細的流程如下所述。

3.1? ?遷移學習+客戶信用評估

客戶信用評估是非常重要的一項，目前機構只采用自有的信息進行客戶信用評估，忽略了其他領域帶來的額外信息。比如，如某客戶可能在工商銀行借貸，同時也在建設銀行借貸，本文認為如果某客戶在工商銀行是“信用客戶”，那么在建設銀行很大程度上也是“信用客戶”，否則為“違約客戶”。通過遷移其他領域的信息，可以更好地幫助評估客戶，有效預防風險。

如圖2中所示，在利用遷移學習進行客戶信用評估中，遷移其他領域的客戶信息幫助目標域學習。與傳統的客戶信用評估學習不同，學習器只能利用當前目標域的客戶信息進行學習預測，沒有額外的信息。因而該問題轉變為遷移其他領域的客戶信息幫助目標域客戶信用評估。同時，由于不同領域的特征分布不一致，學習器還應解決領域特征分布不一致的問題。下面詳細描述利用遷移學習評估客戶信用的過程。

（1）考慮客戶來自不同業務的遷移知識信用評估。在客戶進行金融業務中，客戶可能會辦理不同的業務，比如在某銀行辦理貸款業務、基金投資、股票投資等銀行業務。如果某客戶在辦理其他業務擁有很好的信用時，本文認為在信用還貸上很可能歸類為“信用客戶”，否則為“違約客戶”。因此，需要考慮客戶在進行不同業務辦理時，遷移客戶信息進行建立信用評估模型的問題。這個過程需要研究：①如果客戶信用評估選擇了考慮客戶業務信息，那評估應該選擇一項銀行業務信息還是多項業務信息？如果選擇了一項業務信息，則如何遷移有效的客戶業務信息幫助目標客戶信用評估？②如果選擇了多項業務協同幫助目標客戶信用評估，則應如何建立合理的數學模型，實現知識的協同有效遷移？

（2）考慮客戶來自不同銀行的遷移知識信用評估。在客戶進行業務辦理存在中，客戶可能會的過程在不同的銀行辦理業務信息，如某客戶可能在工商銀行借貸，同時也在建設銀行借貸。本文認為如果某客戶在工商銀行是“信用客戶”，那么在建設銀行很大程度上也是“違約客戶”。因此，需要考慮不同銀行客戶信息進行客戶信用評估問題：①如果客戶信用評估選擇了考慮銀行信息，那評估應該選擇一家銀行還是多家銀行？如果選擇了一家銀行，則如何遷移該銀行客戶信息幫助目標客戶信用評估？②如果選擇了多家銀行共同幫助客戶信用評估，則應如何建立合理的數學模型進而有效預測“信用客戶”和“違約客戶”。

（3）領域特征分布不一致對于目標域的學習有著重要的影響。為了進一步提高客戶信用評估的預測率，學習器還要解決領域分布不一致的問題。領域知識的遷移最有利于目標域客戶信息的評估，考慮利用領域自適應（Domain Adaptation）來解決這個問題。領域自適應將不同領域（如兩個不同的數據集）的數據特征映射到同一個特征空間，這樣可利用其他領域數據來增強目標領域訓練，最大化地減小領域間的分布差異，有效解決領域間數據分布的變化。根據領域自適應研究解決遷移知識領域特征分布不一致方法，嘗試建立基于遷移學習的客戶信用評估模型，提高預測率。

在基于遷移學習的客戶信用評估中，闡述了遷移哪部分知識用于遷移，以及遷移過程中需要解決的問題。

3.2? ?深度學習+客戶信用評估

利用深度學習技術來進行客戶信用評估是一種趨勢，深度學習可以學習更高層的特征用于預測風險。尤其金融大數據時代的到來，傳統方法已經不能滿足金融數據的需求。深度學習可以有效處理大數據，挖掘潛在數據價值，有效完成評估。

利用深度學習，建立如圖3所示的客戶信用評估整體模型框架，整個模型可以分為三部分：

（1）客戶信用數據的獲取。一方面，客戶信用數據可以利用標準信用數據集。另一方面，也可以從各大銀行獲取有效客戶信用數據進行客戶預測。

（2）客戶信用數據的特征提取。如圖3所示，客戶信用數據采用One-hot進行編碼。輸入數據包括兩部分，一個是靜態數據，如描述用戶的基本屬性的性別、職業等;另一個為動態數據，主要包括用戶的銀行流水記錄、信用卡賬單記錄。經過數據編碼后，得到客戶信用數據的特征表示。

（3）深度學習框架下，高級特征的學習及客戶的預測率。如圖3所示，數據經過編碼后輸入到神經網絡中，通過分層學習到特征表示，進而建立合理的模型，得到 “信用客戶”與“違約客戶”的預測率。

DNN（Deep Neural Network）神經網絡模型又叫全連接神經網絡，是基本的深度學習框架。DNN模型表達能力強，能夠學習出高階非線性特征，具有特征交叉能力的特點。

本文將One-hot類型的特征輸入到DNN進行客戶信用評估預測，如圖3所示。DNN方法不斷發展，其基本架構模型不斷改變。比如Wide and deep 模型是Tensor Flow在 2016 年 6 月左右發布的一類用于分類和回歸的模型[5]。Wide and deep 模型的核心思想是結合線性模型的記憶能力（memorization）和 DNN 模型的泛化能力（generalization）。Wide 端對應的是線性模型，輸入特征可以是連續特征，也可以是稀疏的離散特征，離散特征之間進行交叉后可以構成更高維的離散特征。線性模型訓練中通過 L1 正則化，能夠很快收斂到有效的特征組合中。Deep 端對應的是 DNN 模型，每個特征對應一個低維的實數向量，稱之為特征的 embedding。DNN 模型通過反向傳播調整隱藏層的權重，并且更新特征的 embedding。Wide and deep 整個模型的輸出是線性模型輸出與 DNN 模型輸出的疊加，如圖4所示。

DeepFM模型[6]的提出，包含兩部分：神經網絡部分與因子分解機部分，分別負責低階特征的提取和高階特征的提取。這兩部分共享同樣的輸入，如圖5所示。

通過DNN模型的改進模型，本文也將學習到的One-hot類型的特征輸入Wide and deep 模型和DeepFM模型，通過交叉組合可以得到dense特征，dense特征進一步再通過神經網絡模型，得到最后的預測。

4? ? ? 結? ? 語

本文詳細介紹了“人工智能+金融大數據”客戶信用評估總體框架和基本思路。客戶信用評估是金融機構中一項重要的組成部分，人工智能技術的引入，為解決客戶評估問題提供了一個有效的路徑。其價值在于快速高效地完成客戶評估，為金融機構有效識別違約客戶群。

為更好地提升“人工智能+金融大數據”客戶信用評估的效率和效果，需要做好：①擴展數據。用于訓練集和測試集的客戶數據，合理的數據可以更好地檢驗模型，有效地完成預測;②完善模型。引入人工智能技術，不斷完善基于遷移學習和深度學習的客戶信用評估模型，以便適應時代變化、個人信息變化和政策變化。

主要參考文獻

[1]Pan S J， Yang Q. A Survey on Transfer Learning[J]. IEEE Transactions on Knowledge and Data Engineering， 2010， 22（10）：1345-1359.

[2]Minar M R ， Naher J . Recent Advances in Deep Learning： An Overview[J/OL].ResearchGate，2018.

[3]Henri J，Dillon K. Learning to learn[J]. Australian Library Journal， 1992，41（2）：103-117.

[4]Hinton G， Osindero S， Teh Y-W. A Fast Learning Algorithm for Deep Belief Nets[J]. Neural Computation， 2006，18（7）：1527-1554.

[5]Cheng H T，Koc L，Harmsen J，et al.Wide & Deep Learning for Recommender Systems[J/OL]. ResearchGate，2016.

[6]Lian J ， Zhou X ， Zhang F ， et al. xDeepFM： Combining Explicit and Implicit Feature Interactions for Recommender Systems[J/OL]. ResearchGate，2018.