Joseph Milana PhD
如果沒有信用風險建模的話我們就沒有辦法做借貸了。我們看美國過去的十五年借貸情況,最大的一塊就是抵押貸款。另外,信用卡的份額已經達到了一萬億美金,這是有史以來的第一次。
信用風險已經回到了2009年大蕭條之前的水平,尤其是在美國發生的大蕭條。那個時候的逾期貸款比例非常高,當然我們并沒有風險建模,那個時候有很多風險評估原則都被大家放棄了,因此當時有大量的不良貸款產生,這就是我們說的逆向選擇,這里面有一些固有原因。關于金融架構有很多書,比如說《大空頭》,講了大蕭條背后的很多原因,幸運的是我們之后有了好的風險評估機制,不良貸款又回到了可以被管理的水平。
FICO信用風險建模簡史
講到美國的信用風險以及其他國家的信用風險,我們要介紹一下FICO公司的歷史。FICO在1956年的時候創立的時候只是一個咨詢公司,那個時候專門做運營研究,創始人之前在SRI工作。在1958年,FICO發明了信用評分。在七十年代,美國國會推出了公平信用評分法案,法規要求進行貸款評估的時候必須確保信息是準確的,還有另外一個特點就是如果做出拒絕的決策,這個決策必須是可被解釋的。1974年的時候推出了平等信用機會法案,必須要公平,給予信貸的時候必須要根據能力評估,不能根據性別或者說種族來評估。FICO在1975年的時候開發了第一個系統來預測現有客戶的信用風險。基于他們現在的行為,比如說使用信用卡的行為習慣,對人的信用風險做出評估。1987年FICO公司上市。他們想創建一種商業解決方案,利用神經網絡或者說大腦的工作機制來幫助解決問題。在1989年的時候FICO推出了自己的FICO信用評分機制,一個通用型的信用評估機制的首次亮相。現在這個機制已經成為美國通用的為消費者提供貸款的評分機制。
再來說說跟FICO有密切關系的HNC。1992年的時候HNC推出了自己的“獵鷹”軟件,用來探測信用卡的違約可能,會評估每個交易,每個信用卡的行為或者說信用卡用戶的行為,然后評估信用卡是否是被偷的信用卡,或者說有問題的信用卡。解決方案推廣的很快,很快就在行業當中普遍使用。HNC1995年上市,并在1997年推出“PMAX”軟件,使用交易觸發機制來對每個信用卡賬戶進行信用評估。在這之前FICO的解決方案基本上提供了一種月度監控機制,在1997年的解決方案里,在每個交易點上,每次和客戶接觸的時候都會對客戶進行信用風險評估。2001年,myFico.com網站上線。這是一個面向消費者的網站,讓每個用戶了解自己的FICO分數是多少,提供了信用分數的透明性,幫助消費者很好地管理自己的信用分數。
2002年,FICO收購了HNC。2003年FACTA法案通過,強制讓消費者可以了解信用部門提供的信用分數,有了更強的信用透明性,讓消費者可以看到自己的信用評分。2009年,FICO改成了現在的名字。目前,全球有25億信用卡受到了FICO評級的保護。
MyFico可以讓消費者很好地了解模型里面講的是什么,輸入的是什么,信用分數是基于什么的,比如說基于信用歷史。這里提供一個個性化的分數,會考量個人自己的信用分數,讓你有機會想一下如何調整自己的行為,從而提高自己的分數,消費者就可以更好地評估風險。
透明性能夠讓消費者了解信用提供方是怎么樣做決策的,上面講到的政府法規,極大地影響了使用模型的類型。比如說七十年代通過的法案,不管什么時候想要做拒絕的決定,必須要做出解釋才行。對于FCRA法案來說,建立了一個線性模型,可以用自己的算法,通過這種線性模式解釋為什么做出這樣一個負面信用的決策。還有一個法案叫做ECOA法案,不能使用某些信息,比如說剛才說的性別、種族以及宗教信息等等。這些因素不能植入到模型里面,這些信息必須全部刨除出去,但是可以使用郵局郵編信息,可以去將其他維度加入模型。這里面不要求做欺詐檢測,可以用一個非線性的模型,而通過FCRA必須解釋負面的批貸決策,這里面涉及到一些非常相關的因素。還有一些額外的法律要求,比如說評分必須要根據年齡的變化進行變化,也就是說信貸申請人隨著年齡的變化必須要及時更新評分,這里面我們也提供了一些解決方案,比如保序回歸。
下面很快講一下剛才所說的怎么樣解釋這些負面的評分決策,或者說我們打了不好的分,怎么進行解釋。
人們比較關注模型是怎么樣來解釋的。FICO剛開始設立了一個非常清楚的方法,解釋之前說的線性模型,里面有輸入的變量,還有相關的一些概率值。所以必須要把這個函數和概率鏈接起來。你去建模的時候必須考慮到邏輯回歸跟概率的關系。為什么一個人會得到不太好的分數,必須要看在這里面變量是如何產生的,什么樣的變量或者說因素會貢獻負的變量,或者說得分比較低的變量。
首先要去掉這個尺度,因為這是一個線性的模型,在這里不太很必要去掉尺度,但是對于要求解的神經網絡來說還是非常重要的。然后減去平均值,然后重新來評估你的評分。分析哪個變量給線性模型貢獻的變量是最大的,這里面有可能兩個變量是有相互關系的,比如說有收入和成本兩個變量,你就知道你的利潤等于收入減成本,如果只看收入或者只看成本的話,評估結果可能就是非常不全面的,所以解決方案就是你把所有有意義的可以解釋的變量都放入子集里面,根據子集的總量對總模型貢獻來進行排序。要構建一個比較有意義的或者是可解釋的子集。這是一個關于線性模式的解釋。
用模型評估風險,無處不在
對于前面說的非線性的模型,神經網絡怎么做的,方法就和線性模型不太一樣,神經網絡并非依賴于線性的模型,也不是說隱藏節點有很多層,可以是單層的。在這里面輸出模型,必須要決定輸入量是什么,有兩種方法來決定:第一種就是把每個子集的變量全部設置為平均值,如果所有都是平均值的話,新的量要怎么處理,要把新的變量和平均值進行比較,這樣的子集會對總分產生一個非常大的變化,可以根據總分變化來排名,這是我們今天用得比較多的模型;或者也可以用單獨的模型,每次可以一次刪除一個子集,之后構建一個單獨的模型,然后再根據單獨的模型進行評分,然后再來看在子集里面,哪個變量會產生最大的對于模型變化量的最大的貢獻,然后對此進行分析。
我們之前講了信用風險,除此之外還有其他領域的風險應用,最早是在保險方面用得最多。在七八十年代分析客戶風險,你可以知道保險公司在這里面有非常多的應用,有一個人寫了一本書《醉漢走路如何影響我們的生活》非常好地描述了風險應用。再比如說電信網絡方面,怎么樣減少風險、評估風險,電信網絡會不會有一些故障等等,根據一些標簽很少的數據集,我們用無監督的學習方法來評估里面的風險,所以說在這里面必須要構建一個比較好的模型。我們現在也用人工智能去解決,比如說網絡安全等等方面的問題,比如說黑客攻擊等等,必須要做一些滲透測試以及怎么從網絡當中提取信息,這些都是我們做風險建模的時候可以做非常多貢獻的地方。技術問題非常有意思,有的時候數據沒有做標簽,你不知道網絡是否被入侵了,我們要做平衡,有標簽和無標簽,有監督和無監督必須要有一個平衡。我們一直講深度學習,有一個朋友領導了一個團隊,他們在社交媒體上很有名,他們的很多視頻、音頻或者說圖像,有的時候一些內容不太健康,黃色內容或者說暴力內容,他們的挑戰在于說要用人工智能來識別這些視頻,一旦視頻上線的話,這會影響到他們的聲望,因此他們用深度學習機制來識別這些視頻圖像。他們建立了這樣一個數據庫,數據庫里面都是不健康的上傳內容,利用數據庫來對人工智能進行訓練。
* 作者系美國費埃哲(FICO)原首席科學家;大數據進行風險決策領域的世界級領軍人物。擁有超過20年的分析,模型,數據挖掘,機器學習的經驗。早年作為核心建模成員,開發了美國費埃哲(FICO)的Falcon反欺詐系統(目前在北美市場有接近100%占有率)。擁有美國費埃哲12年履職經歷,曾歷任研發中心高級副總裁(領導了年銷量超過1億美元的反欺詐類產品線的研發和產品化);首席科學家(領導費埃哲研發部,推動新興領域基于數據模型進行決策管理的創新,建立了費埃哲的核心知識產權庫)等核心職位。并在信用風險,反欺詐,營銷,數據傳輸等領域擁有超過20項核心技術專利。Milana擁有康奈爾大學(Cornell University)的本科,以及紐約州立大學石溪分校(Stony Brook University)的博士學位。
● 本文由智慧金融研究院、拍拍貸授權;原題方向為“風險信用模型的歷史和展望”,為最大程度保障文本精華、原意,以及閱讀需要,本刊僅做題目及內容分層進行編輯。