解旭東,虞立戎,吳在華,黃 玲,梅新芝,陳 森
(1. 中化國際(控股)股份有限公司, 上海 200126;2. 上海說以科技有限公司, 上海 200120)
大數據風控是風險管控和互聯網大數據技術的結合,是一種新型風控管理模式,近幾年大數據在各個領域得到了快速發展,但由于中國征信體系的不完善,給企業特別是化工行業的賒銷體系帶來了較大的風險,因此建立一個有效的新型風控體系是十分必要的。化工企業是基礎性工業企業中十分重要的一種,其交易對象包括多種細分行業。化工行業因其實體制造業的特點,導致信用風控相對金融等行業比較傳統。隨著經濟和社會信用交易的發展,化工行業的信用交易越來越多。由于化工交易自身的單次交易額比較大、上下游供應鏈企業參與較多,從而導致信用風險逐漸提升。因此對信用風險進行防控已成為現代化工企業正常運營與發展的重點關注問題。
為了實現對信用風險定義的精準界定,需要對信用含義進行深入了解。信用是指受信人與授信人之間建立契約關系,確保自身的本金能夠滿足回流和增值的要求。信用風險包括個人信用風險、商業信用風險、投資信用風險、銀行信用風險以及國家信用風險幾種類型[1]。企業的信用風險傳導主要是指借助于相應載體,對企業內外部環境中所蘊含的風險進行釋放,將其傳遞至企業各類業務流程中,導致企業的經營發展偏離預先設定的目標,進而對企業的運營效率造成損傷[2]。基于外部層面進行審視,企業信用風險的傳導過程實際上也是風險源的釋放過程。大數據是指在劃定的時間和空間范圍內把大量的、多樣的、復雜的、混亂的、有價值的數據使用新工具和方法高效的對這些數據進行搜集、整理、分類、提取和分析,從而生成企業需要的信息。目前國內化工行業還沒有建立起統一適用并且完整的征信體系,而行業的信用賒銷比例較高,所以建立一個完善的信用風險體系至關重要。關于信用風險的研究主要是采用信用評分卡模型進行評估。評分卡模型具體是指首先利用已經收集的數據,評估出客戶的信用、營業額、凈利潤率、賒銷額、支付能力等指標,對指標進行劃分,說明各個等級的重要性程度,然后計算各個等級的權重,最后根據權重計算我們需要的客戶信息等級[4]。
BillFair 與EarlIsaac 在1956 年創立了第一個商業化信用評分系統FICO,之后,Myers 等[5]采用判別分析和回歸分析法,將評分系統運用到消費者信用領域;OrglerSrinivasan 等利用模型對信用風控進一步研究。隨著技術發展,機器學習被引入信用管理系統,最早的是Angelini 等[6]運用人工神經網絡設計信用風險模型,Bequé 等[7]運用最近提出的人工神經網絡的極限學習算法(ELM),被證實非常方便且預測精準度高,在信用風險建模領域有很高價值。過去的信用風險方法在分布、線性等方面有嚴格的假設條件,使該方法在互聯網快速發展的時代難以適用。
風險識別是風控的基礎,在充分了解對方的基礎上才有科學準確的風控。風險識別包括交易的全過程,目前使用比較多的是評分卡模型[8],我們使用模型可以匯總各部門業務和數據,并與業務專家一起確定通用模型的輸入指標和權重,確定通用模型的數據源,制定個體公司的綜合評分模型,為交易對象畫制一個360°畫像。
信息挖掘是信用風險監管過程中,借助大數據的作用有效實施的最重要環節。通過構建信用風險評價模型確定評價指標如財務指標、交易數據、信號數據、公司信息、宏觀經濟、負面信息等,力爭綜合全面的挖掘出交易對象的具體信息,可幫助公司決策者科學地識別和判斷風險與機遇,最終做出最合適的決策[9]。具體分為3 個模塊,第一、客戶基本信息模塊:個體客戶信息是區別于其他客戶的基礎。通過公開渠道、第三方渠道、行業協會、管理機構等收集客戶的個人信息,借用財務系統收集客戶的商業信息、借還款信息,利用政府數據網絡收集公信信息等對客戶的信用風險進行分析。第二、信用風險評估:可細分為風險評估、破產違約、交易價值、業務員評價四部分,在交易前可以運用已經收集好的數據,進行基礎風險和破產違約的評估,初步判斷風險,在交易過程中根據交易價值進行事中風險評估,在事后統籌之前的評估并結合業務員的評價進行全面的風險評估。第三、風險預警模塊:通過對交易對象的相關風險數據的監測和結合企業自身情況,設定風險觸發信號與閥值,繼而利用數據自定義配置風險監控指標,接受到風險后,決策者根據實際情況進行決策并記錄下風險處置措施。
在大數據指標構建完整的基礎上,建構相應的自動化決策模型與風險監控預警模型,核算風險層次,為決策者提供適當的信用信息。通過對客戶的信息進行整理和評估,以生成的評估資信報告為基礎,根據事先設置好的模型,對客戶的信用風險進行實時監控,從而及時準確的衡量客戶的風險等級。
數據的真實性和數據的完整程度會影響模型生成不同的評估結果。我們在評估工作中使用的信用風險評估模型,只是純理性的結果,故如果要不斷提高信用風險評估模型的準確度,必須要求公司盡可能的收集到模型所需要的全部數據,并對其真實性進行去偽存真,從大量數據中提取到有效的數據特征。
雖然評分卡模型已經應用到很多領域,但該模型內含有很多維度,導致在應用過程中可能會過于復雜。我們完全可以根據化工行業自身的特點和個體公司的需求,挑選出有效的部分變量,然后將需要的數據轉化成標準的信用評分。
與傳統評分卡模型相比,機器學習方法不僅對信用風險評估的準確度更高、更全面,而且對信用風險評估的統計假設條件也較寬松。如最新的XGBoost 算法,預測結果比傳統評分卡模型表現更為出色,使得信用風險評估具有更好的可解釋性和可操作性。
數據質量主要體現在完整性、一致性、準確性、及時性等方面[10]。真實數據可以直接影響到信用評估的結構是否可行。一方面,構建以政府為支柱、輔助以社會各方的力量,共建大數據庫。我們知道,政府在中國是社會公信力的代表,必須要求政府完善監管標準和監管方法,提供最廣泛和最有公信力的數據。另一方面,隨著互聯網技術的發展,應加強各地區、各部門與社會各方力量的信息實時互通,因為社會各方力量涉及各個領域信息。故構建完善的基礎征信體系,就必須得從源頭提高合作公司信息的真實性和準確性。
對于內部數據,第一步要做的就是改變之前區塊分割、部門分開的風險管理體系,使用統一標準,鏈接交易前、中、后的數據。對收集到的外部數據,鑒于數據鏈條繁多和差異較大,就需要一起協商,共同推進數據標準制定。從交易開始到交易完成,由于各種可能情況的出現,導致信息變更,這就需要在統一標準下,對數據進行實時更新,盡量減少因數據分歧和遺漏所造成的誤差。
在信用評估和風險預測中,很多信息涉及顧客隱私,如果不加強監管就會導致數據泄露。對于各種內外部數據,要嚴格注意合規使用,涉及客戶隱私的數據要先脫敏再以產品或服務的形式進行使用或輸出,既不丟失數據分析價值,又不會觸犯國家法律。最后,加強數據安全管控包括建立客戶信息保護機制和防范內部人員操作風險,也包括加強技術安全體系建設,防范外部非法竊取風險,加強對日常管理及系統運行進行密切監控,有潛在漏洞時及時修復,加強物理硬件的安全,保證在數據的收集、整理、分類、處理、存儲等環節都沒有失誤。