馮梅秀
(江蘇蘇寧銀行股份有限公司,南京 210000)
近年來,隨著社會經濟的發展,小微企業也發展迅速,不僅促進了經濟發展,還對就業、國家稅收發揮了重要作用。與此同時,小微企業在發展過程中面臨著技術滯后、信息阻隔、人力缺失等制約因素。在融資過程中,由于規模、資質、場地等受限,融資難是貫穿小微企業生命周期的一大難題。隨著互聯網經濟快速發展,運用線上平臺進行融資以及靈活的網絡借貸方式被越來越多的小微企業接受。
根據2019 年的統計數據,我國小微企業融資90.3%用于日常經營,73.1%用于擴大規模,46.2%用于開發新產品和新技術。在小型或個體工商戶中,63.1%的資金用于擴大規模,53.1%用于日常運營,17.5%用于開發新產品和新技術。可以看出,小微企業融資主要是為了進行生產運營、維持日常經營和提高生產效率,這些貸款資金大都流入了實體生產[1]。
目前,我國小微企業已達10 140 萬戶,其中,企業2 640 萬戶、個體工商戶7 500 萬戶。這占據目前實體經濟市場主體的90%,為全國80%的就業、70%的專利發明和60%的國民生產總值作出了巨大貢獻[2]。
但相關資料顯示,截至2018 年,貸款戶數中小微企業有1 723.23萬戶,80%以上的企業未能獲得融資服務[3]。近年來,隨著國家政策的支持和科技金融水平的提升,各家銀行在鞏固既定核心客戶的基礎上,開始關注線上小微業務風控技術的開發和運用。各家銀行主推的幾款基于小微企業大數據風控的產品主要包括以下幾類:以政府部門數據為主的江蘇銀行的“稅E融”產品、以行內積累的客戶數據為主的小微“快e 貸”產品,以及以大數據風控為主的微眾銀行的“微業貸”產品等。
線上產品的落地需要大量的數據支持,小微企業線上數據主要包括以下幾類:①基于政府部門的數據,如在稅務局繳納的稅務數據、在工商局注冊的工商數據、在國家電網部門繳納的電費數據;②政府部門名下公司加工的數據,如發票數據(發票數據是由航信和小望科技兩個企業開發的,主要體現在航信科技和小望科技方面)、司法數據(主要體現在企查查數據中);③特定場景下的數據,如美團等;④外部黑名單數據,主要是各數據公司搜集的各項數據,如冰鑒、融慧、百融等[4]。
下文以某一特定場景中的小微企業數據為例,運用機器學習①機器學習是一類算法的總稱,這些算法企圖從大量歷史數據中挖掘出其中隱含的規律,并用于預測或者分類。更具體地說,機器學習可以看作尋找一個函數,輸入的是樣本數據,輸出的是期望的結果,只是這個函數過于復雜,以至于不太方便形式化表達。需要注意的是,機器學習的目標是使學到的函數很好地適用于“新樣本”,而不僅僅是在訓練樣本上表現很好。學到的函數適用于新樣本的能力,稱為泛化能力。模型模擬特定場景下小微企業風控模型的算法并得出風控評分模型。
在具有發票數據的場景模式下,選取10 000 戶表現樣本數據,以違約率(PD)大于等于90 天以上的客戶為壞樣本,選取了300 個壞樣本,以超樣本模式進行違約率計算,計算結束后再還原至正常情況下的違約率數據。在數據樣本選擇過程中,需注意避免季節性因素影響,擁有足夠長的表現期,時間段的選擇可以代表未來所有正常申請人。
建模流程如圖1 所示。邏輯回歸是機器學習模型中最基礎也最實用的一種方法,其原理主要是根據一個二分類或多分類問題而得到的函數公式。在多元回歸基礎上,對似然函數取對數后,對β求導數,列方程求β值,從而得出最終模型計算公式:

圖1 建模流程


根據上述10 000 個樣本數據,按照不同行業的標簽分類,選取了3 個行業大類分別建模,包括批發零售業、制造業和其他行業,以批發與零售業為例,該行業好壞樣本對比結果如表1所示。

表1 批發與零售業好壞樣本對比
不同行業的好壞客戶占比及分數區分呈現不同的特征,這說明以行業為標準篩選的數據符合要求,接下來筆者又對不同行業的模型結果表現進行了分析,3 個不同行業的KS(經分布檢驗)、AUC(曲線下面積檢驗)均達到了模型表現的要求,結果如表2 所示。

表2 不同行業數據對比
從整體的KS 表現(見圖2)來看,整體KS 達到了0.453,滿足數據統計的要求,該模型結果可以采用。

圖2 整體KS 表現
根據上述機器學習模型結果,我們得出了不同行業的客戶表現數據及評分模型結果,以此模型結果為核心,計算不同行業項下客戶的準入分值,并在區分各行業不同周轉率的情況下測算額度模型公式。不同行業準入分數及資金周轉額度需求情況如表3 所示。

表3 不同行業準入分數及資金周轉額度需求
風控模型的搭建是線上產品的核心和基礎,但同時需配備產品流程設計、資金運營流程設計、反欺詐甄別、貸前貸中貸后管理等多渠道、多維度手段,本文僅以風控模型搭建為源頭,暫不展開論述。
商業銀行在開發線上產品的過程中,主要希望運用線上模式突破線下網點的限制,但由于模型專業人員不足且穩定性不強,從而采取服務外包或者階段產品合同制模式,交由外部機構承接模型方面的各項工作,包括模型開發設計和迭代,但存在以下幾個方面的問題:①服務外包模式僅為某個階段的工作代辦,一旦工作結束后,仍需要相關人員進行產品維護和迭代,而外包機構已撤出工作,無法及時跟進產品上線過程中出現的各項問題,也不能及時解決,若產品上線過程中的問題不能及時解決,則存在上線后逾期率過高或者其他意外事項,這不僅在時間上拖延了項目的開展進度,還增加了項目的開發成本;②外包機構一般為乙方服務類公司,所開發的產品并不能很好地與各家商業銀行的產品定位和風險容忍度掛鉤,與市面上同類型的產品存在很大的同質性,而線上產品的開發過程需要結合長期歷史數據和各項產品定位進行開發,這在一定程度上無法實現各家銀行的不同業務目標;③目前在監管上對第三方服務機構的權責機制并不完善,一旦外包模式產生風險,大都由各家銀行自行承擔,這在一定程度上加大了各家銀行的風險。綜上,各家銀行應結合自身情況建立自有獨立的模型團隊,培養自有專業技術開發人員,這樣不僅能保證產品順利上線,還能提高產品的市場競爭力,防范外包風險。
目前,各家銀行的數字化轉型工作正在開展過程中,存在的問題包括數據資源的收集不足、數據的加工和使用需進一步完善、數據的積累和保管需加強支持。建議其做好以下幾點:①做好數據的采集工作。數據采集是開發線上產品的第一步,也是關鍵的一步,各家銀行開發線上融資產品不僅需要掌握模型所需的企業、企業主數據以及三方驗證的數據源,還需要人行征信等數據,在引入數據的過程中,大數據部門需切實做好數據的落地存儲工作,確保數據的真實性和有效性,以便客戶在申請過程中能真實調用外部數據源,做好企業或企業主的身份識別和驗證工作。②做好數據存儲和加工。目前,各家銀行均建立了大數據部門,對于數據存儲工作越發重視,但在實際操作過程中仍存在基礎工作不扎實、海量數據存儲空間小、批量數據獲取功能弱的問題,這主要是由于各銀行的資源匹配不及時、數據處理更新慢等,因此需加強資源的匹配,確保大數據的質量可控有效。③做好數據挖掘、處理等工作。鑒于線上產品的特殊性,銀行面臨欺詐、攻擊等風險,因此對更新迭代的要求很高,產品上線后需及時更新迭代,結合市場風險和申請人群特征及時更新產品性能,不斷打磨數據,做好模型的更新迭代工作[5]。
小微線上產品對市場的變化要反應迅速,并能更好地貼近申請客群的變化,這就要求模型上線后進一步加強模型管理工作。①模型工作需要梳理一整套管理流程,包括模型開發、上線、迭代、監控等流程管理,設置管理目標和監控指標。根據行業內的監控標準和業務目標,一般來說,設置模型上線的標準為AUC 檢驗達到75、KS 檢驗達到40(根據實際情況可調整),上線后的監控指標選擇逾期率和不良率等指標進行篩選。②模型人員必須與指定項目掛鉤,針對不同的項目配備專業的模型監控和迭代人員,定期披露業務目標和風險數據,確保項目風險在可控范圍內,如果風險數據超出預警值或存在其他不可控風險,應及時上報管理層。③做好模型監測工作。產品上線過程中,需滿足必要的測試條件方可上線,上線后需及時監測,確保各項監控指標合理合規,評價不同產品有效的指標主要是上線后的逾期率和不良率,根據逾期不良數據定期通報產品風險,并根據不良數據及時更新模型,確保產品上線后的風險可控。