張強
摘要:當前國內征信行業的數據評分產品領域存在著產品質量良莠不齊,產品標準不統一、概念混淆等問題。本文從評分產品全流程(數據采集、數倉建模、機器學習、數據評分產品應用)來探討此問題產生的原因,并給出一定的管理建議。整體上目前存在著核心信貸數據采集不到位,數倉建模不成體系,機器學習模型過于泛濫等問題。建議回歸征信的本質,加強制度建設,同時發放多張征信牌照,引入市場化機制推動問題的解決。
關鍵詞:數據,概念,模型,制度
筆者從2015年一直在征信行業數據評分領域工作,見證了國內征信行業評分產品的發展。當前征信行業各種概念層出不窮,為了便于表述清晰,現將文中討論的概念提前說明。
文中提到的征信行業評分既包括傳統的信用評分,也包括傳統信用評分的有效補充大數據評分,兩者的定義如下:信用評分是基于對個人信用檔案的等級分析的數字表達式,代表個人的信用度。信用評分主要基于信用報告,信息通常來源于信用局;大數據評分是一項基于云的服務,讓消費者貸款機構通過使用大數據提高貸款質量和接受率。
數據評分產品的產生整體上分為數據采集、數據倉庫(基于數據模型構建、實施數據倉庫)、數據建模(機器學習模型)、數據產品等環節。
一、征信行業數據評分產品存在問題
1. 數據采集不到位
1)信用數據采集不全
一個良好的數據評分產品需要有覆蓋率高、數據質量高的數據源作為支撐,否則數據評分產品的質量很難做好。過去數年,部分企業打著“互聯網金融”、“助貸”名義,實際從事著信貸業務。相關信貸數據既不共享給央行旗下征信中心也不共享給個人征信持牌公司。導致市場上沒有一家數據機構能夠采集覆蓋銀行、消金、小貸、互金的信貸數據。這為數據評分產品帶來了嚴重的質量問題,例如某人在一家機構逾期了幾個月的貸款,但由于數據沒有共享到央行征信中心,基于央行征信中心做的數據評分產品可能會顯示用戶信用良好。不能如實反映用戶信用狀況。
2)隱私保護不到位
由于無法準確采集到用戶信貸數據,前些年國內對個人隱私保護相關法律制度不完善。市場上充斥了以大量機構以大數據評分名義,采集用戶資產、金融賬戶、互聯網訪問行為等數據,部分機構在數據采集上邊界做的不到位,導致大量采集用戶隱私數據。征信行業數據評分本來應當以信貸數據為主,大數據為輔,隱私數據的廣泛采集造成了“本末導致”,最終導致數據評分產品不穩定。
2. 數倉建模體系不完善
1)數倉建模缺乏理論與制度支撐
當前我國征信行業數倉建模更多的以數據驅動、應用驅動為主,例如能采集到哪些數據就先都采集過來,然后全部存儲。應用端需要哪些變量,數倉端就需要無條件支撐。缺乏理論支撐會造成只顧短期利益,不顧長遠需求。導致數據倉庫不穩定,進而導致上層數據模型不穩定,數據產品質量不穩定。
2)數倉團隊投入較少
數倉環節涉及數據質量,數據加工運轉效率等數據產品必須的要素。但在當前國內環境,對數倉的投入,無論是人力、物力上都遠遠不到位。高水平人才也不愿從事默默無聞的崗位,導致國內數據倉庫的質量良莠不齊。最終嚴重影響了數據產品的質量。
3. 機器學習模型泛濫
1)模型泛濫
一個好的征信行業評分產品需要有清晰明了的模型進行支撐,模型的本質要簡明、扼要。但國內目前存在著為了模型而模型的問題,為了獲取客戶,各種包裝模型。
2)不實宣傳
國內存在著宣傳不實的問題,例如宣稱評分完全是基于行為數據產生,但背后數據源確涉及很多信貸類數據。宣稱模型底層運用了數萬維度變量,但實際上可能僅僅是幾十維度。不實宣傳為模型的監管帶來了極大問題,也為應用場景的穩定性帶來了極大的隱患。
二、征信行業數據評分產品問題產生的原因
改革開放40余年以來,伴隨著市場經濟的發展,征信行業也經歷的從無到有,那么深刻的剖析征信行業數據評分產品種種問題產生的原因,將是我們做好評分產品的必要前提。
1. 制度缺失帶來評分產品開發全流程效率問題
成熟的市場經濟國家,例如美國有17部征信相關法案規范征信行業應該采集哪些數據,如何保護消費者隱私等。這些法案從制度層面規定了征信行業參與者的權利與義務。而我國由于征信行業剛剛起步,目前僅有《征信業務管理條》、《征信業務管理辦法》,在制度的建設上我們還任重而道遠。
制度缺失帶來數據采集、數倉建模、機器學習模型、評分產品應用等多個環節的不規范。
2 ?概念理解偏差帶來評分產品開發全流程冗余投入的問題
如果將一件事情做好分為規劃和行動兩方面的話,那么規劃往往占據的比例要更高一些。而對概念的定義、理解在規劃環節特別重要。如果概念理解錯誤,那么執行往往會跑偏。最終會產生行動環節與理想中的目標脫節嚴重,進而帶來整體效率的偏低。
一個好的應用,最終是需要有強大的數倉模型和機器學習模型的支撐的。這樣這個應用的生命周期會變成,才更容易形成長效機制。重機器學習模型,會導致過度的根據機器模型的短期效果或者有偏樣本形成的效果來指導數據倉庫的建設。這會導致數據倉庫的重復建設、冗余建設,最后會帶來整體鏈路的不穩定性。進而導致整體效益偏低。
例如,在當前征信評分、大數據評分領域,市場上可能充斥是幾百種評分,應用的機器學習模型“五花八門”,對數據需求需要也是多種多樣。最終的結果是數據倉庫層不穩定,模型效果也不穩定。整體的效益自然是偏低。
我國《征信業管理條例》頒發多年,各個銀行,各大互聯網機構依然會從外部采購多種數據,多種評分產品來輔助風控,部分銀行會與幾十家合作伙伴合作,評分產品的迭代周期也特別快。而部分發達國家,銀行只需采購1-2家的評分產品即可,且評分產品幾年不用迭代。
3 ?短期利益考核評分產品開發的資源錯配問題
1)短期利益考核帶來監管套利
重機器學習模型,輕數倉模型。還會帶來非常嚴重的監管套利。人們樂于引入稀奇古怪的概念來解決短期問題,但對長期問題、本質問題卻關注不夠。在當前我國計劃經濟與市場經濟并行的機制下,大家借助機器學習模型進行監管套利,混淆視聽。
例如在當前大數據評分領域,市場上大部分機構對外宣稱使用的是大數據(行為類數據),但背后使用的確是信用類數據。這個整個監管帶來極大的困難。
2)短期利益考核帶來的整體效率低下
從數據的采集,到數倉模型的構建,再到機器學習模型的構建,最后到最終應用是一個整體。當前各個應用場景一般以最終應用需求驅動機器 學習模型的構建,進而是數倉模型的構建。重機器學習模型輕數倉模型會帶來投入較大的人力、物力放在機器學習端,而較少的人力、物力放在數倉模型。最終導致機器學習模型特別復雜,甚至某些時候脫離實際生產。最終導致依據應用層模型需求重新開發數倉模型的復雜度和實施周期極高。最后會帶來整體效率的大幅偏低。
三、征信行業評分產品改革的原則
1 制度上對全流程進行規范:
建立一套從數據采集、數倉模型到機器學習模型再到最終應用的行業標準及相關制度。行業從業人員根據行業標準和制度展開業務。成熟的市場經濟國家有相關的制度來規定該采集哪些數據,數倉模型如何設計,機器學習模型(或類似)應當遵守哪些原則。相關法律條文可參考成熟的市場經濟國家,同時結合我國具體國情。
2 滿足本質需求原則
數據評分產品應該在不損害企業利益的基礎上盡可能滿足與企業相關的利益集團的真實需求,以便維持和發展這些利益集團對企業的貢獻和支持。以征信行業為例,征信的本質就是為授信機構或投資人的決策提供信息參考,是授信人或投資人之間的一種信息分享機制。在實際展開業務時,我們應當牢牢抓住這個本質。
四、我國征信行業評分產品改進建議
對現行征信行業評分產品的變革,一定要解決好繼承與發展的問題,要改革與數據應用環境不相適宜的部分,進一步與國際數據應用接軌。總的來說,對數據應用體系的改革應是一種揚棄,主要包括以下幾個方面:
1進一步加強征信行業評分產品理論研究
為數據評分產品的管理的改進提供堅實的基礎。從本質看,對理論的研究包含數據應用體系相關概念的定義,相關制度的理論支撐。相關概念的定義可由國家主管部門給出標準,定義需要用清晰、明了的語言做說明。概念定義好后,還需要在整個社會做出廣泛的科普。
在制度層面,相關主管部門可廣泛調研,結合我國國情,盡快的在細分領域推出法規制度。例如,在征信行業,各主要金融機構,需要長期、持續的做好征信相關概念的科普,讓老百姓對概念有清晰的認知。
2 進一步加強現有制度的落地執行
在征信行業,國家已經出臺部分制度,規定了采集哪些數據,如何高效應用,如何保護隱私等,但確保制度落地執行到位是重中之重。同時,在檢查過程中需要重點檢查部分企業執行中是否存在“監管套利”行為。
同時在執行層面,對底層勞動者要做到尊重。
參考文獻
[1]郭瑛琰,張舒倫。對我國通用個人信用評分產品開發的思考與建議.《征信》,2014.
[2]袁浩洲。基于用戶體驗的互聯網個人信用評分產品設計研究. 《華東理工大學》,2017.