曾凡祥

模型一定是基于業(yè)務(wù)的,首先介紹攜程的業(yè)務(wù)情況,即本文所提及模型的實(shí)際應(yīng)用場景。攜程金融主營業(yè)務(wù)有三大模塊:消費(fèi)金融包括消費(fèi)分期(拿去花)和現(xiàn)金分期(借去花);信用卡;供應(yīng)鏈金融。模型亦是基于完善的技術(shù)平臺(tái)的,攜程金融數(shù)據(jù)中臺(tái)可以抽象為三個(gè)層次,底層是基礎(chǔ)數(shù)據(jù)層,中層業(yè)務(wù)抽象模型層,以及最上層的算法模型層。
攜程金融大數(shù)據(jù)中臺(tái)的抽象結(jié)構(gòu)
中臺(tái)這個(gè)概念早期是由美軍的作戰(zhàn)體系演化而來的,技術(shù)上所說的“中臺(tái)”主要是指學(xué)習(xí)這種高效、靈活和強(qiáng)大的指揮作戰(zhàn)體系。比如電商領(lǐng)域,經(jīng)過十幾年的發(fā)展,組織龐大而復(fù)雜,業(yè)務(wù)不斷細(xì)化拆分,也導(dǎo)致野蠻發(fā)展的系統(tǒng)越來越不可維護(hù),開發(fā)和改造效率極低,也有很多新業(yè)務(wù)不得不重復(fù)造輪子,因此業(yè)界誕生了不少知名中臺(tái)系統(tǒng),最著名的是阿里云的數(shù)據(jù)中臺(tái)建設(shè)。在攜程金融內(nèi)部,大數(shù)據(jù)中臺(tái)的目標(biāo)是為了解決效率問題,同時(shí)降低創(chuàng)新成本。
中臺(tái)的目標(biāo),是減少溝通成本,提升協(xié)作效率。中臺(tái)的實(shí)現(xiàn)手段:制定標(biāo)準(zhǔn)/規(guī)范、提供高可用數(shù)據(jù)/算法/應(yīng)用服務(wù)、提供統(tǒng)一、標(biāo)準(zhǔn)的數(shù)據(jù)研發(fā)工具。中臺(tái)的原則:數(shù)據(jù)資產(chǎn)的集中管控,分布式執(zhí)行。攜程金融的數(shù)據(jù)中臺(tái)收集了包括攜程OTA整個(gè)生態(tài)環(huán)境數(shù)據(jù),框架的最底層是計(jì)算與存儲(chǔ)資源層,其上是數(shù)據(jù)準(zhǔn)備層,融合多數(shù)據(jù)源,并對(duì)其做了抽取、清洗,能夠提供在線與離線的服務(wù),使其能夠?yàn)橛脩舢嬒瘛⑻卣饕嫣峁┗A(chǔ)數(shù)據(jù),并應(yīng)用于模型算法。基礎(chǔ)數(shù)據(jù)、用戶畫像、特征集市、模型服務(wù)這些內(nèi)容以數(shù)據(jù)資產(chǎn)的形式來管理。基于這些數(shù)據(jù)資產(chǎn),可以為各個(gè)業(yè)務(wù)線——獲客、準(zhǔn)入、經(jīng)營、留存的全生命周期提供各種服務(wù)。
攜程金融大數(shù)據(jù)中臺(tái)全景
消費(fèi)金融的風(fēng)險(xiǎn)大體可分為可控風(fēng)險(xiǎn)及不可控風(fēng)險(xiǎn),算法能解決的主要是可控風(fēng)險(xiǎn)。可控風(fēng)險(xiǎn)包含欺詐風(fēng)險(xiǎn)、信用風(fēng)險(xiǎn)及作業(yè)風(fēng)險(xiǎn)。其中,欺詐風(fēng)險(xiǎn)指的是客戶在發(fā)起借款請(qǐng)求時(shí)即無意還款,按照人數(shù)可以分為團(tuán)伙欺詐和個(gè)人欺詐,欺詐者往往通過偽造身份信息、聯(lián)系方式信息、設(shè)備信息、資產(chǎn)信息等方式實(shí)施欺詐;信用風(fēng)險(xiǎn)指的是借款人因各種原因未能及時(shí)、足額償還債務(wù)或銀行貸款而違約的可能性。不可控風(fēng)險(xiǎn)包括市場風(fēng)險(xiǎn)、實(shí)質(zhì)風(fēng)險(xiǎn)及名義風(fēng)險(xiǎn)。
風(fēng)控模型貫穿獲客、準(zhǔn)入、經(jīng)營、逾期的整個(gè)客戶生命周期,根據(jù)用戶生命周期的不同階段,可將風(fēng)控模型分為貸前信用風(fēng)險(xiǎn)模型、貸中行為風(fēng)險(xiǎn)模型、欺詐檢測(cè)及貸后催收模型。事實(shí)上,抓住信貸審批管理就能控制80%的風(fēng)險(xiǎn),一旦用戶獲得授信,后續(xù)的管理只能控制20%的風(fēng)險(xiǎn)。除此之外,貸前、貸中、貸后不同場景,可以從不同的觀測(cè)粒度進(jìn)行建模與抽象。
拿攜程金融的業(yè)務(wù)來講,可以從每一筆交易角度來看,也可以從攜程生態(tài)中用戶賬戶來看,也可以從自然人概念為核心的客戶級(jí)別來看。一個(gè)自然人客戶與賬號(hào)可以是一對(duì)多的關(guān)系,一個(gè)賬號(hào)與交易也可以是一對(duì)多的關(guān)系。
攜程金融風(fēng)控模型體系
如今在銀行、消費(fèi)金融公司等各種貸款業(yè)務(wù)機(jī)構(gòu),普遍使用信用評(píng)分,對(duì)客戶實(shí)行打分制,以期對(duì)客戶的風(fēng)險(xiǎn)水平有一個(gè)準(zhǔn)確的判斷,并作為風(fēng)險(xiǎn)定價(jià)的重要手段。行業(yè)內(nèi)常用的是ABC三張?jiān)u分卡。A卡、B卡、C卡分別表示:申請(qǐng)?jiān)u分卡(Application Score Card),行為評(píng)分卡(Behavior Score Card),和催收評(píng)分卡(Collection Score Card)。
A卡? 在獲客過程中用到的信用風(fēng)險(xiǎn)模型。從模型的角度來看,它會(huì)對(duì)用戶未來一定周期內(nèi)的逾期風(fēng)險(xiǎn)作預(yù)測(cè),即模型會(huì)在用戶授權(quán)的情況下收集用戶多維度的信息,以此來預(yù)測(cè)逾期概率。預(yù)測(cè)的逾期概率被用于風(fēng)控策略或者轉(zhuǎn)換成信用評(píng)分,比如國外經(jīng)典的FICO評(píng)分,國內(nèi)的螞蟻信用評(píng)分、京東小白評(píng)分、攜程金融的程信分等。A卡評(píng)分除了用于決定是否通過用戶的信用申請(qǐng),還用于風(fēng)險(xiǎn)定價(jià),比如額度、利率等。
B卡? 行為評(píng)分是指,用戶拿到信用額度后,模型根據(jù)用戶的貸中行為數(shù)據(jù),進(jìn)行風(fēng)險(xiǎn)水平的預(yù)測(cè)。本質(zhì)上講,這個(gè)模型是一個(gè)事件驅(qū)動(dòng)的模型,在互聯(lián)網(wǎng)金融領(lǐng)域,一般會(huì)比A卡的預(yù)測(cè)時(shí)間窗口要短,對(duì)用戶的行為更為敏感。B卡除了可以用于高風(fēng)險(xiǎn)用戶的攔截,也可以作為額度、利率調(diào)整的重要參考因素。
C卡? 催收評(píng)分會(huì)判斷,例如當(dāng)用戶出現(xiàn)逾期時(shí),機(jī)構(gòu)應(yīng)該先催誰,或者哪些用戶不用催,就自動(dòng)會(huì)把錢還回來。催收模型一定程度節(jié)約催收成本,提高回催率。
貸前主要解決用戶準(zhǔn)入和風(fēng)險(xiǎn)定價(jià)問題,即面對(duì)一個(gè)新申請(qǐng)的進(jìn)件用戶,判斷用戶是否符合產(chǎn)品的放款條件及相應(yīng)的放款額度、價(jià)格、期限等問題。主要包括三類問題:反欺詐識(shí)別:根據(jù)用戶提交的材料進(jìn)行身份核實(shí),確保用戶不存在欺詐行為;信用評(píng)級(jí):與傳統(tǒng)銀行的信用評(píng)分卡原理類似,數(shù)據(jù)維度更加豐富,綜合用戶的社交數(shù)據(jù)、行為數(shù)據(jù)、收入數(shù)據(jù)等,判定用戶的信用風(fēng)險(xiǎn)等級(jí),評(píng)估用戶的履約能力;風(fēng)險(xiǎn)定價(jià):根據(jù)用戶的負(fù)債能力和收入穩(wěn)定性,判斷用戶可承擔(dān)的月供金額,確定用戶的放款額度、償還期限等,并根據(jù)用戶風(fēng)險(xiǎn)等級(jí)確定用戶的費(fèi)率。這三個(gè)問題往往是互相影響、互為前提的。舉個(gè)簡單的例子,對(duì)一個(gè)月收入3000元的用戶來說,月供在1000元左右,用戶可能履約良好,信用等級(jí)良好;但如果月供提高到4000元,嚴(yán)重超出了其收入水平,即便不是有意欺詐,也可能出現(xiàn)斷供的情況,從而得到比較差的信用等級(jí)。
攜程金融在(A卡)上的演進(jìn)和創(chuàng)新
A卡建模目前包括如下幾方面:確保策略的一致性,盡量減少人工干預(yù),并利用機(jī)器學(xué)習(xí)的優(yōu)勢(shì)提升決策效率;準(zhǔn)確反映并量化用戶的風(fēng)險(xiǎn)級(jí)別,策略人員可以控制和減少風(fēng)險(xiǎn)損失,因此對(duì)評(píng)分卡等級(jí)的排序能力、穩(wěn)定性要求會(huì)比較高。
好壞用戶定義,可能是A卡及大部分風(fēng)控模型的最基礎(chǔ)最核心的工作。對(duì)樣本標(biāo)簽的定義,需要與實(shí)際業(yè)務(wù)場景、策略目標(biāo)相一致,并綜合考慮不同定義下的樣本量。比如在現(xiàn)金分期場景中,可以畫一下用戶回款率(或者滾動(dòng)率)和逾期天數(shù)趨勢(shì)分布曲線,用戶逾期N天以后回款率或者滾動(dòng)率便已經(jīng)趨于穩(wěn)定(梯度平穩(wěn)),則可以N天以上逾期作為篩選壞樣本的依據(jù)。在某些場景下,如曾經(jīng)的Payday Loan,由于整個(gè)業(yè)務(wù)周期只有半月或1個(gè)月,為加快模型迭代速度,有時(shí)甚至?xí)x7+甚至1+逾期用戶為壞客戶。在一些銀行場景中,出于壞賬計(jì)提考慮,可能定義90天以上逾期為壞客戶。總之,好壞用戶的定義不能單純靠人工經(jīng)驗(yàn),應(yīng)該以場景的數(shù)據(jù)為基礎(chǔ),進(jìn)行數(shù)據(jù)分析之后確定。
下面介紹關(guān)于樣本規(guī)模與算法演進(jìn)。攜程金融的業(yè)務(wù)最早開始于2015年,模型進(jìn)行了多個(gè)版本的迭代。業(yè)務(wù)初期,樣本數(shù)據(jù)量極少,往往根據(jù)相關(guān)業(yè)務(wù)經(jīng)驗(yàn)確定使用的特征和規(guī)則;隨著數(shù)據(jù)的慢慢積累,開始采用部分精細(xì)特征,使用簡單的機(jī)器學(xué)習(xí)算法訓(xùn)練;當(dāng)樣本數(shù)據(jù)量積累到百萬級(jí)以上,我們嘗試采用神經(jīng)網(wǎng)絡(luò)算法進(jìn)行特征自動(dòng)提取或者end-to-end的風(fēng)控模型訓(xùn)練;從2018年上半年開始,我們升級(jí)到更加先進(jìn)的遷移學(xué)習(xí)體系,未來會(huì)持續(xù)落地更多的前沿算法。總之,攜程金融的風(fēng)控模型優(yōu)化的過程,實(shí)質(zhì)是緊隨著業(yè)務(wù)從無到有、從小到大,數(shù)據(jù)量由少變多,特征由粗到細(xì),模型由簡單到復(fù)雜,效果由一般到突破的過程。