武建奇,何 姝
(1.河北大學經濟學院,河北 保定071000;2.河北經貿大學馬克思主義學院,河北 石家莊050061)
互聯網貸款是一類利用互聯網及相關信息技術提供金融產品和服務的模式,從信用卡、現金卡到消費信貸,互聯網貸款正在以一種非常迅猛的勢頭在全國范圍內興起。互聯網貸款業務的不斷擴增,吸引了包括商業銀行、消費金融公司、電商在內的各類機構紛紛入市,客戶信用也隨之膨脹。為了能夠搶攻市場,精準快速識別客戶風險,互聯網貸款機構面臨嚴峻挑戰。
互聯網貸款的信用風險來源主要有延滯繳款和欺詐兩大類。發軔于商業銀行自身經歷經驗的信用評估打分體系,能夠針對客戶延滯繳款風險進行較為有效的識別和監控,已經在業內普遍運用并達到良好的效果。相比之下,由于互聯網貸款從營銷到借款人申請貸款,再到風控審核全流程均在網絡操作,不再進行線下調查,比傳統貸對客戶履約約束力款弱,因此易偽裝且識別難度更高,為騙貸者提供可乘之機,導致互聯網騙貸現象頻發,造成銀行等貸款機構的巨額損失和社會資源的浪費。
互聯網貸款欺詐又稱互聯網騙貸,是指在互聯網貸款活動過程中由于借款人惡意騙貸而可能導致貸款人發生經濟損失的行為。欺詐風險是互聯網騙貸最主要的來源,因此反欺詐是互聯網貸款必不可少的部分。已有文獻關于信貸業務欺詐風險的研究成果主要涉及兩方面:一是研究整個欺詐風險管理體系的設計,如黎江(2007)建議建立統一的欺詐風險管理平臺對銀行運營作業進行監測;張韋韋(2017)提出引進智能化反欺詐技術實現商業銀行信貸反欺詐智能化管理;羅夏蕾(2018)分析了花旗等銀行的外部欺詐風險防控體系,提出通過建立欺詐案件信息庫和資源共享機制提升銀行風險識別、評估能力。二是研究對欺詐風險進行測算或估計方法,如周銘(2007)改進BP 神經網絡通用模型,使其通過交易數據學習可以完成銀行卡欺詐交易偵測;楊璽(2008)討論了風險檢測試驗系統結構,認為在信用卡欺詐檢測中SVM 模型性能高于ID3+BP 混合模型。上述研究成果尚缺乏互聯網信貸欺詐風險形成機理研究,對欺詐風險估計主要針對信用卡業務且實施條件苛刻,不適用于互聯網信貸。李國義雖研究了互聯網金融中的信用風險形成機理,分析了信用風險從醞釀、累積到事故發生的全過程,但其研究成果沒有考慮互聯網騙貸欺詐風險形成環境的特殊性。
總結前人的研究成果,可以加深對互聯網貸款欺詐風險的認知,得以重新審視互聯網貸款風險管理及反欺詐的定位與價值。與傳統貸款業務相比,多數互聯網貸款機構直接生長于新的互聯網技術環境,比較接近對大數據資源的開發利用,可以依托大數據對互聯網騙貸形式進行調研,發掘出互聯網貸款欺詐特點,梳理出欺詐風險形成機理,繼而借助人工智能技術,結合互聯網貸款場景和數據進行精細化的反欺詐設計。
互聯網貸款業務欺詐風險主要來源于合作商戶和借款客戶,因此互聯網貸款欺詐風險包括商戶欺詐風險和客戶欺詐風險。
商戶欺詐風險是一種集中欺詐風險,一般出現在代付類互聯網消費信貸業務中,表現為兩種模式:一種是商戶本身是騙貸類機構,通過注冊空殼公司、構造虛假資料的方式騙取信貸機構的合作,然后召集專業騙貸從業者(以下簡稱黑產) 或者虛構借款人向信貸機構騙貸;另一種模式是商戶作為中介撮合騙貸,商戶提交的資質材料雖然都是真實的,但是已經淪為騙貸客戶的集合地,商戶和借款人共謀騙貸。這兩種騙貸模式雖然略有不同,但都屬于群體欺詐,在還款表現方面基本一致,都呈現了銀商合作開始后,大量涌入借款客戶,并在短期內集中出現客戶違約、失聯的情況。
客戶欺詐風險是指客戶自身的騙貸風險,是一種分散欺詐風險。線下傳統貸款業務中客戶欺詐風險較小,但隨著信貸業務從線下向線上遷移,客戶騙貸手段多樣,有兩種模式:一種是純個人騙貸,客戶本人有騙貸的想法,通過填報夸大的或是虛假的進件材料騙過信貸機構獲取貸款,其本質是個體欺詐風險;另一種是客戶在親友、老鄉的教唆誘導下盲從騙貸,呈現典型的“家族騙貸”網絡關系。這兩種騙貸行為的主謀都是客戶,與商戶無明顯的必然性,貸后多表現為客戶從首次還款賬期開始就拒不還款,后者還會呈現出社交網絡關系高度重疊的現象。
表1 列舉了互聯網貸款中常見的欺詐模式及其表現形式。

表1 互聯網貸款常見的欺詐模式及表現形式示例
一是隱蔽性強。傳統貸款業務是在線下場所辦理相關手續,信貸機構可以在現場查看是否借款人本人申請借款,可以通過盡職調查了解借款人的實力,欺詐風險易于暴露。互聯網信貸中,借貸雙方通過網絡交換信息,借款人隱藏不利于自己借款的各種信息,借貸雙方信息不對稱為欺詐客戶提供了庇護。
二是低頻高損失。互聯網信貸業務中欺詐行為發生概率低于非欺詐違約發生概率,但欺詐事件一旦發生,往往追償無果,造成貸款本金全額損失。例如某互聯網金融公司數碼分期消費信貸業務上線反欺詐模型之前,總違約率為11.6%,造成總損失1759 萬元,其中欺詐事件發生率為2%,造成了576 萬元的經濟損失;非欺詐違約發生率為9.6%,造成的損失為1183 萬元,欺詐發生率是總違約率的五分之一,但是卻貢獻了總損失的三分之一。
三是存在破窗效應。由于傳統信貸會進行線下調查,欺詐風險易于暴露和防范,因此外部欺詐行為通常是零星分散出現。互聯網信貸既無抵押又無擔保加上信息不對稱,欺詐成本大幅度降低,吸引了一些有欺詐意圖的客戶。這些客戶騙貸成功后,會鼓動親友或召集他人繼續騙貸,甚至投靠黑產經過包裝擴大團伙。
按照互聯網貸款欺詐來源和表現,可以把欺詐事件分為個體欺詐和群體欺詐兩類。個體欺詐的欺詐風險形成通常經歷欺詐醞釀、欺詐發生兩個步驟,群體欺詐的形成過程是一個由欺詐醞釀、欺詐發生、欺詐傳播構成的閉環。
欺詐醞釀是欺詐意圖萌芽到形成的過程。根據欺詐意圖形成時間可以將欺詐醞釀分為貸前欺詐醞釀和貸中欺詐醞釀。貸前欺詐醞釀是欺詐意圖形成于貸款合約簽訂之前,這種欺詐是主觀欺詐,借款人毫無還款意愿。貸前欺詐意圖有兩種情況:一種是借款人對互聯網貸款風控較為了解,知道互聯網貸款依托于便利性和低風控成本存活,認為貸款機構對欺詐風險識別能力不足,通過包裝申請資料可以很容易通過風控審查,并且貸款機構對騙貸案件貸后處置能力弱,即使自己違約也未必遭受懲罰,隨即萌生了欺詐意圖,并且在搜集目標貸款機構的進件材料和風控偏好的過程中,確認了目標貸款機構符合前期預測,欺詐意圖完全形成。另一種是借款人法律知識淡薄,對互聯網信貸產品和風控不甚了解,對違約懲罰亦不清楚,但看到周圍親友騙貸成功,認為有一種操作簡易、中介費低卻可以獲得大額現金的方式,在他人煽動下欺詐意圖不斷強化,決定效仿他人進行騙貸。貸中欺詐醞釀按照欺詐意愿形成的原因,也可分為兩種情況:一是借款人申請貸款的時候本沒有欺詐意圖,但是在申請貸款后由于財務狀況惡化,從而產生欺詐違約故意;二是借款人向多家信貸機構借款,借新債換舊債,在循環貸過程中,借款人明知存在無法借到新的貸款用于償還本次貸款的可能,仍然提交貸款申請,循環一旦打破,本次貸款欺詐醞釀就形成了。
欺詐發生是指借款人因欺詐心理而違約,導致信貸機構遭受經濟損失。如果說欺詐醞釀是借款人違約心理承受能力逐漸強化的過程,那么欺詐事件發生就是借款人將欺詐意圖付諸實踐的過程。在互聯網信貸業務中,各家信貸機構都會在貸款到期還款日前向借款人發出還款提醒,借款人此時會再次對自己的履約能力和違約后果進行評估,如果經過評估借款人違約心理承受能力不變或者更強,借款人就會真正的實施欺詐。
欺詐傳播是指借款人在實施騙貸不當獲利后向他人鼓吹騙貸,或者他人效仿借款人進行騙貸的過程。與傳統信貸多發生內外勾結騙貸不同,互聯網信貸中家族騙貸、區域騙貸的現象十分明顯,這主要是因為互聯網信貸欺詐傳播的途徑特殊有兩種:一種是親密聯系人傳播,這是典型的家族騙貸的傳播途徑。一個借款人騙貸成功后,會向親友推薦信貸產品,親友作為借款人經歷欺詐醞釀和欺詐發生;另一種是黑產數據共享,互聯網騙貸產業幾乎與互聯網信貸產業同時起步,經過幾年的發展,黑產也織出了一張信息網,黑產之間信息互通、數據共享,一家黑產騙貸實施成功后,會招來多家黑產入市。實際業務中欺詐傳播有兩個特點:一是欺詐傳播不具有方向性,通常是發散性的傳播,即借款人在可傳播范圍內不會指向性地選擇特定對象傳播,可能傳播給親人也可能傳播給同事或者同學,傳播給誰主要取決于雙方的親密度;二是欺詐傳播距離短,主要是親密的一度關聯人(自己直接可以聯系到的人),一般不會超過二度關聯人(一度關聯人的直接聯系人)。
個體欺詐要完成從欺詐醞釀到欺詐發生的過程,至少要具備以下三項條件:第一,信息不對稱。信息不對稱是欺詐意圖能夠付諸實際的先決條件。正是由于互聯網信貸采集到的借款人信息量和維度有限,借款人成了信息優勢一方,互聯網信貸機構成了信息劣勢一方,具有信息優勢的借款人就會利用這種優勢促成欺詐醞釀和欺詐發生;第二,借款人誠信觀念淡薄且缺乏自我約束力。我國誠信體制建設比較晚,對失信處罰制度尚不完善,講誠信的宣傳力度和普及程度也還不高,一些人誠信觀念淡薄,對失信后果了解不夠,為了一點蠅頭小利就無法自制;第三,信貸機構風控能力不足。欺詐意圖之所以能夠演變成欺詐事件,信貸機構應當認識到自身風控存在漏洞,現有風控能力有待提升。雖然互聯網信貸不再進行線下盡調,但是反欺詐工作仍不容忽視,盡管各家信貸機構都會詳細列出借款人申請貸款所需的進件材料,會對進件材料進行反欺詐審核,但是反欺詐工作不能固化,信貸機構需要跟蹤欺詐模式的變化,持續優化反欺詐模型,否則就易積累欺詐風險。
群體欺詐風險的形成,除了個體欺詐必備的三個條件外,還需要具有傳播途徑。傳播途徑的載體可以是電話,可以是工作單位,也可以是虛擬環境,只要可以讓借款人和關聯人產生交集的方法都能成為欺詐傳播的途徑。
互聯網貸款欺詐風險量化評估應著眼于欺詐風險的表現形式和形成條件,只有基于欺詐風險的表現形式設計量化評估方案才能有的放矢,只有基于欺詐風險的形成條件建立量化評估體系才能精準有效。
通過分析欺詐風險表現形式和表1,可以看出“構造虛假交易”、“中介撮合騙貸”、“黑產‘擼口子’”、“客戶本人騙貸”這幾種模式下,欺詐客戶信息都與正常客戶的行為痕跡不同,因此通過識別客戶個體與眾不同的行為,有助于信貸機構判定欺詐風險程度。通過表1,還能發現“空殼公司騙貸”、“構造虛假交易”模式下,欺詐商戶表現異常,因此對商戶行為痕跡的分析也應納入欺詐風險量化評估的范疇內。
通過分析欺詐風險的形成條件,必須盡可能的識別出風險形成條件成熟度,并加以破壞,才能最大限度的扼殺欺詐風險。這意味著信貸機構需要獲取更多更有效的金融數據、采用更先進智能的算法構建反欺詐模型和向借款人做好違約后果警示。在獲取更多借款人金融數據方面,信貸機構不僅要全面收集借款人的基本信息、資產信息、朋友圈信息、設備指紋信息,還應引進網絡征信以便了解借款人的共債情況和歷史還款記錄。在反欺詐模型優化方面,信貸機構既要識別客戶行為痕跡,也要審查商戶行為痕跡,還要考慮客戶的社會關系網絡,社交圖譜技術用于群體反欺詐是非常有效的。
綜上,在互聯網貸款欺詐風險量化評估中,應該以個體欺詐風險估計為根本,重點考察客戶資產、朋友圈、設備指紋、網絡征信是否存在異常。以社會關系圖譜為補充,看客戶親密關聯人是否有欺詐歷史,并用商戶行為痕跡輔助群體欺詐偵測。
建立互聯網信貸量化評估模型至少需要五個步驟:數據采集、數據探索、特征工程、模型訓練、模型測試與評估。
在數據采集階段,信貸機構要明確數據采集范圍和維度,在獲得客戶授權的情況下,盡可能全面的采集到客戶個人基本信息、運營商通話記錄、通訊錄數據、設備類型、物理地址、虛擬地址、網絡借貸數據,與此同時從人民銀行、法院、工商總局等多個數據源收集犯罪信息或不良記錄,然后將從客戶采集到的數據、公檢法等機構采集到的數據以及信貸機構自有交易日志等數據進行整合,形成一份維度廣、數據豐富的能夠全面反映客戶金融屬性的寬表。
所有采集到的數據到目前為止還是碎片化的,要想讓數據“說話”就需要對數據進行探索分析。信貸機構應建立數據集市,將采集到的數據按照呈現形式分為客戶信息、商戶信息、訂單信息、日志記錄等類別,按照金融屬性分為客戶基本信息、地址信息、設備信息、認證信息、征信信息等類別,按照時間將交易數據劃分為貸前材料、貸中數據、還款表現等類別進行統計,分析各個統計變量的分布情況,觀察是否呈現兩端異常分布特征、計算離群值比例,嘗試描述客戶特征,建立客戶畫像。
特征工程是指在對客戶、商戶、交易、環境等數據進行深入分析基礎之上,挑選出能夠在一定程度上反映欺詐風險的特征變量。特征工程是建立欺詐風險量化評估模型的必要工作,如果使用過多的特征變量訓練模型,訓練數據量龐大,運算效率會很低,甚至會出現過擬合的結果,導致模型泛化能力低,不能在實際工作中使用,使量化模型失去了現實意義。特征工程承接數據探索,以特征構造為開端,以特征選擇為核心。特征構造可以采用矩陣衍生、生成稀松變量、社交圖譜轉化等方式,構造后的特征要注意進行歸一化或標準化轉換。

表2 混淆矩陣
欺詐風險評估模型的訓練與互聯網信貸信用風險評估模型的訓練區別很大,這是由風險特點決定的。信用風險通常呈現高頻低損失的特點,而欺詐風險呈現明顯的低頻高損失特點,這就意味著真正業務數據中欺詐案例占比極少,欺詐數據與正常數據之間比例懸殊,對于比例過于懸殊的非平衡樣本,如果使用信用風險評估常用的邏輯回歸、決策樹等有監督算法進行訓練,效果極不理想。所以,近幾年互聯網信貸機構紛紛轉向聚類、孤立森林等無監督學習,尋求通過異常檢測佐以社交圖譜關聯度的方式剝離出異常的欺詐嫌疑較高的客戶。
模型訓練是一個多次反復的過程,每個模型訓練完成后都要對模型進行測試和評估,使用測試樣本對模型性能進行評估,測試樣本預測結果生成混淆矩陣,如表2 所示。通過混淆矩陣可以計算準確率(ACC)、召回率(TPR)和存偽率(FPR),通過這三個指標可以評價欺詐風險評估模型的性能。其中,準確率ACC=(TP+TN)/(TP+FN+FP+TN),反映模型對欺詐客戶和正常客戶區分能力和精確程度,ACC 值越高說明模型越精確;召回率TPR=TP/(TP+FN),反映模型對欺詐客戶的識別能力,ACC 越高說明偵測到的欺詐客戶越多,漏網之魚越少;存偽率FPR=FP/(FP+TN),反映在預測為欺詐的客戶中誤判的比例,FPR 越低說明錯判的客戶越少,對正常客戶的干擾越小。在實際運用中,首先要關注準確率,準確率只有高過一定值,模型才有價值。然后要綜合考慮TPR 和FPR,由于欺詐具有低頻高損失的特點,互聯網信貸機構應本著非常謹慎的風控原則,最大限度地偵測出欺詐可能性,即當兩個模型FPR 水平相當的情況下TPR更大的那個模型更優。
群體欺詐風險的度量建立在社會關系圖譜基礎上,社會關系圖譜假設人與人之間是有聯系的并且可以從現有特征或者衍生特征中尋找出這種關系,這種算法注重關聯性,它以每個借款人為節點,當兩個借款人在某個特征上相同或相似,那么兩個人有社會關系,則用一條線將兩個節點連接起來。隨著特征的挖掘,更多的人連接在一起就構建了一個完整的社會網絡,形成了社會關系圖譜。群體欺詐風險的度量就是以現有提交訂單客戶群體的信息構建一個完整的社會網絡,對節點(客戶) 欺詐風險系數進行排名,然后從中尋找那些欺詐風險系數較高的客戶。主要的建模流程為:第一步計算整體欺詐率,即計算將所有通過客戶都拒絕的召回率;第二步計算加入某項業務邏輯后的召回率;第三步計算前兩步召回率的比值,作為特征權重,用來衡量兩個客戶的親密程度;第四步對客戶欺詐風險系數進行排名,系數高的團伙的欺詐風險就高,應當特別關注。
文章選擇某互聯網信貸機構的數碼消費貸款產品H 數據進行實證分析,產品H 屬于小額短期消費貸款,貸款采用全流程線上運營(客戶通過APP 提交進件材料發起貸款申請,風控審核采取機器自動化審核),貸款金額為5000 元以內,這種信貸產品是欺詐風險最高的互聯網消費貸款產品。
截取2018 年8 月6 日至2019 年3 月20 日的數據作為分析樣本,樣本中包含4000 位客戶的資料,這些資料包括客戶基本信息(如性別、年齡、工作單位等)、手機通訊錄、運營商賬單、通話詳單、虛擬環境(如IP 地址、ISP 等)、物理環境(如GPS 地址、移動設備ID 等)、交易數據(如歷史借貸次數、還款表現等)、網絡征信(如多頭借貸記錄、逾期金額等)、行為數據(如填寫資料時長、APP 啟動時間等) 和商戶信息(如獲客渠道、所購產品等)。
數據采集完畢后進行數據清洗,對異常數據不做處理,對缺失數據進行了填補,對缺失比例5%~20%的變量采用了均值填補,剔除了缺失值超過50%的變量。數據清洗后對數據進行了轉換,對分類變量生成啞變量,對連續性變量離散化,并進行了標準化處理,共衍生為487 個統計變量。487 個統計變量中有部分變量長尾異常效應明顯(如圖1 所示),有些變量兩端異常明顯(如圖2 所示),經過分析、特征再構造和特征選擇最后篩選出258 個特征用于建模。

圖1 長尾異常效應明顯的變量示例

圖2 兩端異常明顯的變量示例
在欺詐風險評估模型訓練階段,選擇了Kmeans、孤立森林、CBiForest 三種算法進行訓練,由于欺詐樣本僅132 例,占4000 個樣本的比例為3.325%,故采用三重交叉驗證的方法進行建模。Kmeans 是一種基于距離的異常檢測方法,運用在欺詐風險評估中是將樣本聚類為兩類,數量較少的類被標記為異常客戶群體,數量較多的類被標記為正常客戶群體,每個客戶到正常客戶群體質心的距離記做異常分數,欺詐風險用異常分數表示,距離越大分數越高越異常。孤立森林(iForest)也是一種常用的異常檢測的方法,欺詐風險同樣可以用異常分數表示,iForest 對樣本進行分割,那些分布稀疏且離密度高的群體較遠的離群點需要更多次的分割才能分出,因此iForest 的異常分數是每個點到根節點的平均距離,平均距離越近分數越大越異常。CBiForest 算法是聚類和孤立森林的綜合,先對客戶做Kmeans 聚類,然后針對兩類客群,分別訓練iForest 模型,最后將Kmeans 和iForest 異常分數使用和積法加權相加,得到CBiForest 最終分數,分數越高客戶越異常,欺詐可能性越大。
模型訓練完成后,將4000 個樣本作為測試集進行模型評估,各項評估指標如表3 所示,Kmeans 和CBiForest 訓練的模型測試準確性達到了0.65 以上,FPR 基本持平的情況下,CBiForest 的TPR 更高,說明偵測欺詐風險的能力更強。
在社會關系圖譜方面,選擇同一GPS、同一IP、同一設備號、同一銀行卡等108 個特征作為關聯繪制社交圖譜,選擇PageRank 作為群體欺詐風險度量算法,測算風險系數和特征權重。在對一個8 人可疑團體的評估中,根據業務邏輯放大同一設備號這一特征權重4 倍后,這8 人的親密程度變化如圖3。

表3 互聯網信貸欺詐風險評估模型試驗測試結果

圖3 特征權重變化引起社會關系親密度變化圖

表4 群體欺詐風險評估模型試驗測試結果
相應地,欺詐風險系數也發生了變化(如表4 所示),最終的風險系數結果顯示1、2、6 號存在群體欺詐風險。后期就這一情況及時和業務人員反饋,經過調查發現1 號客戶在多家貸款機構存在違約記錄,2 號客戶和6 號客戶都與1 號客戶交往密切,屬于一度親密關聯人,行為存在異常,具有群體騙貸的特征。說明包括PageRank 算法在內的人工智能算法在群體欺詐風險度量方面具有效力,具備應用條件。
近年來,互聯網貸款業務發展如火如荼,吸引了包括商業銀行、消費金融公司、電商在內的各類機構紛紛入市,客戶信用也隨之膨脹。但囿于營銷渠道和風險管理的互聯網環境,欺詐風險的偽裝更隱蔽、識別難度更高,導致互聯網騙貸現象頻發,如何精準度量欺詐風險、化解互聯網騙貸難題成為風險管理部門亟待解決的問題。
欺詐風險是互聯網騙貸最主要的來源,根據來源分為商戶欺詐風險和客戶欺詐風險,形成了多種欺詐模式,并呈現出隱蔽性、低頻高損失和破窗效應的特點。針對多種欺詐模式和特點,采用獨立調查的方法深入研究了互聯網貸款欺詐的形成過程,發現信息不對稱、借款人誠信觀念淡薄且缺乏自我約束力、貸款機構風控能力不足、通暢的傳播途徑是形成欺詐的必要條件。面對這樣的互聯網貸款市場環境,貸款機構首先應提升自身的反欺詐能力,以個體欺詐風險估計為基本,以社會關系圖譜為重要補充,借助人工智能技術構建互聯網貸款欺詐風險量化評估模型。
研究基于Kmeans、iForest 和CBiForest 三種無監督算法建立了個體欺詐風險量化評估模型,從測試結果來看,CBiForest優于其他兩種算法,是一種比較優秀的量化評估方法。基于PageRank 算法建立了群體欺詐風險量化評估模型,說明包括PageRank 算法在內的人工智能算法在群體欺詐風險度量方面具有效力,具備應用條件。