李強 中國建設銀行股份有限公司重慶總審計室
特約商戶作為銀行卡業(yè)務運行的一個組成部分,既是信用卡使用和持卡人實現(xiàn)信用卡消費功能的重要場所,又是增加銀行信用卡業(yè)務的收入的重要支撐點。然而,隨著信用卡業(yè)務的快速發(fā)展,特約商戶數(shù)量的激增給商業(yè)銀行的特約商戶監(jiān)管帶來了很大的挑戰(zhàn)。商業(yè)銀行一般設置了特約商戶管理員,然而由于網(wǎng)點工作壓力大、人手緊張等原因,按月對特約商戶進行實地檢查的工作往往流于形式①,存在著較多的管理風險。為此,本文嘗試采用決策樹的組合算法—隨機森林算法,通過對交易數(shù)據(jù)的分析和動態(tài)跟蹤,從商業(yè)銀行管理的需要出發(fā)對特約商戶進行細分,對特約商戶區(qū)分對待,對風險低、信譽高的特約商戶可以采取抽檢或不定期檢查,從而將監(jiān)管重點放在存在較大風險的特約商戶身上,將會更好地提高管理效率、減少管理風險。
為了從管理角度構建特約商戶細分決策支持模型,區(qū)分出存在風險的特約商戶,需要對特約商戶進行特征選擇,即從交易數(shù)據(jù)中提取能反映特約商戶風險的特征,然后根據(jù)這些特征建模,通過小樣本數(shù)據(jù)的學習,構建決策模型,通過決策模型判定其它客戶的風險特質(zhì),并把具有風險特征的客戶名單作為分類管理的基礎?;陂L期對信用卡風險特征跟蹤總結出風險特約商戶的主要特征如下:
(1)所有交易中信用卡交易占比較高;
(2)同一張信用卡多次在同一商戶大額交易;
(3)單張信用卡多筆分單交易避開發(fā)卡行控制;
(4)商戶員工在本單位機具上大額透支交易;
(5)巡檢異常。
而以上特征中前 4 項都與交易數(shù)據(jù)有關,最后一項是管理員例行巡檢時發(fā)現(xiàn)的特約商戶違規(guī)問題。為了能夠從交易數(shù)據(jù)中提取特約商戶風險的特征,最終選擇了 10 個指標作為識別特約商戶風險和細分特約商戶的主要特征變量,這些特征及說明見表1。

表1 特約商戶風險識別的主要特征
基于特約商戶的風險特征,本文構建了基于隨機森林學習算法的特約商戶的細分流程模型,詳見圖1。

圖1 特約商戶細分模型
在這個模型中,之所以選擇隨機森林學習算法,不僅因為該算法具有良好的分類特性,而且因為該算法在分類后能給出每一個特征的重要性,這可以為特約商戶管理提供重要的參考。該模型的工作過程如下:首先利用特約商戶的交易數(shù)據(jù),經(jīng)過匯總統(tǒng)計處理后,生成每個特約商戶的特征指標,然后利用處理過的小樣本數(shù)據(jù)②,采用隨機森林算法學習,構建隨機森林決策樹,形成分類器,然后利用構建的隨機森林決策樹對需要區(qū)分的特約商戶進行細分。
1.數(shù)據(jù)介紹
從某銀行特約商戶中隨機選擇了 900 戶,然后對這些商戶的交易數(shù)據(jù)進行了采集,剔除24個異常數(shù)據(jù)后③,剩余 876 戶數(shù)據(jù),其中,正常商戶780戶,風險商戶96 戶④。同時,為了對模型進行訓練和測試,本研究將以上數(shù)據(jù)劃分為訓練集和測試集。其中訓練集包含735 戶商戶,測試集包含141戶商戶。
2.實驗結果
為了了解隨機森林算法中樹的數(shù)量對分類正確率的影響,分別選擇樹的數(shù)量為10、30、50、100、150、200、250、300、350、400、450 和500,執(zhí)行隨機森林分類算法構建分類器并驗證其在測試集上的正確率,結果見圖2。

圖2 樹數(shù)量對隨機森林算法正確率的影響
實驗結果顯示,隨著樹數(shù)量的增加,隨機森林算法分類的正確率最終將穩(wěn)定在一定水平上。實驗數(shù)據(jù)的對比顯示,較少的訓練數(shù)據(jù)在樹數(shù)量較少時,分類正確率表現(xiàn)出了不穩(wěn)定性,而較多的訓練數(shù)據(jù)得到的分類器相對穩(wěn)定,基本上隨著樹數(shù)量的增加,分類的正確率在增加,最終會穩(wěn)定在0.9014上。
3.特約商戶的特征重要性
隨機森林算法的一個優(yōu)點是,它在訓練完后能夠給出哪些特征比較重要。表2是特約商戶消費數(shù)據(jù)訓練后的10個特征重要性評價。

表2 特征重要性評價
對于特約商戶來說,最重要的3個特征則是“回頭客單客交易金額”、“單筆交易金額”和“單卡交易金額”,與實際情況相符。值得一提的是,在實際工作中,信用卡客戶比例大的特約商戶其風險較高,也就是說這一特征對判斷特約商戶的風險性有較大的作用。然而在實驗中,該特征在10個特征的重要性排名是第5名,也只是居于中間水平。原因可能在于獲得的交易數(shù)據(jù)中,有一些卡種類無法判斷是否信用卡,尤其是“他行卡”,這可能對模型結果產(chǎn)生了重要的影響。
商業(yè)銀行受制于財務成本、管理成本等的限制,靠增加特約商戶管理員的數(shù)量的方式來實現(xiàn)監(jiān)管顯然是不可能的、也是不可取的。因此,本文嘗試采用數(shù)據(jù)挖掘等先進的技術手段,構建特約商戶細分決策模型。該細分模型以10 個特征為基礎,利用特約商戶的消費交易數(shù)據(jù),采用隨機森林算法實現(xiàn)特約商戶的分類。實驗結果證明,在隨機森林算法的樹數(shù)量與分類預測正確率的關系實驗中,發(fā)現(xiàn)隨著決策樹數(shù)量的逐漸增大時,模型的預測準確率在增加,在樹數(shù)量超過一定規(guī)模后,準確率趨于一個穩(wěn)定的值。
基于以上,可實現(xiàn)對特約商戶進行有效的區(qū)分,對存在較大風險的商戶進行重點監(jiān)控和巡檢,而對于其它低風險的特約商戶則采用定期或不定期抽查的方式,將會大大降低商業(yè)銀行的管理成本和難度。
需要說明的是,不同類別商戶的風險特征可能存在較大的差異,本研究只是針對套現(xiàn)交易嚴重的一般類商戶,提出了 10 類風險特征,這些特征可能并不適合于其它類別的特約商戶。
注釋:
①有的管理員讓商戶到網(wǎng)點在檢查表上蓋章應付差事,甚至有的一蓋就是多個月,另外有的管理員(營銷員)和商戶之間存在著利益關系使得管理員不能真正履行起監(jiān)管的職責。
②包含了沒有風險的和發(fā)現(xiàn)風險的特約商戶。
③經(jīng)處理后發(fā)現(xiàn)有 24 個商戶的數(shù)據(jù)存在問題(不存在交易數(shù)據(jù)或交易數(shù)據(jù)存在異常)。
④風險商戶是指巡檢發(fā)現(xiàn)異常、銀聯(lián)通報、存在套現(xiàn)交易等情況、確定存在風險的商戶,本文基于重慶建行信用卡中心提供比對名單。