鄭迎飛,陶文納,趙 旭,王生金
(1.上海對外經貿大學 金融管理學院,上海 201620;2.上海交通大學 安泰經濟與管理學院創業學院,上海 200240;3.上海城建職業學院,上海 201415)
中國反洗錢監管的核心是可疑交易報告制度,這個制度由中國人民銀行發布的《金融機構大額交易和可疑交易報告管理辦法》(中國人民銀行令〔2006〕第2號發布)確定下來,要求金融機構向中央銀行報告大額交易和可疑交易,然后由中央銀行下設的反洗錢監測中心進行分析。近幾年,隨著電子支付交易數量快速增長,基層金融機構需要從海量交易數據中找出可疑交易,人工篩查數據的工作量非常大,于是有了以結構化查詢語言(Structured Query Language,SQL)為主的機器篩查。但是有了機器篩查之后,人工篩查只作為機器篩查結果的一個驗證步驟。這樣就導致了高度的系統依賴,使得監測系統變得易于被規避,系統識別的準確性和適應性因為規避技術的發展而降低。因此,越來越多業界人士呼吁加強人工篩查。但若不能將人工篩查的經驗傳遞給機器,要靠人工在浩若煙海的數據中去尋找可疑交易,將是十分困難的。與此同時,不能與時俱進、學習新洗錢特征的機器將成為越來越無用的機器。如果將人工篩查發現的異常交易標記為“可疑交易”,然后歸入機器學習的數據庫,則機器預測能力可以自動升級。人工甚至可以根據最新洗錢趨勢,修改機器學習模型的特征變量,完成機器算法的快速升級。因此,構建基于機器學習加上人工反饋形成的人機耦合可疑交易監測系統十分必要。
國際反洗錢監管呈現如下幾方面的趨勢[1]:首先,反洗錢監管的重要性日益增強。各國當局將反洗錢監管逐漸提高到了維護國家經濟安全和國際政治穩定的戰略高度,政治色彩較為濃厚。其次,監管渠道和監管對象不斷拓寬。反洗錢監管對象正逐漸由傳統銀行類金融機構向其他金融機構和非金融機構延伸。從業務范圍來看,反洗錢監管已拓寬到數字貨幣等新興金融業務。最后,監管前移,“KYC”成為重點1)KYC 是“Know Your Customer”的英文首字母縮寫,意為“了解你的客戶”。反洗錢合規監管思路由“規則為本”向“風險為本”轉變,后者強調“預防為主、打擊為輔”原則,注重對洗錢風險提前監測和有效防控。
反洗錢監測技術方面,隨著信息化和數字化的發展,可疑交易識別技術的研究及應用已經取得了較大進展。關于如何提升可疑交易監測能力的學術研究主要分為兩類,一類文獻研究反洗錢監測系統的整體設計和系統構建;另一類文獻研究可疑交易監測中重要環節的具體識別技術和方法[2]。
關于反洗錢監測系統的整體設計和系統構建,代表性的研究有:陳云開等[3]構建了包括邏輯層次結構、系統基本框架和系統基本流程的分布式異構計算環境下基于數據挖掘技術的反洗錢監測系統;湯俊[4]設計了利用風險評估工具及合規工作流程輔助工具從客戶風險、交易風險和綜合風險3個方面識別可疑交易的反洗錢監測系統;宋媚等[5]提出了基于聚類分析的反洗錢組織多層次監測體系。上述文獻注重了反洗錢監測系統結構性和層次性,為本文構建基于人機耦合的反洗錢監測系統奠定了基礎,但上述文獻未明確提出計算機監測系統和人工以及外部系統之間的耦合關系。
關于反洗錢監測系統中可疑交易的具體識別技術和方法的研究中,基于機器學習的模型已經有較多研究成果[6]。各種有監督模型,以及網格聚類、孤立點挖掘、距離聚類等無監督模型,在反欺詐和反洗錢領域均具有有效性[7]。代表性的研究有:基于決策樹算法的反洗錢監測模型[8],貝葉斯分類和聚類分析相結合的復合模型[9],利用聚類算法和孤立點挖掘的反洗錢改進算法模型[10],基于IF-THEN 規則和決策樹算法的降低可疑交易預警模型[11],基于Logistic回歸分析的用戶違約評估模型[12],基于GBDT 算法的線上交易欺詐偵測模型[13],基于改進稀疏編碼模型的圖像分類算法[14],利用掃描統計判別賬戶交易片段異常的流程和算法模型[15],基于時間壓力條件下的最小風險最大洗錢量模型[16]以及基于大數據分析的反洗錢方法[17]等。上述文獻的經驗為本文優化機器學習算法縮小了試錯范圍。又因為本文構建了基于人機耦合監測系統,所以需要針對該系統繼續優化機器學習算法。
支付機構現有反洗錢可疑交易篩查的第1個步驟是對交易數據進行SQL篩查,通過這個程序可以去掉大部分單筆金額以及30日累計金額均非常小的交易,同時篩查出單一指標達到可疑水平的交易。例如,賬戶單日收款交易金額占前30日日均收款金額的400%,單筆金額大于5萬元,信用卡交易筆數占總交易筆數的比例較大,或一周內交易金額大于50萬元等,均可能是可疑交易。
第2個步驟是對SQL 篩查后余下的交易數據進行人工篩查。篩查的標準通常包括:
(1)短時間內交易頻繁,且交易資金量突增,涉及資金來源均為網站虛擬商品消費。
(2)賬戶涉及資金交易與網站商品價值、交易量明顯不符。
(3)資金涉及快進快出,且賬戶幾乎無余額。
(4)短期內交易極其頻繁,交易金額遞增,且呈現大額整數金額特征。
(5)客戶基本信息情況缺失或可疑。
上述機器篩查和人工篩查分離的系統存在弊端。機器篩查規則單一、固定,很容易被犯罪分子規避。雖然近期引入人工智能之后,篩查系統具有學習能力,但在迭代速度和靈活性上不及真正的人工。這是因為僅憑賬戶信息和交易信息很難確定洗錢行為,金融機構若不想“防衛性報送”,則需要查詢外源信息進行輔助判斷,這時人工往往占優勢。首先,信息來源復雜多樣,需要從各個渠道、各種形式(包含文字、圖片、視頻)、對商戶不同角度的評論等做判斷。其次,信息判斷難。多樣化的數據很難通過技術手段做判斷,而且洗錢行為本身是不斷變化的。最后,雖然隨著技術水平的發展,人能做的查詢和判斷都可以用機器來實現,例如通過爬蟲獲取這些信息,再用自然語言處理(NLP)、計算機視覺(CV)以及多模態的深度學習技術來做識別,但這時數據采集和模型的搭建、維護成本都很高。面對變化的需求,人可以靈活判斷,而深度學習模型則需要根據業務變化不斷迭代[18]。
面對不斷演化升級的新型洗錢方式,反洗錢監測部門人員可以從外部或內部協作中掌握這些變化,快速更新模型數據處理規則,并把新型洗錢案例加入機器學習數據庫,讓機器學習模型實現快速升級。若依靠機器學習自動實現迭代,則需要積累一定的案例量,更新速度較慢。而且人工輔助機器升級并不妨礙機器學習模型獨立發現新的洗錢規律。
因此,在現有機器篩查和人工篩查步驟基礎上,本文改進了傳統洗錢篩查流程,建立了基于人機耦合的反洗錢監測系統流程,如圖1所示。

圖1 支付機構人機耦合反洗錢監測流程圖
改進后的系統中,人工篩查不僅作為機器篩查之后的“下一步驟”,而且“人工”還會不斷地接受來自本機構其他部門和外部的新型洗錢案例的信息[19]。基于這些新信息,更新人工篩查標準的同時,將發現的新型案例添加到機器學習算法的學習庫中,必要時還可以修改、添加機器學習模型的特征變量,這樣就形成了一個人機耦合的系統(見圖2)。之所以稱之為“耦合”,是因為在該系統中人與機器之間不僅是一種基于發揮各自特長的協作關系,而且是人與機器各自對信息處理的結果會影響對方的行為,相互形成數據控制,所以屬于耦合關系。

圖2 基于人機耦合的支付機構反洗錢監測系統
在人機耦合系統框架中,機器學習算法模型對系統識別準確性和效率而言非常重要。比較了常見的幾種機器學習分類算法的特點及其對于反洗錢可疑交易監測的適用性之后[7],初步判斷基于隨機森林分類算法的模型最可能適合用于支付機構反洗錢可疑交易監測。而Logistic回歸分類法和梯度提升算法(GBDT)也具有一定的可實施性。下文將對基于這3種算法的模型進行測試和比較。
隨機森林算法屬于典型的組合分類器算法,最早是由Breiman[20]提出的。基于隨機森林算法的模型構建包括特征和標簽提取、特征預處理、樣本內訓練、交叉驗證和樣本外測試等步驟,如圖3所示。

圖3 隨機森林模型構建示意圖
以支付公司的客戶基本信息(靜態信息)和交易信息(動態信息)為研究樣本,時間選取為2018-01-01~2018-09-31共9個月數據,其中,1~6 月的數據用于訓練模型,7~9月的數據用于驗證模型。經過SQL篩查后,研究樣本共包含12 538 72條交易記錄,其中有洗錢嫌疑上報央行反洗錢監測中心的交易記錄有124 851 條,標為正樣本,標簽記為1。沒有洗錢嫌疑的交易記錄有1 129 021條,標為負樣本,標簽記為0。
根據宋媚等[5]提出的多層級監測體系,監測數據分為交易層、賬戶層和實體層3個層次。本文將3個層次的數據根據支付機構的實際數據歸類方法,分為客戶基本信息(對應賬戶層和實體層)和交易信息(對應交易層),共找到70個變量。經數據探索,去掉空值較多、數據質量差的變量,最終選擇了12個初始變量。關于客戶基本信息的變量有9個,包括商戶名稱、單位個人標識、地址信息、組織機構代碼、依法設立或經營的執照名稱、依法設立或經營的執照號碼、法定代表人或負責人姓名、法定代表人或負責人證件種類以及法定代表人或負責人證件號碼;關于客戶交易信息的字段有3 個,包括交易時間、資金收付標志和交易金額。
反洗錢監測模型的監測主體是交易可疑的客戶,主要是針對交易層面進行的數據挖掘[21],但是也要綜合考慮客戶的基本信息[22-23]。
反洗錢人工篩查人員根據既有洗錢案例的線索,積累了從數據的復雜關系中整體判斷交易是否可以的經驗。但在數據量越來越龐大之后需要將經驗傳遞給計算機。在本文提出的人機耦合系統下,若把支付機構人工篩查的重要變量直接傳遞給計算機系統,則意味著要將一部分原始基本信息和交易信息進行加工處理。首先,將樣本的交易信息按照每個客戶以日為最小研究單位進行統計,衍生出新的交易變量。統計后的數據總量為228 036條,其中,負樣本數據量為219 399條,正樣本數據量為8 637條。
交易信息特征包括如下5類:客戶日交易信息統計情況、日收付款統計情況、月收付款統計情況、白天和夜晚時間段統計交易信息以及衍生月交易數據的處理。共25 個交易信息特征,具體如表1 所示。客戶基本信息的變量處理方式如表2所示。

表1 交易信息變量的處理

表2 客戶基本信息的變量處理
因變量也是按照天為單位,進行客戶歸集。上報央行的可疑交易作為正樣本,標簽設為1;沒有上報的正常交易作為負樣本,標簽設為0。樣本情況如表3所示。

表3 正負樣本情況
2.3.1 自相關性檢驗 使用皮爾遜相關系數,判斷變量之間的線性相關程度,并剔除相關性較強的變量。皮爾遜相關系數數值介于1和-1之間,數值越接近于1,表示正相關性越強,數值為1時,表示完全正相關;數值越接近于-1,表示負相關性越強,數值為-1時,表示完全負相關。皮爾遜相關系數數值為0,表示兩個變量線性無關。據此篩選出相關系數大于0.5的變量,如表4所示。

表4 變量相關系數
2.3.2 多重共線性檢驗 當模型中兩個或兩個以上變量相關時,說明模型具有多重共線性。因為本文研究的變量維度較高,所以對于多重共線性的檢驗比自相關性的檢驗更加實用。判斷一個自變量和其他所有自變量的多元線性相關性可以用方差膨脹因子(VIF)來衡量。當0<VIF<5時,表明變量之間不存在多重共線性;當5≤VIF<10時,表明變量之間存在弱多重共線性;當10≤VIF<100時,表明變量之間存在多重共線性;當VIF≥100時,表明變量之間有嚴重的多重共線性。本文篩選出VIF>5的變量,10個需要刪除的具體變量如表5所示。

表5 多重共線性檢驗
根據自相關檢驗和多重共線性檢驗,以多重共線性的變量為基礎,刪除和自相關檢驗共有的23個變量。
以2018 年前6 個月的數據的70%作為訓練集,30%作為驗證集進行模型訓練,其中,負樣本數據量為84 197條,正樣本數據量為2 350條。訓練樣本中正負樣本數極其不均衡,會導致模型追求準確率而犧牲一些正樣本。針對正負樣本不均衡問題,在訓練模型時采用過采樣中的SMOTE 算法,將正負樣本比例調整為接近1∶1,然后通過隨機森林算法來訓練模型。
2.4.1 混淆矩陣與ROC 曲線 圖4 所示為模型的ROC曲線,接近對角線,說明模型的泛化能力很強,且有很高的準確率。ROC曲線包圍的面積占比達0.994 5。

圖4 訓練模型ROC曲線
表6 所示為隨機森林訓練結果得出的混淆矩陣,分別顯示出模型預測結果和實際結果的比例關系和數量關系。表6表明,實際為可疑交易并且預測為可疑交易的數量為24 256,實際為不可疑交易并且預測為不可疑交易的數量為23 740,實際為可疑交易但是預測為不可疑交易的數量為34,實際為不可疑交易但是預測為可疑交易的數量為99。模型結果表明,隨機森林預測的可疑交易和人工篩查上報的可疑交易基本相同,在很大程度上節省了人力,并且模型數據處理量大,處理效率極高。

表6 訓練模型混淆矩陣
由表7隨機森林模型的評價指標可以看出,模型正負樣本的精確率、召回率以及F1-Score值的平均值均為0.997 2,說明分類正確的樣本占所有樣本的比例為0.997 2,模型能夠很好地預測可疑交易。

表7 隨機森林模型的評價指標
2.4.2 隨機森林模型優化 隨機森林模型的優化,主要是對模型調整參數。隨機森林模型的重要參數如下:n_estimators為弱學習器的最大迭代次數,max_features是最大特征數,max_depth為決策樹最大深度,min_samples_split為內部節點再劃分所需最小樣本數,min_samples_leaf為葉子節點最少樣本數。
運用python軟件進行網格搜索,得出模型的最優參數分別為:n_estimators=60,max_features=5,max_depth=11,min_samples_split=50,min_samples_leaf=20。將參數代入隨機森林模型,重新進行隨機森林建模,得到新的混淆矩陣如表8所示。由混淆矩陣可以看出,調參后的模型正負樣本預測情況均有提高。

表8 優化后訓練模型混淆矩陣
圖5所示為優化后模型的ROC 曲線,其包圍的面積占比達0.999 3。與圖4模型的ROC曲線對比,更接近對角線,說明模型的泛化能力增強,且準確率也增加了。由表8所得混淆矩陣對比表6所得混淆矩陣可以看出,可疑交易預測結果的正確率明顯增加。

圖5 優化后訓練模型ROC曲線
由表9 中優化后模型的評價指標結果可以看出,模型正負樣本的精確率、召回率和F1-Score值相比于表7都有明顯提高。

表9 優化后模型的評價指標
2.4.3 特征重要性排序 計算隨機森林模型特征重要性排序過程如下:
(1)對于隨機森林中每一棵決策樹,根據袋外數據,對決策樹性能評估,計算袋外數據誤差,記為erro1。袋外數據指在訓練模型時,由于重復抽樣,建立決策樹時沒有用到的數據。
(2)隨機對袋外數據樣本加入噪聲干擾,并計算袋外數據誤差,記為erro2。
(3)假設隨機森林N棵樹,特征X重要性=∑(err2-err1)/N。
(4)特征重要性排序原理為:對袋外數據加入噪聲干擾時,若袋外數據誤差變化很大,則說明該特征對模型預測有很大影響。
隨機森林模型特征重要性排序結果如表10所示。由表10可以看出,std_total(月交易額的標準差)、建立業務關系日期(open_time)、sum_total(月總交易額)對可疑交易監測模型影響較大,商戶名稱(acc_name)、單位個人標識(acc_type)、province_exist(省份)對可疑交易監測模型影響較小,一部分原因是這些變量本身區別能力較小,商戶名稱和單位個人標識基本沒有缺失值。

表10 特征重要性排序
以2018年7~9月的數據作為模型的驗證集,對模型進行樣本外驗證。驗證集數據基本情況為:數據總量為49 973條,其中,正樣本數據量為3 033條,負樣本數據量為46 940條。為檢驗真實數據的預測情況,不對驗證樣本進行SMOTE 采樣,直接對測試集樣本數據代入調參后的模型進行驗證,查看模型的預測能力。
表11中顯示了隨機森林模型驗證結果得出的混淆矩陣,給出了模型預測結果和實際結果的比例關系和數量關系。表11表明,實際為可疑交易并且預測為可疑交易的數量為3 012,實際為不可疑交易并且預測為不可疑交易的數量為46 918,實際為可疑交易但是預測為不可疑交易的數量為21,實際為不可疑交易但是預測為可疑交易的數量為22。

表11 樣本外驗證的混淆矩陣
由表12中隨機森林模型的驗證結果可以看出,隨機森林模型的平均精確率、召回率和F1-Score均值為0.999 1,表明模型有很好的準確性。

表12 樣本外驗證的評價指標
通過分析客戶交易信息及客戶基本信息的實證結果,運用隨機森林模型對于可疑交易分類問題具有很高的準確率。基于該模型能夠得出可疑交易與建立業務關系日期、月交易額的標準差(日)、月收款金額、夜晚交易次數、是否填寫法定代表人證件號碼、是否填寫法定代表人或負責人姓名、月平均交易額、月總交易額、白天交易額以及日總交易額等11個變量,具有相關關系,并且能夠很好地預測是否是可疑交易。
上述研究表明,由人工反饋的經驗形成的衍生變量是隨機森林模型的重要特征變量,人機耦合使得基于隨機森林算法的反洗錢可疑交易監測模型預測的結果與人工篩查后預測的可疑交易基本符合,在很大程度上節省了公司人力,而且模型效率高、預警快,帶來了實際的效益。
Logistic回歸模型為基本的機器學習分類模型,具有很好的可解釋性,在實際中有很好的可實施性。在實際應用中,基于Logistic分類的模型,預測結果能夠得到概率值。模型預測準確率結果見表11。Logistic回歸模型的混淆矩陣表明,實際為可疑交易并且預測為可疑交易的數量為19 685,實際為不可疑交易并且預測為不可疑交易的數量為10 807,實際為可疑交易但是預測為不可疑交易的數量為4 607,實際為不可疑交易但是預測為可疑交易的數量為4 030。由表12的驗證結果可以看出,Logistic回歸模型雖然能夠表現出變量之間對于可疑交易判斷的影響,但是模型的準確性較差。
GBDT 模型是集成機器學習分類算法,和隨機森林模型有很多相似之處,也是以決策樹為基礎,具有很好的準確性。GBDT 是按照每次決策樹分類的結果,對于分類錯誤的結果給予較高的懲罰權重,分類正確的結果給予較低的懲罰權重,從而使模型能夠減少錯誤的分類誤差。
表11表明,實際為可疑交易并且預測為可疑交易的數量為24 068,實際為不可疑交易并且預測為不可疑交易的數量為23 084,實際為可疑交易但是預測為不可疑交易的數量為224,實際為不可疑交易但是預測為可疑交易的數量為753。由表12的驗證結果可以看出,基于GBDT 分類的模型相對于Logistic回歸具有較好的準確性,但是其準確率仍不及隨機森林模型。
本文首先構建了基于人機耦合的支付機構反洗錢監測模型。該模型較人機分離的反洗錢系統具有優越性。面對金融交易的復雜性和不確定性,人和計算機在識別洗錢交易方面各有優勢和局限性。計算機雖然可以代替人類從事大量的計算篩查工作,但人類在與外界展開各種非結構化數據的交互方面具有獨特優勢,可以主動探測新型洗錢線索,用于判斷交易的整體可疑度。因此,在人機共同組成的反洗錢監測系統中,人是與外界溝通、學習新趨勢,并對交易的整體可疑度進行最終判斷的主體。雖然這個監測系統的適應能力主要源于人,但不能止于人。因為交易的數據量之龐大已超出了人工處理的范圍,所以將經過人工判斷之后的可疑交易的數據加入機器學習的訓練集,甚至根據反洗錢的新線索修改機器學習的特征變量提取等步驟,可以讓機器篩查這一環節的學習能力和適應能力更強,實現更快速的迭代。
在構建人機耦合反洗錢監測系統之后,針對機器學習算法的選擇,本文比較了隨機森林算法、Logistic算法和GBDT 算法,發現基于隨機森林算法的模型具有更高的精確率,且模型有很好的適應性。模型中變量的預處理也應用了人工篩查的經驗。根據人工篩查的最新經驗,需要深層次挖掘交易信息才能提高機器學習模型的準確度,所以本文將交易時間、資金收付標志、交易金額等交易屬性進行多方面衍生,多角度地尋找交易方面的共性,包括但不限于日交易收付、月交易收付,白天夜晚收付、日交易標注差、月交易標準差等角度。在根據人工經驗將交易信息進行了上述衍生之后,模型達到了99%以上的精確度,這正是人機耦合的效果。未來隨著洗錢新手段、新趨勢的出現,人工可以再次修改數據和數據的預處理方式,因此,本文的數據預處理方式僅是一個算例,在本文構建的人機耦合系統框架下,未來是可以不斷迭代進化的。