王巍棟 王彥博 鄧昌智 馬羚
在當前科技與金融深度融合的時代背景下,我國反洗錢監管體系不斷完善,懲罰力度不斷加強,各金融機構的反洗錢監測系統亟須借助大數據、數據挖掘、機器學習、圖計算等智能技術進行迭代升級。本文從商業銀行反洗錢業務實際出發,對構建反洗錢智能識別模型存在的難點進行歸納,并創新提出商業銀行構建反洗錢智能識別模型的“GREAT框架”。而后,針對反洗錢樣本數據量大但正負樣本極度不平衡的特點,運用仿真模擬方法對數據進行樣本衍生,再運用有監督學習中解釋性較強的邏輯回歸模型實現對反洗錢可疑模型的構建,同時借鑒金融風控場景中經常使用的評分卡模型對邏輯回歸模型結果進行從評分向用戶得分的轉換,并將優化后的模型在商業銀行反洗錢領域嘗試應用。相較于傳統的規則模型,優化后的模型在保證覆蓋率的前提下,篩查效率大幅提高,能夠有效提升反洗錢業務的報送效率。
我國商業銀行反洗錢業務現狀
反洗錢、反恐怖融資工作是推進國家治理體系和治理能力現代化、維護經濟社會安全穩定的重要保障。當前,我國對反洗錢的監管和懲罰力度日漸增強。2021年4月16日,央行發布了《金融機構反洗錢和反恐怖融資監督管理辦法》,進一步明確并完善了我國的反洗錢監管措施。
洗錢活動主要發生在金融領域,處于反洗錢核心地位的商業銀行等金融機構均已依據中國人民銀行發布的《金融機構大額交易和可疑交易報告管理辦法》等相關要求,建立了一套完整的反洗錢監測報送系統。在每個交易日日終時,將當天交易數據傳送到反洗錢系統,然后經過可疑模型篩選出可疑客戶以及對應的交易數據,推送給反洗錢相關工作人員,待人工調研審查核對后統一報送至上級部門。面對數量龐大的可疑交易數據以及每日不斷累積的亟待審核的可疑交易數據,工作人員需要在一定時間周期內完成所有被反洗錢系統可疑模型判定為疑似參與洗錢活動的客戶以及相關交易的數據審查,人工審核工作量巨大。除了審核工作本身繁雜耗時之外,往往需要聯系到客戶本人或者相關人員對客戶進行身份核實以及交易信息核驗,因而人工成本高昂、效率難以提高。
因此,充分運用大數據和人工智能等新興技術,對現行的反洗錢可疑模型進行迭代升級,以科技賦能反洗錢業務提質增效,已成為金融科技時代商業銀行反洗錢業務發展的必由之路。傳統的反洗錢可疑模型是根據中國人民銀行發布的相關管理辦法來進行規則設計,進而構建的規則模型,未能充分利用相關業務數據的潛在價值。而運用數據挖掘、機器學習等智能技術對反洗錢可疑模型進行優化,在參考中國人民銀行相關管理辦法的基礎上,更加注重相關業務數據本身的信息含義,挖掘和學習數據中的規律,提高可疑模型的精確度,使其能夠更加精準地定位洗錢活動相關客戶及交易,降低人工審核工作負擔。對反洗錢可疑模型的優化不僅能夠將傳統可疑模型篩選出的疑似洗錢交易數據量進行大幅縮減,而且能夠盡可能全面地發現參與洗錢活動的客戶及相關交易情況。
基于“GREAT框架”視角的反洗錢智能識別技術
基于當前反洗錢業務的發展現狀和數據特點,數據挖掘與機器學習建模主要存在三方面技術難點:一是正負樣本極度不平衡;二是由于業務冷啟動造成的數據積累不足、樣本規模小;三是模型的精準度不足。針對上述難點,結合商業銀行業務實踐,本文創新提出以智能化算法建模解決反洗錢監測識別問題的“GREAT框架”,即運用圖技術(Graph based techniques)、強化學習技術(Reinforcement learning techniques)、集成學習技術(Ensemble learning techniques)、仿真模擬技術(Analog simulation techniques)和遷移學習技術(Transfer learning techniques),以期為反洗錢監測識別的智能化應用提供技術支撐。
通過圖技術(Graph based techniques)實現反洗錢客戶關聯關系挖掘。在反洗錢客戶身份識別工作中,大量的客戶身份信息不完整,導致系統智能識別的效果有限,大量工作需要人工介入參與。針對該難點,可運用“圖技術—知識圖譜”技術,對企業和個人的交易、法人、股權等錯綜復雜的關系進行挖掘,通過客戶關聯關系洞察和異常關聯結構挖掘,快速發現符合反洗錢特征的異常圖結構模式,識別可疑賬戶群組,識別反洗錢團伙,實現數據甄別分析智能化。
通過強化學習技術(Reinforcement learning techniques)實現小樣本下模型權重優化。由于模型的訓練過程受到樣本數量限制和分布的影響,傳統的反洗錢模型往往存在泛化能力不足的問題。強化學習技術為進一步提升模型泛化能力、提高預測結果準確性提供了有效的解決思路。以初期積累的小樣本數據作為初始狀態構造初始化的模型,通過深度強化學習算法對初始模型進行調整,并利用調整后的模型和環境進行交互,得到交互后的新狀態和相應的獎勵。如此反復循環,在過程中不斷優化,最終生成不同狀態下的優化模型,從而盡可能優化對洗錢客戶的識別準確率,進一步提升模型的泛化能力。
通過集成學習技術(Ensemble learning techniques)解決可疑交易的漏報問題。在反洗錢工作的長期開展過程中,由于犯罪分子已經較為熟悉相關法律和管理辦法,傳統依托規則設計的可疑模型往往難以識別犯罪分子參與的洗錢交易,從而導致可疑交易的漏報。事實上,每天都會有海量交易數據進入反洗錢監測系統,其中絕大多數正常交易數據可以通過可疑模型直接過濾掉,大量被可疑模型命中的交易數據會轉交至人工審查。但也存在部分可疑交易未被模型識別的情況,若人工對該部分數據也無法覆蓋,則可能造成漏報情況。因此,反洗錢可疑模型的精準度至關重要。
集成學習通過訓練多個弱分類器,將每個弱分類器的結果進行投票,往往能產生優于單一機器學習模型的查準率和查全率。因此,集成學習較傳統機器學習模型有更高的壞樣本覆蓋能力,可有效減少漏報問題。有金融機構采用多數投票規則,將多種機器學習算法構建的模型進行集成融合,對反洗錢可疑模型的精準度進行提升。
通過仿真模擬技術(Analog simulation techniques)解決樣本不平衡問題。反洗錢數據的普遍特點是樣本數據量極大,但是正負樣本極度不平衡,上報樣本數量遠小于非上報樣本數量。極度不平衡樣本又可歸納為兩類,一類是上報樣本數量雖然遠小于非上報樣本數量,但是上報樣本數量本身具有一定規模,則可以運用對非上報樣本隨機欠抽樣的方法來解決;另一類是上報樣本數量極少,且在比例極其懸殊的情況下,則可以運用仿真模擬的方式衍生上報樣本數據。本文將詳細探討樣本衍生在反洗錢場景中的應用案例。
通過遷移學習技術(Transfer learning techniques)解決樣本規模小的問題。現實中,數據往往是孤立的,同行業數據無法共享,即便是同公司,不同部門之間的數據也常常是獨立存儲和維護的。對于一些交易流水較少的金融機構來說,往往會遇到樣本規模小、數據不足的情況;在跨機構、跨地域、跨境合作的場景下,存在不同區域特征差異大和數據分布偏移等特點,導致直接合并數據來建模不能滿足傳統機器學習對于建模數據獨立同分布的首要條件。因此需要優先解決數據與模型泛化能力的矛盾。遷移學習是解決小樣本機器學習模型泛化能力問題的一種有效手段,它可以基于現有數據,運用更加復雜的遷移學習方法,學習形成一個泛化能力強的模型。有金融機構運用遷移學習技術,在不同分行間實踐并驗證了嫁接遷移、樣本遷移及特征遷移技術的可行性和有效性。
基于仿真模擬技術的商業銀行反洗錢可疑模型實踐案例
本文選取某股份制商業銀行反洗錢某場景下的數據作為研究樣本,運用前文“GREAT框架”中的仿真模擬技術(Analog simulation techniques)進行樣本衍生,以解決該銀行此場景下的正樣本(上報樣本,占整體樣本的少數)不足的問題。樣本衍生即對正樣本進行過采樣。常用的過采樣方法,如簡單過采樣方法,一般直接復制少數類樣本。由于該方法的本質是對相同數據的重復學習,其優點是容易實現,而缺點是容易導致過擬合問題。無論是從賬戶角度還是用戶角度出發,反洗錢樣本數據維度多,每個賬戶對應擁有上百種特征變量,且其中包括連續型和離散型特征。本文針對不同數據類型的特征提出不同的仿真構造方法,具體內容如下。
連續型特征樣本衍生
對于連續型特征,如交易額、交易頻率等,采用SMOTE (Synthetic Minority Oversampling Technique,合成少數類過采樣技術)方法構建新樣本。SMOTE算法的核心邏輯是:對于上報客戶群體數據集α中的每一個樣本a,根據樣本的連續性特征,以歐式距離為標準計算它到上報客戶樣本集中其他所有樣本的距離,升序排列后選擇前K個樣本作為其K近鄰。從K個近鄰中隨機選擇一個近鄰b,按照公式c=a+rand(0,1)*|a-b|進行線性插值,構造新的樣本點c,重復選擇N次完成N個新樣本點的構造,N為衍生樣本構建的倍數(見圖1)。
在運用SMOTE進行過采樣之前,需要對樣本進行清洗,去除其中的異常值,避免插值衍生過程產生大量噪聲樣本,影響模型效果。
離散型特征樣本衍生
對于離散型特征,如賬戶類型、是否新老用戶等,可以轉化為多分類問題,將衍生的連續型樣本數據作為入模變量,擬構造的離散型特征作為目標變量進行衍生。因此,有監督機器學習相關分類算法,如KNN(K-Nearst Neighbors,K近鄰算法)、隨機森林、SVM(Support Vector Machines,支持向量機)等均可適用。本文采用KNN算法,其核心邏輯是對于衍生的連續型數據集β的每一個樣本A,以歐式距離為標準計算它到上報客戶樣本集α所有樣本的距離,升序排列后選擇前K個樣本作為其K近鄰。對于上報客戶樣本的每個離散型特征B,選擇K近鄰中占比最大的特征取值作為A樣本離散型特征的取值,以此類推, 完成A樣本所有離散型特征的取值,則衍生樣本構建完成。KNN 算法的優點在于易理解,適合于多分類問題,對于作為目標變量的多類型離散型特征具有較好的適用性(見圖2)。
模型調優
在樣本構建過程中,SMOTE和KNN都涉及對樣本K近鄰的確定,即確定距離樣本最近的K個樣本。在關鍵參數K值的選擇上,如果K值設定過小,容易受到訓練數據噪聲的影響,導致過擬合;如果K值設定過大,則會受到距離較遠的錯誤樣例的影響,導致學習效果不佳。因此,考慮根據原始樣本數據構造學習曲線,分析KNN關鍵參數K值與KNN算法擬合效果的關系,選擇學習曲線中擬合效果最優的節點,以此節點的K值作為參數應用KNN,如圖3所示。基于上述邏輯,本例中KNN預測效果最佳的K值為5。
需要注意的是,在樣本構造過程中,SMOTE和KNN都是基于距離的算法,需要對樣本數據進行標準化或歸一化處理,將有量綱的數據轉換為無量綱的數據,避免樣本數據量綱不統一造成的偏差。
模型結果
本研究采用邏輯回歸模型,目標變量為“是否上報”的二分類標簽。相對于難以解釋的深度學習模型,邏輯回歸模型可以充分滿足監管機構對洗錢活動認定的解釋性要求,通過對特征進行分箱處理,根據特征系數可以看出不同特征對最后預測結果的影響,能夠直觀展現客戶為何被判別為進行可疑交易,符合反洗錢系統需要對所有篩選出的可疑交易明確涉罪類型的要求,為人工復核提供排查方向和內容。
經過前期的數據清洗、篩選等處理后,樣本與特征均已達到了入模的標準,即可構建模型,邏輯回歸模型結果為:AUC為0.82,KS為0.57,模型擬合效果良好,能夠較好地區分正負樣本,最后將對目標變量的預測結果映射為分數,能夠更加直觀地表現各賬戶上報概率的預測結果以及預測值與其影響因子的關聯關系,便于設定閾值劃分樣本。在邏輯回歸閾值的選擇上,與傳統的邏輯回歸以0.5為閾值不同,需要人工設定預警分數,超過預警分數的樣本即認定為上報樣本。在業務實踐中,業務分析人員可以動態調整預警分數,在篩查效率與涉罪樣本覆蓋率之間權衡,雖然降低預警分數閾值可以提高涉罪樣本覆蓋率,但會降低篩查效率。在本例中,采用邏輯回歸模型相較于傳統規則模型, 可以在實現覆蓋規則模型篩查出的78%上報樣本的同時,成倍降低業務人員人工復核工作量,大幅提升相關業務的工作效率。
結語
在商業銀行反洗錢管理的業務實踐中,實現反洗錢智能識別模型準確率最大化、降低人工篩查成本和誤報率,已成為各商業銀行的迫切需求。為解決該類問題,本文創新性地提出了一套基于圖技術、強化學習、集成學習、仿真模擬和遷移學習等新興技術的“GREAT框架”,并針對該框架中仿真模擬技術在商業銀行反洗錢業務的應用進行實證分析。實證結果顯示,該方法可以在保證查全率的基礎上,提高篩選排查的查準率,能夠幫助銀行相關業務部門開展高效、準確的反洗錢工作。
龍盈智達(北京)科技有限公司何姍、甘睿、張月、史杰、徐奇、楊璇對本文亦有貢獻。
(作者單位:華夏銀行法律合規部反洗錢管理室,龍盈智達〔北京〕科技有限公司,中科金審〔北京〕科技有限公司)