王海波
(智器云南京信息科技有限公司,江蘇 南京 210012)
面對金融科技行業的快速發展和環境的急劇變化,傳統風險防范與合規管理手段難以滿足未來監管和金融機構的要求。合規科技正成為銀行在數字化轉型發展進程中不可或缺的助力器[1],而反洗錢是銀行合規管控的一項核心工作。2020 年,央行總計開出568 筆約23 273.6 萬的反洗錢行政罰單,涉及369 家金融機構,問責365 人。如何融合新技術謀求反洗錢應用場景創新,是賦能業務合規、防范新興風險、助力數字化轉型和軟件智能化升級的重要問題。
目前,已有較多金融反洗錢軟件技術研究,從系統級和算法級兩個層面綜述如下:
系統級層面,肖琨等[2]開發了一種貨幣交易的可疑行為檢測和分類系統,利用知識圖譜和數據融合搭建銀行風控平臺。汪昱廷[3]基于大數據與機器學習設計高效反洗錢檢測,引入知識圖庫進行檢索映射。吳剛等[4]將反洗錢數據存儲、處理及多種功能接口融合,實現反洗錢區域化、現代化、數據化。這些研究從多方面對反洗錢系統進行了框架設計,但從市場化軟件普適性、可推廣性角度,如何加強多場景下的數據智能化關聯和系統流程的易操作性,值得進一步研究。此外,用知識圖譜搭建反洗錢軟件需因地制宜,尤其針對洗錢嫌疑賬戶行為的時空特性,需輔以行業經驗進行調參,并開放充分的接口為軟件升級和推廣做準備。
算法級層面,Wang 等[5]提出一種用于洗錢的決策樹方法,從企業客戶檔案中提取4 個屬性加以實現。Kingdon[6]提出基于賬戶的多維自適應概率矩陣以判斷銀行的行為模式。但由于金融領域的突發性并不等于可疑性或違法性,上述系統對反洗錢的檢測針對性偏弱,尤其在復雜場景下的識別準確率和有效性有待提升。陳強等[7]采用圖分析、圖挖掘等技術,提取深層關聯風險特征,構建反欺詐策略體系。肖艷麗等[8]運用XGBoost 模型預測金融市場極端風險,并展開預測效果的顯著性檢驗。上述方法對樣本量及歷史數據的相關性特性要求較高,且方法有效性依賴于樣本的多樣性和預處理質量,魯棒性偏弱。鐘增勝等[9]基于層次化加權的交易行為特征描述,提出結合孤立點檢測和小類簇檢測的交易行為異常檢測方法。該研究進行了評估實驗,但未涉及系統級整體層設計。聶濤等[10]基于決策樹和特征工程進行反洗錢大數據技術應用,流程可行性好但案例實驗的指標支撐有待豐富。文獻[11-12]基于GREAT 和人機耦合技術進行反洗錢智能識別建模,但主要針對局部識別模塊,通用性需要驗證。Foley 等[13]為合法和非法比特幣交易用戶建立社區,Han 等[14]基于自然語言處理技術減少反洗錢調查時間,但這些研究的適用范圍限定較多,有待形成市場認可推廣的軟件架構。
鑒于上述分析,本文構建改進的金融領域反洗錢全過程框架,研制可市場化的軟件,實現全流程控制和可視化分析,為本行業相關軟件推廣提供一定技術參考。
基于知識圖譜構建反洗錢軟件的智能數據關聯架構,其主體設計思路為:①通過無監督學習方法掃描CT 畫像,實現自動化平臺建模,支撐數據采集與預處理、統計特性分析、樣本訓練及預測、性能評估與監控等流程;②基于機器學習方法對模型各模塊進行迭代優化,抽取多個目標洗錢場景的核心特征,構造反洗錢類罪模型,精準定位可疑主體;③基于深度學習技術,在小樣本條件下進行數據自適應擴充,提升欺詐風險自主識別能力,構建反洗錢模型的自適應優化模式;④采用智能數據關聯的知識圖譜作為客戶選擇和欺詐洗錢行為識別的核心技術。基于圖數據和多維數據原理進行黑樣本庫關聯探查,將不規則的多源異構數據進行標簽化管理,作為機器學習訓練引擎的輸入,從而提升識別速度和精度。
其中,步驟②作為核心算法部分,設計思路如圖1 所示,包括4 個模塊:數據提取、特征工程、標準化、分類。分類器采用融合的機器學習算法,可根據不同場景條件進行初始參數預設。通過對黑、白樣本(包括原始交易數據、特征化數據、圖計算特征數據等)的學習,形成算法模型,實現對未來交易數據的分類預測,即對可疑交易數據的甄別。

Fig.1 Data process module of anti-money laundering system based on machine learning圖1 基于機器學習的反洗錢數據處理流程
對于數據集,需將原始交易數據通過數據清洗和數據轉換(衍生、降維等)獲得標準數據,再通過濾波生成圖數據存儲在數據庫中。在特征工程模塊中,圖數據通過網絡分析和場景檢測得到特征向量x1;標準化數據通過數據提取和轉化得到特征向量x2;原始交易數據通過時序分析模型如LSTM[15],提取得到特征向量x3。向量合并之后經過標準化、歸一化、數據填充,得到最終的特征向量,送入機器學習分類器。本文采用隨機森林+XGBoost 混合算法,即采用隨機森林進行特征向量的降維優化,進而用XGBoost進行訓練和分類,選出符合設定規則且滿足相關準確率和覆蓋率的可行解。需注意的是,算法模型需對黑、白特征業務樣本數據分別訓練得到模型(本文案例取數據集共計13 000 樣本點的前80%作為訓練集),然后對測試數據進行分類預測(取數據的后20%作為測試數據)。
所設計的基于知識圖譜的反洗錢軟件整體框架如圖2所示。
(1)金融客戶數據的知識圖譜庫構建。通過知識圖譜庫存儲和抽取,構建相關的基本信息和行為特征數據,如檔案信息、行為活動數據、數字指紋、賬戶間關系、閾值優化等信息。同時,整合已知銀行客戶模式,推導出細粒度信息,改進引擎檢測效果。學習引擎根據給定特征向量自適應調整權重參數和距離函數,直至滿足指標約束。
(2)動態特征提取。將智能數據關聯技術和反洗錢業務場景結合起來,并融合行業知識以“動態”提取特征。動態特征提取保證了提取過程的在線可調整性,即當輸入數據發生增減變化時,對應在線調整特征向量維數,增強引擎模型魯棒性。

Fig.2 Overall scheme of the anti-money laundering software圖2 反洗錢軟件整體框架
(3)CT 畫像引擎。CT 畫像引擎利用規則檢測和自監督學習檢測實現對客戶6 維、72 脈、360 度掃描的立體畫像。本文軟件設計根據銀行業認定的反洗錢規則結合目標場景需求構建檢測引擎,對全量數據或可疑數據進行檢測。同時,將無監督機器學習(團伙檢測)和規則檢測引擎檢測相融合,符合各規則檢測出的洗錢數據共同輸入有監督學習模型,經學習訓練后,結合行為方式已知的賬戶信息,推算并鎖定具有類似特征的可疑賬戶。
(4)無監督學習引擎。無監督針對的是異常行為模式及特征有效性未知的情形。一方面,無需標簽和訓練數據,主動檢測新型攻擊,提前防范嫌疑模式,甚至在嫌疑賬戶申請或注冊時將其檢測出來;另一方面,有效利用新型數字信息,匯總和計算多個數字指紋,通過信息融合輸出決策變量。
(5)檢測結果排序和分類。根據可信度將已檢出的可疑賬戶進行打分和排序,并按攻擊性質對可疑賬戶進行分類。進而,利用可疑賬戶的規模和聚類距離對上述打分排序結果進行函數描述。規模越大、聚類距離越短的可疑賬戶,其得到的分數越高,嫌疑性越強。
(6)實時可視化分析。結果圖數據送往實時可視化分析模塊,該模塊首先基于圖分析結果的相似度,將多個可疑賬戶進一步關聯聚類,進而將不同的賬戶聚類視為不同節點,計算節點間的邊緣權重以揭示不同賬戶聚類間的潛在關聯,再通過人機交互界面完成上述結果的實時可視化輸出。
基于軟件架構和功能分析,得到軟件開發核心任務目標:①智能引擎設計;②構建知識圖譜;③人工智能建模;④可疑類罪自動判別;⑤動態一鍵報告。將該軟件開發過程中的關鍵技術和注意事項進行總結,以幫助后續開發使用者參考并改進。
(1)知識圖譜技術嵌入。反洗錢軟件的開發本質上屬于大數據技術應用。面對多源異構的銀行賬戶數據聚類問題,需要軟件具備數據搜索、預處理、映射、關聯等基本功能,并實現洗錢信息建模、賬戶關系鏈接、隱形關聯挖掘等附加功能。該反洗錢軟件平臺采用ELP(Entity:實體,Link:鏈接,Property:屬性)模型刻畫智能數據關聯關系,尤其是時間和空間關系,通過銀行賬單、存取單據、交易數據及分析人員可視化交互,快速挖掘可疑信息,定位嫌疑點,并結合行為模式和組織架構分析,提供有效反洗錢偵探線索。
(2)高度定制化ETL 工具。通過定制化ETL 工具,支持多類數據庫模塊的讀寫,包括各主流關系型數據庫、NoSQL 數據庫和Hadoop 數據庫,實現多源異構數據資源的提取、預處理和轉換,然后裝載到知識圖譜平臺中,實現數據的關聯集成。
(3)分布式數據庫技術。采用分布式圖數據庫結構,保證對多源異構數據的實時處理能力,避免樣本過敏感、過擬合問題及回歸和決策時的效率低下問題。通過優化圖計算層和存儲層,支撐海量樣本處理,適合反洗錢應用場景。
(4)大數據建模工具。傳統的數據建模大多采用業務知識,但在面對金融洗錢這類數據類型異構、賬戶來源多樣、可視化程度較低的應用場景時,需要數據挖掘、數理統計及人工智能等多項技術的交叉融合,以精準鎖定嫌疑賬戶。在構建上層應用模型時,采用基于腳本語言的建模開發工具,支持多類型文件、多數據庫、多接口的信息讀取。
(5)智能中臺。智能中臺提供數據分析和用戶交易場景的信息流交互和管理決策服務,從感知、理解、統計、決策、展示、創造、挖掘、歸納八大方向出發,為上層應用提供多樣化的業務數據支撐,保證各模塊之間更精準、更智能的協同,其關系網和功能邏輯如圖3所示。

Fig.3 Upper business directions supported by the intelligent platform圖3 智能中臺支撐的上層業務方向
(6)信息可視化與人機智能分析。基于對銀行業數據的理解,可視化模塊基于人機智能,將海量金融賬戶和場景數據可視化,提升信息的定量和定性可分析度。在與建設銀行的合作運營過程中獲得了良好反饋。
所設計軟件經調試已成功應用于市場,其功能架構如圖4 所示,包括通信層、數據層、應用層、展現層和用戶層5個層次,且每個層次支撐相應的模塊功能。

Fig.4 Functional architecture of the anti-money laundering software圖4 反洗錢軟件功能架構
軟件所采用的業務流程如圖5 所示,總體可劃分為甄別、復核、審定和報告4 個階段。系統先建立案件,然后進行數據采集,在案件甄別后提交入庫,后續通過提取案件信息、提取交易特征報告和提取分析結論,完成交易特征分析和報告編制。

Fig.5 Operation flow of the anti-money laundering software圖5 反洗錢軟件業務流程
可通過如圖6 所示的場景分析軟件功能,包括案件管理、報告管理、風險人員庫、戰法模型和分析圖表5 個模塊。
進一步,圖7—圖9 給出了圖6 中各功能的實際使用執行效果,包括“建立案件與模型分析”模塊,“報告管理與風險庫”模塊和“戰法模型與分析圖表”模塊。
由此可見,該反洗錢軟件系統各模塊協同完成了核心功能:洗錢案件類型分析、多類型數據分析、時空關聯關系分析、社會網絡集合分析及動態展示等。

Fig.6 Scenario application functions and features of the anti-money laundering software圖6 反洗錢軟件的場景應用功能及特征

Fig.7 Case setup and model analysis module圖7 建立案件與模型分析模塊

Fig.8 Report management and risk library module圖8 報告管理與風險庫模塊

Fig.9 Warfare model and chart analysis module圖9 戰法模型與分析圖表模塊
將所設計軟件與賦能前的傳統人工方法進行對比,耗時效果如表1 所示。數據來源為近年來應用至全國幾大銀行反洗錢平臺的實際案例。可見,采用軟件賦能獲得的優勢包括:
(1)分析戰法模型優勢。反洗錢智能監管系統內嵌大量戰法模型,考慮國情和行業經驗,方便業務人員快速上手。分析模型可復用,能幫助分析人員快速解決可疑賬單的交易特征分析問題,極大提高工作效率。
(2)分析服務優勢。軟件通過設計數據接口和友好界面,便于提供售后、培訓及分析服務,保證客戶采購產品以后可以充分應用于實戰,解決當前反洗錢業務中甄別難、分析難的實際工作問題。
(3)計算速度與應用范圍優勢。之前使用人工或專家經驗判別的銀行,在面對海量數據記錄時,通常難以挖掘數據關聯邏輯,計算耗時長,甚至部分案例無法求得最優解。該軟件賦能后在計算流程、計算算法和數據處理技術方面實現了智能化,提升了求解效率。此外,引入改進機器學習方法解決了海量有噪聲數據的訓練和測試問題,適于復雜場景下的快速數據分析。
表2 對比了采用不同機器學習算法的軟件有效性。首先,對銀行目標客戶的近30 天交易流水進行數據清洗;然后,對原始交易數據序列進行標準化;進而,按訓練集與測試集8∶2 比例進行模型訓練測試,推測可疑賬戶;最后,與經過業務人員鑒別確定為真實的洗錢嫌疑賬戶進行對比,分析準確率。
表2 中的準確率與F1 值為10 次實驗所得計算結果的平均值。可見,本文所設計軟件算法的準確率可達85%以上,且F1 值較高,說明模型在數據分布不平衡的情況下取得了較好效果。

Table 1 Comparative analysis of the performance with and without the designed software表1 本文研發的軟件賦能前后效果比較

Table 2 Software performance comparison using different machine learning methods表2 采用不同機器學習方法的軟件性能比較
基于知識圖譜框架并結合反洗錢領域的實戰經驗,考慮智能數據關聯,將反洗錢措施流程化和智能化。提升性能包括:①實現反洗錢賬戶數據的智能采集和清洗;②根據業務特征實現智能分析和聚類;③滿足復雜多樣場景的分析需求,快速應對多變的洗錢行為;④實現洗錢類罪自動匹配和識別,尤其反洗錢違法犯罪的類型;⑤報告及數據庫快速生成,界面友好易操作。
金融洗錢行為存在數據跨領域、手法多變的特點。對此,技術層面的創新包括:
(1)數據關聯架構。從通信層、數據層、展現層、用戶層自下而上為反洗錢案件提供多維度分析,實現海量嫌疑樣本中的目標精確快速鎖定,設定嫌疑資金流向自適應跟蹤功能。
(2)全量的數據融合和關聯存儲。考慮案件和數據類型多變,按業務場景動態建模,并對多源異構的海量賬戶數據進行融合、特征抽取及關聯存儲,滿足軟件靈活性和快速性要求。
(3)基于動態圖數據的智能化。采用改進的機器學習算法進行數據挖掘,協助辦案分析人員快捷鎖定嫌疑賬戶的時空特性。采用人機智能的圖形化技術進行3D 布局和地理信息系統軌跡描繪,為最終決策提供智能的圖形化證據鏈。
(4)基于業務積累的模型。以工作流的形式進行反洗錢模型可視化設計,避免復雜的手動編程,后續案件可直接調用。案件分析人員可根據經驗編寫和共享定制的分析模型,為后續維護和擴展提供便利。
本文介紹了基于知識圖譜并考慮智能數據關聯的金融領域反洗錢軟件設計方法,并通過案例描述了該軟件的設計流程、銀行業應用情況及創新思路。分析表明,在知識圖譜框架下將智能數據關聯和人工智能等技術融合,可實現從個體賦能到群體智能的軟件升級。該軟件在全國多家銀行和機構運行,相關評估顯示,相比傳統非智能軟件及人工排查反洗錢手段,本文所述軟件可有效提升洗錢甄別率。
據中國人民銀行反洗錢中心預測,未來3 年反洗錢報告機構預估為現在的兩倍左右,銀行業約3 000 家,證券期貨業約800 家,反洗錢分析市場規模將達160 億。本文所述軟件方法為該需求下的大數據挖掘和應用奠定了基礎,也為各銀行金融機構反洗錢業務提供了助力。