基于大數據技術的銀行卡異常交易檢測和監管應用研究

2023-08-14 11:14:32趙啟斌張軍徐亮陳思樂益矣

區域治理 2023年16期

趙啟斌，張軍，徐亮，陳思，樂益矣

1.四川省大數據中心；2.西南財經大學工商管理學院

一、研究背景

在金融系統當中，打擊洗錢、欺詐交易等違法行為始終是金融風險防控的工作重點。一些危害十分嚴重的違法犯罪活動通常與洗錢行為密不可分，犯罪分子謀求通過復雜的轉移手段將非法獲益轉化為合法的財產，這一系列的活動將會嚴重破壞正常的金融市場秩序，影響社會穩定[1]。而欺詐交易通常是指欺詐者通過盜取客戶信息、偽造銀行卡等方式偽冒客戶進行取款、轉賬、匯款等竊取客戶資金的行為[2]。

從國家監管體系的角度來看，打擊洗錢犯罪將遏止貪污腐敗、恐怖融資等犯罪活動，有效地維護國家安全、社會穩定。另一方面，提前防范、及時干預欺詐交易的能力也體現了金融機構維護客戶財產安全的決心，間接地影響著金融機構的聲譽。因此，銀行作為金融風險防控的重要前線，基于監管要求和自身利益的雙重因素，始終需要把反欺詐、反洗錢工作置于風控體系中的重點位置。

銀行卡欺詐與洗錢行為雖然動機不同，但在具體的交易呈現方面存在共同點，即犯罪分子為了躲避監管，利用銀行的監測漏洞，會極力將自身的交易行為偽裝成正常的客戶行為。然而犯罪分子與普通客戶的目的不同，同時考慮到實施偽裝所帶來的成本，這些在犯罪實施過程中所產生的交易流水不可能完全與普通客戶的行為一致，往往會暴露出與客戶交易習慣不相符或與客戶身份不相符的異常特征[3]。因此銀行在長期反欺詐、反洗錢的實踐中，都是針對交易流水進行檢測，試圖通過交易特征區分出正常交易與異常交易，然后再對篩選出的異常交易實施精細化的人工調查核驗，由此可見其在異常交易檢測實施環節中擁有共同的理論基礎。例如中國人民銀行發布的《金融機構大額交易和可疑交易報告管理辦法》中所提到的大額交易判定標準就是基于以上原則對交易流水進行篩選。

隨著互聯網技術的不斷進步，社會經濟的持續發展，銀行的各項業務形態也在發生轉變。傳統的柜面業務已向多種渠道拓展，現已呈現出自動化、線上化的特點，并逐漸朝著智能化發展。ATM 機與POS 機的普及，網上銀行與移動支付的出現，使得以銀行卡為主體的交易業務迎來井噴式增長。僅2018 年，中國反洗錢監測分析中心共接收報告機構報送的大額交易報告9.19億份；可疑交易報告160.20 萬份①。交易量的增多、交易渠道的豐富意味著非法交易的模式變得更加復雜，這給傳統的異常交易檢測機制提出了挑戰：既要保證能快速適應交易模式的變化，又要保證異常交易的誤檢率保持在較低水平，否則檢出的異常交易數量過于龐大，給后續負責人工調查核驗的風控人員造成過大的工作壓力，進而增加銀行的人力成本。

大數據、機器學習相關技術隨著計算力的提升開始興起，其已廣泛運用于各行各業當中，取得了驚人的效果。而近年來，銀行業監管機構也愈發重視大數據技術在金融機構風險防控中的應用，《中國銀行業信息科技“十三五”發展規劃監管指導意見》中要求：“推進大數據應用，全面提升數據治理與數據服務能力”；《關于強化銀行卡磁條交易安全管理的通知》（銀辦發〔2017〕120 號文）要求：要“建立基于大數據技術的風險防控機制”“完成基于大數據技術的銀行卡風險防控系統建設”；在《關于印發銀行業金融機構數據治理指引的通知》（銀保監發〔2018〕22號）中，更是明確要求：“銀行業金融機構應當加強數據應用，持續改善風險管理方法，有效識別、計量、評估、監測、報告和控制各類風險?！?/p>

因此，運用大數據技術加強銀行卡異常交易檢測能力，不僅是銀行風控管理效率提升的內在需求，從宏觀層面也是整個金融體系持續健康、穩定發展的重要保障。

二、文獻綜述

近年來，隨著計算機和網絡技術的成熟，面對逐漸增加且形態多變的金融欺詐行為，金融機構不得不投入資源研究自動化的反欺詐、反洗錢系統，以適應科技的發展，滿足快速響應的需求。

當前銀行業主要面臨的欺詐可以分為三大類型：客戶交易欺詐、內部欺詐和洗錢。根據以往的報告來看，客戶交易欺詐和洗錢對金融機構造成的損失占欺詐損失的一半以上[2]。而銀行卡詐騙與洗錢活動往往都會暴露出與客戶交易習慣不相符或與客戶身份不相符的異常特征。吳朝平（2011）認為雖然反洗錢與銀行卡反欺詐在實際工作中有一些差異，但反洗錢工作多年發展所形成的客戶身份識別、大額和可疑交易報告、客戶身份資料和交易記錄保存三大核心體系對反欺詐工作有重要的借鑒意義[3]。這兩類非法活動都需要通過銀行的交易業務完成資金的轉移，銀行卡作為所有交易渠道的賬戶，其交易流水所體現出來的行為模式將作為判斷交易是否可疑的重要因素。

高增安（2007）將交易模式依據合法性程度劃分為5 類：合法交易、慣常交易、異常交易、可疑交易、非法交易，其合法性依次遞減。其中慣常交易指符合客戶長期行為習慣的交易，對于一個正常的客戶，他的慣常交易都為合法交易，而對于長期參與洗錢的犯罪分子來說，他的交易行為很可能是可疑甚至非法的；異常交易則體現在其特征與以往的歷史記錄表現不一致或是與大多數交易表現不一致；可疑交易是指因不同于歷史記錄和（或）同類參照組而值得懷疑的交易，如滿足《金融機構大額交易和可疑交易報告管理辦法》可疑交易標準的即為此類交易。反洗錢工作中需要通過數據分析手段區分慣常交易與異常交易，然后再通過人工調查取證判定慣常交易是否為合法交易、異常交易是否為非法交易。[1]

根據業界實際應用和學界的研究中可以總結如下：銀行卡異常交易檢測是銀行業反欺詐、反洗錢工作的重要環節，也是后續人工調查取證工作的前提。

三、建模總體流程

本研究實驗所使用的數據為某銀行1 年的原始交易流水，交易渠道以線下交易為主。在將模型部署至檢測框架投入使用以前，首先需要對模型進行設計、訓練、調整，整個建模流程可以分為以下幾個主要階段。

（1）數據預處理階段。首先需要對原始交易流水數據進行清洗，對一些非人為產生的交易進行排除，如系統自動生成的手續費、結息等。隨后將過濾后的數據送入特征工程流程，形成特征向量，完成訓練集的收集。

（2）模型訓練階段。將訓練集送入構建好的稀疏自編碼器模型中進行無監督式訓練，直到達到訓練輪數的上限或是檢測到出現過擬合現象時提前終止訓練。

（3）檢測閾值劃定階段。利用訓練好的稀疏自編碼器為訓練集計算每條數據的還原度，通過整個數據集的還原度分布，劃定中、高風險的判定閾值。

（4）模型檢驗階段。對模型的訓練效果進行檢驗，如果沒有達到預期，則需要調整模型訓練參數或是數據特征。

（5）模型部署階段。如果模型的效果能達到預期，則可以部署至檢測框架中，開始對新出現的交易進行實時檢測。

（一）實時檢測總體流程

為滿足銀行對于監控交易情況以及及時干預非法交易行為的需求，框架必須具備實時檢測的能力，因此需要引入流式計算技術。當一筆交易發生時，檢測框架實時接收核心系統推送的交易流水報文信息，并查詢相應的歷史流水進行特征衍生工作從而組裝成為輸入向量，將輸入向量送入模型完成最終的檢測。

對于某些滿足特定條件的交易，銀行需要將其篩選出來并直接進行上報或是干預，例如《金融機構大額交易和可疑交易報告管理辦法》所規定的大額交易。然而這些交易的特征可能與模型學習到的導致交易異常的特征不一致，同時檢測模型也無法給出判定為異常的具體原因。另外，由于模型的判定依賴于歷史統計特征，而一些銀行卡可能是新開卡或是活躍度極低，從而缺乏足夠的歷史記錄作為參考，難以判斷風險，對于此類交易只能通過某些硬性條件判斷其是否觸發了絕對風險?；谝陨蟽牲c原因，在使用模型對交易進行檢測之前有必要根據這些規則設置一個過濾器，將這部分交易篩選出來，單獨輸出。

（二）交易數據預處理方法

1.利用風控規則指導特征衍生

針對稀疏自編碼器模型的學習特點和解釋困難的問題，交易流水的特征衍生需要注重兩方面原則：（1）衍生出的特征對于檢測任務的有效性，即這些特征是否能更好地體現出正常交易與異常交易間的區別；（2）特征本身含義的可讀性，衍生出的特征如果能容易被解讀，那么在后續能幫助人們更好地理解模型的決策邏輯。

銀行在過去的反欺詐、反洗錢工作中積累了大量的檢測規則，經過長期的實踐證明，這些規則在一定程度上能夠反映出異常交易某些方面的特點，因此特征的衍生可以參考這些規則。

例如，參考規則“同一天在非發卡地發生夜間POS 消費交易n 筆以上”，可以設計出特征變量“當天到該條交易前在非發卡地發生夜間POS 消費次數”。

本研究結合實驗數據的渠道特點，整理了一系列銀行卡交易風險規則，其涵蓋了交易頻次、交易金額、交易地點三大主題，受限于銀行的保密制度，因此本研究不對這些規則的細節做進一步闡述。

基于整理出的規則，本研究為原始交易流水設計了四個類別的特征變量，用戶個人信息，本次交易之前t 天內交易特征統計量，本次交易之前當天內交易特征統計量，以及本次交易基本信息。以下是各類特征變量的詳細說明。

用戶的個人信息是在銀行卡辦理時采集的，包括用戶的ID，性別，年齡，辦卡時間，工作性質等。這部分數據表明了用戶的基本狀態，時變特性非常小，在利用以往一段時間的數據進行分析時，可以認為他們是不變。顯然，在一年的時間范圍內，年齡屬性也是不變的量，即使更新也很方便。

用戶以往的交易信息是對銀行卡每一次使用的記錄，包含了銀行卡的使用時間，地點，發生金額，余額變化等信息，對用戶過去較長一段時間的交易記錄進行分析能夠挖掘出用戶對銀行卡的基本使用習慣。顯然，當新的交易記錄與以往的使用習慣發生偏離時，就是一個值得關注的風險信號。如果沒有以往的交易記錄作為依據，模型判斷風險的魯棒性會非常差。例如，假設只考慮交易發生時間這一個因素，用戶A 習慣在凌晨交易，用戶B 從不在凌晨產生交易。那么當用戶A 和B 同時產生一條在凌晨時段的交易記錄時，缺少用戶習慣信息的系統只能對兩條信息給出相同的結果，即都是安全的或者都具有風險。而實際上用戶B 的交易信息透露出了風險信號。

將以上四部分特征進行合并即可形成訓練數據：

2.訓練樣本生成流程

在利用歷史交易流水生成訓練樣本集時，必須保證每筆交易的歷史統計窗口一致，并且窗口中不能出現相對當前交易而言的未來交易信息，因此在生成訓練樣本時需要嚴格按照時間進行計算。具體的生成流程分為五步。

（1）將原始數據集按時間升序排序，并以銀行卡號進行分組。

（2）針對每個分組，根據設置的歷史統計特征時間跨度t 定位訓練樣本生成起點。例如，原始數據集總時間跨度為360 天，且設置的歷史統計特征時間跨度t 為180 天，則選取第181 天的第1 條交易記錄作為訓練樣本生成起點。

（3）選取當前交易記錄的前t 天數據進行歷史統計特征的計算，依次向后迭代生成訓練樣本。

（4）若當前交易記錄前t天內交易記錄少于閾值n，則跳過此條交易記錄不為其生成訓練樣本。這類信息不足的樣本會影響模型最終的效果，它們的風險判斷將交由過濾器進行處理。此處的交易記錄數量閾值n 目前設置為3。

（5）歸集每個分組生成的樣本形成完整的訓練樣本集。

（三）稀疏自編碼異常檢測模型

1.模型構建

自動編碼器模型從形態上分為編碼器和解碼器兩大部分，它們的網絡結構互相對稱，模型的輸入維度與輸出維度一致。數據從編碼器流入經過編碼被映射到新的特征空間，而解碼器會嘗試將經過編碼的特征還原到原始特征空間上。

在異常交易檢測任務中，基本思想是使用自動編碼器學習如何將原始數據壓縮為較低維的表現形式，在這個過程中模型可以學習到各個變量間的相關性與相互作用。在正常交易數量遠遠大于異常交易數量的假設下，模型會更多地學習到正常交易特征間的關系，因此在嘗試還原由正常交易提取的中間特征時，可以實現較小的還原誤差。反之，在嘗試還原由異常交易提取的中間特征時，還原誤差將高于平均值。

自動編碼器的訓練過程如下：

（1）編碼階段。首先將訓練數據X輸入編碼器，經過編碼過程變換得到X?。中間層編碼得到的X?比輸入的數據維度低，但是能夠完整的還原輸入數據X。因此，X?中包含了X中所有有用的信息，并且具有不同的數據結構，X?即是提取到的特征，能夠以更精煉的形式表達樣本的信息。

（2）解碼階段。將X?輸入解碼器，經過解碼過程變換得到X?，X?的維度與原始數據X一致。

（3）優化階段。設置目標函數為：

由于深度神經網絡模型具有極強的擬合能力，為了防止模型同時充分擬合正常交易與異常交易特征，因此需要給自動編碼器施加稀疏性限制，變型為稀疏自編碼器。

稀疏自編碼的思想是通過抑制大部分神經元的激活，得到一個能夠用最稀疏的單元表達原始數據特征的數據結構。首先計算中間層的平均激活度：

其中σ(Z)為輸入某樣本時中間層神經元的激活值，m 表示輸入樣本數量。

在目標函數中加入懲罰項：

其中β為懲罰系數，p通常取接近于0 的常數，當前取0.05。該懲罰項會迫使隱藏層所有節點的平均激活度接近0。

2.風險等級分類閾值的選擇

稀疏自編碼模型本身不具備檢測能力，檢測功能需通過比較還原誤差值實現，首先定義還原誤差：

還原誤差越大，則代表該筆交易與絕大部分交易間的差異越大，即風險程度越高。通過為還原誤差劃分分類閾值，可以區分正常交易與異常交易。更進一步地，劃分高低兩個層級的分類閾值即可區分高風險與中風險交易。

（1）利用訓練好的稀疏自編碼模型為訓練集中所有樣本計算出還原誤差，統計還原誤差的平均值μ以及標準差σ。

（2）分別令中風險閾值δ與高風險閾值為：

（四）實驗分析

本研究采用的實驗數據為某銀行1 年的線下渠道原始交易流水數據，未經過標注。原始交易流水經過清洗、特征衍生、標準化等流程最終形成3,336,035條樣本，數據規模滿足模型訓練需求。

1.模型訓練結果

將數據集按7：3 的比例分為訓練集與驗證集，驗證集用于模型訓練過程中監控過擬合現象。為訓練過程設置早停策略，若是驗證集的損失不再下降，則提前終止訓練。

訓練集和驗證集的損失十分接近，下降的趨勢也相似，因此可以斷定模型沒有出現過擬合現象。

模型訓練結束后，通過計算所有樣本的還原誤差，劃定中風險、高風險分類閾值。為更加清晰展現閾值選擇過程，本文從數據集中隨機抽樣出一個子集進行還原誤差的統計。還原誤差呈現出明顯的長尾分布。絕大多數樣本的還原誤差都集中在0 附近，證明模型有效地擬合了絕大多數樣本，同時有極少數尾部的樣本還原誤差遠遠高于平均值，這些樣本的特征可能與其他樣本有相當大的差異。將還原誤差繪制成散點圖，并按照風險閾值的選定方法繪制分界線，僅有極少數的樣本被認定為有風險，說明模型具備區分正常交易與異常交易的能力。

2.模型有效性驗證與解釋

由于缺乏有效的樣本標簽，因此只能采用第三方模型對稀疏自編碼器檢測結果的有效性進行交叉驗證。

在對數據集的檢測結果中隨機抽樣一部分正常交易，與檢測出的異常交易共同組成相對平衡的子數據集，分別使用支持向量機、決策樹、隨機森林、貝葉斯網絡進行二分類的有監督學習，并輸出各模型對子數據集的預測結果。分別利用這些模型的預測結果與稀疏自編碼模型的檢測結果計算重合度，結果顯示最低重合度達到95%，證明本檢測方法有效。

為了解釋模型的檢測邏輯，將上述提到的決策樹模型進行可視化，并重點關注根節點附近的分叉邏輯，對決策樹節點分裂起到關鍵作用的有兩個特征：

（1）S6——當天到該條交易前夜間ATM 在發卡地交易（動賬）次數，節點分裂閾值為24.5；

（2）S18——當天到該條交易前其他時間段ATM 在發卡地交易（動賬）次數，節點分裂閾值為169.5；

S6、S18 的分布與決策樹分裂邏輯呈現一定相關性，即某些特征的離群度可能會被模型視作分離正常交易與異常交易的關鍵因素。

3.模型評價

經過訓練，模型基于3,336,035 條樣本數據中識別出疑似高風險樣本832 個，疑似中風險645 個，共計1477 個。經模型識別的風險樣本數不到總樣本數的4.43?，高風險樣本約占2.49?，這將大大減輕銀行工作人員的追蹤和篩查工作量。

通過分析得知，衍生出的統計特征能有效幫助模型區分正常交易與異常交易。同時，這些統計特征具備較好的可讀性，在后續進行人工核查時，銀行工作人員可以通過這些特征的含義直觀地理解交易異常的可能原因，從而確定調查的方向。

四、總結與展望

本研究雖然在銀行卡異常交易檢測和監管方面的研究取得了一定成果，但該方案更多是用于起步階段建設，依然存在精度不足、解釋力度欠缺的問題，其實現的效果還不足以支撐起智能風險預警、智能高危行為阻斷等一些高級應用，因此后續還將進一步研究以下內容。

（1）在收集到一定符合訓練標準的有標簽樣本的前提下，嘗試利用有監督深度學習模型構建輔助檢測模型，進一步優化檢測能力。

（2）利用有標簽的樣本庫，對檢測體系的能力進行標準指標的評估，同時研究基于樣本個體的檢測結果解釋方案。

（3）利用逐漸完善的知識庫體系，探索更多能夠對識別異常交易有影響的因素，并提煉相應的特征補充至樣本庫中。

（4）針對異常交易檢測的下游任務如反欺詐、反洗錢進行更加深入的研究，嘗試將單筆交易為粒度的檢測信息融入以交易賬戶為視角的下游檢測任務中，引入圖計算等先進技術，構建賬戶關系網絡，從網絡中識別出疑似參與非法活動的群體。

除了單純的技術應用研究，管理模式的研究也將會是未來的熱點。大數據時代的來臨，各行各業都開始嘗試將人工智能技術應用于多種業務場景中，而該領域目前正處于飛速發展的階段，各種理論、模型甚至是硬件日新月異。銀行掌握著海量的金融數據，其本身就是一筆無法估量的財富。然而出于數據安全與用戶隱私的限制，要充分挖掘這些數據的價值，銀行必須在內部培養起融匯多學科的研究型團隊，在充分理解銀行業務模式的基礎上，注重科技上的創新，而與之對應的即是建立起合適的先進管理體系。

可以預見，在監管不斷收緊，大眾對金融服務水平要求不斷提高的未來，銀行業乃至整個金融行業的機構都會逐步加大自研項目的比例。特別是一些與銀行利益息息相關的業務也離不開智能化技術的支持，例如信貸風控、獲客營銷等，以往的行業經驗與通用的解決方案將有很大機率被個性化的需求所擊垮，因此越早地發揮出數據的能量，就越能在激烈的競爭環境中搶占先機。在外部壓力和內部需求的雙重作用下，銀行有充分的動力投入到這場變革之中，而在這個以數據驅動為主全新體系下，有別于傳統的管理模式將會是創新的發動機。因此，伴隨著技術的發展，適用于銀行智能化業務的管理模式更迭將會成為一個充滿意義的研究方向。

注釋

①數據來源，中國人民銀行反洗錢報告2018.