















摘" 要: 信用卡欺詐是銀行操作風險的主要來源之一,對信用卡詐騙交易進行準確的檢測對于減少銀行經濟損失具有重要意義。針對信用卡欺詐檢測中存在的數據類別不平衡和數據漂移的問題,提出一種基于注意力機制優化的WGAN?BiLSTM信用卡欺詐檢測方法。首先引入Wasserstein距離改進生成對抗網絡(GAN),將信用卡數據輸入至WGAN(Wasserstein GAN)中,在生成器和判別器相互博弈訓練下,得到符合目標分布的欺詐樣本;然后,構建結合注意力機制的雙向長短期記憶(BiLSTM)網絡,在正反兩個方向上提取信用卡數據的長時依賴關系;最后,通過Softmax層輸出分類結果。在歐洲持卡人數據集上的實驗結果表明,所提方法能有效提升信用卡欺詐檢測效果。
關鍵詞: 信用卡欺詐檢測; 過采樣技術; 注意力機制; 不平衡分類; Wasserstein距離; 生成對抗網絡; 雙向長短期記憶網絡; 信息提取
中圖分類號: TN919?34; TP391" " " " " " " " " "文獻標識碼: A" " " " " " " " " " " 文章編號: 1004?373X(2024)10?0073?06
Method of WGAN?BiLSTM credit card fraud detection based on attention
mechanism optimization
Abstract: Credit card fraud is one of the main sources of bank operational risk. The accurate detection of credit card fraud transactions is of great significance for reducing bank economic losses. In allusion to the problems of data category imbalance and data drift in credit card fraud detection, a WGAN?BiLSTM credit card fraud detection method based on attention mechanism optimization is proposed. The Wasserstein distance is introduced to improve the generative adversarial network (GAN), and the credit card data is input into the Wasserstein GAN (WGAN). Under the mutual game training between the generator and the discriminator, the fraud samples that meet the target distribution are obtained. The bi?directional long short?term memory (BiLSTM) with attention mechanism is constructed to extract the long?term dependence of credit card data in both positive and negative directions. The classification results are output by means of the Softmax layer. The experimental results on the European cardholder dataset show that the proposed method can effectively improve the effect of credit card fraud detection.
Keywords: credit card fraud detection; over?sampling technology; attention mechanism; imbalanced classification; Wasserstein distance; GAN; BiLSTM; inforamation extraction
0" 引" 言
隨著網絡購物規模的持續增加,信用卡交易已無處不在[1],人們越來越傾向于提前消費。然而,人們在將信用抵押給銀行以提前消費時,往往缺乏理智的思考,高估了自己及時償還信用卡貸款的能力,擴大了銀行的放款風險。根據央行發布的《2022年第四季度支付體系運行總體情況》數據顯示,截至2022年末,信用卡和借貸合一卡共發卡7.98億張,銀行卡授信總額為22.14萬億元,授信使用率為39.25%;信用卡逾期半年未償信貸總額為865.8億元,占信用卡應償信貸余額的1%。在發卡規模和授信額度穩步增長的同時,信用卡違約現象層出不窮。盡管銀行對不良貸款進行了針對性處理以及加大了催收力度,但逾期風險仍然不容小覷。信用卡欺詐交易能給銀行造成經濟損失[2],也能影響銀行的聲譽。因此,金融機構應持續建立一個智能欺詐檢測機制,以檢測潛在高風險賬戶,在欺詐發生之前防止欺詐,營造良好的金融秩序,促進金融產業的健康發展。
信用卡欺詐檢測一般通過學習交易歷史數據中的規律生成經驗模型,利用模型預測未來的交易數據是否存在欺詐交易行為。與正常還款的交易相比,欺詐交易占極少數[3],可供模型學習的欺詐交易樣本數量非常稀少。并且,信用卡用戶消費行為的趨勢隨著時間呈現一定的規律性,例如在節假日人們的消費意愿更加沖動強烈,這種潛在的數據分布變化可能會導致模型的預測性能降低[4]。
近年來,研究人員在信用卡欺詐檢測上做了大量的工作。在類別不平衡問題上,一般采取過采樣[5]和欠采樣[6]的方式處理,例如N. Rtayli等人采用SMOTE算法生成欺詐樣本來克服數據的不平衡[7]。Chen Ying等人通過K?Means聚類算法改進SMOTE算法,僅在安全區域內生成欺詐樣本[8]。E. Esenogho等人通過結合SMOTE過采樣算法和欠采樣相結合的方式進行混合采樣,從而改善信用卡數據的整體分布[9]。在數據漂移問題上,一般采用基于長短期記憶(LSTM)網絡[10]的深度模型,例如Gao J等人采用LSTM提取信用卡數據中潛在的時序信息,最后通過XGBoost完成信息識別和欺詐分類[11]。I. Benchaji等人提出一種結合注意力機制的LSTM信用卡欺詐檢測模型,通過注意力機制選擇性地關注特征,能夠提高模型的檢測效率[12]。J. Forough等人以LSTM作為初步預測層、CRF作為最終預測層的方式構建信用卡欺詐檢測模型[13]。
傳統的SMOTE過采樣算法生成的欺詐樣本存在較多的噪聲,欠采樣算法可能會丟失關鍵信息,最終影響模型的訓練效果。另一方面,LSTM只能正向地學習信用卡數據的分布,無法結合前后兩個方向輸出欺詐檢測的綜合表達。針對以上問題,本文提出一種基于注意力機制優化的WGAN?BiLSTM信用卡欺詐檢測方法。首先,引入Wasserstein距離代替生成對抗網絡(GAN)中原有的JS散度來度量生成數據和真實數據之間的距離,更加穩定地生成符合原始分布的欺詐樣本,平衡信用卡數據類別的分布;然后,構建雙向長短期記憶(BiLSTM)網絡,從正反兩個方向提取信用卡數據內潛在的時序信息,并結合注意力機制對特征進行選擇性地關注;最后,通過Softmax層輸出欺詐檢測結果。
1" 研究方法
1.1" Wasserstein GAN
生成對抗網絡(GAN)[14]是一種無監督的神經網絡,包含兩個網絡進行對抗訓練。其中,生成器的目標是合成出判別器難以分辨的樣本,判別器的目標是盡可能地區分生成器生成的樣本是否為真實樣本。當GAN的生成器收斂至最優時,其目標就會轉為最小化生成數據和真實數據分布之間的JS散度。然而,當生成數據和真實數據間不存在重疊分布時,會導致JS散度始終為一個常數,無法再反映兩個分布之間的距離,進而導致GAN存在訓練不穩定的現象。
本文采用Wasserstein距離[15]代替GAN的JS散度來度量人工欺詐樣本和真實樣本之間的距離,以解決GAN穩定性較差的問題。WGAN(Wasserstein GAN)的優勢在于,即便兩個分布之間沒有重疊或者重疊情況非常少的時候,Wasserstein距離仍然能夠反映兩個分布之間的遠近程度,數值越小表示兩個分布越相似,這樣可以有效減少訓練過程中不穩定的情況。Wasserstein距離公式如下:
1.2" WGAN平衡信用卡數據集
假設信用卡數據集為[X=Xmin,Xmax],其中[Xmax]表示多數類的正常樣本,[Xmin]表示少數類的欺詐樣本,需要生成的欺詐樣本數量為[Xmax]和[Xmin]的差值。WGAN對欺詐樣本進行過采樣的具體步驟如下:
1) 初始化WGAN的生成器和判別器。均設置為具有3層全連接層的神經網絡,使用RMSprop優化器更新網絡權重,生成器的輸出維度設置為信用卡特征總數,判別器的輸出維度設置為1。
2) 生成符合高斯分布的隨機噪聲[z],將噪聲輸入至生成器[G]中得到生成的欺詐樣本[XG]。
3) 將原始樣本[X]和生成樣本[XG]輸入至判別器[D]中訓練得到判別器誤差,計算判別器誤差的損失函數如下:
式中:[pdata]和[pz]分別為噪聲和真實樣本的概率分布;[E(?)]為計算期望的函數;[G(?)]為生成器的可微函數;[D(?)]為判別器的可微函數。得到[D]的誤差后,通過反向傳播梯度下降算法對[D]進行網絡權重的更新。
4) 更新后的判別器重新對生成樣本[XG]進行判別,得到生成器誤差,計算生成器誤差的損失函數如下:
得到[G]的誤差后,通過反向傳播梯度下降算法對[G]進行網絡權重的更新。
5) 重復執行步驟2)~步驟4),在生成器和判別器不斷博弈訓練下,判別器最終再也無法區分欺詐樣本的來源,此時達到納什均衡[16]。結合式(2)與式(3)建立WGAN網絡的目標函數,公式如下:
6) 生成數量為[Xmax]和[Xmin]的差值的隨機噪聲,標簽設置為1。將其輸入至訓練好的生成器中得到人工欺詐樣本,合并原始信用卡數據樣本和人工欺詐樣本,此時得到一個類別平衡的數據集[X']。
1.3" 雙向長短期記憶網絡
雙向長短期記憶(BiLSTM)網絡是基于LSTM的拓展網絡模型,主要用于解決時序相關的問題。BiLSTM由正向LSTM和反向LSTM構成,其基本結構如圖1所示。相較于單一的LSTM,BiLSTM有更強的非線性表達能力,能夠綜合考慮序列數據的正向特征和反向特征[17],可以改善模型對長期依賴關系的學習狀況。
假設由WGAN過采樣得到的信用卡平衡數據集為[X'=x0,x1,x2,…,xT],即存在從0時刻到[T]時刻的數據,且有[0≤t≤T]。本文利用BiLSTM提取信用卡數據中的時序信息的步驟如下:
式中[ht]為BiLSTM在[t]時刻的輸出序列。
1.4" BiLSTM嵌入注意力機制
由于信用卡數據數量龐大,當輸入的序列較長,可能導致信息丟失的問題。本文在BiLSTM的隱層末端嵌入注意力機制(Attention)來改善BiLSTM的整體記憶[18]狀況,通過捕獲關鍵時序特征對欺詐檢測結果的影響,從而篩選出關鍵信息,提高模型的學習效率和檢測效果。BiLSTM結合注意力層計算注意力值的步驟如下。
1) 將由BiLSTM訓練好的隱層序列輸入至注意力層,計算每個時刻的輸入序列和目標序列之間的相關程度得到注意力分數,計算公式如下:
[St=tanhwhht+Ch] (8)
式中:[St]為[t]時刻的注意力分數;[ht]為BiLSTM在[t]時刻的輸出序列;[wh]為注意力權重;[Ch]為注意力偏置。
2) 利用Softmax函數對[St]進行轉換得到注意力權重值[α],并根據[α]對BiLSTM的隱層輸出加權求和,計算出經注意力機制優化后的輸出,公式如下:
式中:[αt]為[ht]的注意力權重值;[h't]為[t]時刻經過注意力機制優化的輸出。
3) 使用Softmax歸一化函數層將步驟2)的輸出以概率的形式呈現,即樣本被判定為欺詐樣本的概率,具體計算公式如下:
式中[yt]為模型的最終輸出。
1.5" WGAN?BiLSTM?Attention模型結構
針對信用卡欺詐檢測領域存在類別不平衡和數據漂移的問題,本文提出一種基于注意力機制優化的WGAN?BiLSTM信用卡欺詐檢測方法,其模型結構如圖2所示。
將標準化后的信用卡數據輸入WGAN中進行迭代訓練,得到符合原始分布的平衡數據集;利用BiLSTM提取數據中的時序信息并將隱層輸出傳遞至注意力層,通過注意力機制使得模型關注更重要的特征;最后,利用Softmax函數層計算出模型的最終輸出。
2" 實驗設計與分析
2.1" 實驗環境
本文的實驗采用Windows 11系統,AMD Ryzen 7 5800H CPU,內存16 GB,顯卡NVIDIA GeForce RTX 3060。在構建模型的過程中,采用Python編程語言的Sklearn工具包和Keras工具包實現。
2.2" 數據集描述
本文使用的數據集來源于Kaggle平臺的公開數據集,由Worldline和ULB的機器學習小組在進行欺詐檢測有關的大數據挖掘期間收集的。該數據集包含了歐洲持卡人于2013年9月2天內的信用卡交易記錄,共有284 807條交易數據。其中具有欺詐行為的交易數據僅有492條,欺詐比例為0.172%。
該數據集一共有31個特征變量,沒有缺失值。特征V1,V2,…,V28是通過PCA降維后的結果,出于保護持卡人隱私的目的,它們的原始特征和背景信息沒有被提供。特征Time表示每條交易與第一條交易相差的秒數;特征Amount表示交易金額;特征Class表示欺詐類型,當其為欺詐交易時取值為1,否則取值為0。
2.3" 數據預處理
由于特征Time僅存儲序列信息,本文首先對其進行剔除;接著對剩余特征進行標準化處理,消除特征之間的量綱關系,使得特征之間具有可比性。標準化后數據將被映射至一個較小的范圍之內,起到平滑梯度的作用,有助于提高模型的訓練速度和分類性能。本文采用Z?Score算法對數據進行標準化操作,計算公式如下:
式中:[v]為原始特征數值;[μ]為所有特征的平均值;[σ]為所有特征的標準差;[v']為標準化后的特征數值。
2.4" 評價指標
本文采用的評價指標包括準確率(Accuracy)、精確率(Precision)、召回率(Recall)、F1值(F1?Score),具體的計算公式如下:
在解釋這些指標之前,需要引入混淆矩陣,如表1所示。其中,TP表示將正例預測為正例的樣本;FP表示為將反例預測為正例的樣本;FN表示為將正例預測為反例的樣本;TN表示將反例預測為反例的樣本。
在研究模型的泛化能力時,按照預測結果的順序逐個將樣本作為正例進行輸出,可以畫出ROC曲線和PR曲線,兩者皆能用于評價二分類器的性能。但是ROC曲線無法有效地體現出樣本類別不平衡時對模型產生的影響,容易呈現一個較為樂觀的結果;而PR曲線對于極度不平衡的數據集更為敏感。所以,本文采用PR曲線來直觀地展示不同模型之間的分類性能。此外,PR曲線涉及一個重要指標,即AUPRC值。AUPRC的值為PR曲線下方的面積,當PR曲線越靠近右上方或曲線下方面積越大時,說明模型分類性能越好。
2.5" 實驗設置及結果分析
為驗證BiLSTM提取信用卡數據時序信息的有效性,本文比較了多個神經網絡模型,如BP神經網絡(BPNN)、長短期記憶(LSTM)網絡和門控循環單元(GRU)。以上模型都加入丟失率為0.1的Dropout層防止過擬合,使用二元交叉熵BinaryCrossentropy函數作為損失函數,采用Adam優化器更新網絡權重。為了提高評估結果的魯棒性和準確性,在每個參數條件下均獨立進行10次實驗,最終結果以10次實驗的均值展現。將數據集按照7∶3的比例劃分為訓練集和測試集,從準確率、F1值和AUPRC值這三個評估指標進行對比,評價結果如表2所示。
由于模型在訓練集學習到了大量多數類樣本的分布,對測試集中大量的多數類樣本進行了準確的預測,上述模型的準確率都達到99.9%以上。然而,對于信用卡欺詐檢測問題而言,檢測出欺詐交易要比檢測出正常交易更有價值,所以本文更加關注除準確率之外的分類評價指標。從實驗結果中可以發現,BPNN的各項評價指標最低,作為較為基礎的模型并不具備利用數據中潛在時序規律的能力。LSTM和GRU表現出了比BPNN更顯著的優越性,但都不如具備雙向提取能力的BiLSTM。因此,本文將BiLSTM設置為信用卡欺詐檢測的基礎分類器。從表2中還能看出,在結合了注意力機制后模型的性能得到提升,說明利用注意力機制對信用卡欺詐進行檢測是有效的。
本文使用的數據集類別分布十分不均勻,如果直接訓練數據會導致模型泛化能力差,容易對多數類樣本產生過擬合。雖然準確率較高,但模型并沒有真正學習到如何分辨欺詐樣本。為解決上述問題,需要對原始數據進行過采樣操作。本文以BiLSTM?Attention為基礎模型,比較SMOTE算法、ADASYN算法、K?MeansSMOTE算法和WGAN算法過采樣對模型影響的差異,分別表示為Model1、Model2、Model3和Model4。其中SMOTE算法和ADASYN算法的K近鄰值設置為5,K?MeansSMOTE算法的簇數量設置為27,WGAN算法的優化器學習率和Dropout層神經元丟失率分別設置為0.000 2和0.1,過采樣后的欺詐樣本與正常樣本的數量持平。基于過采樣方法的模型PR曲線如圖3所示。
從圖3可以看出,基于WGAN過采樣的模型PR曲線基本處于其他曲線的最上方,即曲面下方的面積最大,表明其分類性能為最優。為詳細探究WGAN過采樣算法的優越性,本文給出了具體的分類評價結果,如表3所示。
基于SMOTE算法和ADASYN算法過采樣的模型在精確率和F1指標上都表現較差,表明其在過采樣過程中產生了過多的噪聲,致使模型學習到了不必要的數據分布。K?MeansSMOTE算法因其先聚類再過采樣的特性,相較于前兩者來說,模型的綜合性能有著顯著提升,但仍遜于基于WGAN算法過采樣的模型。除了召回率略低于基于其他過采樣算法的模型外,WGAN?BiLSTM?Attention模型的其他分類評價指標都達到了最高,尤其是在評價不平衡分類中更具意義的F1指標和AUPRC指標上。
3" 結" 語
隨著信用卡支付方式的廣泛普及,以及客戶群體中存在提前消費的觀念,擴大了信用卡欺詐違約交易的風險。為降低該風險,本文提出了一種基于注意力機制優化的WGAN?BiLSTM信用卡欺詐檢測方法。引入Wasserstein距離代替GAN的JS散度,增加對抗訓練的穩定性,通過WGAN生成符合目標分布的欺詐樣本使得數據集達到平衡;利用BiLSTM對信用卡數據進行雙向提取,充分捕捉其中的時序信息;結合注意力機制篩選關鍵特征,改善BiLSTM的整體記憶狀況。
在歐洲持卡人數據集上的實驗結果表明,本文方法具有較高的準確性,優于其他對比模型,能夠勝任信用卡欺詐檢測任務。
參考文獻
[1] THENNAKOON A, BHAGYANI C, PREMADASA S, et al. Real?time credit card fraud detection using machine learning [C]// International Conference on Cloud Computing, Data Science amp; Engineering (Confluence). Noida, India: IEEE, 2019: 488?493.
[2] WANG D S, CHEN B T, CHEN J. Credit card fraud detection strategies with consumer incentives [J]. Omega?international journal of management science, 2019, 88: 179?195.
[3] MAKKI S, ASSAGHIR Z, TAHER Y, et al. An experimental study with imbalanced classification approaches for credit card fraud detection [J]. IEEE access, 2019, 7: 93010?93022.
[4] BECKER A, BECKER J. Dataset shift assessment measures in monitoring predictive models [J]. Procedia computer science, 2021, 192: 3391?3402.
[5] CHAWLA N V, BOWYER K W, HALL L O, et al. SMOTE: synthetic minority over?sampling technique [J]. Journal of artificial intelligence research, 2002, 16(1): 321?357.
[6] YEN S J, LEE Y S. Under?sampling approaches for improving prediction of the minority class in an imbalanced dataset [J]. Lecture notes in control amp; information ences, 2006, 344(2): 731?740.
[7] RTAYLI N, ENNEYA N. Enhanced credit card fraud detection based on SVM?recursive feature elimination and hyper?parameters optimization [J]. Journal of information security and applications, 2020, 55: 102596.
[8] CHEN Ying, ZHANG Ruirui. Research on credit card default prediction based on K?Means SMOTE and BP neural network [J]. Complexity, 2021: 6618841.
[9] ESENOGHO E, MIENYE I D, SWART T G, et al. A neural network ensemble with feature engineering for improved credit card fraud detection [J]. IEEE access, 2022, 10: 16400?16407.
[10] HOCHREITER S, SCHMIDHUBER J. Long short?term memory [J]. Neural computation, 1997, 9(8): 1735?1780.
[11] GAO J, SUN W J, SUI X. Research on default prediction for credit card users based on XGBoost?LSTM model [J]. Discrete dynamics in nature and society, 2021(2): 5080472.
[12] BENCHAJI I, DOUZI S, EL OUAHIDI B, et al. Enhanced credit card fraud detection based on attention mechanism and LSTM deep model [J]. Journal of big data, 2021, 8(1): 151.
[13] FOROUGH J, MOMTAZI S. Sequential credit card fraud detection: A joint deep neural network and probabilistic graphical model approach [J]. Expert systems, 2022, 39(1): e12795.
[14] GOODFELLOW I, POUGET?ABADIE J, MIRZA M, et al. Generative adversarial nets [C]// Conference on Neural Information Processing Systems. Montreal, Canada: ACM, 2014: 2672?2680.
[15] ARJOVSKY M, CHINTALA S, BOTTOU L. Wasserstein generative adversarial networks [C]// Proceeding of the 34th International Conference on Machine Learning. Sydney, Australia: ACM, 2017: 214?223.
[16] NASH J F. Equilibrium points in N?Person games [J]. Proceedings of the national academy of sciences, 1950, 36(1): 48?49.
[17] TRIPATHI B, SHARMA R K. EEG?based emotion classification in financial trading using deep learning: effects of risk control measures [J]. Sensors, 2023, 23(7): 3474.
[18] CHENG X J. An attention embedded DUAL?LSTM method for financial risk early warning of the three new board?listed companies [J]. Peerj computer science, 2023(2): e1271.