基于生成對抗網(wǎng)絡(luò)的信用卡交易欺詐檢測

2024-12-31 00:00:00劉永靈

現(xiàn)代商貿(mào)工業(yè) 2024年17期

摘"要：欺詐一直是常見的犯罪手段，各種交易詐騙通過信用卡、移動通信等媒介實施，欺詐交易數(shù)據(jù)占總交易數(shù)據(jù)的比例極小，這類非平衡數(shù)據(jù)集的檢測一直是機(jī)器學(xué)習(xí)的研究熱點和難點。本文提出殘差Wasserstein生成對抗網(wǎng)絡(luò)并對信用卡詐騙樣本進(jìn)行過采樣，再通過分類算法對交易數(shù)據(jù)訓(xùn)練集擬合，最后在測試集上進(jìn)行欺詐檢測，實驗結(jié)果表明，該方法有效緩解了數(shù)據(jù)不平衡問題并提升了分類算法對欺詐交易的檢測能力。

關(guān)鍵詞：機(jī)器學(xué)習(xí)；非平衡數(shù)據(jù)集；二分類；生成對抗網(wǎng)絡(luò)；詐騙檢測

中圖分類號：TB"""""文獻(xiàn)標(biāo)識碼：A""""""doi：10.19311/j.cnki.16723198.2024.17.090

0"引言

信用卡交易成為人們?nèi)粘Ｉ畹闹匾灰追绞剑鼛碇T多益處的同時也帶來日益嚴(yán)重的安全隱患。截至2022年末，我國信用卡和借貸合一卡在用數(shù)量共計7.98億張，其日常交易數(shù)據(jù)量十分大，人工驗證解決信用卡欺詐問題顯然不現(xiàn)實，人們逐漸尋求更為可行的基于機(jī)器學(xué)習(xí)的檢測方法。

正負(fù)樣本占比相差過大的數(shù)據(jù)集就是非平衡數(shù)據(jù)集。非平衡問題會導(dǎo)致某一類樣本的預(yù)測概率過高，從而使得預(yù)測模型即使在精度高的情況下對數(shù)據(jù)的預(yù)測效果欠佳。近年來，除了機(jī)器學(xué)習(xí)，許多深度學(xué)習(xí)的方法也應(yīng)用于詐騙交易檢測。對抗生成網(wǎng)絡(luò)作為深度學(xué)習(xí)中一類重要框架，在圖片數(shù)據(jù)生成方面有重要且廣泛的應(yīng)用，其在詐騙數(shù)據(jù)生成以及解決非平衡數(shù)據(jù)問題上的研究還不夠深入。

為了更好地解決信用卡欺詐上述問題，本文通過構(gòu)建生成對抗網(wǎng)絡(luò)對詐騙數(shù)據(jù)進(jìn)行過采樣并在平衡數(shù)據(jù)集上構(gòu)建欺詐交易的深度學(xué)習(xí)檢測模型。

1"研究現(xiàn)狀

許多傳統(tǒng)機(jī)器學(xué)習(xí)檢測方法由于非平衡問題而很難進(jìn)行分類。傳統(tǒng)的關(guān)于非平衡分類問題的解決方法主要可以分為以下三大類：基于數(shù)據(jù)層面的方法、代價敏感學(xué)習(xí)和集成學(xué)習(xí)方法。平衡數(shù)據(jù)分布后，分類器性能通常得到了提升。基于數(shù)據(jù)層面的方法包含采樣、過采樣以及混合采用方法。其中，SMOTE（Synthetic"Minority"Over-sampling"Technique）作為一種過采樣方法，利用少數(shù)類和其近鄰的距離以及0到1之間的隨機(jī)權(quán)重合成樣本，且具有不錯的泛化能力，但可能引入噪聲。隨著深度學(xué)習(xí)的發(fā)展，許多基于深度學(xué)習(xí)的過采樣方法被提出，包括生成對抗網(wǎng)絡(luò)（Generative"Adversarial"Networks，簡稱GAN）。

生成對抗網(wǎng)絡(luò)在醫(yī)學(xué)圖像的非平衡分類問題中得到了應(yīng)用。有學(xué)者也將其用于生成詐騙數(shù)據(jù)，增強(qiáng)數(shù)據(jù)集上分類器的性能。基于生成對抗網(wǎng)絡(luò)的不平衡分類算法也被提出，并在某些數(shù)據(jù)集上達(dá)到了AUC值與F值的最優(yōu)。有學(xué)者指出GAN算法損失函數(shù)的不合理性，并作出了調(diào)整。

GAN的成功應(yīng)用證明了該框架具有應(yīng)用前景與改進(jìn)空間，本文因此選用生成對抗網(wǎng)絡(luò)作為解決信用卡交易數(shù)據(jù)非平衡問題的對策。

2"相關(guān)理論

2.1"生成對抗網(wǎng)絡(luò)

2.1.1"生成對抗網(wǎng)絡(luò)簡介

生成對抗網(wǎng)絡(luò)的模型大體分為兩類，生成模型和判別模型。生成模型產(chǎn)生“假數(shù)據(jù)”；判別模型接受生成數(shù)據(jù)以及真實數(shù)據(jù)的混合數(shù)據(jù)并進(jìn)行真?zhèn)畏诸悾漭敵龃磔斎霐?shù)據(jù)為真實數(shù)據(jù)的概率。

2.1.2"Earth-Mover距離（EM）

Arjovsky等學(xué)者在生成對抗網(wǎng)絡(luò)中引入了EM距離來衡量兩個分布之間的距離如下：

W（Pr，Pθ）=infγ∈∏Pr，PθEx，y～γ‖x－y‖（1）

其中，∏Pr，Pθ表示邊緣分布Pr和Pθ所有組合起來的聯(lián)合分布γx，y的集合。直接求解公式（1）有難度，其對偶形式如下：

WPr，Pθ=1ksup‖f‖LKEx～Prfx－Ex～Pθfx（2）

3"構(gòu)建信用卡詐騙檢測模型

3.1"數(shù)據(jù)介紹

本文的實驗數(shù)據(jù)選取了2013年9月歐洲持卡人信用卡交易數(shù)據(jù)。該數(shù)據(jù)包含了31個維度。該數(shù)據(jù)集的多數(shù)類占99.83%，少數(shù)類占0.17%。實驗對所用的數(shù)據(jù)進(jìn)行了最大最小值歸一化并將特征范圍縮放到了0到1的范圍內(nèi)。

3.2"模型介紹

本文創(chuàng)新性地融合WGAN、殘差連接與雙時間尺度更新規(guī)則，構(gòu)造出殘差Wasserstein生成對抗網(wǎng)絡(luò)（ResWGAN）。

3.2.1"模型框架

本文構(gòu)建的生成器擁有8個隱藏層，所有隱藏層均為全連接層，每個隱藏層后面均使用RELU激活函數(shù)，輸出層使用Sigmoid激活函數(shù)，生成器的第5個隱藏層與第7個隱藏層進(jìn)行了殘差連接。判別器擁有11個隱藏層，所有隱藏層均為全連接層，每個隱藏層后面均使用RELU激活函數(shù)，輸出層后不采用激活函數(shù)，判別器的第5個隱藏層與第7個隱藏層進(jìn)行了殘差連接，第8個隱藏層與第10個隱藏層進(jìn)行了殘差連接。

生成對抗網(wǎng)絡(luò)的參數(shù)表如表1所示。生成器輸入數(shù)據(jù)是維度為100的服從高斯分布的噪聲數(shù)據(jù)；判別器輸入數(shù)據(jù)是維度為30的生成詐騙數(shù)據(jù)和真實詐騙數(shù)據(jù)。隱藏層神經(jīng)元數(shù)量以斜杠符號隔開，最左邊代表第一層隱藏層神經(jīng)元數(shù)量，最右邊代表最后一層隱藏層神經(jīng)元數(shù)量。

3.2.2"訓(xùn)練設(shè)計

ResWGAN的訓(xùn)練步驟如表2所示。其中，z為維度100的噪聲，生成器訓(xùn)練延遲n的值為1，m的值為64，epoch的值為2000，fd表示判別器，fg表示生成器，Pz為100維的標(biāo)準(zhǔn)正態(tài)分布，θ為梯度計算符號，θdj與θgj分別為判別器與生成器第j輪迭代的參數(shù)，c為權(quán)重裁剪。本文設(shè)置了階段學(xué)習(xí)率，每過500輪迭代次數(shù)使學(xué)習(xí)率變?yōu)槠鋽?shù)值的0.1倍。

3.3"指標(biāo)介紹

本文引入精確率、召回率、F1值、準(zhǔn)確率、AUC值共5種指標(biāo)來評判分類效果。精確率衡量了預(yù)測為陽的數(shù)量里，真正為陽的比例。召回率衡量正確預(yù)測的陽性占所有陽性的比率。F1值為精確率與召回率的調(diào)和平均值，衡量了模型綜合考慮對陽性預(yù)測的精準(zhǔn)和對陽性的查找能力。準(zhǔn)確率為預(yù)測正確的概率。AUC值衡量了模型預(yù)測真陽性或真陰性的概率。

3.4"實驗與結(jié)果

原數(shù)據(jù)選取70%的樣本作為訓(xùn)練集，其余的作為測試集。本文分別使用SMOTE、隨機(jī)過采樣、ResWGAN對訓(xùn)練集少數(shù)類做過采樣，分別生成SMOTE平衡數(shù)據(jù)、隨機(jī)過采樣平衡數(shù)據(jù)、生成對抗網(wǎng)絡(luò)平衡數(shù)據(jù)。平衡后的正常類與詐騙類樣本比例為1：1。分類器在平衡數(shù)據(jù)集上擬合，在測試集進(jìn)行分類，實驗結(jié)果如表3所示。分類器中，L、XGB、G、DT、RF、AB代表Logit、XGBoost、高斯樸素貝葉斯、決策樹、隨機(jī)森林、AdaBoost。加粗的紅色斜體表示該指標(biāo)在同一個分類器的4種處理方法中達(dá)到了最優(yōu)，Balance對應(yīng)ResWGAN算法，Original對應(yīng)不做處理，SMOTE與ROS分別對應(yīng)SMOTE處理與隨機(jī)過采樣處理。

經(jīng)過本文提出的算法處理后，在6種分類器中，Logit、XGBoost、隨機(jī)森林和AdaBoost的指標(biāo)達(dá)到了至少3項最優(yōu)。為了對比不同處理方法達(dá)到的單項指標(biāo)上限，給出最優(yōu)指標(biāo)如圖1。可以發(fā)現(xiàn)最佳的AUC、準(zhǔn)確率、f1、精確率由本文的處理方法達(dá)成，召回率的最優(yōu)指標(biāo)由SMOTE與隨機(jī)過采樣達(dá)成，但召回率達(dá)到1.0時，其他指標(biāo)表現(xiàn)出極低的水平。

綜合以上分析，本文提出的ResWGAN過采樣處理方法有著比SMOTE以及隨機(jī)過采樣方法更穩(wěn)定地提升效果，在提高指標(biāo)上限方面有著相對優(yōu)勢。

4nbsp;結(jié)論

本文提出了殘差Wasserstein生成對抗網(wǎng)絡(luò)，該網(wǎng)絡(luò)利用真實詐騙數(shù)據(jù)進(jìn)行訓(xùn)練，通過完成訓(xùn)練后的網(wǎng)絡(luò)生成詐騙樣本，信用卡數(shù)據(jù)的類別不平衡問題得到了解決，再通過6個分類算法對不同方式平衡化處理的交易數(shù)據(jù)進(jìn)行訓(xùn)練，最后對交易數(shù)據(jù)測試集進(jìn)行欺詐預(yù)測。實驗以精確率、召回率、F1值、準(zhǔn)確率、AUC值為指標(biāo)。結(jié)果表明，本文提出的ResWGAN有效解決了數(shù)據(jù)不平衡問題并提升了欺詐數(shù)據(jù)上分類器的性能，相較傳統(tǒng)的過采樣方法更穩(wěn)定，上限更高。

參考文獻(xiàn)

［1］CHAWLA"N"V，BOWYER"K"W，HALL"L"O，et"al.Smote："synthetic"minority"over-sampling"technique[J].Journal"of"Artificial"Intelligence"Research，2002，16（1）：321357.

[2]KINGMA"D"P，WELLING"M.Autoencoding"variational"bayes[J].arXiv.org，2014.

[3]FRIDADAR"M，DIAMANT"I，KLANG"E，et"al.Ganbased"synthetic"medical"image"augmentation"for"increased"cnn"performance"in"liver"lesion"classification[J].Neurocomputing，2018，321：321331.

[4]FIORE"U，DE"SANTIS"A，PERLA"F，et"al.Using"generative"adversarial"networks"for"improving"classification"effectiveness"in"credit"card"fraud"detection[J].Information"Sciences，2019，479：448455.

[5]蓋彥蓉.基于生成式對抗網(wǎng)絡(luò)的信用卡詐騙不平衡分類問題的研究[D].廣東工業(yè)大學(xué)，2019.

[6]ARJOVSKY"M，CHINTALA"S，XE"L，et"al.Wasserstein"generative"adversarial"networks[C]//International"Conference"on"Machine"Learning，2017.

[7]HE"K，ZHANG"X，REN"S，et"al.Deep"residual"learning"for"image"recognition[C]//Proceedings"of"the"IEEE"conference"on"computer"vision"and"pattern"recognition，2016：770778.

[8]HEUSEL"M，RAMSAUER"H，UNTERTHINER"T，et"al.Gans"trained"by"a"two"timescale"update"rule"converge"to"a"local"nash"equilibrium[J].Advances"in"neural"information"processing"systems，2017，（30）.