999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于生成對抗網(wǎng)絡(luò)的信用卡交易欺詐檢測

2024-12-31 00:00:00劉永靈
現(xiàn)代商貿(mào)工業(yè) 2024年17期
關(guān)鍵詞:機(jī)器學(xué)習(xí)

摘"要:欺詐一直是常見的犯罪手段,各種交易詐騙通過信用卡、移動通信等媒介實施,欺詐交易數(shù)據(jù)占總交易數(shù)據(jù)的比例極小,這類非平衡數(shù)據(jù)集的檢測一直是機(jī)器學(xué)習(xí)的研究熱點和難點。本文提出殘差Wasserstein生成對抗網(wǎng)絡(luò)并對信用卡詐騙樣本進(jìn)行過采樣,再通過分類算法對交易數(shù)據(jù)訓(xùn)練集擬合,最后在測試集上進(jìn)行欺詐檢測,實驗結(jié)果表明,該方法有效緩解了數(shù)據(jù)不平衡問題并提升了分類算法對欺詐交易的檢測能力。

關(guān)鍵詞:機(jī)器學(xué)習(xí);非平衡數(shù)據(jù)集;二分類;生成對抗網(wǎng)絡(luò);詐騙檢測

中圖分類號:TB"""""文獻(xiàn)標(biāo)識碼:A""""""doi:10.19311/j.cnki.16723198.2024.17.090

0"引言

信用卡交易成為人們?nèi)粘I畹闹匾灰追绞剑鼛碇T多益處的同時也帶來日益嚴(yán)重的安全隱患。截至2022年末,我國信用卡和借貸合一卡在用數(shù)量共計7.98億張,其日常交易數(shù)據(jù)量十分大,人工驗證解決信用卡欺詐問題顯然不現(xiàn)實,人們逐漸尋求更為可行的基于機(jī)器學(xué)習(xí)的檢測方法。

正負(fù)樣本占比相差過大的數(shù)據(jù)集就是非平衡數(shù)據(jù)集。非平衡問題會導(dǎo)致某一類樣本的預(yù)測概率過高,從而使得預(yù)測模型即使在精度高的情況下對數(shù)據(jù)的預(yù)測效果欠佳。近年來,除了機(jī)器學(xué)習(xí),許多深度學(xué)習(xí)的方法也應(yīng)用于詐騙交易檢測。對抗生成網(wǎng)絡(luò)作為深度學(xué)習(xí)中一類重要框架,在圖片數(shù)據(jù)生成方面有重要且廣泛的應(yīng)用,其在詐騙數(shù)據(jù)生成以及解決非平衡數(shù)據(jù)問題上的研究還不夠深入。

為了更好地解決信用卡欺詐上述問題,本文通過構(gòu)建生成對抗網(wǎng)絡(luò)對詐騙數(shù)據(jù)進(jìn)行過采樣并在平衡數(shù)據(jù)集上構(gòu)建欺詐交易的深度學(xué)習(xí)檢測模型。

1"研究現(xiàn)狀

許多傳統(tǒng)機(jī)器學(xué)習(xí)檢測方法由于非平衡問題而很難進(jìn)行分類。傳統(tǒng)的關(guān)于非平衡分類問題的解決方法主要可以分為以下三大類:基于數(shù)據(jù)層面的方法、代價敏感學(xué)習(xí)和集成學(xué)習(xí)方法。平衡數(shù)據(jù)分布后,分類器性能通常得到了提升。基于數(shù)據(jù)層面的方法包含采樣、過采樣以及混合采用方法。其中,SMOTE(Synthetic"Minority"Over-sampling"Technique)作為一種過采樣方法,利用少數(shù)類和其近鄰的距離以及0到1之間的隨機(jī)權(quán)重合成樣本,且具有不錯的泛化能力,但可能引入噪聲。隨著深度學(xué)習(xí)的發(fā)展,許多基于深度學(xué)習(xí)的過采樣方法被提出,包括生成對抗網(wǎng)絡(luò)(Generative"Adversarial"Networks,簡稱GAN)。

生成對抗網(wǎng)絡(luò)在醫(yī)學(xué)圖像的非平衡分類問題中得到了應(yīng)用。有學(xué)者也將其用于生成詐騙數(shù)據(jù),增強(qiáng)數(shù)據(jù)集上分類器的性能。基于生成對抗網(wǎng)絡(luò)的不平衡分類算法也被提出,并在某些數(shù)據(jù)集上達(dá)到了AUC值與F值的最優(yōu)。有學(xué)者指出GAN算法損失函數(shù)的不合理性,并作出了調(diào)整。

GAN的成功應(yīng)用證明了該框架具有應(yīng)用前景與改進(jìn)空間,本文因此選用生成對抗網(wǎng)絡(luò)作為解決信用卡交易數(shù)據(jù)非平衡問題的對策。

2"相關(guān)理論

2.1"生成對抗網(wǎng)絡(luò)

2.1.1"生成對抗網(wǎng)絡(luò)簡介

生成對抗網(wǎng)絡(luò)的模型大體分為兩類,生成模型和判別模型。生成模型產(chǎn)生“假數(shù)據(jù)”;判別模型接受生成數(shù)據(jù)以及真實數(shù)據(jù)的混合數(shù)據(jù)并進(jìn)行真?zhèn)畏诸悾漭敵龃磔斎霐?shù)據(jù)為真實數(shù)據(jù)的概率。

2.1.2"Earth-Mover距離(EM)

Arjovsky等學(xué)者在生成對抗網(wǎng)絡(luò)中引入了EM距離來衡量兩個分布之間的距離如下:

W(Pr,Pθ)=infγ∈∏Pr,PθEx,y~γ‖x-y‖(1)

其中,∏Pr,Pθ表示邊緣分布Pr和Pθ所有組合起來的聯(lián)合分布γx,y的集合。直接求解公式(1)有難度,其對偶形式如下:

WPr,Pθ=1ksup‖f‖LKEx~Prfx-Ex~Pθfx(2)

3"構(gòu)建信用卡詐騙檢測模型

3.1"數(shù)據(jù)介紹

本文的實驗數(shù)據(jù)選取了2013年9月歐洲持卡人信用卡交易數(shù)據(jù)。該數(shù)據(jù)包含了31個維度。該數(shù)據(jù)集的多數(shù)類占99.83%,少數(shù)類占0.17%。實驗對所用的數(shù)據(jù)進(jìn)行了最大最小值歸一化并將特征范圍縮放到了0到1的范圍內(nèi)。

3.2"模型介紹

本文創(chuàng)新性地融合WGAN、殘差連接與雙時間尺度更新規(guī)則,構(gòu)造出殘差Wasserstein生成對抗網(wǎng)絡(luò)(ResWGAN)。

3.2.1"模型框架

本文構(gòu)建的生成器擁有8個隱藏層,所有隱藏層均為全連接層,每個隱藏層后面均使用RELU激活函數(shù),輸出層使用Sigmoid激活函數(shù),生成器的第5個隱藏層與第7個隱藏層進(jìn)行了殘差連接。判別器擁有11個隱藏層,所有隱藏層均為全連接層,每個隱藏層后面均使用RELU激活函數(shù),輸出層后不采用激活函數(shù),判別器的第5個隱藏層與第7個隱藏層進(jìn)行了殘差連接,第8個隱藏層與第10個隱藏層進(jìn)行了殘差連接。

生成對抗網(wǎng)絡(luò)的參數(shù)表如表1所示。生成器輸入數(shù)據(jù)是維度為100的服從高斯分布的噪聲數(shù)據(jù);判別器輸入數(shù)據(jù)是維度為30的生成詐騙數(shù)據(jù)和真實詐騙數(shù)據(jù)。隱藏層神經(jīng)元數(shù)量以斜杠符號隔開,最左邊代表第一層隱藏層神經(jīng)元數(shù)量,最右邊代表最后一層隱藏層神經(jīng)元數(shù)量。

3.2.2"訓(xùn)練設(shè)計

ResWGAN的訓(xùn)練步驟如表2所示。其中,z為維度100的噪聲,生成器訓(xùn)練延遲n的值為1,m的值為64,epoch的值為2000,fd表示判別器,fg表示生成器,Pz為100維的標(biāo)準(zhǔn)正態(tài)分布,θ為梯度計算符號,θdj與θgj分別為判別器與生成器第j輪迭代的參數(shù),c為權(quán)重裁剪。本文設(shè)置了階段學(xué)習(xí)率,每過500輪迭代次數(shù)使學(xué)習(xí)率變?yōu)槠鋽?shù)值的0.1倍。

3.3"指標(biāo)介紹

本文引入精確率、召回率、F1值、準(zhǔn)確率、AUC值共5種指標(biāo)來評判分類效果。精確率衡量了預(yù)測為陽的數(shù)量里,真正為陽的比例。召回率衡量正確預(yù)測的陽性占所有陽性的比率。F1值為精確率與召回率的調(diào)和平均值,衡量了模型綜合考慮對陽性預(yù)測的精準(zhǔn)和對陽性的查找能力。準(zhǔn)確率為預(yù)測正確的概率。AUC值衡量了模型預(yù)測真陽性或真陰性的概率。

3.4"實驗與結(jié)果

原數(shù)據(jù)選取70%的樣本作為訓(xùn)練集,其余的作為測試集。本文分別使用SMOTE、隨機(jī)過采樣、ResWGAN對訓(xùn)練集少數(shù)類做過采樣,分別生成SMOTE平衡數(shù)據(jù)、隨機(jī)過采樣平衡數(shù)據(jù)、生成對抗網(wǎng)絡(luò)平衡數(shù)據(jù)。平衡后的正常類與詐騙類樣本比例為1:1。分類器在平衡數(shù)據(jù)集上擬合,在測試集進(jìn)行分類,實驗結(jié)果如表3所示。分類器中,L、XGB、G、DT、RF、AB代表Logit、XGBoost、高斯樸素貝葉斯、決策樹、隨機(jī)森林、AdaBoost。加粗的紅色斜體表示該指標(biāo)在同一個分類器的4種處理方法中達(dá)到了最優(yōu),Balance對應(yīng)ResWGAN算法,Original對應(yīng)不做處理,SMOTE與ROS分別對應(yīng)SMOTE處理與隨機(jī)過采樣處理。

經(jīng)過本文提出的算法處理后,在6種分類器中,Logit、XGBoost、隨機(jī)森林和AdaBoost的指標(biāo)達(dá)到了至少3項最優(yōu)。為了對比不同處理方法達(dá)到的單項指標(biāo)上限,給出最優(yōu)指標(biāo)如圖1。可以發(fā)現(xiàn)最佳的AUC、準(zhǔn)確率、f1、精確率由本文的處理方法達(dá)成,召回率的最優(yōu)指標(biāo)由SMOTE與隨機(jī)過采樣達(dá)成,但召回率達(dá)到1.0時,其他指標(biāo)表現(xiàn)出極低的水平。

綜合以上分析,本文提出的ResWGAN過采樣處理方法有著比SMOTE以及隨機(jī)過采樣方法更穩(wěn)定地提升效果,在提高指標(biāo)上限方面有著相對優(yōu)勢。

4nbsp;結(jié)論

本文提出了殘差Wasserstein生成對抗網(wǎng)絡(luò),該網(wǎng)絡(luò)利用真實詐騙數(shù)據(jù)進(jìn)行訓(xùn)練,通過完成訓(xùn)練后的網(wǎng)絡(luò)生成詐騙樣本,信用卡數(shù)據(jù)的類別不平衡問題得到了解決,再通過6個分類算法對不同方式平衡化處理的交易數(shù)據(jù)進(jìn)行訓(xùn)練,最后對交易數(shù)據(jù)測試集進(jìn)行欺詐預(yù)測。實驗以精確率、召回率、F1值、準(zhǔn)確率、AUC值為指標(biāo)。結(jié)果表明,本文提出的ResWGAN有效解決了數(shù)據(jù)不平衡問題并提升了欺詐數(shù)據(jù)上分類器的性能,相較傳統(tǒng)的過采樣方法更穩(wěn)定,上限更高。

參考文獻(xiàn)

[1]CHAWLA"N"V,BOWYER"K"W,HALL"L"O,et"al.Smote:"synthetic"minority"over-sampling"technique[J].Journal"of"Artificial"Intelligence"Research,2002,16(1):321357.

[2]KINGMA"D"P,WELLING"M.Autoencoding"variational"bayes[J].arXiv.org,2014.

[3]FRIDADAR"M,DIAMANT"I,KLANG"E,et"al.Ganbased"synthetic"medical"image"augmentation"for"increased"cnn"performance"in"liver"lesion"classification[J].Neurocomputing,2018,321:321331.

[4]FIORE"U,DE"SANTIS"A,PERLA"F,et"al.Using"generative"adversarial"networks"for"improving"classification"effectiveness"in"credit"card"fraud"detection[J].Information"Sciences,2019,479:448455.

[5]蓋彥蓉.基于生成式對抗網(wǎng)絡(luò)的信用卡詐騙不平衡分類問題的研究[D].廣東工業(yè)大學(xué),2019.

[6]ARJOVSKY"M,CHINTALA"S,XE"L,et"al.Wasserstein"generative"adversarial"networks[C]//International"Conference"on"Machine"Learning,2017.

[7]HE"K,ZHANG"X,REN"S,et"al.Deep"residual"learning"for"image"recognition[C]//Proceedings"of"the"IEEE"conference"on"computer"vision"and"pattern"recognition,2016:770778.

[8]HEUSEL"M,RAMSAUER"H,UNTERTHINER"T,et"al.Gans"trained"by"a"two"timescale"update"rule"converge"to"a"local"nash"equilibrium[J].Advances"in"neural"information"processing"systems,2017,(30).

猜你喜歡
機(jī)器學(xué)習(xí)
基于詞典與機(jī)器學(xué)習(xí)的中文微博情感分析
基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測分析
時代金融(2016年27期)2016-11-25 17:51:36
前綴字母為特征在維吾爾語文本情感分類中的研究
下一代廣播電視網(wǎng)中“人工智能”的應(yīng)用
活力(2016年8期)2016-11-12 17:30:08
基于支持向量機(jī)的金融數(shù)據(jù)分析研究
基于Spark的大數(shù)據(jù)計算模型
基于樸素貝葉斯算法的垃圾短信智能識別系統(tǒng)
基于圖的半監(jiān)督學(xué)習(xí)方法綜述
機(jī)器學(xué)習(xí)理論在高中自主學(xué)習(xí)中的應(yīng)用
極限學(xué)習(xí)機(jī)在圖像分割中的應(yīng)用
主站蜘蛛池模板: 精品国产成人三级在线观看| 九一九色国产| 亚洲男人在线天堂| 免费人欧美成又黄又爽的视频| 99草精品视频| 久久国语对白| 亚洲日韩精品无码专区| 亚洲成人福利网站| 欧美精品在线视频观看| 97青草最新免费精品视频| 欧美va亚洲va香蕉在线| 在线精品亚洲国产| 午夜福利在线观看成人| 老司国产精品视频| 99视频在线免费看| 天天视频在线91频| 97av视频在线观看| 亚洲欧美h| 2020国产精品视频| 99这里只有精品在线| 欧美中文字幕在线视频| 欧美日韩一区二区三区在线视频| 国产jizzjizz视频| 欧洲免费精品视频在线| 嫩草国产在线| 天堂网国产| 色偷偷一区二区三区| 真实国产乱子伦高清| 亚洲色偷偷偷鲁综合| 国产尤物在线播放| 欧美日韩国产精品va| 欧美在线伊人| 久久精品只有这里有| 亚洲免费播放| 国产成人精品2021欧美日韩| 天堂av综合网| 国产白浆视频| 亚洲成人网在线播放| 国产日韩欧美中文| 97国产在线视频| 国产日韩欧美精品区性色| 国产在线观看一区精品| 青青青国产在线播放| 免费毛片a| 在线99视频| 在线国产你懂的| a色毛片免费视频| 亚洲永久色| 国产手机在线小视频免费观看| 福利在线一区| 波多野结衣中文字幕一区二区| 性做久久久久久久免费看| 国产伦片中文免费观看| 亚洲天堂区| 3344在线观看无码| 亚洲一级无毛片无码在线免费视频| 国产中文一区a级毛片视频| 亚洲精品福利网站| 欧美国产在线看| 国产欧美高清| 黄色福利在线| 日韩欧美国产中文| 中文天堂在线视频| 亚洲精品天堂自在久久77| 精品剧情v国产在线观看| 欧美亚洲第一页| 全裸无码专区| 久久99国产精品成人欧美| 在线国产毛片| 国产小视频a在线观看| 青青青伊人色综合久久| 秋霞一区二区三区| 欧美激情第一区| 无码综合天天久久综合网| 伊人久久大香线蕉影院| 中文字幕首页系列人妻| 五月婷婷激情四射| 亚洲精品777| 丁香婷婷综合激情| 一区二区自拍| 久久狠狠色噜噜狠狠狠狠97视色 | 久久五月视频|