999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于生成對抗網(wǎng)絡(luò)的信用卡交易欺詐檢測

2024-12-31 00:00:00劉永靈
現(xiàn)代商貿(mào)工業(yè) 2024年17期
關(guān)鍵詞:機(jī)器學(xué)習(xí)

摘"要:欺詐一直是常見的犯罪手段,各種交易詐騙通過信用卡、移動通信等媒介實施,欺詐交易數(shù)據(jù)占總交易數(shù)據(jù)的比例極小,這類非平衡數(shù)據(jù)集的檢測一直是機(jī)器學(xué)習(xí)的研究熱點和難點。本文提出殘差Wasserstein生成對抗網(wǎng)絡(luò)并對信用卡詐騙樣本進(jìn)行過采樣,再通過分類算法對交易數(shù)據(jù)訓(xùn)練集擬合,最后在測試集上進(jìn)行欺詐檢測,實驗結(jié)果表明,該方法有效緩解了數(shù)據(jù)不平衡問題并提升了分類算法對欺詐交易的檢測能力。

關(guān)鍵詞:機(jī)器學(xué)習(xí);非平衡數(shù)據(jù)集;二分類;生成對抗網(wǎng)絡(luò);詐騙檢測

中圖分類號:TB"""""文獻(xiàn)標(biāo)識碼:A""""""doi:10.19311/j.cnki.16723198.2024.17.090

0"引言

信用卡交易成為人們?nèi)粘I畹闹匾灰追绞剑鼛碇T多益處的同時也帶來日益嚴(yán)重的安全隱患。截至2022年末,我國信用卡和借貸合一卡在用數(shù)量共計7.98億張,其日常交易數(shù)據(jù)量十分大,人工驗證解決信用卡欺詐問題顯然不現(xiàn)實,人們逐漸尋求更為可行的基于機(jī)器學(xué)習(xí)的檢測方法。

正負(fù)樣本占比相差過大的數(shù)據(jù)集就是非平衡數(shù)據(jù)集。非平衡問題會導(dǎo)致某一類樣本的預(yù)測概率過高,從而使得預(yù)測模型即使在精度高的情況下對數(shù)據(jù)的預(yù)測效果欠佳。近年來,除了機(jī)器學(xué)習(xí),許多深度學(xué)習(xí)的方法也應(yīng)用于詐騙交易檢測。對抗生成網(wǎng)絡(luò)作為深度學(xué)習(xí)中一類重要框架,在圖片數(shù)據(jù)生成方面有重要且廣泛的應(yīng)用,其在詐騙數(shù)據(jù)生成以及解決非平衡數(shù)據(jù)問題上的研究還不夠深入。

為了更好地解決信用卡欺詐上述問題,本文通過構(gòu)建生成對抗網(wǎng)絡(luò)對詐騙數(shù)據(jù)進(jìn)行過采樣并在平衡數(shù)據(jù)集上構(gòu)建欺詐交易的深度學(xué)習(xí)檢測模型。

1"研究現(xiàn)狀

許多傳統(tǒng)機(jī)器學(xué)習(xí)檢測方法由于非平衡問題而很難進(jìn)行分類。傳統(tǒng)的關(guān)于非平衡分類問題的解決方法主要可以分為以下三大類:基于數(shù)據(jù)層面的方法、代價敏感學(xué)習(xí)和集成學(xué)習(xí)方法。平衡數(shù)據(jù)分布后,分類器性能通常得到了提升。基于數(shù)據(jù)層面的方法包含采樣、過采樣以及混合采用方法。其中,SMOTE(Synthetic"Minority"Over-sampling"Technique)作為一種過采樣方法,利用少數(shù)類和其近鄰的距離以及0到1之間的隨機(jī)權(quán)重合成樣本,且具有不錯的泛化能力,但可能引入噪聲。隨著深度學(xué)習(xí)的發(fā)展,許多基于深度學(xué)習(xí)的過采樣方法被提出,包括生成對抗網(wǎng)絡(luò)(Generative"Adversarial"Networks,簡稱GAN)。

生成對抗網(wǎng)絡(luò)在醫(yī)學(xué)圖像的非平衡分類問題中得到了應(yīng)用。有學(xué)者也將其用于生成詐騙數(shù)據(jù),增強(qiáng)數(shù)據(jù)集上分類器的性能。基于生成對抗網(wǎng)絡(luò)的不平衡分類算法也被提出,并在某些數(shù)據(jù)集上達(dá)到了AUC值與F值的最優(yōu)。有學(xué)者指出GAN算法損失函數(shù)的不合理性,并作出了調(diào)整。

GAN的成功應(yīng)用證明了該框架具有應(yīng)用前景與改進(jìn)空間,本文因此選用生成對抗網(wǎng)絡(luò)作為解決信用卡交易數(shù)據(jù)非平衡問題的對策。

2"相關(guān)理論

2.1"生成對抗網(wǎng)絡(luò)

2.1.1"生成對抗網(wǎng)絡(luò)簡介

生成對抗網(wǎng)絡(luò)的模型大體分為兩類,生成模型和判別模型。生成模型產(chǎn)生“假數(shù)據(jù)”;判別模型接受生成數(shù)據(jù)以及真實數(shù)據(jù)的混合數(shù)據(jù)并進(jìn)行真?zhèn)畏诸悾漭敵龃磔斎霐?shù)據(jù)為真實數(shù)據(jù)的概率。

2.1.2"Earth-Mover距離(EM)

Arjovsky等學(xué)者在生成對抗網(wǎng)絡(luò)中引入了EM距離來衡量兩個分布之間的距離如下:

W(Pr,Pθ)=infγ∈∏Pr,PθEx,y~γ‖x-y‖(1)

其中,∏Pr,Pθ表示邊緣分布Pr和Pθ所有組合起來的聯(lián)合分布γx,y的集合。直接求解公式(1)有難度,其對偶形式如下:

WPr,Pθ=1ksup‖f‖LKEx~Prfx-Ex~Pθfx(2)

3"構(gòu)建信用卡詐騙檢測模型

3.1"數(shù)據(jù)介紹

本文的實驗數(shù)據(jù)選取了2013年9月歐洲持卡人信用卡交易數(shù)據(jù)。該數(shù)據(jù)包含了31個維度。該數(shù)據(jù)集的多數(shù)類占99.83%,少數(shù)類占0.17%。實驗對所用的數(shù)據(jù)進(jìn)行了最大最小值歸一化并將特征范圍縮放到了0到1的范圍內(nèi)。

3.2"模型介紹

本文創(chuàng)新性地融合WGAN、殘差連接與雙時間尺度更新規(guī)則,構(gòu)造出殘差Wasserstein生成對抗網(wǎng)絡(luò)(ResWGAN)。

3.2.1"模型框架

本文構(gòu)建的生成器擁有8個隱藏層,所有隱藏層均為全連接層,每個隱藏層后面均使用RELU激活函數(shù),輸出層使用Sigmoid激活函數(shù),生成器的第5個隱藏層與第7個隱藏層進(jìn)行了殘差連接。判別器擁有11個隱藏層,所有隱藏層均為全連接層,每個隱藏層后面均使用RELU激活函數(shù),輸出層后不采用激活函數(shù),判別器的第5個隱藏層與第7個隱藏層進(jìn)行了殘差連接,第8個隱藏層與第10個隱藏層進(jìn)行了殘差連接。

生成對抗網(wǎng)絡(luò)的參數(shù)表如表1所示。生成器輸入數(shù)據(jù)是維度為100的服從高斯分布的噪聲數(shù)據(jù);判別器輸入數(shù)據(jù)是維度為30的生成詐騙數(shù)據(jù)和真實詐騙數(shù)據(jù)。隱藏層神經(jīng)元數(shù)量以斜杠符號隔開,最左邊代表第一層隱藏層神經(jīng)元數(shù)量,最右邊代表最后一層隱藏層神經(jīng)元數(shù)量。

3.2.2"訓(xùn)練設(shè)計

ResWGAN的訓(xùn)練步驟如表2所示。其中,z為維度100的噪聲,生成器訓(xùn)練延遲n的值為1,m的值為64,epoch的值為2000,fd表示判別器,fg表示生成器,Pz為100維的標(biāo)準(zhǔn)正態(tài)分布,θ為梯度計算符號,θdj與θgj分別為判別器與生成器第j輪迭代的參數(shù),c為權(quán)重裁剪。本文設(shè)置了階段學(xué)習(xí)率,每過500輪迭代次數(shù)使學(xué)習(xí)率變?yōu)槠鋽?shù)值的0.1倍。

3.3"指標(biāo)介紹

本文引入精確率、召回率、F1值、準(zhǔn)確率、AUC值共5種指標(biāo)來評判分類效果。精確率衡量了預(yù)測為陽的數(shù)量里,真正為陽的比例。召回率衡量正確預(yù)測的陽性占所有陽性的比率。F1值為精確率與召回率的調(diào)和平均值,衡量了模型綜合考慮對陽性預(yù)測的精準(zhǔn)和對陽性的查找能力。準(zhǔn)確率為預(yù)測正確的概率。AUC值衡量了模型預(yù)測真陽性或真陰性的概率。

3.4"實驗與結(jié)果

原數(shù)據(jù)選取70%的樣本作為訓(xùn)練集,其余的作為測試集。本文分別使用SMOTE、隨機(jī)過采樣、ResWGAN對訓(xùn)練集少數(shù)類做過采樣,分別生成SMOTE平衡數(shù)據(jù)、隨機(jī)過采樣平衡數(shù)據(jù)、生成對抗網(wǎng)絡(luò)平衡數(shù)據(jù)。平衡后的正常類與詐騙類樣本比例為1:1。分類器在平衡數(shù)據(jù)集上擬合,在測試集進(jìn)行分類,實驗結(jié)果如表3所示。分類器中,L、XGB、G、DT、RF、AB代表Logit、XGBoost、高斯樸素貝葉斯、決策樹、隨機(jī)森林、AdaBoost。加粗的紅色斜體表示該指標(biāo)在同一個分類器的4種處理方法中達(dá)到了最優(yōu),Balance對應(yīng)ResWGAN算法,Original對應(yīng)不做處理,SMOTE與ROS分別對應(yīng)SMOTE處理與隨機(jī)過采樣處理。

經(jīng)過本文提出的算法處理后,在6種分類器中,Logit、XGBoost、隨機(jī)森林和AdaBoost的指標(biāo)達(dá)到了至少3項最優(yōu)。為了對比不同處理方法達(dá)到的單項指標(biāo)上限,給出最優(yōu)指標(biāo)如圖1。可以發(fā)現(xiàn)最佳的AUC、準(zhǔn)確率、f1、精確率由本文的處理方法達(dá)成,召回率的最優(yōu)指標(biāo)由SMOTE與隨機(jī)過采樣達(dá)成,但召回率達(dá)到1.0時,其他指標(biāo)表現(xiàn)出極低的水平。

綜合以上分析,本文提出的ResWGAN過采樣處理方法有著比SMOTE以及隨機(jī)過采樣方法更穩(wěn)定地提升效果,在提高指標(biāo)上限方面有著相對優(yōu)勢。

4nbsp;結(jié)論

本文提出了殘差Wasserstein生成對抗網(wǎng)絡(luò),該網(wǎng)絡(luò)利用真實詐騙數(shù)據(jù)進(jìn)行訓(xùn)練,通過完成訓(xùn)練后的網(wǎng)絡(luò)生成詐騙樣本,信用卡數(shù)據(jù)的類別不平衡問題得到了解決,再通過6個分類算法對不同方式平衡化處理的交易數(shù)據(jù)進(jìn)行訓(xùn)練,最后對交易數(shù)據(jù)測試集進(jìn)行欺詐預(yù)測。實驗以精確率、召回率、F1值、準(zhǔn)確率、AUC值為指標(biāo)。結(jié)果表明,本文提出的ResWGAN有效解決了數(shù)據(jù)不平衡問題并提升了欺詐數(shù)據(jù)上分類器的性能,相較傳統(tǒng)的過采樣方法更穩(wěn)定,上限更高。

參考文獻(xiàn)

[1]CHAWLA"N"V,BOWYER"K"W,HALL"L"O,et"al.Smote:"synthetic"minority"over-sampling"technique[J].Journal"of"Artificial"Intelligence"Research,2002,16(1):321357.

[2]KINGMA"D"P,WELLING"M.Autoencoding"variational"bayes[J].arXiv.org,2014.

[3]FRIDADAR"M,DIAMANT"I,KLANG"E,et"al.Ganbased"synthetic"medical"image"augmentation"for"increased"cnn"performance"in"liver"lesion"classification[J].Neurocomputing,2018,321:321331.

[4]FIORE"U,DE"SANTIS"A,PERLA"F,et"al.Using"generative"adversarial"networks"for"improving"classification"effectiveness"in"credit"card"fraud"detection[J].Information"Sciences,2019,479:448455.

[5]蓋彥蓉.基于生成式對抗網(wǎng)絡(luò)的信用卡詐騙不平衡分類問題的研究[D].廣東工業(yè)大學(xué),2019.

[6]ARJOVSKY"M,CHINTALA"S,XE"L,et"al.Wasserstein"generative"adversarial"networks[C]//International"Conference"on"Machine"Learning,2017.

[7]HE"K,ZHANG"X,REN"S,et"al.Deep"residual"learning"for"image"recognition[C]//Proceedings"of"the"IEEE"conference"on"computer"vision"and"pattern"recognition,2016:770778.

[8]HEUSEL"M,RAMSAUER"H,UNTERTHINER"T,et"al.Gans"trained"by"a"two"timescale"update"rule"converge"to"a"local"nash"equilibrium[J].Advances"in"neural"information"processing"systems,2017,(30).

猜你喜歡
機(jī)器學(xué)習(xí)
基于詞典與機(jī)器學(xué)習(xí)的中文微博情感分析
基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測分析
時代金融(2016年27期)2016-11-25 17:51:36
前綴字母為特征在維吾爾語文本情感分類中的研究
下一代廣播電視網(wǎng)中“人工智能”的應(yīng)用
活力(2016年8期)2016-11-12 17:30:08
基于支持向量機(jī)的金融數(shù)據(jù)分析研究
基于Spark的大數(shù)據(jù)計算模型
基于樸素貝葉斯算法的垃圾短信智能識別系統(tǒng)
基于圖的半監(jiān)督學(xué)習(xí)方法綜述
機(jī)器學(xué)習(xí)理論在高中自主學(xué)習(xí)中的應(yīng)用
極限學(xué)習(xí)機(jī)在圖像分割中的應(yīng)用
主站蜘蛛池模板: AⅤ色综合久久天堂AV色综合| 亚洲欧美精品一中文字幕| 亚洲精品中文字幕无乱码| 亚洲视频黄| 亚洲欧美综合另类图片小说区| 成人福利在线视频| 美女无遮挡被啪啪到高潮免费| a毛片在线免费观看| 国产色婷婷| 热热久久狠狠偷偷色男同| 日韩精品亚洲人旧成在线| 日本欧美在线观看| 不卡视频国产| 国产成+人+综合+亚洲欧美| 毛片免费试看| 免费毛片视频| 国产一区成人| 欧美成人看片一区二区三区 | 99热这里只有精品2| 亚洲综合久久成人AV| 一级全免费视频播放| 日本a∨在线观看| 国产亚洲一区二区三区在线| 欧洲亚洲一区| 人妻中文久热无码丝袜| 91精品最新国内在线播放| 欧美a在线视频| 综合色区亚洲熟妇在线| 99精品伊人久久久大香线蕉| 国产精品尹人在线观看| 国产精品露脸视频| 亚洲成a人在线观看| 97国产精品视频自在拍| 亚洲三级色| 最新亚洲人成无码网站欣赏网| 国产综合另类小说色区色噜噜| 在线观看免费人成视频色快速| 亚洲综合狠狠| 婷婷色狠狠干| 18禁影院亚洲专区| 热九九精品| 国产福利免费视频| 亚洲最猛黑人xxxx黑人猛交| 欧美日韩一区二区在线播放| 中国丰满人妻无码束缚啪啪| 亚洲视频影院| 中文字幕色站| 在线网站18禁| 欧美19综合中文字幕| 伊人激情综合| 亚洲全网成人资源在线观看| 国产成人午夜福利免费无码r| 亚洲一区色| 无码高潮喷水专区久久| 亚洲AV无码精品无码久久蜜桃| 国产av一码二码三码无码| 18黑白丝水手服自慰喷水网站| 黄色一及毛片| 中文字幕亚洲电影| 亚洲国产av无码综合原创国产| 中文天堂在线视频| 一区二区在线视频免费观看| 秋霞国产在线| 国产一级α片| 国产成a人片在线播放| 巨熟乳波霸若妻中文观看免费 | 国产亚洲精品无码专| 国产成人精品高清不卡在线| 久久国产精品影院| 日本爱爱精品一区二区| 日韩第九页| 国产一级片网址| 全部免费毛片免费播放| 婷婷伊人五月| 国产欧美日韩91| 在线观看免费AV网| 不卡的在线视频免费观看| 98超碰在线观看| 久久婷婷综合色一区二区| 亚洲高清中文字幕在线看不卡| 2021无码专区人妻系列日韩| 国产网站黄|