999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種混合的信用卡欺詐檢測模型

2021-03-24 11:16:32毛銘澤
電腦知識與技術 2021年2期

毛銘澤

摘要:信用卡欺詐檢測是一個重要的問題,為了提升對于真實世界的信用卡欺詐數據的識別率,提出了一種混合的信用卡欺詐檢測模型AWFD(Anomaly weight of credit card fraud detection),首先通過異常檢測的方法將數據劃分為可信和異常數據,然后利用半監督的方法訓練一個集成模型,最終再利用異常檢測進一步剔除檢測結果中的異常結果。AWFD在保障對于可信數據的學習效果上,通過半監督集成學習的方法,利用異常數據進一步擴充集成模型的多樣性,并將異常檢測和集成模型融合。實驗結果表明,比起一些傳統的機器學習方法,AWFD可以提高整體的信用卡欺詐檢測的識別率。

關鍵詞:信用卡欺詐檢測;異常檢測;半監督;集成學習;多樣性

中圖分類號: TP311? ? ? ? 文獻標識碼:A

文章編號:1009-3044(2021)02-0194-03

Abstract:Credit card fraud detection is a serious problem. In order to improve the recognition rate of real-world credit card fraud data, a hybrid credit card fraud detection model AWFD (Anomaly weight of credit card fraud detection) is proposed. Firstly, the data is divided into trusted and abnormal data by anomaly detection method, and then an ensemble model is trained by semi- supervised method. Finally, anomaly detection is used to further eliminate the abnormal results in the detection results. On the basis of guaranteeing the learning effect of trusted data, AWFD uses the abnormal data to further expand the diversity of the ensemble model by semi-supervised ensemble learning method, and integrates the anomaly detection and the ensemble model. The experimental results show that AWFD can improve the overall recognition rate of credit card fraud detection compared with some traditional machine learning methods.

Key words:credit card fraud detection; anomaly detection; semi-supervised; ensemble learning; diversity

由于社會的不斷發展,人的消費需求也在不斷上升,隨之而來的支付手段的改變,導致信用卡欺詐問題日趨嚴重,每年會導致數十億美元的損失[1],因此對于信用卡欺詐檢測問題的研究也受到了廣泛的關注[5-6],有許多學者從不同的角度研究這一問題,例如:有從數據不均衡角度研究采樣問題的[2],有從模型融合角度研究的[1],也有從特征工程角度研究該問題的[3-10]。使用的算法也是多種多樣,例如:隨機森林Random Forest(RF)[4],Adaboost(ADB)[1]等。

除了以上這些常見問題之外,實際取得的標注訓練數據中,可能會存在異常噪音數據,也就是指,在標注為欺詐樣本的數據中,會存在一些實際不是欺詐的樣本或是不處于數據空間分布密度較高區域的一些噪音樣本,首先通過異常檢測的方法,將這些異常噪音樣本從訓練集中篩選出來,同時為了避免丟失數據樣本信息以及利用這部分數據擴大訓練的數據空間,將其標簽信息去除,劃分為無標簽樣本以供后續模型學習使用。為了保障模型在標注數據學習效果的基礎上,進一步提升泛化效果,對使用的半監督學習算法進行改進,引入了異常檢測對無標簽數據的異常值打分,將其視為數據點的權重,以此體現不同權重的數據點,對于學習器多樣性影響大小的不同。

本文主要工作如下:

① 利用一種異常檢測算法來篩選異常訓練樣本,將其視為無標簽數據,擴充樣本空間;

② 改進了一種半監督集成算法以適應混合檢測模型;

③ 結合以上兩點,提出了一種混合的信用卡欺詐檢測模型AWFD(Anomaly weight of credit card fraud detection)。

本文第1節介紹詳細的算法模型及所做的改進,第2節介紹實驗設置及結果分析,第3節為結論部分。

1? 算法模型

1.1 iForest(isolation forest)

iForest(isolation forest)孤立森林[7-8]是一個基于樹集成的異常檢測模型,該算法認為異常是容易被孤立的點,也就是在數據空間下,分布稀疏的且密度低的區域里的數據點。iForest是一種基于特征劃分且訓練過程無須標注的異常檢測模型,通過特征劃分來構建多棵二叉樹iTree,并集成來起到數據空間劃分的效果,每棵iTree的劃分構建步驟大致為:

① 對訓練樣本進行隨機子采樣;

② 隨機選擇一個特征,在該特征的最大值和最小值之間,隨機選擇一個值,小于該值的樣本劃分到左子樹,剩下的樣本劃分到右子樹;

③ 繼續遞歸執行 ② ,直到節點只有一個數據樣本,或者樹高達到限制高度。

iForest在對數據點進行異常檢測時,會按照iTree的特征劃分標準將數據點劃分到某個節點中,并記下該節點高度,然后將所有的iTree的劃分結果平均,作為iForest模型對該數據點的預測值。由于在數據空間下,處于分布密度高區域的樣本點,不容易被劃分開,因此在iTree中的高度也相對處于分布稀疏區域的樣本點要高,所以iForest預測值越低,就越可能是異常點。同時iForest在解決高維空間問題中也有很好的效果。

1.2 UDEED(Unlabeled Data to Enhance Ensemble Diversity)

UDEED是一種半監督集成學習分類方法[9],該算法的目的是先利用標簽數據構建多個基學習器,然后通過無標簽數據來提高基學習器的多樣性,以此提升模型的泛化性能,取得更好的分類效果。基學習器采用LOR(Logistic Regression)邏輯回歸的UDEED的實現步驟為:

1.3 AWFD(Anomaly weight of credit card fraud detection)

在AWFD中,首先依據標注將訓練數據劃分為欺詐樣本和非欺詐樣本,考慮到在標注為欺詐的樣本可能會出現非欺詐樣本或是在非欺詐樣本中可能會出現欺詐樣本這一現象,為了將這些異常樣本挑選出來,分別構建兩個iForest模型對訓練數據進行劃分,將其劃分為標簽數據集[L]和異常數據樣本并輸出異常數據樣本的異常值[α],其中異常數據樣本被視為無標簽數據樣本[U]。

由于篩選的無標簽數據樣本的異常值都不一樣,考慮到每個數據樣本被置信為異常樣本的概率不同,因此通過修改原始的UDEED算法的多樣性損失一項,來體現這一點,[Vdivf,U,α=2mm-1?p=1m-1 q=p+1m dfp,fq,U,α,dfp,fq,U,α=1|U|i=1|L| αifp(xi)fq(xi)],也就是將UDEED的損失函數修改為[V(f,L,U)=Vemp(f,L)+γ?Vdiv(f,U,α)],通過對[V(f,L,U)]做梯度下降,來優化基學習器的參數,通過這一修改,在參數的更新過程中,體現iForest對異常樣本的異常值的判斷。完整的算法訓練和預測流程見圖1。

從AWFD預測的流程圖中,可以看到,通過改進后的UDEED對新樣本進行預測之后,又通過iForest對該樣本進行了兜底預測,這里的iForest是根據僅含欺詐樣本的訓練集訓練得到的,也就是最初進行異常樣本篩選時,訓練生成的其中一個iForest模型,因此這一步沒有額外的訓練開銷,直接復用已經訓練好的模型,同時這一步的意義在于,對被UDEED預測為欺詐樣本的數據樣本進一步判斷,是否為會在欺詐樣本中被視為異常,剔除一些誤報的樣本,提升模型的精確度。

2? 實驗

2.1 數據集

本實驗采用的數據集大小為512w,其中欺詐樣本為14w,非欺詐樣本為498w,數據維度為9維,按照相同比例劃分100w訓練樣本,其中欺詐樣本為3w,非欺詐樣本為97w,剩余的412w作為測試集,其中欺詐樣本為11w,非欺詐樣本為401w。

2.2 實驗指標

本實驗采用多個指標比較結果,分別為精確率precision,召回率recall,f1-score,準確率acc,以及auc。對于二分類問題,將欺詐看作正例,非欺詐看作負例,從正例角度而言,各個指標的含義如下:

精確率表示在預測為本類中,實際為本類的數據樣本的占比,召回率表示在實際為本類,預測為本類的數據樣本的占比,f1-score則為兩者的調和平均,在本實驗中,分別用各類別的平均值,來比較最終效果,公式如下:

auc指標則表示對于一個正例的數據樣本和一個負例的數據樣本,模型對正例樣本的預測值大于為模型對負例樣本的預測值的概率,而acc指標就是預測正確的比例。

2.3 實驗結果

實驗結果對比,從表1中可以看到,對比于幾個傳統的機器學習算法,本文提出的融合檢測模型AWFD,在auc指標和最好的結果差距在千分位以內的情況下,其余指標均大幅度提高,特別是在召回率指標上,提升幅度較為明顯,可以體現AWFD對于欺詐樣本的召回效果比較好,同時AWFD對比UDEED而言,在保證了精確率的情況下,大幅度提高了召回率,相比之下,較好地識別出了欺詐數據樣本。

3 結論

本文提出的混合檢測模型AWFD,在區分訓練集的可信和異常樣本后,利用可信樣本初始化模型,并利用異常樣本以及異常值,提高了模型的多樣性,進一步增強了模型的泛化能力,最后復用異常檢測模型,在保障準確率的基礎之上,取得了相對較好的信用卡欺詐檢測召回效果。

參考文獻:

[1] K. Randhawa, C. K. Loo, M. Seera, C. P. Lim and A. K. Nandi, "Credit Card Fraud Detection Using AdaBoost and Majority Voting," in IEEE Access, vol. 6, pp. 14277-14284, 2018.

[2] S. Akila, and R. Srinivasulu, "Parallel and incremental credit card fraud detection model to handle concept drift and data imbalance," Neural Computing and Applications 31, 2018, pp. 1-12.

[3] X. Zhang, Y. Han, W. Xu, et al, "HOBA: A Novel Feature Engineering Methodology for Credit Card Fraud Detection with a Deep Learning Architecture," Information Sciences, 2019.

[4] S. Xuan, G. Liu, Z. Li, L. Zheng, S. Wang and C. Jiang, "Random forest for credit card fraud detection," 2018 IEEE 15th International Conference on Networking, Sensing and Control (ICNSC), Zhuhai, pp. 1-6, 2018.

[5] Z. K. Alkhateeb and A. T. Maolood, "Machine Learning-Based Detection of Credit Card Fraud: A Comparative Study," American journal of engineering and applied ences, vol. 12, no. 4, 535-542, 2019.

[6] G. C. Alex, A. C. M. Pereira and G. L. Pappa, "A customized classification algorithm for credit card fraud detection," Engineering Applications of Artificial Intelligence 72,? 2018, pp. 21-29.

[7] F. T. Liu, K. M. Ting and Z. Zhou, "Isolation Forest," 2008 Eighth IEEE International Conference on Data Mining, Pisa, pp. 413-422, 2008.

[8] F. T. Liu, K. M. Ting and Z. Zhou, "Isolation-Based Anomaly Detection," Acm Transactions on Knowledge Discovery from Data, vol. 6, no. 1, pp. 1-39, 2012.

[9] M. L. Zhang and Z. H. Zhou, "Exploiting Unlabeled Data to Enhance Ensemble Diversity," Data Mining & Knowledge Discovery, vol 26, no. 3, pp. 98-129, 2013.

[10] C. B. Alejandro, A. Djamila, S. Aleksandar and O. Bjorn, "Feature engineering strategies for credit card fraud detection, " Expert Systems with Applications, 2016,51(1):134–142,.

【通聯編輯:唐一東】

主站蜘蛛池模板: 99re热精品视频国产免费| 中字无码精油按摩中出视频| 久久伊人操| 91热爆在线| 高清无码一本到东京热| 国产毛片基地| 国产成人亚洲精品无码电影| 2020国产精品视频| 国产又黄又硬又粗| 国产麻豆精品在线观看| 亚洲精品中文字幕无乱码| 国产欧美在线视频免费| 国产理论最新国产精品视频| 蝴蝶伊人久久中文娱乐网| 成人欧美日韩| 小说 亚洲 无码 精品| 东京热一区二区三区无码视频| 一区二区欧美日韩高清免费| 午夜毛片免费观看视频 | 日韩黄色大片免费看| 亚洲国产精品无码久久一线| 久久国产亚洲欧美日韩精品| 国产一区二区三区夜色| 国产欧美精品一区aⅴ影院| 国产视频一区二区在线观看| 日韩欧美国产中文| 国产成人乱无码视频| 成人毛片在线播放| 99尹人香蕉国产免费天天拍| 国产成人一区| 国产1区2区在线观看| 精品久久高清| 亚洲精品va| 久久国产高清视频| 一级毛片在线播放| AV无码国产在线看岛国岛| 在线无码九区| 综合网天天| 亚洲 欧美 偷自乱 图片| 久热精品免费| 亚洲欧美国产五月天综合| 国产99视频精品免费观看9e| 青青热久免费精品视频6| 亚洲swag精品自拍一区| 99热线精品大全在线观看| 欧美一级高清视频在线播放| 日韩毛片免费观看| 操美女免费网站| 亚洲第一香蕉视频| 国产精品尹人在线观看| 国产成人在线无码免费视频| 亚洲日韩第九十九页| 国产成人1024精品下载| 午夜一区二区三区| 奇米影视狠狠精品7777| 国产精品福利尤物youwu| 91黄视频在线观看| 天天视频在线91频| 欧美a级在线| 国产亚洲精品自在线| 4虎影视国产在线观看精品| 高h视频在线| 免费一看一级毛片| 国产在线专区| 精品自窥自偷在线看| 欧美亚洲国产精品第一页| 中国丰满人妻无码束缚啪啪| 欧美日韩一区二区三区在线视频| 欧美亚洲欧美| 欧美全免费aaaaaa特黄在线| 成人免费午夜视频| 园内精品自拍视频在线播放| 免费不卡在线观看av| 婷婷六月色| 国产精品99一区不卡| 中文字幕乱码中文乱码51精品| 国产迷奸在线看| 国产污视频在线观看| 久久亚洲黄色视频| 亚洲国产综合精品一区| 亚洲男人的天堂久久精品| 色AV色 综合网站|