




摘要:隨著在線交易的普及,交易欺詐問題日益嚴重,給消費者帶來了巨大的損失。文章提出了一種基于機器學習的交易欺詐能分析在線系統,通過分析交易數據和用戶行為模式來識別潛在的欺詐交易。文章采用機器學習算法,如決策樹和神經網絡,對大規模交易數據進行訓練并評估系統在真實數據集上的性能。結果表明,該智能分析系統在準確性、召回率和F1分數等指標上表現出色,能夠有效地識別潛在的欺詐交易并進行實時預警。
關鍵詞:交易欺詐;機器學習;決策樹;神經網絡;實時預警
中圖分類號:TP18""文獻標志碼:A
0"引言
隨著數字支付的發展,網絡犯罪行為也越來越嚴重。研究發現,接近66%的被調查者曾使用同一賬號注冊不同類型的平臺賬戶,而其中幾乎大部分用戶都有被電信詐騙的經歷,少數甚至遭受嚴重的損失。隨著移動支付產品的創新加快,各種移動支付方式在消費群體中呈現分化趨勢,第三方支付的移動應用又很受年輕人群的偏愛,多樣的支付方式也導致個人信息很容易被不法分子盜取。因此,開發一個自動化的詐騙檢測系統成為一項緊迫而重要的任務。
1"基于機器學習的交易欺詐檢測綜述
1.1"欺詐檢測的主要方法
目前應用于數字交易欺詐檢測場景的機器學習技術包括有監督方法和無監督方法2類[1]。在有監督的機器學習方法中,欺詐模式的建立主要依賴于大量的歷史交易數據,然后通過訓練模型對最近的交易數據進行行為分析。無監督的機器學習方法則是直接檢測交易數據中的異常值并發現交易數據的規律。常見的基于有監督方法的是人工神經網絡(Artificial Neural Nets,ANN),這種檢測技術可以處理海量數據,性能相對較好。無監督機器學習方法適用于對存在數據集的數據所屬類別不了解的情況,通過異常值檢測出可疑交易。采用基于卷積神經網絡(Convolutional Neural Networks,CNN)的無監督機器學習方法,可檢測出信用卡交易的欺詐行為,在對國外信用卡數據集的欺詐交易行為檢測中準確率相對較高。
1.2"交易欺詐檢測的機器學習
機器學習目前被廣泛應用于大數據的處理。由于信用卡、網上支付等大規模的使用,形成了海量的日常交易數據,使用人工方法去驗證解決交易欺詐行為顯然已經不現實,只能依靠智能技術實現自動化檢測。因此,本文旨在利用機器學習技術構建一個自動化的詐騙檢測系統,以提高詐騙檢測的準確性和效率。機器學習算法能夠通過對大量數據的學習和模式識別,自動發現隱藏的詐騙模式并根據交易特征進行預測。機器學習技術與實時交易系統的結合可以實現對實時交易的自動分析和實時預警,及時防范潛在的詐騙行為,提高金融機構和客戶的交易安全性。
2"基于機器學習的交易欺詐智能分析在線系統
用于交易欺詐行為檢測的機器學習方法,主要是通過分析大量的數據從而建立欺詐檢測模型或者行為分析模型,通過挖掘欺詐者的行為模式特征,提高模型的欺詐識別能力。
2.1"系統綜述
基于機器學習的分布式詐騙行為分析系統提供了系統管理、模型訓練、在線預測等功能,以供用戶根據自己的需求進行相應的選擇。系統的架構主要包括數據與計算、Web服務、渲染技術以及終端展示4大模塊。
本文重點研究數據與計算中的數據集、算法模型的選擇與訓練以及最終的詐騙行為分析。本交易欺詐智能分析在線系統中智能檢測的核心思想是首先通過決策樹算法處理異常的數據;然后使用 Sequential 模型構建全連接的神經網絡,網絡包含多個Dense 層和一個輸出層以提取不同層次的數據特征信息;最后神經網絡模型引入非線性特征的激活函數,以便能夠更好地輸出二分類結果,從而提高線上交易欺詐行為檢測的準確性。
2.2"數據集的選擇
機器學習的優點是可以很好地處理大數據,因此,本節介紹數據集的分析處理以及針對數據集的特征工程,選用決策樹和神經網絡結合進行數據的建模。
系統中所使用的數據集card_transdata來自一些匿名的數據采集結構。數據集中共有100萬條數據,每條數據共有7個特征和1列類標簽,每條數據的內容如表1所示。
2.3"模型的選擇與評估
根據數據集的特點,本文分析機器學習中常用的算法,最終系統選用決策樹和全連接神經網絡的混合模型。
2.3.1"決策樹的模型
決策樹(Decision Tree)算法是機器學習中常見的一類算法,是一種以樹結構形式表達的預測分析模型。
常用的機器學習的模型有邏輯回歸、支持向量機(Support Vector Machine,SVM)、隨機森林以及決策樹模型。本系統中數據集在這幾個模型中的得分如表2所示,對比選擇了決策樹模型。
2.3.2"全連接神經網絡
本文根據數據集的特征采用多層不同神經元數量的全連接神經網絡,構建深度模型來提取數據的特征。神經網絡模型中的全連接網絡層的每一層都采用了ReLU激活函數。模型的第1層有16個神經元,第2層有32 個神經元,之后依次為 64、256、64、32、16個神經元。神經網絡模型的最后1層有8個神經元,采用Sigmoid激活函數用于輸出最終檢測出來的分類結果。全連接神經網絡的模型如圖1所示。
2.3.3"模型評估
應用該模型進行評估,首先須要采用合適的數據集來訓練模型。在此過程中,使用訓練好的模型對測試用的交易數據進行預測,根據得到的預測結果和設定的閾值來檢測判斷欺詐行為。然后通過準確率(Precision)、召回率(Recall)、幾何平均值(Geometric mean,G-mean)和調和平均數F1值(F1-Score)等對訓練好的模型的預測結果進行評估。最后分析數據模型的性能并提出改進調整參數的策略。
3"實驗結果與分析
3.1"實驗數據
本文采用的數據集card_transdata共有1000000條數據,前5條數據如表3所示。
3.2"實驗對比方法
為了證明決策樹與全連接神經網絡的預測效果,本文模型與 S-XGB-SMOTE[2]、XGBOOST[3]、AdaBoost[4]"、GBDT[5]和SVM進行性能對比。
3.3"實驗結果
本文主要采用評價指標研究中最常用的ROC曲線下的面積(Area Under Curve,AUC)、G-mean、F1-Score、Recall、Precision這5個指標來進行判斷性能,如表4所示。從表可知,本系統混合模型的預測性能均為最優的,這表明本系統的混合模型對數據有較強的處理能力和預測性。
本文設置EPOCH為10,對本系統的混合模型進行訓練和測試,都能得到比較高的準確率。雖然在測試驗證集時,測試集中的準確率高于訓練集中的準確率,但是在訓練測試集時,混合模型的準確率達到98%以上。基于上述實驗結果,本系統混合模型的損失取值范圍在[0.06,0.08],沒有很明顯的波動,模型的性能基本趨于穩定。
4"結語
本文提出了基于決策樹和全連接神經網絡混合模型的交易欺詐智能分析在線系統,重點介紹了智能分析系統的模型選擇和訓練,首先通過決策樹的機器學習算法來平衡訓練數據集,然后為了提取大量的交易數據的特征,構建了深度全連接神經網絡模型,最后通過模型來訓練和評估測試集。實驗表明,與傳統的線上交易欺詐分析方法相比,本文提出的智能分析方法有更高的準確性。當然該系統也存在一些不足,所采用的決策樹模型容易產生一個過于復雜的模型,可以進一步采取最小樣本數或者設置數的最大深度等策略對模型進一步優化。全連接神經網絡可以通過多樣的數據集,從而進一步優化神經網絡的層數和每層的神經元數量等。
參考文獻
[1]XU J,CHEN H.Criminal network analysis and visualization[J].Communications of "the ACM,2005(6):100-107.
[2]徐明.基于時序不均衡數據的在線交易欺詐檢測研究[D].成都:電子科技大學,2019.
[3]楊琳坤,何培宇,潘帆,等.基于XGBoost-RFE-CBR的心電信號情緒識別研究[J].成都信息工程大學學報,2023(3):258-263.
[4]徐文倩.基于ADASYN-AdaBoost-CNN的信用風險評估模型[J].現代計算機,2021(28):39-44.
[5]王仕楊.基于一種新數據不平衡處理方法的銷量預測研究[D].南昌:南昌大學,2022.
(編輯"王雪芬)
Intelligent analysis of transaction fraud based on machine learning
LIU "Xiaoqun, LI "Ning, HE "Guangwei
(Communication University of China, Nanjing 211172, China)
Abstract: "With the increasing prevalence of online transactions, transaction fraud has become a growing concern, causing substantial losses to consumers. This paper presents a machine learning-based transaction fraud analysis system that identifies potential fraudulent transactions by analyzing transaction data and user behavior patterns. The system employs machine learning algorithms, such as decision trees and neural networks, to train on large-scale transaction data and evaluates its performance on real-world datasets. The results demonstrate that this intelligent analysis system exhibits outstanding performance in terms of accuracy, recall, and F1 score, effectively identifying potential fraudulent transactions and providing real-time alerts.
Key words: transaction fraud; machine learning; decision trees; neural networks; real-time alerts