










摘" 要:金融欺詐嚴重威脅金融市場穩定,而現有的反欺詐手段存在單一性和低效率的問題。為此,文章基于集成學習方法構建了金融交易欺詐識別模型,旨在提升欺詐識別效果。研究中采用裝袋法(Bagging)和提升法(Boosting)構建了4個基礎模型,并通過優化參數篩選出2個效果較好的模型。隨后,利用堆疊法(Stacking)對這2個模型進行融合訓練,進一步提高了模型的識別率。實驗結果表明,融合模型在金融交易欺詐識別中具有顯著優勢。與基礎模型相比,其在不同數據集上的準確率更高,尤其在處理復雜欺詐模式和新型手段時,展現出更高的準確性和穩定性。這種改進的模型方法為金融決策者和相關部門提供了有效的決策支持,有助于提升金融市場的安全性。
關鍵詞:集成學習;金融欺詐;Boosting;Stacking
中圖分類號:TP181;F830" 文獻標識碼:A" 文章編號:2096-4706(2025)04-0173-06
Research on Financial Transaction Fraud Identification Based on Ensemble Learning
ZHENG Deming1, LI Sijia2, PAN Yankai2, ZHENG Jianlong1
(1.Graduate School, China People's Police University, Langfang" 065000, China;
2.Smart Policing College, China People's Police University, Langfang" 065000, China)
Abstract: Financial fraud seriously threatens the stability of financial markets, and the existing anti-fraud methods have the problems of singleness and inefficiency. Therefore, this paper constructs a financial transaction fraud recognition model based on the Ensemble Learning method, aiming to improve the fraud recognition effect. In the research, four basic models are constructed by Bagging and Boosting, and two models with better effects are selected by optimizing parameters. Subsequently, the Stacking method is used to conduct fusion training for the two models, which further improves the recognition rate of the model. The experimental results show that the fusion model has significant advantages in financial transaction fraud identification. Compared with the basic model, it has higher accuracy with different datasets, especially in dealing with complex fraud patterns and new means, showing higher accuracy and stability. This improved model method provides effective decision support for financial decision makers and relevant departments, and helps to improve the security of financial markets.
Keywords: Ensemble Learning; financial fraud; Boosting; Stacking
0" 引" 言
隨著金融科技的迅猛發展,金融交易活動日益便捷和多樣化,但這也為金融詐騙行為提供了更為廣闊的舞臺,使得金融交易欺詐檢測成為金融業和金融監管機構面臨的重大挑戰。頻繁發生的新型金融欺詐事件,嚴重破壞了金融市場的秩序,阻礙了社會經濟的健康發展[1]。2022年3月的政府工作報告中明確指出,加強風險預警、防控機制和能力建設的必要性[2]。盡管傳統的金融欺詐檢測方法已經取得了一定的成效,但隨著詐騙手段的不斷升級,產生了包括對新型欺詐模式識別不足、誤報率高和適應性差等的許多問題。集成學習通過結合多個學習器來提高識別精度,在金融詐騙檢測中表現出顯著優越。與單一模型比,其能處理噪聲和不平衡問題,增強泛化能力,并保持較高的穩健性。因此,本文基于集成學習方法,研究金融交易欺詐識別,優化模型選擇,為金融欺詐檢測注入新活力,輔助投資者決策,提供金融行業未來發展理論依據。
近年來,集成學習被廣泛應用于各個領域。許多學者利用集成學習方法來有針對性地提升所需模型性能。陳靜[3]提出一種基于Stacking相異模型融合的異常行為檢測方法。歐陽瀟琴改進AdaBoost算法,提高分類速度和降低計算成本[4]。王軍利用蟻群優化算法選擇性集成構建數據流分類模型[5]。徐曉楊改進極限學習機(ELM)優化輸出權值矩陣計算[6]。王進提出DNA微陣列數據分類的多分類器選擇性集成方法[7]。張燕平基于Q統計提出決策樹選擇性集成學習方法[8]。Zhang構建基于干擾因素的SVM集成學習模型[9]。Feng提出集成學習和專家知識的特征選擇方法[10]。Ijeh設計基于決策樹的網絡攻擊檢測方法[11]。Wang[12]改進啟發式-棧式集成學習提高華法林劑量預測準確性。Moon提出新型異常檢測集成學習方法[13]。Huang基于集成學習的特征選擇方法融合不同特征選擇技術[14]。Nadia提出多模態優化(MMO)技術結合螢火蟲算法和互信息評估[15]。Parthasarathy提出基于CART和BIRCH的推薦系統模型提高精確度和F1值[16]。這些研究為集成學習在金融欺詐檢測中的應用奠定了基礎。
集成學習的改進與發展使將其運用在交易欺詐檢測成為可能。因此,本文通過構建集成學習模型,探究最優模型用于金融交易欺詐識別。為可能引起公共關注的金融欺詐事件提出參考意見,為經濟危機管理和社會平穩提供科學依據。
1" 數據來源與處理
本文采用Kaggle平臺上的金融欺詐數據集,該數據集由PaySim模擬器生成,模擬真實交易的同時保護隱私。數據集基于非洲國家真實交易記錄,由跨國金融交易服務公司提供,包含常規金融活動和欺詐交易案例。本文僅選取了其中一個交易日的數據進行分析,共涉及574 255筆交易記錄,數據由10個不同類型的列組成,部分數據如表1所示。
2" 數據集劃分和采樣
將數據集劃分為訓練集和測試集,并將測試集占比設置為20%,這種劃分方式能確保模型在訓練時有足夠的數據進行學習,也能在測試時也能獲得足夠多的獨立樣本來評估模型的泛化能力。通過設置stratify參數為標簽列,保證了訓練集和測試集中正常金融交易與金融詐騙交易的比例與原始數據集一致。此外,模型還設置隨機種子,確保了數據劃分的一致性和實驗的可重復性。
3" 隨機森林模型構建與實驗分析
隨機森林模型是裝袋法中的一種經典模型,通過組合多個決策樹的預測結果,增強模型的整體泛化性能和預測準確性。在本文中,隨機森林模型是基于sklearn.ensemble中的RandomForestClassifier構建的。
在模型構建過程中,本文設定基學習器(決策樹)的個數設定為20,以保證模型有足夠的多樣性。同時,通過設置了隨機種子為5,保證實驗的可重復性。針對數據集中存在的類別不平衡的問題,采用了class_weight='balanced'策略,讓模型在訓練時對不同類別的樣本給予不同的權重,從而提高少數類樣本的識別率。經過訓練后,利用訓練好的隨機森林模型對測試集進行預測,并計算了混淆矩陣來評估模型的性能。混淆矩陣直觀地展示了模型在各類別上的分類效果,包括真正例(TP)、假正例(FP)、真反例(TN)和假反例(FN)的數量。
為了更直觀地展示混淆矩陣,繪制了混淆矩陣熱力圖,如圖1所示。
根據混淆矩陣的結果,可以看到模型在負類(標簽為0)上的表現非常出色,幾乎達到了完美的分類效果,真反例(TN)高達114 796,假反例(FN)僅有28。然而,在正類(標簽為1)上,模型的表現稍顯不足,雖然真正例(TP)有26,但假正例(FP)也有1個,導致了較低的召回率(Recall)。
表2展示隨機森林模型評價指標。模型分類精度達1.00,但正類精確率雖然較高,召回率只有(0.48),漏報率較高。F1值較低,反映出模型在正類綜合性能不佳。盡管隨機森林模型在負類樣本的分類上表現出色,但在正類樣本上的性能表現還不是很好。
4" CART決策樹模型構建與實驗分析
為進一步實現目標,本文還采用了CART決策樹模型對數據進行分類。本文利用sklearn.tree中的DecisionTreeClassifier類創建了CART決策樹分類器。在模型創建過程中,選擇基尼不純度作為劃分標準,并設置類別權重平衡,以應對數據集類別不平衡問題。確保模型訓練關注各樣本,避免偏向多數類,提升少數類識別率。
在模型構建完成后,使用訓練數據對模型進行了擬合。通過遞歸地將訓練數據劃分為不同的子集,并在每個子集上做出預測,模型逐漸學會了如何根據輸入特征進行分類。然后,使用訓練好的模型對測試數據進行了預測。并做出混淆矩陣熱力圖和模型評價指標圖,如圖2和如表3所示。
從混淆矩陣的結果來看,模型在負類(標簽為0)上的表現非常出色,真反例(TN)高達114 777,假反例(FN)僅有20個,這表明模型對負類樣本的識別能力很強。然而,在正類(標簽為1)上,模型的表現略顯不足,雖然真正例(TP)有34個,但假正例(FP)也有20個,導致正類的精確率(Precision)和召回率(Recall)均僅為0.63。
表3為CART決策樹模型的評價指標表。分類指標顯出,模型的整體精度(Accuracy)很高,達到了1.00,但這主要得益于負類樣本的準確分類。對于正類樣本,盡管模型雖然能夠識別出部分真正例,但同時也存在較多的誤分類情況,導致精確率和召回率均較低。
5" XGBoost模型構建與實驗分析
5.1" XGBoost模型構建
XGBoost是一種基于決策樹的集成機器學習算法,它利用梯度提升框架對交易數據進行學習和預測。在本文研究中,我們首先建立了一個XGBoost分類器,其中包含100個基學習器,即模型將融合100棵決策樹進行訓練。將學習率設定為0.3,該參數決定了各個樹對最終結果的影響程度。考慮到金融欺詐數據的不平衡性,本文采用了binary:logistic作為目標函數,并通過scale_pos_weight參數給予少數類(欺詐類)更高的權重,以此來彌補正樣本相對于負樣本數量的不足。
在模型訓練過程中,本文使用訓練集x_train和y_train來訓練XGBoost分類器。通過模型擬合訓練數據,XGBoost能夠學習到數據的復雜結構和交易之間的關系。隨后,模型在測試集x_test上進行預測,生成預測結果y_pred_xgbt。
模型訓練完成后,本文利用測試集對模型進行了評估,并輸出了混淆矩陣。同時繪制了XGBoost模型混淆矩陣熱力圖和模型評價指標圖,如圖3所示。
從混淆矩陣的結果來看,模型對于類別0即非欺詐交易,表現出極高的識別能力,精確率、召回率和F1分數均達到1.00。對于類別1即欺詐交易,盡管數據集中的正例較少,模型仍然實現了0.68的精確率和0.78的召回率,F1分數為0.72。這表明模型在保持低誤報率的同時,能夠較好地識別出欺詐交易。通過上述分析發現,基于XGBoost的集成學習模型的識別效果最佳。
5.2" XGBoost模型的優化
在XGBoost模型的調參過程中,本文借助采用網格搜索(GridSearchCV)來尋找最優參數組合。首先,定義了參數網格param_grid,其中包含了n_estimators(樹的數量)和scale_pos_weight(正樣本權重)的候選值。本文重點關注這兩個候選值,通過手動輸入參數范圍,網格搜索會自動遍歷所有可能的參數組合,并基于F1分數評估每個組合的性能,最終輸出最佳參數和對應的分數。通過多組參數實驗,將其性能優化。最終確定在選擇參數n_estimators=5,和scale_pos_weight=25時,模型表現良好,對金融詐騙交易(少數類)的召回率達到了85.2%,各項指標展示如圖4所示。
為了進一步提升模型性能,將基學習器的數量增加到1 000,增加迭代空間以緩慢學習數據中的復雜模式。然而,基學習器數量的增加往往會伴隨著過擬合風險,因此我們將學習率降低至0.01,以增強模型的泛化能力并確保學習過程的穩定性。同時,設置樹的最大深度為6,以平衡模型復雜性和性能。較小深度限制學習能力,避免過擬合。此外,將子樣本和特征列比例設為0.8,每次迭代隨機選擇80%樣本和特征訓練樹,從而增加模型多樣性并提高其穩定性和準確性。
XGBoost模型升級,還調高了scale_pos_weight以應對數據不平衡問題,進一步聚焦金融欺詐識別。同時,引入早停機制,連續10輪無改善即停止訓練,以減少計算成本并防過擬合。
改進后的XGBoost模型在精確率上有了顯著提升從0.47增加到0.60。召回率保持在0.85,表示模型依舊能夠識別絕大多數正樣本。這兩個方面的提升也使得F1分數增加到了0.70,表明改進后的模型在保持較高召回率的同時,提高了識別正樣本的準確性,更加有效地平衡了分類的精確度和召回率,如圖5所示。
6" 融合模型構建與實驗分析
本文采用Stacking集成學習技術,將不同基模型的決策能力結合起來,形成一個更加強大的預測器。本文的融合模型使用了兩種基學習器:XGBoost和CART決策樹,以及一個作為元學習器的邏輯回歸模型。
具體操作為配置XGBoost的參數,包括200個樹模型的數量,0.3的學習速率,以及針對二分類目標的binary:logistic為目標函數。同時,為了對抗數據集中可能存在的類別不平衡,本文設定了scale_pos_weight參數。
另一方面,CART決策樹以其簡單直觀和對數據中非線性關系的捕捉能力而被選中。決策樹的gini準則用于測量分割的純度,而class_weight參數設置為balanced,以自動調整權重,這對抗數據集中的類別不平衡同樣至關重要。
本文最終選擇邏輯回歸為元學習器。這些模型被集成在一個StackingClassifier中,其中estimators參數包含了所選的基學習器,它們的預測結果將作為新特征提供給邏輯回歸模型進行最終的預測。StackingClassifier的stack_method參數設為auto,允許模型自動選擇每個基模型的堆疊方法,而n_jobs參數設置為-1,以利用所有可用的CPU核心進行模型訓練,以加速訓練過程。
對于類別0即非欺詐交易,精確率、召回率和F1分數均為1.00。這一結果凸顯了模型在識別正常金融交易的強大能力。對于類別1即欺詐交易,模型精確率達到0.85,召回率達到0.81,而F1分數達到了0.83。這表明Stacking模型能夠有效地識別出絕大多數欺詐交易,并且保持較低的誤報率。圖6為Stacking融合模型混淆矩陣,表4為融合模型評價指標表。
7" 實驗結果對比分析
在金融交易欺詐識別領域,召回率和F1值常被用來評價模型性能。召回率衡量模型識別欺詐案例比例,與金融機構防欺詐能力密切相關;F1值綜合精確率和召回率,能夠更全面地評估不平衡數據集模型表現。本文比較五種集成學習模型在這兩方面的性能,如圖7所示。
基于上述分析綜合考慮召回率和F1值,在單個基礎集成學習模型中,XGBoost模型表現出最優的識別效果。而Stacking融合模型在上述金融交易欺詐識別的集成學習研究中呈現出最佳的性能。它能保持較高的召回率,也有著較好的精確率與F1值,表明了其在識別金融欺詐交易的同時,減少了誤判的可能性。綜上所述,Stacking融合模型在研究中顯示出了最佳性能,并且是最有應用前景的模型。
8" 結" 論
本文基于集成學習的方法,構建了多個金融交易欺詐識別模型,包括隨機森林、CART、XGBoost以及XGBoost提升后模型和Stacking融合模型。通過對這些模型進行實驗分析,比較了它們的性能差異,并找出了適合金融交易欺詐識別的模型。
本文的研究和實驗分析嘗試將集成學習方法應用在警務實,借助先進的金融交易欺詐識別技術,以對于提升警務實戰能力。金融交易欺詐識別技術在集成學習方面的發展將為警務實戰提供有力支持,也應加強與金融機構、科技公司等的合作,共同建立金融交易欺詐信息共享平臺,實現數據的互通有無。這將有利于警務部門更全面地掌握金融交易欺詐的情況,制定更有針對性的打擊策略。從而助力我們構建一個更加安全、穩定的金融和社會環境。
參考文獻:
[1] XU J,CHEN D Y,CHAU M. Identifying Features for Detecting Fraudulent Loan Requests on P2P Platforms [C]//2016 IEEE Conference on Intelligence and Security Informatics (ISI).Tucson:IEEE,2016:79-84.
[2] 夏平凡.面向數字金融欺詐的智能風險預測方法研究 [D].合肥:合肥工業大學,2022.
[3] 陳靜,王銘海,江灝,等.Stacking相異模型融合的實驗室異常用電行為檢測 [J].實驗室研究與探索,2024,43(1):231-237.
[4] 歐陽瀟琴,王秋華.基于改進權值更新和選擇性集成的AdaBoost算法 [J].軟件導刊,2020,19(4):257-262.
[5] 王軍,劉三民,劉濤.基于蟻群優化的選擇性集成數據流分類方法 [J].長江大學學報:自科版,2017,14(5):37-43+85-86.
[6] 徐曉楊,紀志成.選擇性集成極限學習機分類器建模研究 [J].計算機應用與軟件,2016,33(9):279-283.
[7] 王進,冉仟元,丁凌,等.Bagging選擇性集成演化硬件DNA微陣列數據分類方法 [J].高技術通訊,2013,23(12):1236-1241.
[8] 張燕平,曹振田,趙姝,等.一種新的決策樹選擇性集成學習方法 [J].計算機工程與應用,2010,46(17):41-44.
[9] ZHANG D,JIAO L C,BAI X,et al. A Robust Semi-Supervised SVM Via Ensemble Learning [J].Applied Soft Computing,2018,65:632-643.
[10] FENG X,ZHAO Y L,ZHANG M,et al. Ensemble Learning-Based Stability Improvement Method for Feature Selection Towards Performance Prediction [J].Journal of Manufacturing Systems,2024,74:55-67.
[11] IJEH V,MORSI W G. Smart Grid Cyberattack Types Classification: A Fine Tree Bagging-based Ensemble Learning Approach with Feature Selection [J/OL].Sustainable Energy,Grids and Networks,2024,38:101291[2024-08-20].https://www.sciencedirect.com/science/article/abs/pii/S2352467724000201?via%3Dihub.
[12] WANG M Y,QIAN Y Y,YANG Y D,et al. Improved Stacking Ensemble Learning Based on Feature Selection to Accurately Predict Warfarin Dose [J/OL].Frontiers in Cardiovascular Medicine,2024,10:1320938(2021-01-19).https://doi.org/10.3389/fcvm.2023.1320938.
[13] MOON J H,YU J H,SOHN K A. An Ensemble Approach to Anomaly Detection Using High- and Low-variance Principal Components [J/OL].Computers and Electrical Engineering,2022,99:107773[2024-08-26].https://www.sciencedirect.com/science/article/abs/pii/S0045790622000714?via%3Dihub.
[14] HUANG D,LIU Z G,WU D. Research on Ensemble Learning-Based Feature Selection Method for Time-Series Prediction [J/OL].Applied Sciences,2023,14(1):40(2023-12-20).https://doi.org/10.3390/app14010040.
[15] NADIA N,MORTEZA R,MAHDI E. A New Evolutionary Ensemble Learning of Multimodal Feature Selection from Microarray Data [J].Neural Processing Letters,2023,55(5):6753-6780.
[16] PARTHASARATHY G,DEVI S S. Ensemble Learning Based Collaborative Filtering with Instance Selection and Enhanced Clustering [J].Computers, Materials amp; Continua,2022,71(2):2419-2434.
作者簡介:鄭德銘(1998—),男,漢族,福建莆田人,碩士研究生,研究方向:數據警務技術;李思佳(1987—),女,漢族,江西南昌人,講師,碩士生導師,博士,研究方向:網絡輿情、大數據分析;潘彥愷(2002—),男,漢族,湖南常德人,本科在讀,研究方向:數據警務技術;鄭健龍(2001—),男,漢族,浙江義烏人,碩士研究生在讀,研究方向:數據警務技術。
收稿日期:2024-10-02
基金項目:河北省社會科學基金項目(HB22SH011)