基于集成學(xué)習(xí)的信用卡欺詐檢測模型

2024-04-14 11:44:25徐天培羅永勝

信息系統(tǒng)工程 2024年1期

徐天培?羅永勝

摘要：旨在探討和驗證一種基于集成學(xué)習(xí)的信用卡欺詐檢測模型，以提高識別欺詐交易的準(zhǔn)確性。分析了信用卡欺詐的背景，回顧了現(xiàn)有的關(guān)鍵技術(shù)和方法，在此基礎(chǔ)上，采用硬投票策略，將決策樹、邏輯回歸和樸素貝葉斯分類器三種不同的機(jī)器學(xué)習(xí)模型集成在一起，形成一個強大的集成模型。通過實驗驗證，該集成模型實現(xiàn)了高達(dá)99%的準(zhǔn)確性，相較于單一模型至少提高了3.22%的準(zhǔn)確性。這種顯著的準(zhǔn)確性提升歸因于模型間的互補性和集成學(xué)習(xí)的穩(wěn)健性。不僅為信用卡欺詐檢測提供了一種高效的方法，也為其他金融欺詐檢測問題提供了有價值的參考。

關(guān)鍵詞：信用卡欺詐檢測；機(jī)器學(xué)習(xí)；集成學(xué)習(xí)；硬投票

一、前言

在全球數(shù)字化的現(xiàn)代社會中，電子商務(wù)和在線交易已經(jīng)成為日常生活和商業(yè)活動的核心組成部分。據(jù)Statista的預(yù)測，2023年全球電子商務(wù)的市場規(guī)模將達(dá)到13，190億美元。這種交易方式的普及和便利為全球消費者和企業(yè)帶來了諸多益處，但同時也伴隨著日益嚴(yán)重的安全問題，尤其是信用卡欺詐問題。信用卡欺詐的形式多種多樣，包括卡不在場的欺詐、身份盜竊、虛假交易等。根據(jù)Nilson Report的數(shù)據(jù)，2022年全球信用卡欺詐損失超過320億美元，并且這一數(shù)字預(yù)計在未來幾年中將持續(xù)上升。這些欺詐行為不僅給消費者帶來巨大的經(jīng)濟(jì)損失，也給商家和金融機(jī)構(gòu)帶來沉重的經(jīng)濟(jì)負(fù)擔(dān)和聲譽損害。

因此，信用卡欺詐檢測成為一個亟待解決的關(guān)鍵議題。雖然傳統(tǒng)的欺詐檢測方法，例如基于規(guī)則的系統(tǒng)和閾值檢測，在一些場景下仍然有效，但它們在面對復(fù)雜和多變的欺詐模式時往往顯得無能為力。因此，研究者們開始轉(zhuǎn)向使用機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘技術(shù)來提高欺詐檢測的準(zhǔn)確性和效率。

機(jī)器學(xué)習(xí)方法能夠通過分析大量的交易數(shù)據(jù)，識別出潛在的欺詐模式，并在新的交易中實時檢測潛在的欺詐行為。盡管機(jī)器學(xué)習(xí)在信用卡欺詐檢測中展現(xiàn)出了巨大的潛力，但設(shè)計和實施一個高效且可靠的信用卡欺詐檢測模型仍然面臨著許多挑戰(zhàn)，例如數(shù)據(jù)不平衡、特征選擇和模型解釋性等。本文旨在提出一個基于集成學(xué)習(xí)模型的信用卡欺詐檢測模型，以提高模型的檢測性能，保持良好的實用性。同時，探討集成學(xué)習(xí)模型在提高模型準(zhǔn)確性方面的優(yōu)勢，并通過實驗驗證模型的有效性。

二、相關(guān)工作

信用卡欺詐的嚴(yán)重性引發(fā)了一系列的防范技術(shù)的發(fā)展。金融機(jī)構(gòu)不僅要提供財務(wù)服務(wù)便利，也應(yīng)保護(hù)信用卡持有人，因此，投資并研究了包括機(jī)器學(xué)習(xí)技術(shù)在內(nèi)的多種檢查方法。

決策樹（DT）是一種被廣泛使用的檢測技術(shù)，盡管實施簡單，但需逐一檢查每筆交易。Khatri等人在一個不平衡的歐洲信用卡欺詐檢測（ECCFD）數(shù)據(jù)集上分析了各種模型，結(jié)果顯示DT在召回率和精確度上表現(xiàn)較好，而KNN在召回率和精確度上表現(xiàn)更佳，但時間消耗較大[1]。LightGBM技術(shù)也得到了應(yīng)用。Taha和Malebary在兩個數(shù)據(jù)集上進(jìn)行實驗，發(fā)現(xiàn)優(yōu)化Light梯度提升機(jī)（OLightGBM）在兩個數(shù)據(jù)集上均取得了最高分[2]。Vengatesan等人在不平衡的ECCFD數(shù)據(jù)集上檢查了LR和KNN的性能，發(fā)現(xiàn)KNN在精確度、召回率和F1分?jǐn)?shù)上表現(xiàn)最佳[3]。Puh 和Brki?c?在歐洲持卡人數(shù)據(jù)集上研究了不同算法的性能，并使用合成少數(shù)類過采樣技術(shù)（SMOTE）解決了數(shù)據(jù)集中的不平衡類問題，他們使用LR創(chuàng)建了兩個模型，結(jié)果顯示靜態(tài)學(xué)習(xí)和增量學(xué)習(xí)的AUC分?jǐn)?shù)分別為91.14%和91.07%[4]。 Kumar等人使用RF對ECCFD數(shù)據(jù)集進(jìn)行了基礎(chǔ)研究，發(fā)現(xiàn)RF的準(zhǔn)確度為90%[5]。人工神經(jīng)網(wǎng)絡(luò)（ANN）也被考慮用于信用卡欺詐檢測。Asha和KR9在ECCFD數(shù)據(jù)集上使用了SVM、KNN和ANN模型，結(jié)果顯示ANN在準(zhǔn)確度、精確度和召回率上表現(xiàn)最佳[6]。

綜觀前人的研究，每種方法都能提高模型性能，但從整體考慮，應(yīng)兼顧機(jī)器學(xué)習(xí)模型的準(zhǔn)確性和泛化性。因此，有必要使用集成學(xué)習(xí)方法構(gòu)建一個新的集成學(xué)習(xí)模型用于信用卡欺詐檢測。

三、數(shù)據(jù)集與理論

（一）數(shù)據(jù)集

本文使用Kaggle數(shù)據(jù)競賽網(wǎng)站的開源數(shù)據(jù)集，該數(shù)據(jù)集包含了284，807條信用卡交易的詳細(xì)信息，每條記錄包含31個特征。這些特征可能包括交易時間、金額以及可能與交易模式、客戶行為和卡的安全性相關(guān)的其他變量。所有的交易細(xì)節(jié)都已經(jīng)通過PCA轉(zhuǎn)換，進(jìn)行了匿名處理，以保護(hù)個人信息和敏感特征。唯一未經(jīng)PCA轉(zhuǎn)換的特征是“Class”。“Class”特征是本文的目標(biāo)變量，用于標(biāo)識每個交易是否為欺詐交易。在這個特征中，0表示非欺詐交易，1表示欺詐交易。

（二）理論

1.硬投票分類器

硬投票分類器（Hard Voting Classifier）是一種集成學(xué)習(xí)方法[7]，它通過整合多個模型的預(yù)測結(jié)果來做出最終的預(yù)測。在硬投票中，每個模型對樣本的預(yù)測被視為一個“投票”，最終的預(yù)測結(jié)果是基于多數(shù)投票的原則得出的。細(xì)節(jié)上，對于每個樣本，模型預(yù)測的類別中獲得最多“投票”的類別被選為最終的預(yù)測類別。

2.樸素貝葉斯分類器

樸素貝葉斯分類器是基于貝葉斯定理[8]，假設(shè)特征之間相互獨立。盡管這個“樸素”假設(shè)在現(xiàn)實應(yīng)用中往往不成立，但樸素貝葉斯分類器在許多情況下仍然表現(xiàn)出色，特別是在文本分類和垃圾郵件過濾等領(lǐng)域，其簡單、快速且易于實現(xiàn)的特點，使其成為工業(yè)領(lǐng)域中一個有價值的成員。

3.邏輯回歸

邏輯回歸是一種廣泛應(yīng)用于二分類問題的模型[9]，它通過sigmoid函數(shù)將線性組合的結(jié)果映射到（0，1）區(qū)間，用于預(yù)測目標(biāo)變量屬于某一類的概率。邏輯回歸在處理線性可分的問題上具有較強的表現(xiàn)，并且能輸出概率估計，便于分析。

4.決策樹

決策樹[10]通過遞歸地分割特征空間，將特征空間劃分為一系列簡單的決策區(qū)域。它是一種非參數(shù)化模型，能夠處理非線性關(guān)系，且模型的解釋性強。決策樹能夠自然地處理多種數(shù)據(jù)類型，并且對異常值和缺失值具有較強的魯棒性。

5.基于集成學(xué)習(xí)的硬投票模型

在本文中，選擇了樸素貝葉斯分類器、邏輯回歸和決策樹這三種基礎(chǔ)模型來構(gòu)建硬投票模型，主要基于它們在不同方面的優(yōu)勢和計算特性的差異性，以期望在集成中實現(xiàn)互補和提升。對于每一個預(yù)測實例，硬投票模型會選擇三個基模型中預(yù)測結(jié)果出現(xiàn)次數(shù)最多的類別作為最終的輸出。例如，如果決策樹和邏輯回歸預(yù)測一個樣本為正類，而樸素貝葉斯分類器預(yù)測為負(fù)類，硬投票分類器將選擇正類作為該樣本的預(yù)測結(jié)果，因為正類獲得了更多的“投票”。

通過整合三個模型的預(yù)測能力，硬投票模型旨在減少模型的方差，提高泛化能力。由于每個基模型的計算特性和假設(shè)不同，它們在不同的數(shù)據(jù)分布和特征空間上可能有不同的表現(xiàn)。因此，本文期望硬投票模型能夠在不同場景下提供更加穩(wěn)健和準(zhǔn)確的預(yù)測。硬投票模型結(jié)構(gòu)如圖1所示。

6.機(jī)器學(xué)習(xí)模型評估標(biāo)準(zhǔn)

機(jī)器學(xué)習(xí)模型的評估中，準(zhǔn)確性（Accuracy）通常用于衡量模型預(yù)測的正確性，即正確預(yù)測的樣本占總樣本的比例。然而，在不平衡數(shù)據(jù)集的情境下，準(zhǔn)確性可能不是一個可靠的指標(biāo)。此時，AUC（Area Under the Receiver Operating Characteristic Curve）成為一種流行的度量，它衡量的是模型對正例的排名能力，即模型將正例排在負(fù)例前面的概率。F1分?jǐn)?shù)（F1 Score）則是精確度（Precision）和召回率（Recall）的調(diào)和平均數(shù)，它在評估正負(fù)樣本極度不平衡的數(shù)據(jù)集時特別有用，因為它同時考慮了模型的精確性和召回性。這些指標(biāo)為本文提供了多個維度來全面評估模型的性能和可靠性[11]。

四、結(jié)果

（一）三種機(jī)器學(xué)習(xí)的模型性能

本文先對三種機(jī)器學(xué)習(xí)的模型性能進(jìn)行了評估，結(jié)果如表1所示。其中，決策樹分類器在所有指標(biāo)上表現(xiàn)均衡，F(xiàn)1 分?jǐn)?shù)為 93.91%，表明模型在準(zhǔn)確度和召回率之間達(dá)到了一個較好的平衡。邏輯回歸分類器在所有模型中表現(xiàn)最好，尤其在 F1 分?jǐn)?shù)上達(dá)到了 98.73%，表明模型在精確度和召回率之間有著極好的平衡，且準(zhǔn)確度也是最高的。樸素貝葉斯分類器在平衡準(zhǔn)確度和AUC上的表現(xiàn)下降，這可能暗示模型在正負(fù)樣本的分類上存在一些問題，盡管其準(zhǔn)確度和 F1 分?jǐn)?shù)表現(xiàn)尚可。

（二）硬投票結(jié)果

本文將決策樹（準(zhǔn)確度為94.91%）、邏輯回歸（準(zhǔn)確度為95.78%）和樸素貝葉斯分類器（準(zhǔn)確度為94.83%）組合起來構(gòu)建硬投票模型，可在一定程度上抵消各自的缺點，從而獲得更高的準(zhǔn)確性。通過交叉驗證，實現(xiàn)了99%的準(zhǔn)確度。這表明，盡管單個模型的準(zhǔn)確度介于94%—96%之間，但通過將它們的預(yù)測相結(jié)合，達(dá)到了相對理想的預(yù)測效果。

具體而言，與原先準(zhǔn)確度最高的邏輯回歸模型相比，硬投票方法至少提升了3.22%的準(zhǔn)確度。這種顯著的準(zhǔn)確度提升可以歸因于模型間的互補性。也就是說，在某些實例上，一個模型的預(yù)測不準(zhǔn)確時，其他模型可能能夠進(jìn)行正確預(yù)測。這種互補性降低了模型預(yù)測的誤差和方差，從而增強了整體的準(zhǔn)確度，這也凸顯了集成學(xué)習(xí)的一個核心優(yōu)點：通過整合多個模型，能夠獲得比任何單一模型更為強大和穩(wěn)定的預(yù)測性能。

五、結(jié)語

隨著數(shù)字化支付的普及和在線交易的增加，信用卡欺詐已成為一個全球性的問題，對個人和金融機(jī)構(gòu)造成了巨大的經(jīng)濟(jì)損失。在這方面，構(gòu)建一個能夠精確檢測欺詐行為的模型變得至關(guān)重要。

本文在相關(guān)研究基礎(chǔ)上，審視了現(xiàn)有的一些方法和技術(shù)，分析了它們的表現(xiàn)和局限性，創(chuàng)造性地采用了一種硬投票策略，將決策樹、邏輯回歸和樸素貝葉斯分類器等不同的基模型集成在一起，實現(xiàn)了更高的預(yù)測準(zhǔn)確性。實驗結(jié)果表明，這種集成方法的準(zhǔn)確性高達(dá)99%，相較于單一模型的表現(xiàn)至少提高了3.22%的準(zhǔn)確性。該方法利用模型間的互補性顯著提升準(zhǔn)確性，實現(xiàn)了超越單一模型的穩(wěn)定、強大的預(yù)測性能，為金融領(lǐng)域提供了一個有效的工具，幫助金融領(lǐng)域更高效地識別和防止信用卡欺詐行為，從而保護(hù)消費者和金融機(jī)構(gòu)免受經(jīng)濟(jì)損失。

在未來的工作中，計劃進(jìn)一步探索其他的集成學(xué)習(xí)策略和不同的基模型，以進(jìn)一步提高模型的預(yù)測性能和泛化能力。同時，也將探討如何將更多的特征工程和領(lǐng)域知識融入模型中，以便更精確地捕捉欺詐行為的各種模式和策略。

參考文獻(xiàn)

[1]Khatri， S.; Arora， A.; Agrawal， A.P. Supervised machine learning algorithms for credit card fraud detection： A comparison. InProceedings of the 2020 10th International Conference on Cloud Computing， Data Science & Engineering （Confluence）， Noida，India， 29–31 January 2020：680–683.

[2]Taha， A.A.; Malebary， S.J. An intelligent approach to credit card fraud detection using an optimized light gradient boosting machine. IEEE Access 2020， 8：25579–25587.

[3]Vengatesan， K.; Kumar， A.; Yuvraj， S.; Kumar， V.; Sabnis， S. Credit card fraud detection using data analytic techniques. Adv. Math.Sci. J. 2020， 9：1185–1196.

[4]Puh， M.; Brki?c， L. Detecting credit card fraud using selected machine learning algorithms. In Proceedings of the 2019 42ndInternational Convention on Information and Communication Technology， Electronics and Microelectronics （MIPRO）， Zagreb，Croatia， 20–24 May 2019： 1250–1255.

[5]Kumar， M.S.; Soundarya， V.; Kavitha， S.; Keerthika， E.; Aswini， E. Credit card fraud detection using random forest algorithm. InProceedings of the 2019 3rd International Conference on Computing and Communications Technologies （ICCCT）， Chennai， India，21–22 February 2019： 149–153.

[6]Asha， R.; KR， S.K. Credit card fraud detection using artificial neural network. Glob. Trans. Proc. 2021， 2：35–41.

[7]黃富幸，韓文花.基于Voting機(jī)制的IMA-BP不平衡數(shù)據(jù)分類算法[J].科學(xué)技術(shù)與工程，2023（27）： 11698-11705.

[8]周妹，常建華，陳思成，等.一種基于樸素貝葉斯分類器的氣溶膠類型識別模型[J].光學(xué)學(xué)報，2022，42（18）：49-57.

[9]孟云偉，張熙衍，青光焱，等.基于Logistic回歸的高速公路交通事故后果的影響因素分析[J]. 武漢理工大學(xué)學(xué)報（交通科學(xué)與工程版）. 2022，46（01）： 12-16.

[10]呂志鵬，鄭丁丁，郭瓊，等.決策樹算法對整家定制家居購買決策的預(yù)測研究[J].林產(chǎn)工業(yè)，2023，60（05）：88-92.

[11]盧冰潔，李煒卓，那崇寧，等.機(jī)器學(xué)習(xí)模型在車險欺詐檢測的研究進(jìn)展[J].計算機(jī)工程與應(yīng)用，2022，58（05）：34-49.

基金項目：博士基金研究項目“基于大數(shù)據(jù)技術(shù)的電信用戶行為序列化分析在欺詐識別中的應(yīng)用研究”（項目編號：2023BSJJ16）

作者單位：徐天培，呼倫貝爾學(xué)院；羅永勝，呼倫貝爾市公安局伊敏分局

責(zé)任編輯：尚丹