李賽虎 張麗娟



摘 ?要: 針對傳統的欺詐檢測工具難以檢測信用卡欺詐模式的問題,提出一種基于特征工程的信用卡欺詐檢測策略。首先,該策略擴展了交易聚合策略,在對交易進行分組時通過納入一個結合標準,將持卡人或交易類型與國家或商戶群體等信息相結合;然后,對交易的周期性行為進行分析,使用馮米塞斯分布(循環正態分布)創建一組新的特征集合;最后,使用一個大型真實的信用卡欺詐數據集,比較已有的信用卡欺詐檢測模型,并評估不同特征集合對結果造成的影響。結果表明該策略較已有模型的成本大概節約13%。
關鍵詞: 特征工程; 信用卡欺詐檢測; 周期性行為; 馮米塞斯分布; 特征集合; 成本
中圖分類號: TN911.1?34; TP391 ? ? ? ? ? ? ? ? ? ?文獻標識碼: A ? ? ? ? ? ? ? ? ? 文章編號: 1004?373X(2019)15?0175?06
Research of credit card fraud detection strategy based on feature engineering
LI Saihu, ZHANG Lijuan
(College of Economics and Management, Shanghai Maritime University, Shanghai 201306, China)
Abstract: To solve the problem that traditional fraud detection tools are difficult to detect credit card fraud patterns, a credit card fraud detection strategy based on feature engineering is proposed, in which the transaction aggregation strategy is extended and a combining criterion is incorporated into the grouping of transactions to combine the information of the cardholder or transaction type with the information of the state or merchant group, then, the cyclical behavior of transactions is analyzed and a new set of characteristics is created by mean of Von Mises distribution (cyclic normal distribution) next, a large real credit card fraud data set is used to compare the existing credit card fraud detection models and evaluate the impact of different feature sets on the results. The result shows that the cost produced by the proposed strategy is decreased byabout 13%.
Keywords: feature engineering; credit card fraud detection; cyclical behavior; Von Mises distribution; feature sets; cost
0 ?引 ?言
近些年,隨著信用卡和借記卡的使用率大幅上升,欺詐現象也隨之蔓延。因此,每年使數以幾十億的金錢蒙受損失。隨著互聯網等新交易模式的興起,新的欺詐模式也應運而生[1],欺詐者為避開檢測,不斷改變策略,這使得傳統的欺詐檢測工具[2]如專家規則等不再適用,而現有的欺詐檢測系統又難以防范信用卡欺詐。
當構建一個信用卡欺詐檢測模型時,數據偏斜度、應用的代價敏感性、系統的短時響應、搜索空間的維數以及對特征進行預處理的方式都會對檢測結果造成影響,目前已有一些研究成果。如文獻[3]提出一種基于代價的度量,以評估信用卡欺詐檢測模型,但該模型在欺詐檢測過程中會產生較大的財務成本。文獻[4]為了提高信用卡欺詐檢測準確率,提出一種支持向量機的信用卡欺詐檢測方法。文獻[5]提出一種單標準的方法,充分考慮了顧客的消費行為模式[6],在對交易分組過程的某個給定時間上加入聚合特征計算。文獻[7]使用進化算法來自適應地生成用于欺詐檢測的神經網絡結構。類似研究也表明[8],神經網絡可以有效地完成信用卡欺詐檢測。
本文以檢測過程中產生財務成本的比較為基礎,提出節約度量,然后,提出交易聚合策略的一種擴展版本,通過在對交易進行分組時納入一個結合標準,即不僅僅針對持卡人或交易類型進行聚合,還將其與國家或商戶群體等信息相結合,這樣使得特征空間更加豐富。此外,本文還提出一個提取周期性特征的方法,以估計一個新的交易發生時間是否在以往交易發生時間的置信區間內。
本文方法基于對交易時間的周期性行為,使用馮米塞斯分布[9]進行分析,通過一個大型信用卡欺詐數據集進行實驗,結果表明了本文方法的高效性。
1 ?信用卡欺詐檢測評估