張燕
?
基于本質特征和網絡特征的信用卡欺詐檢測
張燕
(寧夏工商職業技術學院,銀川,750021)
由于信用卡欺詐檢測是一種不合規則的預測任務,需要專門方法來處理并預測,提出一種基于本質特征和網絡特征的檢測方法,以滿足自動化和實時處理的要求。提出的方法結合了兩種重要特征,即利用新近度—頻率—貨幣值(RFM)的基本原理,由外來交易和顧客消費歷史派生出本質特征;采用信用卡持有人和商家的網絡為每個網絡對象派生出依賴猜測分數的網絡特征。然后將這些特征提供給成熟的學習方法。本文評估了邏輯回歸、神經網絡和隨機森林模型。結果表明本質特征和網絡特征的結合產生了最佳執行結果,獲得的ROC曲線下面積(AUC)高于0.98。且提出的方法還能夠精確地從一系列欺詐交易中挑選出第一筆交易。
信用卡欺詐檢測;預測;本質特征;網絡特征;新近度-頻率-貨幣值
盡管電子商務已經成為眾多玩家的一種成熟業務,但網上支付的安全性卻很滯后[1]。其主要原因是在線銷售增長快速,結果導致了許多“無卡交易”(Card Not Present,CNP)交易,通過偽裝成其他人來誤導系統支付,這種欺詐檢測是電子商務領域亟待解決的問題[2]。
由于信用卡發卡機構保護了數據資源的共享,且大多數算法是內部產生的,隱藏了模型的細節。使得公開可用的研究非常少。一般可將信用卡欺詐檢測方法分為兩大類:無監督和監督方法。無監督方法單獨使用顧客交易特征,將集合分為小的或更小的聚類,然而最大化了提取特征的差異。如果某一顧客的新交易未被分配給正常的顧客群,則會為該交易拉響警報。無監督技術包括等組分析[3]和自組織映射[4]。一般是使用過去欺詐性交易的監督技術以推斷未來交易的可信度。監督方法最普遍的技術是人工神經網絡(Artificial Neural Network,ANN)[5]。盡管ANN通??梢詫崿F該性能,但是缺乏解釋性的黑盒模型。集成方法如隨機森林的使用可以在信用卡詐騙檢測中獲得較好的效果[6]。當有許多要學習的輸入特征時,隨機森林效果最好。此外,欺詐中監督學習的其他技術有貝葉斯置信網絡[7]、支撐向量機[8]、線性判別分析[9]和隱馬爾可夫模型[10]等。
本文研究的重點是自動檢測網上欺詐性交易,眾所周知,數據挖掘提供了大量技術以找到數據內模式,從而區分正常和可疑交易。欺詐行為的一個關鍵挑戰是適當地處理欺詐的非典型特征。即很多合法交易和少數欺詐性交易的證據需要學習,這復雜化了檢測過程。因此,本文同時結合了本質特征和網絡相關特征。本質特征分析交易,比較交易是否符合正常的客戶概況,通過信用卡持卡人過去交易的RFM屬性:新近度、頻率和貨幣值,創建這些特征。另一方面,基于網絡的特征通過創建和分析由信用卡持有人和商家組成的網絡表征每筆交易,其中,信用卡持有人和商家是通過交易方式關聯的。
因此,本文通過將過去購買模式及顧客行為作為特征,以滿足信用卡交易欺詐的自動化和實時處理。同時,將這些特征和新進來的交易進行比較。通過一種傳播算法解釋從網絡邊緣(即交易)傳播到所有網絡組件(即信用卡持有人和商家)的欺詐,同時為每筆交易派生基于網絡的特征。將這些特征與本質特征相結合供給學習算法。
信用卡欺詐檢測過程,如圖1所示。

圖1 信用卡檢測過程
該檢測過程的最終目標是阻止不符合規則的所有交易的繼續進行。當一個新交易到達系統時,系統會進行一系列的檢查驗收。例如,該交易處理系統檢查用戶是否進入正確的PIN或消費金額是否足夠。如果交易清除了檢查驗收,則該交易會傳至檢測系統的完整性檢查上。通過從過去交易中學到的檢測模型,如果該概率超過某一閾值,則該交易終止。如果一個交易未通過“在線”或“離線”完整性檢查或“客戶須知”,則該交易具有欺詐性。然而,“在線”為實時已知,“離線”和“客戶須知”需要一個星期來完成。
本文將主要討論如何實施欺詐檢測過程,檢測包括完整性檢查,如圖2所示。

圖2 使用滑動窗口的檢測模型重估過程
從一系列時間戳、標記的交易開始學習模型以推斷未來欺詐性交易。因為欺詐檢測模型能自動適應變化的環境,所以本文介紹了滑動時間窗,該窗口基于當前(即短期)和常規(即中期和長期)的顧客過去行為刻畫一個交易。使用這三個時間窗口導出本質的和基于網絡的特征。因為在六秒內經常不能執行模型估計,所以本文選擇在前一天的午夜時刻每日重估計檢測模型。使用前一天數據上訓練的模型估計第二天的交易。
將實時提取交易特征注入模型,如圖2所示。其主要解決:
1.本質特征提取。如何從信用卡持有者的先前交易中區分新進來的交易?
2.基于網絡的特征提取。APATE通過交易利用信用卡持有者和商家之間的關系?;诰W絡的特征集測量欺詐的每個網絡對象的曝光度。
所用的特征,如表1所示。

表1 短期(ST)、中期(MT)和長期(LT)上輸入的特征匯總
本文的第三節將詳細討論如何提取模型的每個特征。
3.1本質特征提取
一般來說,3個條件有助于預測欺詐:交易細節、時間框架和交易出現的位置[11]。本文變量包括給定時間框架中出現的交易數(頻率)、這些交易花費的貨幣量(貨幣值)和特定時期內(新近度)兩個后續交易之間的時間。
這些變量體現在新近度-頻率-貨幣值(RFM)框架內,它廣泛用于營銷[12]。本文提出研究短期、中期和長期:交易的最后一小時(企圖捕獲大量使用然后掉落的卡片),交易的最后一天(企圖捕獲特定的、有消費傾向的一天)和交易的最后一周(企圖捕獲顧客的常規行為)。一般有一個月有效的交易,所以長時期分析不可能。文獻[13]說明了提取有關商家的信息非常有用,可以聚類商家的數據,包括涉及商家本身、消費出現的總分類(即超市、服飾店,等等)。
創建附加的二元變量以標記何時不出現購買,如果交易是那個測量時間框架中的第一筆交易,則這些變量(第一購買)會為每個測量維度進行標記(如表1所示)。這個信息主要與廣義線性模型相關,本文創建15個變量對聚類和每個級別進行解釋。
總的來說,使用3個時期、三類RFM變量和五類交易聚類(單一商家、類別、國家、貨幣和全球),開發可以聚類過去交易的60(3×3×5+3×5)個變量。所有變量具有以下命名方案:聚類級別、RFM類型和時期。第二步是使用交易出現的位置及商家信息刻畫交易本身,給定中國信用卡用戶的特征。最后是構造變量處理商家的分類。數據提供者表明,欺詐性交易趨于積聚某些分類。使用這個信息,利用各個類別的欺詐百分比將可用分類分割為幾個大類。
在相關交易變量構造數據集之后,本文采用網絡分析的新方法補充信息,如3.2節所述。
3.2 網絡特征提取
3.2.1 網絡的定義
表示異構節點類型的圖為多分圖。特別地,本文的信用卡詐騙網絡表示為二分圖,它包含了兩類節點,即信用卡持有者和商家,滿足式(1):

為了解決欺詐的動態特征,本文將時間集定為網絡,所以邊界表示交易的新近度。以指數方式表示及時衰減強度關系如式(2):

3.2.2 網絡欺詐傳播
本文利用每個信用卡持有者、商家和交易的分數,推導分數表達了網絡對象被曝光欺詐的程度,網絡中的影響傳播是一個廣泛研究的主題,在欺詐檢測中具有良好的結果。本文提出GOTCHA!的欺詐傳播算法以分析二分圖。GOTCHA!的傳播算法是一種迭代的欺詐分數算法,基于一個節點類型的標簽,該算法分為兩個節點類。假設圖由個一類節點和個二類節點組成。在次迭代之后,包含每個節點曝光分數的向量等于式(3):

式(3)從一系列有限標記的節點開始以推斷剩余節點的分數。然而,在信用卡欺詐中,本文要求從一系列有限標記的邊界開始以導出邊界和節點的分數。因此,網絡傳播算法通過兩種變化采用式(3):將傳播到包括交易的三分圖中,并將其作為網絡的節點;為指示欺詐交易的時間相依歸一化向量。
(1)邊緣到節點轉換
為了能從邊緣傳播影響,本文將邊緣包含為網絡中的一個單獨實體。即將邊緣轉換為節點并創建三分圖,,從而具有以下性質如式(4):
(4)
因為式(3)需要對稱矩陣,本文將三分圖轉換為對稱的不分割圖,其數學表示如式(5):

(2)起始向量
初始向量可用以強調最終排序上某些節點的影響,而不必將初始向量初始化為均勻分布的向量。同樣的推理也適用于欺詐。因為本文不關注通過網絡而進行傳播的任意影響,只關注欺詐影響,所以使用初始向量通過指定確定的欺詐性交易引導算法。即大小為的初始向量等于式(6):

將之前的修改應用到式(3)中的二分圖傳播算法中,為邊緣和節點標號導出了傳播算法,其中式(7):

3.2.2 特征提取
因為本文在分析中使用長期、中期和短期時間窗口,所以為了使用信息,分別推斷一個月、一周和一天的每個節點和邊緣曝光分數,本文使用不同的值計算式(7)中的和。例如,長期曝光分數交易(或商家,或信用卡持有者)在最后一個月對欺詐的敏感程度。一般地,網絡對象的曝光分數越高,則欺詐在其附近包圍的節點或邊緣越多。
對于每個新進來的交易,需計算以下特征:(a)信用卡持有者曝光分數(CCHScore);(b)商家曝光分數(MCScore)和(c)交易曝光分數(TXScore)。為了為第二天出現的交易提取可信度特征,本文每天在午夜重新估計每個網絡對象的曝光分數。
交易曝光分數結合了相關信用卡持有者和商家的影響。如果交易已在信用卡持有者和商家之間出現,則本文使用式(7)計算的曝光分數。如果多個交易出現在相同的信用卡持有者和商家之間,則本文使用分配到最近交易的分數。當一個交易不在某個信用卡持有者和商家之間出現時,本文使用其直接鄰居的曝光分數計算那個交易的曝光分數。因此,本文更新局部網絡中的曝光分數如式(8):

為了檢測本文方法,使用中國大陸信用卡發行商約3.3M交易的特定數據集。該數據包括與連續5周中出現的交易相關的所有信息的監督數據集,同時,還研究了可疑交易之后通過公司為每筆交易增加欺詐或不增加欺詐的行為。
本文試圖回答的三個問題是:
方法的最優模型是什么?
如何將模型應用于真實情境中?
使用這個問題的網絡變量的附加值是什么?
對于所有的問題,本文將創建非實時測試集,該測試集包含了上周出現的所有交易(約500K),然而,前兩周將用作創建RFM的數據庫,接下來兩周的數據將用作網絡變量(訓練集)。
在數據清理和預處理期間,從數據集中消除由于常規銀行原因(錯誤PIN和其他與購物無關的相關原因)而被拒絕的所有交易。這些交易占所有交易的15%。此外,為了避免數據集中的扭曲,超過5000CN的所有交易也從數據集中排除。這些交易為明顯的異常值:由小于1%所有交易組成(它們均不具有欺詐性),且它們與常規交易的標準偏差為25,如表1所示,所以消除它們將產生更穩定的模型。最終訓練即由2.2M交易組成,且最終測試集包含500K交易。對于每種情況,計算第3節中的變量,將產生78個不同的變量,其中9個為基于網絡的變量的60RFM變量。
4.1 預測結果
本文將用基準問題測試:邏輯回歸[14],用于許多銀行相關活動中分類的標準線性模型,就預測能力而言,其群組較弱,但很容易理解;前饋,一種隱藏層、神經網絡,最強大的非線性模型之一,但它被認為是一個黑盒子;隨機森林,決策樹的強大集合。
為了處理不平衡問題,本文將應用神經網絡和邏輯回歸加權的標準情況。對于隨機森林,本文將使用隨機森林的亞采樣功能。使用所有欺詐交易和隨機選擇的非欺詐交易的子集構建每個樹,以致它們占欺詐交易的兩倍。如文獻[15]所述,本文使用了含500個樹的隨機森林模型,與簡單隨機采樣類似,隨機森林模型給予非欺詐情況一次被選擇的先驗機會。神經網絡中,為了調整參數、選擇給定網格上次數和神經元數的最佳組合,本文保留了20%的訓練數據。次數增加的增量為50,神經元的增量為1。
非常高的精度和ROC曲線下區域的AUC值如表2、表3所示。

表2 模型的比較

表3 最大誤報率為1%時的精度和AUC(測試集)
該模型幾乎是完美的,在隨機森林情況中預測了98.7%的情況,AUC為0.987。當與誤報率相比時,更高的欺詐檢測率導致其他兩個模型的精度相對較低:這兩個模型擅長檢測欺詐,但這種擅長是以一些額外非欺詐交易被檢測為欺詐為代價的,隨機森林卻沒有這種代價,獲得的AUC如圖3所示。

圖3 不同模型的ROC
為了做更公平的比較,本文設置最多可接受誤報率為1%。其背后的基本原理是,假定信用卡的用戶將拒絕非欺詐交易,則無論誤報何時出現,都會有聲譽成本。
這個結果繼續表現非常好,但是現在高度不平衡問題的影響出現了??偟膩碚f,隨機森林為最佳模型,陽性情況下的精度為86.9%,平衡精度為92.7%。緊隨其后的是神經網絡,其特異度為78.1%。該結果暗含著一個高度非線性問題,因為當使用非線性模型時會有一個明顯的優勢,相比于邏輯回歸的隨機森林,其特異度增加高達11.9%。神經網絡和隨機森林之間的差異暗示著該問題不僅僅是高度非線性。
4.2 變量重要性和網絡變量的影響
本文想要解決的最后一個問題是哪些變量更重要及哪些變量能全面測量它們在模型中的影響。該問題中有3組主要變量:RFM和人口統計變量、擴展RFM方法中暗含的變量,和網絡變量。為了比較這些變量,本文將估計3種傳統的隨機森林,因為4.1節表明該類方法的結果最佳,變量的每個子集都給出了一個最佳結果,這些模型的結果,如表4所示。

表4 變量不同子集的AUC
由表4可知,僅僅使用9個有效的網絡變量,模型就達到的AUC為0.927。僅使用RFM和人口變量的模型達到的AUC為0.953,略微較高。貨幣及貨幣變量及交易平均(來自文獻)的引入使得AUC略微增加到0.955。從這些結果,本文可以得出結論,RFM變量是預測欺詐的一組良好變量,允許達到一個很高的AUC測量。延伸的文獻變量的引入只略微增加了純RFM方法的AUC。
包含社會網絡變量及所有RFM變量對預測結果有很強的影響,AUC可達到0.987。本文從這個結果可以導出的主要結論是,鑒于社會網絡變量和其他集合的相關性很小(最大為0.1),這些變量帶來的信息允許增加數據集的功能,允許與其他兩組變量多方面相互作用,這轉化為模型的AUC增加5%。三個不同模型的ROC曲線(如圖4所示)表明,在誤報率和漏報率方面,模型執行相似,但是在模型的早期階段,完整模型的誤報率較少,且增益來自數據集的組合。

圖4 變量不同子集的ROC曲線
當處理欺詐時,在非常短的時間內出現幾個具有高積累值的交易很常見。正因為如此,檢測具有欺詐性的第一筆交易非常有趣。在表4中,本文僅估計第一筆交易的AUC。由表4可知,較低的AUC都非常高,即在長期(非短期,也非中期)的欺詐中,購買模式是預測欺詐的最相關因素,且這可以通過模型中的變量正確捕獲。
變量的準確關聯還可以從隨機森林模型中獲取,同時它闡明了模型預測能力的多維度增加。當購買中有短期增加時,具有較高的欺詐風險。一些類似的事情隨著全局變量變化而發生:較高的全局頻率與較高的欺詐相關,較高的貨幣值與較低的欺詐幾率相關。所有長期社會網絡變量與變化的信號相關:長期商家分數具有負號表明,當處理欺詐時,危險的商家較少,但是交易和顧客長期分數是正號,即有較危險的顧客,且該顧客更容易從事欺詐活動。
本文提出了一種自動化且實時的信用卡欺詐檢測方法,其主要部分為特征提取部分,將固有屬性和基于網絡的屬性相結合,使用RFM框架(新近度-頻率-貨幣值),輔以交易的人口統計信息來定義本質特征。實驗表明本文方法可以有效地識別欺詐交易,盡管每組特征分別產生了良好的模型性能,但當本文當組合了內在變量和網絡變量時獲得了最佳結果,而且還能精確地從一系列欺詐交易中挑出第一筆交易,這在縮短信用卡交易欺詐至關重要。
未來工作集中在研究群體行為,即信用卡持有者和商家的網絡中存在的欺詐設置。
[1] 王偉,徐平平,王華君,等. 基于概率回歸模型和 K-最近鄰的電子商務個性化推薦方案[J]. 湘潭大學自然科學學報, 2016, 38(1): 97-100.
[2] 黃妍,朱信忠,趙建民,等. 基于SSH2框架的電子商務平臺倉儲管理子系統設計與實現[J]. 微型電腦應用, 2016, 32(2): 54-56.
[3] Pozzolo A D, Caelen O, Borgne Y A L, et al. Learned Lessons in Credit Card Fraud Detection from a Practitioner Perspective[J]. Expert Systems with Applications, 2014, 41(10):4915-4928.
[4] Olszewski D. Fraud Detection Using Self-organizing Map Visualizing the User Profiles[J]. Knowledge-Based Systems, 2014, 70(C):324-334.
[5] 凌晨添. 進化神經網絡在信用卡欺詐檢測中的應用[J]. 微電子學與計算機, 2011, 28(10):14-17.
[6] Weston D J, Hand D J, Adams N M, et al. Plastic Card Fraud Detection Using Peer Group Analysis[J]. Advances in Data Analysis & Classification, 2008, 2(1):45-62.
[7] 徐永華. 基于支持向量機的信用卡欺詐檢測[J]. 計算機仿真, 2011, 28(8):376-379.
[8] 張輝.基于圖模型的C2C電子商務欺詐行為檢測研究[D]. 重慶大學, 2014.
[9] Mahmoudi N, Duman E. Detecting Credit Card Fraud by Modified Fisher Discriminant Analysis[J]. Expert Systems with Applications, 2015, 42(5):2510-2516.
[10] 李潔.基于HMM模型的信用卡欺騙風險檢測系統的仿真分析[D]. 安徽工業大學, 2010.
[11] Henderson K, Gallagher B, Li L, et al. It's Who You Know: Graph Mining Using Recursive Structural Features[C]// ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM, 2011:663-671.
[12] 盧媛媛,張劍,何海燕.基于WEKA的客戶分類信息系統研究[J]. 計算機工程與科學, 2011, 33(5): 132-135.
[13] Jha S, Guillen M, Westland J C. Employing Transaction Aggregation Strategy to Detect Credit Card Fraud[J]. Expert Systems with Applications, 2012, 39(16):12650-12657.
[14] 毛毅,陳穩霖,郭寶龍,等.基于密度估計的邏輯回歸模型[J]. 自動化學報, 2014, 40(1):62-72.
[15] 姚登舉,楊靜,詹曉娟.基于隨機森林的特征選擇算法[J]. 吉林大學學報(工學版), 2014, 44(1):137-141.
Fraud Detection of Credit Card Based on Essential Characteristics and Network Characteristics
Zhang Yan
(Ningxia Vocational Technical College Industry and Commerce, Yinchuan 750021, China)
As fraud detection of credit cards is a kind of irregular prediction task and it needs special methods to process and predict, a detection method based on network characteristics and essential characteristics is proposed to meet the requirements of automation and real-time processing. Two important characteristics are combined in the proposed method, which uses the basic principle of Recency-Frequency-Monetary(RFM), and then the essential characteristics is derived by foreign trade and consumer consumption history. The other is network characteristics, in which the guessing score for each network object is derived by the network of credit card holders and merchants. Then these features are provided to mature learning methods. Logistic regression, neural network and random forest model are evaluated in this paper. The results show that the combination of essential features and network characteristics has produced the best results, and the AUC score is higher than 0.98. And the proposed method is also able to pick out the first transaction from a series of fraudulent transactions accurately.
Fraud detection of credit cards; Prediction; Essential characteristics; Network characteristics; Recency- Frequency-Monetary; principle
1007-757X(2016)12-0072-06
TP391
A
張 燕(1974-),女,上海人,副教授,研究方向:數據挖掘,網絡安全,銀川 750021
(2015.12.28)