999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向非平衡數據集的金融欺詐賬戶檢測研究

2021-06-18 07:32:46湯豐赫黃俊恒王佰玲
計算機工程 2021年6期
關鍵詞:分類特征檢測

呂 芳,湯豐赫,黃俊恒,王佰玲

(1.哈爾濱工業大學(威海)計算機科學與技術學院,山東 威海 264209;2.哈爾濱工業大學(威海)網絡空間安全研究院,山東 威海 264209)

0 概述

欺詐可以定義為導致金錢或個人利益損失的不正當或刑事欺騙行為。近年來,欺詐活動的形式和規模隨著跨銀行交易而變得越來越復雜和龐大,普華永道(PwC)[1]2018 年的全球經濟犯罪調查結果顯示,有49%的公司在過去兩年經歷過金融欺詐行為,2016 年的這一數據僅為36%。面對海量、多樣的欺詐手段,基于專家知識、偵查經驗的傳統欺詐賬戶識別方法已經難以滿足當前金融安全保障的需求。如何從海量金融數據中自動識別少數欺詐賬戶逐漸成為偵查部門及大數據研究人員關注的問題。

金融欺詐賬戶檢測是一項難度較高的任務,許多學者使用不同方法從多個角度研究檢測模型。文獻[2]采用廣義的定性相應模型(EGB2)來預測企業管理層進行的欺詐活動,文獻[3]提出一種成本敏感的決策樹欺詐檢測方法,文獻[4]對比了利用支持向量機(SVM)、邏輯回歸和隨機森林構建模型對欺詐檢測的性能,文獻[5]通過比較金融欺詐檢測中機器學習算法的性能,得出隨機森林算法是最佳的金融欺詐檢測技術。在真實的交易數據中,欺詐賬戶的數據量相對整個數據集來說比例極少,且其具有欺詐傾向的行為活動被淹沒在海量、常規的金融交易活動中。若直接采用上述分類模型,由于常規交易(多數類樣本)數量多,欺詐交易(少數類樣本)數量少,會導致欺詐檢測模型在學習分類邊界時無法充分捕捉少數類樣本的類別特征,從而影響對欺詐賬戶的檢測性能。因此,解決數據集在類間的非平衡問題對提升賬戶分類模型的檢測性能具有重要意義。文獻[6]發現不平衡性通常會導致少數類內部形成小雜項(間斷和分離),導致其在決策時易被錯誤地學習,從而降低欺詐檢測性能,造成該現象的主要原因是一些典型的少數類樣本在少數類中分布稀疏,數量較少。可見,解決小雜項引起的類內不平衡問題也同樣值得關注。

目前,解決數據集不平衡問題的方法主要分為兩類。一類從數據層面入手,通過改變數據樣本的分布來降低數據的非平衡性,常用方法有欠采樣和過采樣技術,它們分別對應少數類樣本的增加和多數類樣本的減少。另一類從算法層面入手,通過調整算法來適應分類不平衡問題,如代價敏感學習、集成學習等。在過采樣技術的研究中,文獻[7]提出用于不平衡學習的自適應合成采樣方法(ADASYN),該方法使用密度分布作為準則為少數類樣本分配權重,從而自適應地生成少數類的合成數據樣本,以減少由不平衡數據分布引起的偏差。對于處于多數類高密度分布區域內的少數類樣本,ADASYN 會將該樣本作為“較難學習”的樣本,賦予其高權重并為其生成更多的合成樣本。雖然使用ADASYN 會面臨跨決策區域合成樣本的風險,但作為一種新的學習方法,其基于密度分布自適應地給予樣本權重并進行樣本合成的思想,可以用于處理不同情況下的不平衡學習問題。除了采用分類模型進行少數類檢測,有研究人員將“異常”定義為“離群點”,進而提出眾多“異常”檢測方法,如基于密度、測量和iForest方法。其中,iForest是由文獻[8]提出的基于孤立概念的無監督異常檢測方法,其將“異常”定義為“容易被孤立的離群點”。在特征空間中,分布在稀疏區域的點表示某事件在稀疏區域發生的概率很低,iForest 認為落在這些區域中的點是“異常”的,因此,通過iForest可以快速高效地檢測數據集中分布稀疏且離密度高群體較遠的異常點。

欺詐賬戶交易行為的隱蔽性導致正常賬戶和欺詐賬戶的類別邊界模糊,嚴重影響了分類器的檢測性能。因此,有必要針對金融賬戶模糊的類別邊界進行分析。模糊邊界中的節點集合主要分為少數類的異常點和多數類的異常點。其中,多數類的異常點作為存在于少數類內部或決策邊界的冗余樣本,是導致決策邊界混亂的重要原因;少數類的異常點作為少數類內部的稀疏樣本會導致小雜項的產生,是引發類內不平衡問題的重要原因。

本文借鑒iForest 檢測異常點的算法思想以及ADASYN 決策邊界樣本合成方法,設計一種樣本均衡策略。提出一種基于iForest解決分類不平衡問題的金融欺詐賬戶檢測框架(iForest-SMOTE),框架主要包括特征抽取、數據集均衡、欺詐賬戶檢測三個部分。樣本的分類特征提取是影響分類器性能的一個關鍵因素,金融數據同時具有網絡、流式數據的特點。因此,為了全面描述賬戶的交易行為,本文分別從靜態交易信息、交易關系和交易周期性三個維度進行特征抽取。具體地,本文分別從交易資金、交易網絡和交易周期三個維度設計銀行賬戶的交易行為特征抽取方法。為了解決類別樣本不均衡問題,提出一種基于iForest 解決非平衡數據集的方法。該方法通過iForest對數據集進行檢測以獲取預處理樣本子集,根據類別不同對其采用不同的調整策略,從而提升欺詐檢測的性能,具體地,負采樣多數類樣本,減輕決策邊界的混亂程度,重采樣少數類樣本,減少內部小雜項的產生,結合ADASYN 將決策邊界向具有決策影響力的少數類異常點附近移動。在分類器的選擇上,結合金融數據分類特征復雜、類間不均衡的特點,本文采用隨機森林分類器模型[9]檢測金融欺詐賬戶。

1 相關工作

1.1 iForest 異常檢測技術

iForest 是文獻[8]基于樣本集中異常樣本是稀疏且異于正常樣本的兩個假設而提出的一種基于孤立點的無監督異常檢測方法,該方法使用二值樹結構(iTree)將每個實體轉化為樹結構中的孤立節點。基于異常點對孤立劃分更敏感的理論,通過子采樣使得異常點相對正常點距離iTree 的root節點路徑更近。iForest有效解決了異常檢測中的淹沒效應(異常點和正常點的距離很小)和掩蔽效應(異常點增多,導致其密度增大),因此,iForest可以快速高效地檢測離群點。隨后,為將iForest擴展到分類、在線異常檢測和高維數據中,研究人員進行了一系列探索。文獻[10]將iForest擴展到類別數據集上,對用戶日志中體現出的用戶行為模式進行異常檢測。文獻[11]改進iForest 中的約束條件,實現對多類別正常數據中局部聚集異常數據集合的檢測,文獻[12]根據iForest中異常分數的熱圖提出擴展隔離森林(EIF),ELF 可以穩定高效地對高維數據進行異常檢測。此外,文獻[13]基于iForest 提出一種自適應方法,實現對網絡管理系統的快速異常檢測,文獻[14]通過iForest 對軟件進行缺陷預測。

針對金融賬戶數據,由于正常和欺詐賬戶在金融交易模式上具有一定的相似性,在特征空間中表現為分布在決策區域附近的樣本密度集中且分布混亂,導致iForest 在樣本密集區域中檢測少數類樣本的效率較低,不能直接用于金融欺詐賬戶檢測任務。但是,由于iForest 檢測出的異常點具有孤立的特性,使得該點在不同類別的決策中具有重要作用,因此iForest 的異常點可用于樣本均衡。

1.2 類別均衡方法

改善數據集類別不均衡問題的方法分為數據級別和算法級別兩類。其中,數據級算法主要包括對數據集進行欠采樣和過采樣。在欠采樣方面,文獻[15]將聚類與實例選擇相結合對不均衡數據集進行欠采樣。上述方法加速了分類過程,但對數據進行過度欠抽樣時將導致提升分類器性能的樣本信息被消除。文獻[16]通過欠采樣技術去除決策邊界的嘈雜和冗余多數類實例,以減少分類器對分類不平衡的敏感度。在銀行賬戶數據集中,一部分多數類樣本會成為嘈聲存在于少數類內部或決策邊界,因此,選擇有效的欠采樣技術有助于排除降低決策的多數類樣本。過采樣通過增加少數類樣本以達到數據集平衡,若隨機復制樣本有可能降低樣本的泛化能力、加劇少數類中噪音數據對模型的影響。為此,研究人員通過插值生成人工樣本,擴大少數類的泛化空間。文獻[17]提出SMOTE 技術,插入彼此接近的少數類樣本以合成新的少數類樣本,保證新增少數類樣本的質量。然而,SMOTE 為所有實例賦予相同的權重,忽略了決策區附近實例對分類的重要性。據此,文獻[18]提出了borderline-SMOTE1 和borderline-SMOTE2 兩種改進方法,然而這兩種方法均只為決策邊界附近的少數類樣本分配高采樣權重。文獻[19]提出一種混合采樣的方法,該方法將過采樣技術SMOTE 與從多數類中消除歧義樣本的欠采樣技術相結合,通過進行樣本均衡來解決數據集的不平衡問題。另外,文獻[6]提出用于不平衡學習的基于密度分布的自適應合成采樣方法ADASYN,其將分布在高密度多數類中的少數類樣本定義為較難學習的樣本,設計參數調節較難學習的樣本的采樣權重,從而自定義地合成更多樣本。ADASYN 在改善數據集非平衡問題的同時還可以將分類的決策邊界自適應地轉移到教難學習的樣本上。但是,當有大量較難學習樣本存在于多數類內部時,ADASYN 會在合成少數類樣本時跨越決策區域,加劇決策區域的混亂程度。總體而言,ADASYN 算法具有較強的泛化能力,通過修改和擴展,可用于解決不同場景下的類別不平衡問題。

由于ADASYN 根據多數類的密度分布準則對少數類進行權重分配,當少數類樣本分布在多數類內部時,合成樣本會面臨跨決策邊界合成的風險。金融數據的復雜性導致其類別邊界模糊,直接使用ADASYN 會加劇決策邊界的混亂程度。金融數據中不同類別的異常點具有不同的特性,難以確定其能否對決策產生正面影響。為了提高欺詐檢測性能,本文對不同類別的異常點實施不同的策略:一方面,將屬于多數類的異常點(多數類異常樣本)作為嘈雜樣本,對該樣本和其附近的多數類樣本進行篩除,以降低決策邊界和少數類內部的混亂程度;另一方面,對于屬于少數類的異常點(少數類異常樣本),借鑒ADASYN 的思想進行樣本合成,以在樣本均衡的同時減少出現小雜項的風險,并將少數類的決策邊界調整到具有典型性的少數類樣本附近。

1.3 隨機森林分類模型

隨機森林[8]是一種由多棵決策樹組成的集成學習模型,隨機森林在多種分類任務中相對其他機器學習算法具有明顯優勢,因此受到數據分析、知識管理、模式識別等眾多領域研究人員的廣泛關注[20]。在異常檢測方面,文獻[21]使用兩種不同的隨機森林算法分別訓練正常和欺詐交易的行為特征,檢測信用卡欺詐行為;文獻[22]提出一種采用交易時間序列中固有模式對文件進行匯總的欺詐檢測方法,從而評估支持向量機、隨機森林等多種分類模型,驗證了隨機森林具有高效的檢測性能。

隨機森林在金融數據分類任務中具有明顯優勢,但非平衡數據集引發的數據稀缺、噪聲等問題會大幅降低分類準確性。因此,本文提出iForest-SMOTE 框架,對金融數據集進行樣本均衡后使用隨機森林分類器模型實現欺詐賬戶檢測。

2 iForest-SMOTE 框架

iForest-SMOTE 框架如圖1 所示。首先,在銀行賬戶交易數據集中抽取分類特征,包括交易資金、交易網絡、交易周期、有監督交易行為等特征,從而構建樣本特征數據集;其次,為解決樣本不均衡問題,利用iForest 進行特征數據集均衡預處理,得到異常樣本數據集,并針對其中的多數類異常樣本、少數類異常樣本分別設計去采樣、過采樣數據均衡策略,實現樣本自適應合成以達到類別數據均衡的目的;最后,采用隨機森林分類器對類別均衡特征數據集進行欺詐檢測。

圖1 iForest-SMOTE 框架Fig.1 The framework of iForest-SMOTE

2.1 基本定義

在詳細描述iForest-SMOTE 欺詐賬戶檢測框架之前,本文先給出一些基本的問題說明和定義。

定義1(銀行賬戶數據集)一個銀行賬戶數據集表示為D?C×B,其中,C={c1,c2,…,cn}為銀行賬戶數據集信息,ci為賬戶i的數據,集合B={T,F}作為欺詐賬戶檢測的標記集,T和F分別代表欺詐標記和正常標記,代表賬戶i的標記。在數據集D中,少數類記為P={p1,p2,…,ppnum},P?D,且=T,多數類記為N={n1,n2,…,nnnum},N?D,且=F。

定義2(分類特征集)設集合C={c1,c2,…,cn}是符合定義1 的銀行賬戶數據集,ci的m維分類特征依次定義為交易行為特征值向量(a=1,2,…,lμ)、交易網絡特征值向量(b=lμ+1,lμ+2,…,lν)、交易周期特征值向量(c=lν+1,lν+2,…,lξ)、有監督交易行為特征值向量(d=lξ+1,lξ+2,…,m),由所有ci的交易統計特征向量構成的集合記為銀行賬戶分類特征集。

定義3(iForest 異常標記)給定銀行賬戶數據集D,其分類特征集為Cxα,采用iForest 對D進行異常檢測的模型可表示為:

其中,L為iForest 中要選擇 的iTree 數量,Nw為采樣大小,A={Tspecial,Fspecial}為iForest 對賬戶的標記集,Tspecial和Fspecial分別代表異常和正常標記,表示iForest 對ci的標記。

定義4(樣本預處理)給定標記集A,Dspecial?C為C中屬于異常標記的預處理樣本子集,其中,Dspecial滿足如下條件:

定義5(異常樣本集)給定Dspecial,其中,屬于少數類的樣本組成少數類異常樣本集Pspecial,屬于多數類的樣本組成多數類異常樣本集Nspecial,則Pspecial和Nspecial的數學定義如下(P、N詳見定義1):

2.2 數據均衡策略

受到iForest 檢測出的異常樣本在不同類別中具有不同特性的啟發,本文設計一種樣本均衡策略。

多數類異常點指遠離多數類的離群點。文獻[23]采用去采樣多數類(記為x?Smaj)的方法減弱噪聲數據對分類器的影響。去采樣的核心是確定要篩除的多數類樣本。遠離多數類的離群點會成為噪聲數據,致使分類器依據錯誤的樣本學習。因此,本文將多數類異常點作為噪聲源點,并將多數類異常點近鄰的多數類樣本構成的集合作為噪聲簇,將多數類異常點和其對應的噪聲簇從多數類中去除。

少數類異常點指在特征空間中分布稀疏、數量較少的離群點。過采樣技術通過對少數類(記為Smin)進行人工合成數據,以解決小樣本數據不均衡問題。過采樣算法的核心[7]是確定每個少數類樣本x?Smin的合成樣本數量k。ADASYN 首先計算?xi?Smin在Smaj中的密度分布,并 將作為權重衡量準則來確定xi的過采樣次數ki。可見,值正比于集合S=Si-near⌒Smaj的大小,其中,Si-near為xi的KNN鄰近樣本集,高值樣本分布在多數類高密度區域,該樣本在分類器中難以被學習,因此,ADASYN 根據值賦予該類樣本更多的過采樣次數,使分類器更加關注難以學習的樣本。

從上述分析可以看出,過采樣通過對少數類進行樣本合成從而使分類器充分地對少數類進行學習,進而提升決策性能,去采樣因篩除了噪聲數據而提升決策性能,過采樣改善了數據集的不平衡性問題。然而,ADASYN 在處理S集合過大或決策邊界混合嚴重的問題時,會面臨跨決策區域合成數據的風險。欺詐賬戶的隱蔽性導致金融賬戶數據集中存在一定數量的少數類樣本分布在決策邊界和多數類內部,使用多數類的密度分布計算并合成樣本會使多數類內部和決策邊界出現大量的少數類合成數據,提高了分類器模型錯誤地學習樣本的幾率并加劇了決策邊界的混亂程度。

為解決上述問題,本文利用異常點在特征空間的密度改進ADASYN 中的權重衡量準則ri,以提升分類器的欺詐檢測性能。

2.3 特征抽取

在分類框架設計時需要考慮如何表示樣本的類別特征以及避免特征集合冗雜等問題。根據定義2,銀行賬戶的交易行為可量化為資金特征、網絡特征、周期特征以及有監督的交易特征。

2.3.1 交易資金特征

將賬戶視為單一個體,其歷史交易數據視為靜態時序數據,可從統計角度表示其交易資金特征,則定義2 中的(a=1,2,…,lμ)具體表示為賬號i收入和支出兩種交易類型分別對應的資金相關統計項,如交易金額、交易次數等,交易資金特征如表1所示。

表1 交易資金特征匯總Table 1 Summary of transaction capital characteristics

2.3.2 交易網絡特征

賬戶與其直接交易賬戶集合之間的資金流動構成了自我中心金融關系網絡,據此,將賬戶的交易行為轉化為一個局部中心網絡,該網絡的屬性特征可視為賬戶的交易特征,則定義2中的(b=lμ+1,lμ+2,…,lν)為賬戶i的一階關系網絡特征,具體特征項如表2 所示。

表2 交易網絡特征匯總Table 2 Summary of transaction network characteristics

如表2 所示,(b=lμ+1,lμ+2,…,lν)包括賬戶i的交易入度din、出度dout、根據進出交易對比得到的賬戶i的黑洞(賬戶轉賬遠大于出賬)和白洞(賬戶出賬遠大于轉賬)節點標記、根據網絡計算出的LeaderRank 值[24]和對流邊[25]賬戶之間的頻繁交易等特征。

2.3.3 交易行為周期特征

賬戶的交易行為反映了持卡者的社會經濟活動,則社會活動的周期性、規律性也會體現在交易數據上。以一個月為一個活動周期單位,分析賬戶交易的周期波動,則賬戶i的交易周期特征(c=lν+1,lν+2,…,lξ)如表3 所示。

2.3.4 有監督的交易特征

在異常檢測任務中,若將已知的專家知識量化為分類特征,對優化分類器具有重要作用。這類特征與具體的欺詐類型相關,金融欺詐的實施方式、欺詐團伙的牟利模式、欺詐組織的運營方式等,均直接影響有監督交易特征的定義和量化。本文以傳銷欺詐組織為例,對此類特征進行說明。傳銷組織的資金流通方式多呈現金字塔形式,會員費(本文稱為申購資金)自底向上流經固定的申購賬戶匯集到頂層賬戶;提成(本文稱為返利資金)按比例從頂層經由返利賬戶下發給各會員。針對涉及傳銷的賬戶i,其(d=lξ+1,lξ+2,…,m)的各特征分量如表4 所示。

表4 有監督的交易特征匯總Table 4 Summary of supervised transaction characteristics

需要指出的是,本文提出的特征為串聯關系,因此,若異常檢測任務缺乏背景知識則特征值向量可忽略此類特征。

2.4 基于iForest 的數據均衡預處理

如上文所述,金融交易數據中正常賬戶、欺詐賬戶樣本的不均衡問題,嚴重影響欺詐賬戶檢測模型的性能。為此,本文提出一種基于iForest 改善非平衡數據集的策略。采用iForest 進行異常子集篩選,以獲取銀行賬戶特征數據集中的異常樣本集,進而將其劃分成多數類異常樣本和少數類異常樣本,分別對上述兩類樣本采用欠采樣和自適應生成合成樣本的方式實現類別均衡。

2.4.1 基于iForest 的異常子集篩選

本文首先對所構建的銀行賬戶特征數據集進行iForest 異常檢測,為每個賬戶樣本分配一個異常賬戶檢測標記,其次根據樣本的異常檢測標記對樣本進行預處理,最后根據預處理樣本子集中樣本的欺詐標記對樣本進行篩選,以獲取少數類異常樣本集和多數類異常樣本集。具體過程如下:

1)通過iForest 對特征數據集Cxα進行檢測并得到每個特征樣本的標記集:

2)將標記集An中標記為Tspecial的樣本加入到Dspecial中,對于?ci?C,如果=Tspecial,則Dspecial=Dspecial?ci。

3)對預處理樣本子集的樣本進行篩選:對于?cj?Dspecial,如 果?cj?N,則Nspecial=Nspecial?cj,如 果?cj?P,則Nspecial=Nspecial?cj。

在具體實現過程中,分別表示銀行賬戶特征數據集、iTree 的數量、數據采樣大小,N、P是符合定義1 的多數類和少數類,是符合定義3 中ci樣本的異常標記,Dspecial是符合定義4 的預處理樣本子集,Nspecial和Pspecial分別為符合定義5 的多數類異常樣本集和少數類異常樣本集。

2.4.2 多數類樣本去采樣

本節將對2.4.1 節篩選的多數類異常樣本進行欠采樣處理,以減少嘈聲樣本對決策的影響,具體過程如下:

1)對于每一個多數類異常樣本ci?Nspecial,計算距離ci最近并且屬于多數類的K1個鄰近樣本ci-near,將ci-near構成ci的噪聲簇:

2)將每一個多數類異常樣本ci?Nspecial和ci對應的噪聲簇從多數類N中去除:

樣本之間距離計算采用歐幾里得距離:

其中,x、y為空間中的任意兩個樣本,xi和yi為對應的i維度的數值。

2.4.3 少數類樣本過采樣

1)計算需要生成的合成數據數量G:

其中,θ?[0,1]為用戶定義參數,用于指定生成合成數據的水平,當θ=1 時將得到完全平衡的樣本集。

2)計算針對每個少數類樣本pi?P需要合成的數據數量gi,計算過程如下:

對于?pi?P,首先計算距離pi最近的K2個近鄰樣本構成的近鄰樣本集Di-near,其次計算Di-near中少數類異常樣本cj?Pspecial所占的比重ri:

3)對少數類樣本進行樣本合成。對于每一個少數類樣本pi,進行gi次樣本合成,在合成人工數據時,本文選擇近似SMOTE[17]中的數據合成方法,具體過程如下:

對每個少數類樣本pi進行gi次循環,每次循環步驟為:

步驟1計算距離pi最近的K3個屬于少數類的近鄰樣本并構成近鄰樣本集

步驟2在中隨機選擇一個少數類樣本pzi。

步驟3根據pzi和pi的特征進行人工數據合成,合成公式如下:

其中,sxi是合成樣本的特征,pxi和pxzi分別是少數類樣本pi和pzi符合定義2 對應的特征向量,(pxzi-pxi)為n維空間中特征的差失量,λ是隨機數,λ?[0,1]。

步驟4賦予合成的特征向量少數類標簽Bsi=T,并將對應的樣本si加入少數類中,P=P?si。

結束循環。

本文通過賦予少數類異常點和其臨近樣本更高的權重來調整合成樣本的數量,不僅實現了樣本均衡還降低了跨區域合成的風險,同時合成的樣本會提高少數類異常樣本附近的少數類密度,降低內部小雜項出現的概率,通過合成樣本能夠轉移少數類的決策邊界。

2.5 欺詐賬戶檢測模型

iForest-SMOTE 首先通過對銀行賬戶數據進行特征抽取并生成特征數據集,再通過銀行特征數據集實現類別均衡,得到樣本均衡數據集Dbalance,隨后采用隨機森林分類模型檢測欺詐樣本,分類器的輸入為Dbalance中樣本平衡特征數據集,輸出為分類模型對每個樣本的分類結果。

3 實驗與結果分析

3.1 實驗環境與數據集

本文實驗的硬件環境為Inter?CoreTMi7-7700HQ,內存(RAM)為16 GB。軟件環境為Python 語言,Windows 10 操作系統。實驗數據為由經偵部門提供的脫敏資金交易數據,其中包括正常金融賬戶和欺詐賬戶四年內產生的銀行交易數據,每條交易數據包括交易雙方賬戶、交易方向、交易時間、交易金額等屬性,共涉及賬戶15 633 個,傳銷賬戶為1 303 個。數據集含有總賬戶交易數據227 179 條,傳銷賬戶交易數據64 630 條。實驗將數據轉化為7 859 條銀行賬戶數據,其中屬于少數類的賬戶數據共778 條,屬于多數類的賬戶數據共7 081 條,多數類和少數類節點比為10∶1。隨機抽取數據集中70%的數據作為訓練集,其余30%的數據作為測試集。

3.2 分類效果衡量指標

隨機森林是用于分類和預測的組合分類器,分類效果是評價分類器性能的典型指標。本文使用混淆矩陣作為分類器的性能衡量指標,混淆矩陣詳見表5。

表5 混淆矩陣Table 5 Confusion matrix

其中,TP 表示真實值和分類結果均為欺詐,FN 表示真實值為欺詐而分類結果為正常,FP 表示真實值為正常而分類結果為欺詐,TN 表示真實值和分類結果均為正常。

本文采用準確率、召回率、精確率、F-value 值評價模型的分類效果。準確率Accuracy 為分類模型所有判斷正確的樣本數占樣本總數的比例;召回率Recall 為在模型預測為欺詐的樣本集合中,真實值也為欺詐的樣本數占所有真正為欺詐的樣本總數的比例;精確率Precision 為在被模型預測為欺詐的所有樣本集合中,真正為欺詐的樣本比例;F-value 值從少數類的角度綜合評價隨機森林的性能,它是召回率和精確率的組合。

3.3 實驗結果

3.3.1 采樣均衡策略評估

在非平衡數據欺詐檢測問題中,由于欺詐類別屬于少數類,因此少數類的分類準確率對于評價分類模型更有意義,本文采用召回率Recall、精確率Precision、F-value 值等指標在少數類上的平均得分來評價不同欺詐檢測模型的性能。為了驗證本文iForest-SMOTE 框架對不均衡數據集的優化效果,統一對不同算法處理后的特征數據集采用隨機森林進行欺詐檢測。特征數據集包括分別經過隨機過采樣算法(RamdonOverSampler)、ADASYN 算法、SMOTE算法、iForest-SMOTE 框架處理后的數據集以及只進行特征提取的數據集。隨機森林對不同特征數據集的檢測效果如表6 所示。其中,使用下劃線標出每項指標的最佳取值,并加粗顯示本文算法(iForest-SMOTE)的各項指標取值。

表6 不同方法的性能比較結果Table 6 Performance comparison results of different methods %

由表6 可知,盡管某些算法(如ADASYN)的召回率Recall 指標具有較高水平,但其他指標大多處于較低的水平,導致綜合指標F-value 值偏低。ADASYN 的F-value 值較低說明其存在跨區域合成樣本的風險,不適合用來解決金融數據集的非平衡問題。與其他算法相比,本文iForest-SMOTE 模型在召回率和準確率方面都處于較高的水平,F-value 相比對比算法至少提升2.13 個百分點。綜合各項指標得出,iForest-SMOTE 框架能夠為檢測模型提供更好的特征集合篩選功能,可以明顯提高分類器的欺詐賬戶檢測能力。

ROC 曲線可以描述分類器的性能,是針對不平衡技術的重要判斷依據,ROC 曲線越靠近左上角表示非平衡技術越能提升分類器的性能。圖2 所示為金融賬戶數據集的ROC 曲線。

圖2 不同分類方法的ROC 曲線Fig.2 ROC curves of different classification methods

從圖2 可以看出,各個方法的分類性能較為接近,其中,iForest-SOMTE 具有相對較高的少數類識別正確率。ROC 曲線下的面積可以用來度量非平衡分類模型的功效,通常將該度量值稱為AUC,AUC 值介于0 和1 之間,其中,0.5 為隨機猜測值。在非平衡數據集中,AUC 值更加能夠體現兩個類別的正確性。不同方法的AUC 值如表7 所示。

表7 不同方法的AUC 值Table 7 AUC values of different methods %

由表7 可知,iForest-SMOTE 具有較高的AUC 值,表明其對金融不平衡數據集具有更好的處理效果。

3.3.2 分類特征重要性評估

通過隨機森林對特征重要性的評估,可以了解每種特征在構建決策模型時的重要性,這為后續的特征篩選提供了一定支撐,有利于提高模型的魯棒性。本節對提取的每維分類特征在決策中的重要性進行評估。

隨機森林特征重要性評估的思想為:比較每個特征在隨機森林的所有決策樹上分類貢獻的平均值,然后比較特征之間的貢獻值大小。本文采用基尼指數評估重要性,對于特征xj,計算在隨機森林的每一顆決策樹中由特征xj形成的分支節點的基尼指數Gini(p)下降程度之和(基尼不純度下降程度)。其中,基尼指數Gini(p)為:

其中,K代表類別個數

特征xj的重要性評估過程具體如下:

1)計算特征xj在決策樹中節點m處的下降程度

其中,Gl和Gr表示在決策樹中節點m分支前后兩個新節點的Gini 指數。

2)計算特征xj在決策樹i上的特征重要性:

其中,m為特征xj在決策樹i中出現的節點,M為節點m的集合。

3)計算特征xj在隨機森林中的分類重要性:

其中,n為隨機森林中的決策樹數量。

4)對所有特征的重要性評分進行歸一化處理,特征xj的重要性評分為:

其中,c為特征的總數量。

根據上述方法,本文提取的金融賬戶分類特征集合中每維特征的重要性如圖3 所示,其中,銀行賬戶特征中LeaderRank 值(編號14)、入度(編號12)、出度(編號13)等特征的貢獻占比較高,由此可知,這三個特征對辨識欺詐賬戶尤為關鍵,表示交易網絡特征(編號7~編號14)對欺詐賬戶檢測具有重要作用。此外,銀行賬戶交易資金特征(編號1~編號6)的特征貢獻度總體相對較低,但體現賬戶交易敏感資金和交易敏感次數的申購返利特征(編號29~編號40)具有較高的貢獻占比,說明在傳銷賬戶識別中,賬戶的申購和返利交易能有效區分欺詐賬戶和正常賬戶,即有監督交易特征在提升欺詐賬戶檢測性能中具有重要作用。

圖3 分類特征的重要性程度Fig.3 Importance degree of classification features

4 結束語

本文設計一種欺詐賬戶檢測框架iForest-SMOTE。針對實際數據中欺詐樣本不均衡的問題,結合iForest 對異常邊界的識別能力與ADASYN 對決策邊界的樣本合成思想,改善分類器的訓練數據集。分析樣本在交易的時序、關系、周期及有監督異常行為方面體現出的判別特征,進而組合生成分類特征數據集。iForest-SMOTE 中的隨機森林分類模型用于提高分類準確性并實現對各分類特征的重要性評估。在真實含有傳銷欺詐賬戶的數據集上進行實驗,結果表明,iForest-SMOTE 在嚴重不均衡數據集中仍能取得較高的識別準確率。下一步將在無監督的數據集上實現異常邊界調整,以改進無標簽非平衡數據的異常檢測效果。

猜你喜歡
分類特征檢測
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
分類算一算
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
主站蜘蛛池模板: 久久夜色撩人精品国产| 国产精品.com| 在线欧美国产| 黄色a一级视频| 国产精品久久久久久影院| 亚洲天堂日本| 91无码人妻精品一区| www亚洲天堂| 亚洲成人一区二区三区| 老汉色老汉首页a亚洲| 久久精品日日躁夜夜躁欧美| 尤物成AV人片在线观看| 好紧太爽了视频免费无码| 国产高颜值露脸在线观看| 91福利免费视频| 爱做久久久久久| 91精品国产91欠久久久久| 啪啪国产视频| 亚洲区一区| 91精品伊人久久大香线蕉| 超薄丝袜足j国产在线视频| 国产成人夜色91| 婷五月综合| 亚洲永久色| 久久综合色天堂av| 91午夜福利在线观看| 中文字幕在线观| 国产精品19p| 国产精品手机在线观看你懂的| 内射人妻无码色AV天堂| 99精品在线看| 成人毛片免费观看| 一本色道久久88| 亚洲欧美成人影院| 手机在线看片不卡中文字幕| 欧美日韩精品在线播放| 69精品在线观看| 真实国产精品vr专区| 久久熟女AV| 亚洲九九视频| 亚洲爱婷婷色69堂| 四虎在线观看视频高清无码| 午夜毛片免费看| 亚洲AV成人一区二区三区AV| 亚洲水蜜桃久久综合网站| 国产男人的天堂| 国产午夜精品鲁丝片| 欧美 亚洲 日韩 国产| 欧美啪啪一区| 国产资源免费观看| 国产精品无码作爱| 亚洲AV无码久久精品色欲| 国产超薄肉色丝袜网站| 欧美成a人片在线观看| 国产精品制服| 免费国产一级 片内射老| 国产成人免费观看在线视频| 精品伊人久久久大香线蕉欧美| 国产00高中生在线播放| 怡红院美国分院一区二区| 在线播放国产一区| 日本高清免费不卡视频| 国产精品理论片| 91丝袜乱伦| 一本视频精品中文字幕| 国产黄在线免费观看| 婷婷久久综合九色综合88| 九九热精品免费视频| 97国产在线视频| 天天综合网色| 国产剧情一区二区| 永久在线精品免费视频观看| 国产成人无码播放| 激情视频综合网| 亚洲三级影院| 国产精品微拍| 99久久精品免费观看国产| 极品国产一区二区三区| 国产亚洲欧美在线人成aaaa| 亚洲男人的天堂视频| 亚洲欧美成人在线视频| 日韩国产另类|