999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于SVM的信用反欺詐預測模型探討

2019-07-03 09:42:32余凱
現代商貿工業 2019年17期

余凱

摘?要:欺詐風險是消費金融業務中存在的主要風險之一,在銀行的信貸業務中反欺詐模型起著很重要的作用。通過對kaggle中的銀行信用卡消費數據進行數據預處理和特征工程對特征進行縮放和選擇,并且利用smote算法對數據集的不均衡現象進行處理,構建了基于SVM的反欺詐預測模型,對用戶是否進行了欺詐消費進行預測,通過調整模型參數,得到最優模型,使得準確率達到了97.00%。

關鍵詞:信用卡;反欺詐模型;SVM

中圖分類號:D9?????文獻標識碼:A??????doi:10.19311/j.cnki.1672-3198.2019.17.081

1?研究背景

欺詐風險是消費金融業務中存在的主要風險之一,它是指信貸客戶完全不具備還款意愿一類的風險。據統計,2016年中國信用卡欺詐損失排名前三的欺詐類型為偽 卡、虛假身份和互聯網欺詐,與2015年一致,其中偽卡損 失占比較2015年繼續上升;2016 年借記卡欺詐的主要類 型為電信詐騙,互聯網欺詐損失金額排名第二位。目前欺詐呈現產業鏈化的特征,圍繞著欺詐的實施,形成了專業 的技術開發產業,身份信用包裝和虛假身份提供產業、業 務漏洞發現和欺詐方法傳授產業。對于金融機構而言,需 要構建完備的風險控制方法來識別風險,避免欺詐、壞賬、呆賬等的發生,尤其對于消費金融業務而言,風控能力的 高低直接決定了業務盈利能力強弱。我們針對信用卡消費這一典型業務場景,應用機器學習技術進行欺詐風險管理并設計數據產品對異常客戶進行監控預警。區別于將機器學習技術應用到單一反欺詐規則制定的典型做法,我們嘗試從整體視角對欺詐風險進行評估,實現精準量化預測并以此作為應對欺詐風險的強有力手段。建模思路及方法具有一定的可遷移性,可以被廣泛應用到銀行風險防范、反欺詐等業務領域。正是由于在銀行業中反欺詐的重要性,我們基于SVM這種機器學習方法構建反欺詐預測模型,探究這種模型的有效性。

2?數據預處理

我們是從kaggle數據集中獲取的數據集,該數據集包含由歐洲持卡人于2013年9月使用信用卡進行交的數據。此數據集顯示兩天內發生的交易,其中284,807筆交易中有492筆被盜刷。數據集非常不平衡,積極類的(被盜刷)占所有交易的0.172%。

它只包含作為PCA轉換結果的數字輸入變量。不幸的是,由于保密問題,我們無法提供有關數據的原始功能和更多背景信息。特征V1,V2,…V28是使用PCA獲得的主要組件,沒有用PCA轉換的唯一特征是“時間”和“量”。特征'時間'包含數據集中每個事務和第一個事務之間經過的秒數。特征“金額”是交易金額,此特征可用于實例依賴的成本認知學習。特征'類'是響應變量,如果發生被盜刷,則取值1,否則為0。

該數據的數據預處理部分我們運用了數據審查、數據清理。如圖1,Time-Class31個維度的每一維度的數據量都是相同的都為284807,并且沒有缺失值,所以該數據集是個良好、不需要進行補值處理,可以直接拿來使用的數據集。

觀察了數據的描述性統計信息:發現Time和Amount的平均值、最大值、最小值、中位值等等與V1-V28都相差很大,V1-V28和Class的平均值都集中在0的附近,它們數據的方差都在0-1的范圍內。說明該數據分布比較均勻,amout這個維度的數據分布的非常不均勻,尺度與V1-V28不相同,需要后續進行特征縮放標準化的工作。

我們統計了正常消費和欺詐消費的金額和占比繪制了圖2。0表示正常消費,1表示欺詐消費,由柱狀圖可以看出欺詐的數據量非常小,而正常消費非常多。餅形圖可以看出欺詐消費所占的百分比很小為0.17%可以發現正常消費和欺詐消費的差異性是非常大的。

時間這個維度也由秒轉換為了小時,因為小時對于大多數的人而言都較于理解,并且小時可以清晰的表示出早、中、晚的三個時間段。可以方便觀察不同時間段消費金額的差異等等。

3?特征工程

特種工程的目的是為了最大限度地從原始數據中提取特征以供算法和模型使用,通過對特征進行整合,選擇,縮放等使得模型具有更好的效果。本文同過對我們的數據集進行特征工程的探究,來提高后續模型的準確率。

我們調查了欺詐與正常的數據每一維度之間的相關系數繪制了如圖3,發現信用卡被盜刷的事件中,部分變量之間的相關性更明顯。其中變量V1、V2、V3、V4、V5、V6、V7、V9、V10、V11、V12、V14、V16、V17和V18以及V19之間的變化在信用卡被盜刷的樣本中呈性一定的規律。信用卡正常消費事件中,Time-Hour的相關性都很弱接近于零。所以正常和被盜刷之間存在著很大的差異性。例如:被盜刷的V2,V5相關性就非常明顯接近于-1.0,而正常的V2,V5相關性為零,所以正常與盜刷的相關性差異性也很大。

我們查找到了欺詐和正常的消費金額與消費筆數,做出了如圖4的柱狀圖。信用卡被盜刷發生的金額與信用卡正常用戶發生的金額相比呈現散而小的特點,這說明信用卡盜刷者為了不引起信用卡卡主的注意,更偏向選擇小金額消費。而信用卡正常消費筆數分布比較集中,呈現冪律分布,符合正常的消費習慣。

如圖5所示:這是我們尋找消費筆數和時間的關系。在正常消費中,兩天的消費時間上的習慣是相同的,并且有在凌晨消費不積極,而在造成8-9點之后消費熱情升高,在夜晚9點之后進入高峰的特點;而在欺詐消費中,并無上述特點,分布的比較不均勻。

我們尋找消費金額和時間的關系,繪制了圖6,該圖表示的是:不同時間的消費金額。欺詐消費金額是散亂排布的,而正常消費金額很集中,大多數集中在0-10000元,在相同時間段的消費金額比較集中。

圖7是我們發現不同變量在信用卡被盜刷和信用卡正常的不同分布情況,我們將選擇在不同信用卡狀態下的分布有明顯區別的變量。我們觀察了所有31個維度的正常和欺詐的分布情況發現了V8、V13、V15、V20、V21、V22、 V23、V24、V25、V26、V27和V28這些變量欺詐和正常消費的數據的分布差異比較小,如圖7中下圖中所示,V15的正常和欺詐的數據分布差異非常小,我們對這樣的維度進行了剔除。而剩余的其他維度差異比較大,如圖7中上圖V16的正常和欺詐差異非常大,說明通過這個維度可以對是否是欺詐消費進行判斷,所以我們保留了這部分變量。

隨機森林可以用于特征探索,是一種基于決策樹的分類方法,利用隨機森林算法可以計算輸出不同特征的重要行排序,在這里我們將18個維度的重要性利用隨機森林進行排序如圖8,hour和amout這兩個維度的重要性排名比較靠后,但是我們從前面的工作中發現這兩個維度是對于分類有效的特征,那么如圖8前面V12-V2的維度有效性就更大了。說明我們之前進行的特征選擇工作是合理的。

最后,我們對amout和hour這兩個維度進行了均值-標準差的方法進行標準化,通過這樣的數據縮放,使得和其他維度的尺度相同。

4?模型訓練及評價

支持向量機(Support Vector Machine,SVM)的基本模型是在特征空間上找到最佳的分離超平面使得訓練集上正負樣本間隔最大。SVM是用來解決二分類問題的有監督學習算法,在引入了核方法之后SVM也可以用來解決非線性問題。

一般SVM有下面三種:

(1)硬間隔支持向量機(線性可分支持向量機):當訓練數據線性可分時,可通過硬間隔最大化學得一個線性可分支持向量機。

(2)軟間隔支持向量機:當訓練數據近似線性可分時,可通過軟間隔最大化學得一個線性支持向量機。

(3)非線性支持向量機:當訓練數據線性不可分時,可通過核方法以及軟間隔最大化學得一個非線性支持向量機。

并且SVM的優缺點優點是SVM在中小量樣本規模的時候容易得到數據和特征之間的非線性關系,可以避免使用神經網絡結構選擇和局部極小值問題,可解釋性強,可以解決高維問題。 缺點是SVM對缺失數據敏感,對非線性問題沒有通用的解決方案,核函數的正確選擇不容易,計算復雜度高,主流的算法可以達到O(n2)O(n2)的復雜度,這對大規模的數據是吃不消的。

4.1?處理樣本不均衡問題

正常和違約兩種類別的數量差別較大,會對模型學習造成困擾。舉例來說,假如有100個樣本,其中只有1個是貸款違約樣本,其余99個全為貸款正常樣本,那么學習器只要制定一個簡單的方法:所有樣本均判別為正常樣本,就能輕松達到99%的準確率。而這個分類器的決策對我們的風險控制毫無意義。因此,在將數據代入模型訓練之前,我們必須先解決樣本不平衡的問題。

非平衡樣本常用的解決方式有兩種:

(1)過采樣(oversampling),增加正樣本使得正、負樣本數目接近,然后再進行學習。

(2)欠采樣(undersampling),去除一些負樣本使得正、負樣本數目接近,然后再進行學習。

在這里我們選用過采樣,因為該樣本的數據量本來就不是很大,應該使用過采樣增加一些樣本。我們使用了smote的方法。

表格1是Smote處理之后的結果。

4.2?實驗過程及結果

由于svm的計算量比較大,比較耗時,所以我們選擇了1000個樣本進行實驗,是進行隨機抽取的,使得0(正常消費)和1(欺詐消費) 分布均勻。我們用全體樣本訓練了svm分類器,其中的參數使用默認的。通過分類器產生的預測結果是99.4%。如圖9所示,預測的結果和真實是一樣的有994個數據,而預測錯誤的只有6個數據。

我們這樣模型訓練的不足是我們的模型訓練和測試都在同一個數據集上進行,這樣導致模型產生過擬合的問題。所以我們對樣本進行劃分.一般來說,將數據集劃分為訓練集和測試集有三種處理方法:(1)留出法(hold-out);(2)交叉驗證法(cross-validation);(3)自助法(bootstrapping) 本次項目采用的是交叉驗證法劃分數據集。讓模型在訓練集進行學習,在驗證集上進行參數調優,最后使用測試集數據評估模型的性能。在這里我們運用cv 交叉驗證分訓練集和測試集,用grid search選擇最優參數。

模型調優我們采用網格搜索調優參數(grid search),通過構建參數候選集合,然后網格搜索會窮舉各種參數組合,根據設定評定的評分機制找到最好的那一組設置。在grid search進行調參的時候,我們調節了C和kernal兩個參數, 其中‘C是懲罰參數C,默認值是1.0,C越大,相當于懲罰松弛變量,希望松弛變量接近0,即對誤分類的懲罰增大,趨向于對訓練集全分對的情況,這樣對訓練集測試時準確率很高,但泛化能力弱。C值小,對誤分類的懲罰減小,允許容錯,將他們當成噪聲點,泛化能力較強。 kernel參數表示核函數的形式,默認是rbf,也可以是‘linear,‘poly,‘rbf,‘sigmoid,‘precomputed ,進行實驗的過程中,5折cv,模型準確率評估采用了f1-score。我們設置C的取值范圍為[0.01,0.1,1,10,100],kernal的取值范圍為 [‘linear,‘poly,‘rbf,‘sigmoid],我們得到的最好參數'kernel'='linear','C'=0.01,在該參數模型的準確率為0.97000,其混淆矩陣如圖10所示。默認參數svm分類器在相同測試集上的準確率為0.90426,其混淆矩陣如圖11所示,經過調參模型準確率提高了6.6%。

對比兩個分類器的分類結果,最優分類器降低了將欺詐交易判斷為正常交易的錯誤的概率,而這類錯誤相比較于將正常消費判斷為欺詐消費的錯誤,對銀行造成的損失更大。經過銀行調參之后的模型更加嚴謹有效。

5?總結

通過對kaggle中的銀行信用卡消費數據進行數據預處理和特征工程對特征進行縮放和選擇,并且利用smote算法對數據集的不均衡現象進行處理,構建了基于SVM的反欺詐預測模型,對用戶是否進行了欺詐消費進行預測,通過調整模型參數,得到最優模型,使得準確率達到了97.00%。目前大部分的相關模型主要以logist回歸和決策樹為主,我們嘗試了新的SVM的方法解決該問題,并且我們處理了樣本不均衡的問題,得到有意義的結果。我們的不足支出在于數據集不夠大,這是由于SVM計算量比較大,計算時間久,所以不得已選擇了小的數據集,之后若計算條件允許的情況下,我們將嘗試大數據集下的運行結果。

參考文獻

[1]仵偉強,后其林.基于機器學習模型的消費金融反欺詐模型與方法[J].現代管理科學,2018.

[2]唐飛泉,楊律銘.人工智能在銀行業的應用與實踐[J].現代管理科學,2019,(02).

[3]趙清華,張藝豪,馬建芬,段倩倩.改進SMOTE的非平衡數據集分類算法研究[J].計算機工程與應用,2018,(18).

[4]Support-Vector Networks.Corinna Cortes,Vladimir Vapnik[J].Machine Learning,1995,(3).

主站蜘蛛池模板: 婷婷六月综合网| 妇女自拍偷自拍亚洲精品| 亚洲无码日韩一区| 日本亚洲国产一区二区三区| 亚洲成aⅴ人片在线影院八| 欧美黑人欧美精品刺激| 色综合网址| 国产麻豆91网在线看| 在线色综合| 无码网站免费观看| 欧美综合中文字幕久久| 青青操视频在线| 亚亚洲乱码一二三四区| 成人免费黄色小视频| 日韩精品专区免费无码aⅴ| 欧美视频免费一区二区三区| 日韩精品无码免费一区二区三区| 高清码无在线看| 亚洲无码37.| 亚洲91在线精品| 久久香蕉国产线看观| 99草精品视频| 日韩一区二区三免费高清| 色妞www精品视频一级下载| 久久国产乱子伦视频无卡顿| 亚洲大尺码专区影院| 国产地址二永久伊甸园| 伦精品一区二区三区视频| 尤物特级无码毛片免费| 成人午夜天| 高清无码一本到东京热| 国产小视频a在线观看| 成人免费网站久久久| 中文无码毛片又爽又刺激| 99视频在线看| 香蕉久人久人青草青草| 亚洲福利一区二区三区| 妇女自拍偷自拍亚洲精品| 福利一区三区| 成年女人a毛片免费视频| 国产亚洲一区二区三区在线| 最新痴汉在线无码AV| 99这里只有精品免费视频| 久久天天躁狠狠躁夜夜2020一| 亚洲无码91视频| 伊人久久福利中文字幕| 亚洲人成色77777在线观看| 亚洲日本一本dvd高清| 亚洲自偷自拍另类小说| 无码区日韩专区免费系列| 视频二区国产精品职场同事| 黄色国产在线| 青草午夜精品视频在线观看| 国模私拍一区二区| 中文字幕人成人乱码亚洲电影| 毛片网站在线看| 久久国产精品麻豆系列| 国产午夜精品一区二区三| 国产精品无码翘臀在线看纯欲| 日韩大片免费观看视频播放| 国产在线拍偷自揄拍精品| 欧美精品在线看| av在线人妻熟妇| 亚洲另类第一页| 久久夜色撩人精品国产| 亚洲三级片在线看| 国产激情第一页| 99热这里只有精品2| 久久国产成人精品国产成人亚洲 | 亚洲欧美日韩成人在线| av无码一区二区三区在线| 精品国产91爱| 五月婷婷综合色| 91视频青青草| 久久免费精品琪琪| 色视频国产| 亚洲专区一区二区在线观看| 99久久无色码中文字幕| 91毛片网| 亚洲精品麻豆| 国产香蕉97碰碰视频VA碰碰看| 天天躁夜夜躁狠狠躁图片|