999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于機器學習的貸款欺詐預測研究和應用

2020-07-04 02:14:28姚玲潔
電腦知識與技術 2020年14期
關鍵詞:機器學習

姚玲潔

摘要:針對貸款欺詐問題,該文使用隨機森林對真實信用卡貸款數據進行特征排序,采用邏輯斯特回歸構建信用卡反欺詐預測模型,訓練獲得的模型正確率較高,可應用于貸款欺詐預測系統中。

關鍵詞:貸款交易欺詐;機器學習;隨機森林;邏輯斯特回歸;反欺詐

中圖分類號:TP181 文獻標識碼:A

文章編號:1009-3044(2020)14-0260-03

1引言

隨著國家不斷增強對自主創業的支持力度,貸款已經成為一種非常重要的支付手段。然而,犯罪分子也關注到這種便利方法,使用各種虛假信息欺詐銀行或者金融機構。因此構建一個可行性高、便利的交易欺詐預測模型對于維護正常的經濟秩序是必不可少的。

近年,隨著機器學習的深入發展及計算機硬件的處理數據能力不斷提升,不少學者逐漸將關注點聚集在機器學習應用上。關于交易欺詐預測研究,文獻[1]利用模糊神經網絡、并行處理可快速產生欺詐規律信息。文獻[2]利用決策樹、布爾邏輯函數、聚類分析判定欺詐行為。文獻[3]改進Apfiori算法挖掘欺詐交易的規律。文獻[4]將BP神經網絡應用在信用卡反欺詐研究中。文獻[5]提出了一種基于大數據技術的三層反欺詐模型,支持日終批量檢測信用卡的交易異常行為。文獻[6]依賴于專家規則模型進行欺詐交易識別,過度依賴專家制定的規則。文獻[7]先對數據進行數據預處理、再訓練出可實施的五層DBN交易欺詐評分模型。文獻[8]建立了一個基于SVM的反欺詐模型,先將kaggle中的銀行卡消費數據進行預處理、縮放選擇特征,再采用smote算法處理數據集的分布不均問題,調整參數形成最佳的訓練模型后后,準確率達到97.00%。文獻[9]提出了結合規則引擎、數據挖掘模型、人工校驗方法,建立了一套互助互補、更加高效的信用卡反欺詐模式。本文采用機器學習里的隨機森林、邏輯斯特回歸算法應用于貸款交易欺詐判定中。

2貸款欺詐檢測原理

信用卡反欺詐是利用信用卡的歷史交易數據,構建信用卡反欺詐預測模型,提前發現客戶信用卡被盜刷的事件。

3構建機器學習模型

3.1數據預處理

本文使用公開庫kaggle的部分交易數據來訓練及驗證機器學習模型,并將欺詐行為和正常交易行為做出相應的標記。因公開庫的數據量龐大,因此本文隨機抽取284707條數據來做驗證。正常交易信息是284315條,貸款欺詐信息為492條。

如圖1的(a)(b)所示:數據嚴重不平衡,負樣本f欺詐時的值為1的樣本)的數量太少,如果不進行處理,直接用這樣的數據來進行訓練建模,會使得到的模型效果不佳。

因此需進行樣本數據處理,主要有兩種思路。

(1)下采樣

對于數據集中出現的數量嚴重不等的兩類數據,從數量比較多的那類樣本中,隨機選出和數量比較少的那類樣本數量相同的樣本,最終組成正負樣本數量相同的樣本集進行訓練建模。

(2)過采樣

本文使用過采樣的方法把數據擴充到相匹配的程度,去除一些負樣本,使得正負樣本數目接近,從而處理樣本不平衡問題,最后進行訓練學習。由于隨機過采樣采取簡單復制樣本的策略來增加少數類樣本,容易產生模型過擬合的問題,使得模型學習到的信息過于特別而不夠泛化。

本文采用的是隨機過采樣算法的改進方案SMOTE。具體過程是先分離數據中的特征和標簽,再將數據分成訓練數據和測試數據,其比例為7:3,最后利用SMOTE來處理訓練樣本,得到均衡的訓練樣本。

3.2特征工程

特征工程是指自變量x對因變量v有明顯影響作用的特征,特征工程可分為三個方面:特征構建、特征提取、特征選擇。

特征構建是指從原始數據中人工的找出一些具有物理意義的特征。特征提取有多種常用的方法,如主成分分析法、LDA線性判別分析法、ICA獨立成分分析法等。特征選擇是最重要的步驟,是為了剔除不相關或者冗余的特征,減少有效特征的個數,減少模型訓練的時間,提高模型的精確度。本文采用隨機森林算法獲取數據的顯著特征。具體實現過程如下:

首先將目標變量進行可視化,顯示的結果。其次進行特征衍生,特征Time的單位是秒,轉化為以小時為單位對應每天的時間。再進行查看信用卡正常用戶和異常用戶之間的區別。從圖2中可以看出,在貸款欺詐的事件中,部分變量之間的相關性更明顯。其中變量v1、V2、v3、V4、V5、V6、v7、V9、v10、v11、V12、V14、V16、V17和V18以及V19之間的變化在信用卡被盜刷的樣本中呈性一定的規律。另外,詐騙交易、交易金額和交易次數存在如圖3所示關系。

查看數據的維度后,特征從28個縮減到了18個,其中不包含目標變量。最后對特征的重要性進行排序,具體過程為先構建x變量和Y變量,利用隨機森林的feature impo~ance對特征的重要性進行排序,排序結果如圖4所示。

3.3模型訓練

3.3.1樣本不平衡處理

構建自變量和因變量處理樣本不平衡,樣本個數共284807個,正樣本占99.83%,負樣本占0.17%。特征維數為18。

3.3.2構建分類器進行訓練

構建邏輯回歸分類器進行訓練,產生測試集的預測精度分值結果為0.99992。生成混淆矩陣(如圖5)后,測試數據集中的召回度量為0.955284552846,閾值默認值為0.5,繪制ROC曲線。

3.4模型評估與優化

上一個步驟中的模型訓練和測試都在同一個數據集上進行,會導致模型產生過擬合。一般來說,將數據集劃分為訓練集和測試集有3種處理方法:留出法、交叉驗證法、自助法。

本文采用交叉驗證法劃分數據集,將數據劃分為3部分:訓練集、驗證集和測試集。讓模型在訓練集進行學習,在驗證集上進行參數調優,最后使用測試集數據評估模型的性能。模型調優采用網格搜索調優參數,通過構建參數候選集合,網格搜索窮舉各種參數組合,再根據設定評定的評分機制找到最好的那一組設置。最后結合cross-validation和gird search,具體采用scikit learn模塊modd_sdecfion中的GridSearchCV方法。

precision和recall是一組矛盾的變量。從上面混淆矩陣和PRC曲線可以看到,閾值越小,recall值越大,模型能找出信用卡被盜刷的數量也就更多,但換來的代價是誤判的數量也較大。隨著閾值的提高,recall值逐漸降低,precision值也逐漸提高,誤判的數量也隨之減少。通過調整模型閾值,控制模型反信用卡欺詐的力度,若想找出更多的信用卡被盜刷就設置較小的閾值,反之,則設置較大的閾值。

實際業務中,閾值的選擇取決于公司業務邊際利潤和邊際成本的比較;當模型閾值設置較小的值,確實能找出更多的信用卡被盜刷的持卡人,但隨著誤判數量增加,不僅加大了貸后團隊的工作量,也會降低誤判為信用卡被盜刷客戶的消費體驗,從而導致客戶滿意度下降,如果某個模型閾值能讓業務的邊際利潤和邊際成本達到平衡時,則該模型的閾值為最優值。當然也有例外的情況,發生金融危機,往往伴隨著貸款違約或信用卡被盜刷的概率會增大,而金融機構會更愿意不惜一切代價守住風險的底線。

4實驗數據測試

將random_state設置為0,每次切分的數據都一樣,構建參數組合。確定模型Logistic和參數組合param_grid,cv指定10折,使用訓練集學習算法得到測試集的精確度為0.99916。

5總結

本文首先介紹了貸款欺詐的背景,其次講述了近年來學者們應用方法的優缺點,最后描述了如何利用真實的信用卡歷史交易數據,使用機器學習構建信用卡的反欺詐預測模型,從而提前判定信用卡被盜刷的非法行為。從這個模型的測試結果來看,將機器學習可應用于貸款欺詐系統的建立中,能夠降低誤判率,效果良好。

猜你喜歡
機器學習
基于詞典與機器學習的中文微博情感分析
基于網絡搜索數據的平遙旅游客流量預測分析
時代金融(2016年27期)2016-11-25 17:51:36
前綴字母為特征在維吾爾語文本情感分類中的研究
科教導刊(2016年26期)2016-11-15 20:19:33
下一代廣播電視網中“人工智能”的應用
活力(2016年8期)2016-11-12 17:30:08
基于支持向量機的金融數據分析研究
基于Spark的大數據計算模型
基于樸素貝葉斯算法的垃圾短信智能識別系統
基于圖的半監督學習方法綜述
機器學習理論在高中自主學習中的應用
極限學習機在圖像分割中的應用
主站蜘蛛池模板: 国内熟女少妇一线天| 久久综合九色综合97网| 亚洲人成色77777在线观看| 国产一区二区三区在线无码| 国产美女主播一级成人毛片| 日韩欧美中文字幕一本| 996免费视频国产在线播放| 666精品国产精品亚洲| 亚洲三级成人| 久久久精品国产SM调教网站| 日韩av电影一区二区三区四区| 亚洲天堂2014| 国产乱人乱偷精品视频a人人澡| 在线看AV天堂| 国产在线日本| 99这里精品| 亚洲国产中文精品va在线播放| 中文字幕第1页在线播| 福利在线一区| 制服丝袜国产精品| 亚洲男人的天堂久久香蕉| 亚洲视频免费在线看| 国产色图在线观看| 欧美在线精品怡红院| 欧美a网站| www亚洲天堂| 91精品福利自产拍在线观看| 国产福利大秀91| 中文字幕永久在线观看| 国产欧美精品一区aⅴ影院| 免费啪啪网址| 国产精品白浆在线播放| 91九色视频网| 国产免费网址| 青青草国产一区二区三区| 亚洲一道AV无码午夜福利| 午夜国产精品视频| 欧美日韩在线亚洲国产人| 亚洲中文字幕23页在线| 中国精品久久| 午夜色综合| 亚洲综合18p| 91丝袜美腿高跟国产极品老师| 日韩天堂在线观看| 亚洲成人黄色在线观看| 日本国产在线| a毛片在线播放| 91综合色区亚洲熟妇p| 亚洲成人免费看| 欧美a在线| 视频二区中文无码| 欧美综合成人| 欧美成人免费午夜全| 视频一本大道香蕉久在线播放 | 亚洲一区毛片| 永久免费AⅤ无码网站在线观看| 91精品国产福利| 欧美精品高清| 亚洲熟女中文字幕男人总站| 欧美无遮挡国产欧美另类| 老司国产精品视频| 中文字幕资源站| 真人免费一级毛片一区二区| 91精品免费高清在线| 日韩精品一区二区三区swag| 九九免费观看全部免费视频| 国产精品乱偷免费视频| 国产黄在线观看| 亚洲精品无码久久久久苍井空| 露脸国产精品自产在线播| 54pao国产成人免费视频| 精品国产一区91在线| 亚洲品质国产精品无码| 国产成人福利在线| 亚洲欧洲日产国产无码AV| 久久综合五月婷婷| 国产区免费精品视频| 亚洲人在线| 欧美亚洲欧美区| 在线观看免费国产| 欧美日韩国产精品综合 | 综合色区亚洲熟妇在线|