999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于GBDT的線上交易欺詐偵測研究

2017-11-02 02:27:03趙金濤邱雪濤何東杰中國銀聯電子支付國家工程實驗室上海201201
微型電腦應用 2017年10期
關鍵詞:模型

趙金濤, 邱雪濤, 何東杰(中國銀聯 電子支付國家工程實驗室, 上海 201201)

基于GBDT的線上交易欺詐偵測研究

趙金濤, 邱雪濤, 何東杰
(中國銀聯 電子支付國家工程實驗室, 上海 201201)

隨著銀行卡行業的迅猛發展,在帶來海量銀行卡交易的同時,欺詐交易也與之俱增。將GBDT算法應用于銀行卡欺詐偵測領域,通過WOE和IV方法對變量進行分組處理及篩選,以Bagging的方式對模型進行了組合,通過加權投票方式判斷欺詐交易。實證研究表明,該模型的達到預期評價指標,效果顯著。

GBDT; Bagging; 欺詐偵測

0 引言

近年來,隨著我國社會經濟的快速發展和居民消費水平的不斷提高,銀行卡產業發展勢頭迅猛。根據央行公布數據,2015年我國銀行卡在用發卡量達到54.42億張,交易852.29億筆,金額669.82萬億元;銀行卡欺詐率為1.99BP(每萬元中發生的欺詐金額占比),欺詐損失率為0.13BP。以此計算,我國2015年銀行卡欺詐金額總計1 392.6億元,銀行卡欺詐損失約87億元[1]。而隨著移動支付及互聯網業務的快速發展,銀行卡欺詐風險開始向線上交易轉移。相對于傳統欺詐案件,網絡支付渠道的欺詐表現出犯罪隱蔽、涉案區域分散、犯罪鏈條長等特點,風控難度更大。

由于銀行卡欺詐給銀行、收單機構及銀行卡組織帶來了巨大的風險及損失,各機構也積極采取措施進行銀行卡欺詐偵測工作。目前,銀行卡欺詐偵測主要有兩種方式,一種是利用業務人員的專家經驗或者通過統計方法形成規則或評分方法,然后通過規則引擎對交易進行判別,這種方式形成的規則結果解釋性較好,但是嚴重依賴于專家經驗,無法發現新的欺詐模式;另一種則是采用數據挖掘的方式,通過決策樹、神經網絡[2]等算法對歷史交易數據進行學習,形成欺詐偵測模型,然后通過模型對交易進行判別。這種方式不依賴專家經驗,可發現新的欺詐模式,并且欺詐偵測效果準確,受到越來越多研究人員的關注。但是這種方式在實際應用中存在著以下問題:1) 樣本數據具有嚴重的不平衡性,欺詐交易占比只有萬分之幾,而這會導致模型趨向于將交易判別為正常交易,影響欺詐偵測效果;2) 傳統的數據挖掘方式受限于單機計算能力,對于大規模樣本無能為力,降采樣或者抽樣會影響模型效果。

基于上述問題,本文以中國銀聯的移動支付及互聯網交易為分析基礎,試圖通過數據挖掘的方式,使用GBDT(又稱Gradient Boosted Decision Tree或者Grdient Boosted Regression Tree)算法,建立一個更為準確的銀行卡欺詐偵測模型。

1 GBDT算法

決策樹是傳統的分類方法之一,具有模型結構簡單、易于理解、訓練過程快速等優點。然而,單棵決策樹在模型的訓練過程中容易出現過擬合現象。為了彌補單棵決策樹的缺陷,通常采用集成學習的方式,訓練一組基分類器,然后通過對每個基分類器給予不同的權重,共同參與分類預測。GBDT是一個基于迭代累加的決策樹集成算法,它通過構造一組弱的分類器(樹),并把多顆決策樹的結果累加起來作為最終的預測輸出。GBDT由回歸樹、Gradient Boosting等兩個主要概念組成,下面逐一進行介紹。

(1) 回歸樹

GBDT通常采用CART(Classification And Regression Tree)作為基分類器,CART是由Breiman、Friedman、Olshen和Stone于1984年提出的一種決策樹算法[3],既可以做分類,也可以做回歸,如果目標變量是離散變量,則是分類樹,如果目標是連續變量,則是回歸樹。

CART的本質是對數據進行分類,每個節點會分成2個子節點,在形成二叉樹的過程中,不斷迭代尋找最佳分割點,最后形成一顆二叉樹。

對于連續特征X={X1,…,Xn},選擇一個特征Xi(Xi∈X),首先將特征Xi取值升序排序;兩個特征取值之間的平均值點作為可能的分隔點,將數據集分成兩部分,計算不純度衡量指標,根據不純度衡量指標選擇最佳分割點。遍歷所有特征,找到最佳特征及該特征的最佳分割點。樹的生長,總原則是讓子節點比樹節點更純,對于回歸樹通常采用最小平方殘差、最小絕對殘差等不純度指標衡量。

(2) Gradient Boosting

Boosting 是 Kearns&Valiant 提出的一種分類學習方法。首先會為每個訓練樣本賦予一樣的權重值,在每一次迭代進行訓練模型時,會提高分錯樣本的權重,降低分對樣本的權重。然后迭代了N次之后,得到N個弱的分類器,最后集成起來成為一個強分類器。

Gradient Boosting與Boosting的不同點在于,每一次訓練的目的是為了減少上一次的殘差,為了不斷的降低殘差,需要在減少殘差的梯度方向訓練一個新的模型。Gradient Boosting訓練每一個新的模型都是為了模型在之前的模型的殘差在梯度方向上降低。

2 基于GBDT算法的線上交易欺詐偵測模型

(1) 數據準備

樣本標記

本文以2015年中國銀聯線上交易數據為研究對象,按月份抽取數據樣本,銀行卡發生過欺詐交易,其當天所有交易均標記為欺詐交易。正常交易與欺詐交易分別標記為0和1。正常交易數量為10億+條記錄,欺詐交易與正常交易比例約為1:10 000。

訓練數據

本文以2015年1-8月份的抽樣數據作為訓練數據。其中正常交易樣本排除所有發生過欺詐交易的卡片的交易數據。

測試數據

本文以2015年9-12月份的全量數據作為測試數據。

(2) 特征工程

變量生成

按當筆交易、同卡號上筆交易、當筆交易與上筆交易衍生變量、短時統計量、長時統計量、卡片歷史交易特征等維度,選取了134個征變量。

數據清洗

根據業務需求對無意義的變量值賦空:若數據中已知某些變量的數值是無意義的,則需將該類數值置為空值,避免影響后續的計算。例如:后臺商戶的IP地址和IP所屬省、市。

數據分組(WOE值及IV值計算)

WOE(Weight of Evidence)值可以衡量自變量取值對目標變量的一種影響,可以通過WOE值的計算對自變量進行離散化編碼[4]。

對數值型變量的分組,根據變量數值大小,將建模樣本分割為10組或20組,每組樣本個數盡量相近,計算每組的WOE值,為式(1)。

(1)

其中Gi、Bi分別代表第i個分組內正常交易及欺詐交易的數量;G、B分別代表總體正常交易及欺詐交易的數量。

對字符型變量的分組,根據變量的不同值,將建模樣本分組,計算每組的WOE值。

IV(Information Value)值代表某一個變量的信息量,是該變量的各個特征的WOE值的加權總和,IV值代表了該變量區分目標變的能力,為式(2)。

(2)

同時可以根據IV值的取值來進行變量的篩選。

IV值變量預測能力IV<0.02無0.02≤IV<0.1弱0.1≤IV<0.3中等0.3≤IV<0.5強IV≥0.5強有力

(3) 建模過程

本文將訓練及測試數據存放于Hive表中,通過Spark SQL讀取數據,然后通過Spark MLlib 的Pipeline將數據處理、模型訓練及測試等步驟封裝起來。其中算法采用Spark MLlib中的GBDT算法。

為了提升模型效果,我們采用Bagging的方式訓練模型及并進行測試,即對正常樣本有放回的采樣并進行訓練得到多個模型,然后通過多個模型以投票的方式決定交易是正常交易還是欺詐交易。

(4) 實證結果分析

這里將銀行卡欺詐偵測問題歸結為一個分類問題,采用欺詐交易的覆蓋率、準確率以及F1值作為模型的評價指標,為式(3)~(5)。

(3)

(5)

測試場景1

采用2015年1-8月的數據作為訓練數據,分別以單個模型以及Bagging的方式對2015年9月份的數據進行測試,其中Bagging方式采用20個模型參與投票預測。測試結果如表1所示。

表1 單個模型與Bagging方式測試結果對比

上表數據表明,在同等條件下, 通過Bagging方式形成的組合模型在覆蓋率、準確率、F1值等指標上均超越單個模型,也進一步說明Bagging對提升模型效果的有效性。

測試場景2

采用2015年1-8月的數據作為訓練數據,以Bagging的方式分別對2015年9-12月份的數據進行測試,其中Bagging方式采用20個模型參與投票預測。測試結果如表2所示。

表2 同一模型對不同數據的測試結果對比

上表數據表明,模型的分類效果存在著不穩定性,分類效果隨時間呈下降趨勢。

測試場景3

分別以2015年1-8月、2015年1-9月、2015年1-10月的數據作為訓練數據,以Bagging的方式分別對2015年11月份的數據進行測試,其中Bagging方式采用20個模型進行參與投票預測。測試結果,如表3所示。

表3 不同訓練數據對同一測試數據的測試結果對比

上表數據表明,訓練樣本數據越多,在時間維度上越接近測試數據,模型的分類效果越好,分類結果也越準確。

3 總結

實證研究表明,本文基于GBDT建立的線上交易欺詐偵測模型可以很好的檢測欺詐交易,通過以Bagging方式將多個弱分類器組合成一個強分類器,對于模型有著很好的提升效果;研究同時表明隨著時間的推移, 模型穩定性及分類能力呈下降趨勢,為了避免這種情況,需要定期將最新的欺詐樣本參與模型訓練,以保證模型的穩定性及準確性。

[1] 人民銀行有關負責人答記者問:http://www.pbc.gov.cn/goutongjiaoliu/113456/113469/3139454/index.html.

[2] 童鳳茹.基于組合分類器的信用卡欺詐識別研究[J].計算機與信息技術,2006(7):10-12.

[3] Breiman L J H, Friedman R A, Olshen C J Stone. Classification and Regression Trees[M]. New York: Chapman and Hall, 1984.

[4] 闞士行.商業銀行信用評級篩選財務指標方法效果對比與校驗[D].濟南:山東大學,2010.

ResearchonOnlineTransactionFraudDetectionBasedonGBDT

Zhao Jintao, Qiu Xuetao, He Dongjie
(National Engineering Laboratory for Electronic Commerce and Electronic Payment, China UnionPay, Shanghai 201201)

The rapid development of bank card industry brought huge amounts of transactions, and fraud transactions also increased. This paper applied GBDT to the field of bank card fraud detection. It grouped data and filtered variables by the methods of WOE and IV, and then combined models by the strategy of Bagging and finally judged whether a transaction was a fraud transaction by a weighted voting algorithm. The empirical study shows that the model could achieve the expected evaluation index, and the effect was significant.

GBDT; Bagging; Fraud detection

TP181

A

2017.04.10)

上海市青年科技英才楊帆計劃資助(17YF1425800)

趙金濤(1985-),男,碩士,研究員,研究方向:大數據、風險防控。

邱雪濤(1981-),男,碩士,經理,研究方向:大數據、風險防控。

何東杰(1984-),男,碩士,經理,研究方向:大數據、云計算。

1007-757X(2017)10-0017-02

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 欧美福利在线观看| 色婷婷在线播放| 国产亚洲高清在线精品99| 国产毛片高清一级国语| 制服丝袜 91视频| 尤物国产在线| 亚洲国产成人在线| 国内精品久久久久久久久久影视 | 国产欧美日韩一区二区视频在线| 亚洲第一极品精品无码| 老色鬼久久亚洲AV综合| 97超爽成人免费视频在线播放| 谁有在线观看日韩亚洲最新视频| 孕妇高潮太爽了在线观看免费| 欧美狠狠干| 成人精品区| 99er这里只有精品| 国产日产欧美精品| 四虎成人精品在永久免费| 久久久久久久久亚洲精品| 亚洲aⅴ天堂| 极品av一区二区| 91人妻日韩人妻无码专区精品| 欧美在线精品怡红院| 精品国产免费第一区二区三区日韩| 久久香蕉国产线看精品| 中文字幕1区2区| 97精品久久久大香线焦| 婷婷在线网站| 国国产a国产片免费麻豆| 国产高颜值露脸在线观看| 国产一区二区三区在线观看视频 | 国产精品亚洲综合久久小说| 中文字幕人成人乱码亚洲电影| 久久婷婷色综合老司机| 亚洲天堂在线免费| 成人午夜福利视频| 无码免费视频| 国产乱子伦精品视频| 国产男女XX00免费观看| 国产十八禁在线观看免费| 综合人妻久久一区二区精品| 日韩第一页在线| 日韩123欧美字幕| 成人福利视频网| 亚洲一区二区在线无码| 国产亚洲成AⅤ人片在线观看| 欧美啪啪网| 日本中文字幕久久网站| 欧美性猛交一区二区三区| 9cao视频精品| 久久人与动人物A级毛片| 亚洲无线视频| 在线五月婷婷| 日韩欧美中文字幕在线精品| 91亚洲国产视频| 亚洲国产精品无码AV| 成人欧美在线观看| 五月婷婷亚洲综合| 国产一二视频| 在线观看国产网址你懂的| 国产全黄a一级毛片| 亚洲爱婷婷色69堂| 91在线精品免费免费播放| 国内丰满少妇猛烈精品播| 午夜天堂视频| 伊人久久久大香线蕉综合直播| 波多野结衣视频一区二区| 亚洲午夜福利精品无码| 波多野结衣无码AV在线| 欧美天堂在线| 午夜影院a级片| 精品视频福利| 国产乱人伦精品一区二区| 中文字幕免费播放| 992Tv视频国产精品| 三级国产在线观看| 青草免费在线观看| 无码中文字幕乱码免费2| 中国国产一级毛片| 色综合热无码热国产| 国产毛片片精品天天看视频|