999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

集成學習在消費金融審計中的應用
——以隨機森林檢測信用卡欺詐為例

2022-08-25 02:55:10石向榮教授郭鵬賽鄭祺葉一飛
商業會計 2022年15期
關鍵詞:檢測模型

石向榮(教授) 郭鵬賽 鄭祺 葉一飛

(1浙江財經大學信息管理與人工智能學院 2浙江財經大學會計學院 浙江杭州 310018)

一、引言

近年來,隨著居民個人收入水平的提升、家庭財富的不斷積累,我國經濟向消費主導型轉變。根據中投產業研究院發布的《2020—2024年中國消費金融行業深度調研及投資前景預測報告》,2015到2020年,我國消費金融市場規模從19萬億元增長到45萬億元,消費金融業務量增速較快。截至2020年,銀保監會公布的全國持有消費金融牌照的公司達30家,消費金融的廣闊前景使這一市場成為資本的熱門賽道。但是高速發展的消費金融也引發了一些問題,如現金貸的授信過度、交易平臺的欺詐行為等,本文關注的信用卡欺詐也是情形之一。

2016—2020年,我國信用卡及借貸合一卡人均持卡量呈現持續增長趨勢,五年間從人均0.39張增至0.57張;信用卡逾期半年未償總額增長幅度在6.4%—18.9%之間(見表1),這也和我國過去五年消費金融市場的增長情況相一致。

表1 2016—2020年人均持卡量、逾期半年未償總額

2020年12月,銀保監會發布《消費金融公司監管評級管理辦法(試行)的通知》,這一管理辦法的施行體現出監管部門對促進消費金融行業合法合規經營的決心。2021年9月,中國銀行業協會發布《中國銀行卡產業發展藍皮書(2021)》,提出要繼續全面提升風險防控能力,加強金融科技與銀行風控的結合,優化行業自律機制,有效防范和打擊銀行卡欺詐、反催收聯盟等,完善風險管理體系。由于監管部門及社會公眾和消費金融機構之間存在信息不對稱,需要審計等社會力量作為中介,打破信息壁壘,通過技術手段及早介入并揭示問題,防范風險進一步放大。為此,本文提出基于集成學習算法的審計思路,也是對科技強審工作要求的具體實踐。

二、文獻綜述

尹振濤、程雪軍(2019)針對我國場景消費金融快速發展的背景,對我國場景消費金融的風險防控相關問題進行了研究,認為當前我國場景消費金融市場的主要風險為用戶信用風險、欺詐與套現風險、法律滯后糾紛頻發風險、資金流動性風險、金融科技風險和內部管理風險等。劉艷暢(2019)認為,一些借款人惡意逃避債務形成的重大錯報風險,是網貸平臺審計風險的重要來源之一,并對網絡信貸平臺審計提出了新的方法和思路,以降低審計風險。

對于信用卡欺詐檢測模型的研究,國內外學者主要集中在機器學習的模型訓練。國內學者徐永華(2011)研究發現,采用支持向量機的信用卡欺詐檢測精度達到95%以上;陳啟偉、王偉等(2018)基于Ext-GBDT集成的類別不平衡信用評分模型,使用欠采樣的方法對數據集進行切割,結果表明該模型的性能較好;王紅雨(2019)研究了基于機器學習的信用卡欺詐檢測方案,對比了不同學習模型的檢測效果,提出了基于訓練集劃分和聚類的集成學習框架、主動學習和半監督學習相結合的欺詐檢測方案等;郭建山等(2020)研究了基于隨機森林(Random Forest,RF)的信用卡違約預測,提出了SSD算法改進的隨機森林檢測模型;琚春華等(2021)提出了基于kNN-Smote-LSTM的消費金融風險檢測模型,對判別分類器、生成器進行了融合,認為該模型對于降低噪音、提升分類性能、降低誤分類呈現了更好的性能。

國外學者也對信用卡欺詐檢測展開了研究,Bhatnagar Vishal等(2021)設計了一個深度學習欺詐檢測框架,具體是采用基于神經網絡的序列分類技術,同時引入閾值以度量交易(與正常交易之間的)偏離,以此對信用卡交易欺詐進行檢測。Angela Makolo等(2021)提出了一種利用機器學習進行金融欺詐檢測的直觀方案,具體是建立基于遺傳算法和多元正態分布的異常檢測模型,識別信用卡上的欺詐交易。Kalhotra Satish Kumar等(2022)重點研究了C4.5、CART、J48、Na?ve Bayes、EM、Apriori、SVM等多種數據挖掘算法,并對結果的準確性和精度進行了分析對比。

從以上文獻可以看出,諸多學者對信用卡欺詐檢測模型進行了較為充分的研究,但所完成的工作仍有改進提升空間:一是單一分類器存在擬合不足或過度擬合的狀況;二是對模型評估指標不夠全面,對模型的準確率(accuracy,Acc)、召回率(recall)、查準率(precision)、AUC值、F1值缺少綜合分析。本文的貢獻在于:(1)提出并驗證了綜合評估指標下檢測性能優越的分類模型。本文結合幾種性能較好的基分類器進行對比分析,得出隨機森林、CatBoost的分類性能較好并且比較穩定,在此基礎上采用基于馬氏距離的SMOTE改進算法,即過采樣方案以應對信用卡數據集兩類樣本的不平衡問題。應用多個指標對所提出的復合模型進行評估,結論是Maha-Smote-RF有著最為優越的檢測性能。(2)提出將檢測模型應用于信用卡欺詐審計的具體思路。本文在驗證Maha-Smote-RF模型性能的基礎上,進一步提出可行的審計思路,可幫助審計師精準、高效地鎖定欺詐交易行為和交易主體。(3)豐富了消費金融行業的審計方法。消費金融行業在互聯網的沖擊下出現新的業態,傳統的審計方法面對“科技+金融”的業務模式難以發現隱藏在數據背后的舞弊情形,必須采用機器學習等新工具,才能讓審計插上信息化的翅膀,本文為基于數據的消費金融審計工作提供了有益借鑒。

三、模型原理介紹

(一)隨機森林模型原理

隨機森林模型于1995年由貝爾實驗室的Tin Kam Ho提出,它的基本單元是決策樹。由成百上千棵數構成了所謂森林,這種構成方式體現了集成學習的思想。通過組合多個弱分類器,并對弱分類器的結果投票表決,從而構成整體的強分類器。隨機森林算法的優越性能,主要歸功于“隨機”和“森林”,前者使它具有抗過擬合能力,后者使它更加精準,模型工作原理見圖1。

圖1 隨機森林工作原理

(二)隨機森林算法流程

1.構造n組隨機樣本。從原始數據中,隨機抽取n次樣本,為簡潔起見,每次抽取的樣本數目均相同,設為m。

2.對每組樣本進行特征抽樣。假設每個樣本數據都有K個特征,從所有特征中隨機地選取k(k≤K)個,結合步驟1,形成樣本1、樣本2、…、樣本n,它們的大小均為m×k。

3.選擇最佳分割屬性作為節點建立n棵CART決策樹,這也是所謂的森林。

4.對以上n棵決策樹的預測結果進行投票,確定樣本的最后預測類別。對于最常見的二類分類問題,須注意設置n為奇數,以保障最終投票不產生平局。

(三)SMOTE方法

由于在現實世界中,欺詐行為發生的概率總是小的,大量的樣本所對應的是正常交易,因此基于真實數據的原始數據集中,“正常”和“欺詐”兩類樣本數目相差懸殊,這就是所謂的樣本不平衡問題。樣本不平衡會導致模型偏差較大,預測精度下降。解決樣本不平衡問題的思路有二:一是對正常類樣本進行下采樣,以縮小兩者差異。但這樣做的缺點明顯,就是丟棄了大量有價值的正常類樣本數據。二是對欺詐類數據進行上采樣,即:在現有數據點的“周邊”構造新的數據,以使得兩類樣本的數目相當或接近相當。這個思路就是SMOTE(Synthetic Minority Over-Sampling Technique),SMOTE方法解決的是不平衡樣本中的少數類樣本數量過少的問題,具體做法是:

找出每個樣本的k個鄰居(鄰居通過距離來度量),然后分別在原樣本和個鄰居之間進行隨機線性插值,這樣保證了所構造的新樣本處于原樣本的周邊,具體算法如下:

并且k是一個可靈活調節的參數,一輪操作之后,樣本數量變為原數量的k倍,若不平衡問題依然存在,可繼續重復上述過程。可見,隨著不斷重復,新樣本的總數目將呈幾何式增長。

(四)結合馬氏距離的SMOTE方法:Maha-Smote

在上文提及的SMOTE方法中,須對距離進行度量,根據距離找出k個鄰居,可見距離的定義是一個重要問題。在眾多距離的度量方式中,最常見的是歐式距離,但對本研究所面臨的問題,使用歐式距離并不合適,因為它無差別地對待每一個特征,而不考慮特征之間量綱的差異性。因此,由歐式距離方案所得的最近鄰點,在很大程度上由量綱小而數值大的特征所決定,這當然是一種不合理的、需要解決的問題。為此,本文提出馬氏距離(Mahalanobis Distance)方案。對數據集X中的兩點x、x,馬氏距離定義如下:

式中,∑為X的協方差矩陣,而Q是∑的特征向量組成的矩陣,以上均可通過主流數據分析模塊的線性代數函數計算求得。

綜上,通過馬氏距離方案定義距離,依據所定義距離實施SMOTE上采樣,構造新的建模數據,在更均衡的建模數據下實施隨機森林集成學習,最終可得到理想的分類模型和預測結果。

四、案例分析

本文對真實的信用卡欺詐數據集進行數據預處理、模型訓練以及實驗分析對比,采用的數據集由比利時布魯塞爾ULB(Université Libre de Bruxelles)的研究小組Worldline and the Machine Learning Group搜集整理,可從kaggle官網下載。數據集包含由歐洲持卡人于2013年9月某兩天使用信用卡交易所產生的記錄,共284 807筆,其中492筆被認定為欺詐,欺詐樣本占總交易數的0.172%。可見,欺詐樣本占比嚴重偏少,屬于典型的樣本不均衡情形。該數據集共有31列,其中Time(時間)和Amount(金額)是原始數據,最后一列為類別標簽,其余28列為從大量特征經由PCA變換得到的28維新特征,記為V1、V2、…、V28。經PCA處理后,既降低了樣本復雜度,又起到了保密原始數據、對原始數據進行脫敏的作用。

(一)數據預處理

該數據集是經過清洗的數據,已經進行了降維處理,故而28維特征的準確含義無法定性描述。可確定的是28維特征相互正交,特征之間不存在線性相關。Time列表示每個事務與數據集中第一個事務之間所相差的秒數,在本模型中未使用,故可作剔除處理。

(二)模型訓練

我們同時訓練了邏輯回歸(Logistic Regression)、支持向量機(Supprot Vector Machine,SVM)、CatBoost、梯度提升決策樹(Gradient Boosting Decision Tree,GBDT)以及隨機森林(Random Forest,RF)五個業界應用廣泛的基分類器。按照主流的模型數據相對多、測試數據相對少的配置,從284 807條總體中隨機抽取80%作為建模數據,用于模型訓練,其余20%作為測試數據,用于模型評價。

對每組建模數據進行訓練,設置決策樹數目n為15,特征數目k為28,即k=K,將測試數據代入訓練模型,得到預測值,根據預測值和真實值的對比,計算出多個評價指標,分別為準確率、召回率、查準率、AUC值、F1值。設真實值為Y,預測值為Y,定義混淆矩陣為:

表2 混淆矩陣表

基于TP、FN、FP、TN,定義4個評價指標為:

AUC(Area Under Curve)值被定義為ROC曲線下的面積,ROC曲線全稱為受試者工作特征曲線,它是以真陽性率(敏感性)為縱坐標、假陽性率(1-特異性)為橫坐標繪制的曲線。根據以上定義,可編程或調用主流數據分析模塊的函數求得AUC值,該值介于0、1之間,值越大分類器的性能越好。

重復以上步驟30次,以得到對評價指標更全面和準確的觀察。

(三)實驗結果對比分析

通過循環實驗,發現所選取模型都有著較高的準確率,其中四個超過99.9%,相比而言,RF和CatBoost的準確率更高,達99.95%。需要說明的是,準確率每萬分之一的差距,就代表每一萬筆交易中有一個欺詐檢測判斷錯誤。根據中國人民銀行《2021年支付體系運行總體情況》的報告,2021年全國銀行共辦理非現金支付業務4 395.06億筆,若每提升萬分之一的準確率,將至少減少四千萬個檢測錯誤發生。可見準確率的微小提高,放到全社會來看,都會產生較重大的影響。實驗所得具體數據見下頁表3。

表3 模型分類預測對比分析

在此基礎上對比召回率、查準率、F1值,也都處于較高的水平,但RF和CatBoost模型略有領先,從AUC對比來看,RF和CatBoost相對于LR、SVM、GBDT有著明顯的優勢。因此,選擇RF和CatBoost作為基礎分類器進行模型提升。

五、模型提升及結果分析

基于上文基分類器的實驗結果,將分類效果表現優異的CatBoost以及RF作進一步提升,引入結合馬氏距離的SMOTE過采樣方法,設置近鄰鄰居數目k為1,增加欺詐數據的樣本量至8萬條,增加之后總樣本量為324 298條,此時欺詐樣本占總樣本的21.96%,樣本均衡性顯著改善。兩個模型使用相同的方案進行提升,并且同樣隨機抽取80%和20%作為訓練數據、測試數據,進行30次的循環實驗,并求取平均值,使所得實驗結果具有充分的可比性。兩個提升后的模型同原模型各項指標的對比見表4。

表4 提升模型、基分類器分類效果比較

可見,模型提升后,Maha-Smote-RF相較于基分類器在準確率方面提升了萬分之三,召回率相應下降,但從重要性的角度來說,準確率的提升更為重要。此外,AUC值提升了0.1108,其他方面也有小幅提升,有著較為理想的綜合改進效果。Maha-Smote-CatBoost在AUC值上有提升,但其他方面尤其是準確率上并沒有表現得更好。四個模型的單個指標30次循環變化情況見圖2—圖6。

圖2 準確率循環變化圖

圖3 召回率循環變化圖

圖4 查準率循環變化圖

圖5 AUC值循環變化圖

圖6 F1值循環變化圖

實驗表明,Maha-Smote-RF模型在信用卡欺詐檢測問題上,預測準確率達99.8%,在所有模型中最高,F1值高于其他模型,AUC值一直接近于1,表明分類效果高度穩定,查準率和召回率兩個指標也都處于模型中的前兩位,綜合誤分類水平最低。綜上,Maha-Smote-RF模型在五個指標上綜合表現優于Maha-Smote-CatBoost、RF、CatBoost三個模型,欺詐檢測性能最為優越。

六、Maha-Smote-RF模型應用于審計實務

(一)新形勢下傳統審計工作面臨的困境

我國信用卡業務規模激增,用卡環境日趨復雜。在卡片申請階段,銀行和客戶之間信息不對稱,加之部分銀行為了搶占市場,增加發卡量,疏忽了對風險的管理和控制;在用卡階段,移動支付的普及應用造成支付環節的安全性下降,信用卡欺詐手段日益復雜多樣。現階段我國商業銀行信用卡審計工作方法主要是書面資料審閱、客觀實物證實以及溝通分析調查方法等。新的經濟形勢下,傳統的審計工作面臨著以下三方面的困境。

1.審計抽樣方法效度低。商業銀行有大量的信用卡用戶以及相應的交易記錄,依靠現有的審計方法,加之人力資源和時間資源的限制,只能進行統計抽樣和經驗抽樣審計,即使是各個部門相互配合,也難以做到對信用卡客戶以及交易的全面精準把握,容易遺漏欺詐風險點。

2.審計分析方法滯后。商業銀行現有的信用卡審計分析系統主要是建立在信貸審計需求之上,然而信用卡業務和信貸業務在交易筆數、交易方式、審核授信以及業務總量等主要風險點有較大差距,再加上信用卡營銷和發卡環節中便攜式發卡機、網絡虛擬卡、營銷APP等新技術層出不窮,信用卡審計分析系統滯后于業務發展。因此,現有的信用卡審計分析系統無法滿足信用卡業務日益復雜的審計要求。

3.信息科技審計人才短缺。信息科技審計要求相關的專業人員了解掌握兩種語言,一種是信息語言,一種是審計語言,將審計需求轉化成可以實現的技術手段,通過模型工具獲取審計所需要的相關數據,甚至利用技術打破原有的審計思維模式,提供更加有效的審計證據。然而目前,無論是內部審計部門還是會計師事務所,這樣的復合型人才都十分稀缺,并且短期內難以培養成熟的專業人員。

綜上,當前我國信用卡業務審計方法不夠有效,風險管控機制不夠成熟,審計效果不夠理想。在大數據背景下,審計部門如何利用信用卡海量的數據資源,將大數據和信息化審計手段有效結合,從而提升信用卡業務審計的質量,已成為審計部門面臨的重要問題。

(二)信用卡欺詐審計工作思路

信用卡欺詐可分為申請欺詐、交易欺詐和用途欺詐三種類型。本文結合當前信用卡業務審計工作困境,提出可信賴的高性能信用風險和異常交易分類模型,即Maha-Smote-RF欺詐檢測模型,其應用于信用卡欺詐審計思路如下:第一步,構建數據庫。金融機構對信用卡申請、交易等所產生的歷史數據,以及已發現欺詐的客戶進行記錄,實時存儲,形成數據庫,將這部分數據作為模型的原始數據。第二步,預處理訓練數據。數據庫中包含的原始數據可能是多源、異構、高維度的,無法直接用于模型訓練,必須首先對數據進行清洗、整理、去重、并采用諸如本文歐洲持卡人數據集中的PCA降維處理方法,最終得到與上列案例類似的規范輸入數據。第三步,訓練模型。對輸入數據采用與本文案例類似方法進行Maha-Smote-RF模型訓練,構造集成學習強分類器。第四步,檢測目標交易。用訓練后的Maha-Smote-RF模型對目標交易進行分類識別,獲取預測結果。對客戶信用卡申請、交易的狀況做出判斷,標定異常交易和異常客戶,并以此作為審計疑點,提交相關部門進一步核實查證。

七、結語

本文以信用卡欺詐檢測為例,基于真實的信用卡欺詐數據集,通過對不平衡分類、機器學習、集成學習技術等方面的研究,提出了融合基礎分類器、數據生成器的Maha-Smote-RF欺詐檢測模型,該模型與其他信用卡欺詐檢測方法相比,可以更好地克服不平衡樣本誤分類的缺陷。從實驗結果看,模型準確率達到99.98%,AUC值達到0.9998,查準率達到99.99%,各方面表現優越。

在實驗的基礎上,結合當前審計工作的難點,本文提出檢測模型在信用卡欺詐審計實務中的應用思路,以提升金融機構內部審計部門、會計師事務所等識別信用卡欺詐行為的效率和審計工作的效果,可有效防范金融風險放大。本文是集成學習技術在消費金融審計領域的探索,為大數據審計實務拓寬了思路,為科技強審開辟了可行路徑。

猜你喜歡
檢測模型
一半模型
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
“幾何圖形”檢測題
“角”檢測題
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
小波變換在PCB缺陷檢測中的應用
主站蜘蛛池模板: 国产成人无码AV在线播放动漫 | 国内精品视频| 手机在线免费不卡一区二| 天天综合色网| 久草青青在线视频| 欧美性天天| 中日无码在线观看| 国产凹凸视频在线观看| 波多野吉衣一区二区三区av| 久久熟女AV| 成人字幕网视频在线观看| 国内精品视频在线| 成年人国产视频| 欧美人在线一区二区三区| 日韩精品成人网页视频在线| 孕妇高潮太爽了在线观看免费| 波多野结衣一区二区三区AV| 久久夜夜视频| 免费A级毛片无码无遮挡| 伊人色综合久久天天| 一级片免费网站| 成AV人片一区二区三区久久| 久久精品一品道久久精品| 麻豆精品在线| 欧美成人午夜在线全部免费| 青青青视频91在线 | 亚洲人成影视在线观看| 67194在线午夜亚洲| 国产在线视频二区| 午夜久久影院| 国产精品美女自慰喷水| 国产欧美精品一区aⅴ影院| 99精品视频播放| 免费国产在线精品一区| 狠狠v日韩v欧美v| 亚洲永久视频| 色婷婷电影网| 1级黄色毛片| 国产女人在线观看| 在线观看国产精品日本不卡网| 亚洲综合狠狠| 性色一区| 午夜色综合| 国产网站一区二区三区| 天堂网亚洲系列亚洲系列| 成人a免费α片在线视频网站| 女同国产精品一区二区| 亚洲婷婷在线视频| 中文字幕在线看| 91麻豆国产视频| 日韩久草视频| 伊在人亚洲香蕉精品播放| 国产精品久久国产精麻豆99网站| 97精品伊人久久大香线蕉| 午夜激情福利视频| 视频一本大道香蕉久在线播放 | 国产乱肥老妇精品视频| 国产熟睡乱子伦视频网站| 色综合久久综合网| 97视频免费看| 国产丝袜一区二区三区视频免下载| 熟妇人妻无乱码中文字幕真矢织江 | 日韩欧美高清视频| 99这里精品| 久久五月天国产自| 亚洲中文字幕无码爆乳| 天天摸天天操免费播放小视频| 亚洲福利片无码最新在线播放| 国产呦精品一区二区三区下载| 国产精品.com| 美女被操91视频| 91色国产在线| 国产色婷婷视频在线观看| 美女免费黄网站| 人人看人人鲁狠狠高清| 亚洲人在线| 日韩色图区| 四虎AV麻豆| 亚洲一区毛片| 午夜视频www| 精品无码国产自产野外拍在线| 欧美日一级片|