999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

融合數(shù)據(jù)增廣技術與機器學習算法的個人信用評分研究

2020-09-02 06:31:23陸健健江開忠
軟件導刊 2020年8期

陸健健 江開忠

摘 要:為了提高個人信用評分模型算法預測精準率,受視覺領域數(shù)據(jù)增廣思路啟發(fā),提出融合數(shù)據(jù)增廣技術與機器學習算法的個人信用評分模型。該模型首先對原始個人信用數(shù)據(jù)進行數(shù)據(jù)增廣處理,然后基于機器學習分類算法訓練一個二分類個人信用評分模型,最后基于公開個人信用數(shù)據(jù)集,分別建立未經(jīng)過數(shù)據(jù)增廣和經(jīng)過數(shù)據(jù)增廣處理后的個人信用評分模型。對比準確率、精確率、召回率、F1得分、AUC值和ROC曲線等6個性能評價指標,結(jié)果顯示,相較于僅基于機器學習算法的個人信用評分模型,融合了數(shù)據(jù)增廣技術與機器學習算法的個人信用評分模型使得分類性能得到了一定提升,分類準確率平均高出5%。

關鍵詞:數(shù)據(jù)增廣技術;機器學習算法;個人信用評分;分類性能評價指標

DOI:10. 11907/rjdk. 192197 開放科學(資源服務)標識碼(OSID):

中圖分類號:TP306文獻標識碼:A 文章編號:1672-7800(2020)008-0040-04

Abstract: Inspired by data augmentation in computer vision, it is feasible to increase the number of training data and make the data set as diverse as possible so as to improve the accuracy of the model of personal credit scoring. After the data is augmented, the performance of the classification task can often be greatly improved. This paper firstly proposes a personal credit scoring model based on data augmentation algorithm. Based on the data augmentation of original personal credit data, a personal credit model is established based on supervised machine learning algorithm. In the empirical part, this paper builds a personal credit scoring model that has not undergone data augmentation and data augmentation processing based on public personal credit data sets. Six performance evaluation indicators, such as accuracy, accuracy, recall, F1 score, AUC value and ROC curve showed that the classification performance was improved more than 5% by the personal credit scoring model based on data augmentation technology.

Key Words: data augmentation; machine learning; credit scoring; classification performance evaluation metrics

0 引言

近年來,隨著人工智能和機器學習算法的不斷進步與發(fā)展,作為人工智能和機器學習領域的一個典型應用,個人信用評分模型取得了長足進步。個人信用評分問題實質(zhì)上是模式識別領域的一個分類問題,識別個人信用特征并將個人判斷劃分為不違約和違約兩類。具體做法是根據(jù)歷史數(shù)據(jù)樣本信息,從已知數(shù)據(jù)中識別違約及不違約者特征,從而總結(jié)出分類規(guī)則,構(gòu)建分類算法模型,用于測量借款個人違約概率,為相關決策者或者決策機構(gòu)提供決策依據(jù)[1]。本文將過去個人信用評分研究算法模型主要劃分為三大類:傳統(tǒng)數(shù)學建模方法[2-6];決策樹、K近鄰判別(KNN)、聚類、神經(jīng)網(wǎng)絡等單一機器學習算法[7-10];集成算法或者多算法融合[11-15]。面對眾多評分模型,模型側(cè)的更新?lián)Q代已成為個人信用評分研究領域發(fā)展的瓶頸。

近些年,在計算機視覺、自然語言處理等領域出現(xiàn)的數(shù)據(jù)增廣技術可以為個人信用評分研究提供新思路,成為提升個人信用評分模型預測精度的突破口。2018年,盧海濤等[16]通過圖像變換和合成技術建立滿文古籍文檔圖像數(shù)據(jù)增廣算法,解決訓練數(shù)據(jù)不足問題,在構(gòu)建的增廣數(shù)據(jù)集上建立Faster R-CNN深度學習模型挖掘深層圖像特征,實現(xiàn)滿文文檔圖像印章檢測方法,并對采集的真實滿文文檔復印件圖像進行測試,印章檢測精度可以達到99.6%。同年,蔣夢瑩等[17]提出優(yōu)化分類的數(shù)據(jù)增廣方法,通過對測試集所有類別進行分析,找到分類效果不好的單類進行數(shù)據(jù)擴增,改善模型因訓練樣本少、結(jié)構(gòu)復雜引起分類效果差的現(xiàn)象,為數(shù)據(jù)增廣方法提供了多種思路。2019年,王鈺清等[18]基于數(shù)據(jù)增廣和卷積神經(jīng)網(wǎng)絡算法的地震隨機減噪,對無噪地震數(shù)據(jù)添加不同方差的高斯噪聲,數(shù)據(jù)增廣后構(gòu)成新的訓練集,實現(xiàn)了對小樣本CNN模型訓練。

參考以上視覺領域圖片處理的數(shù)據(jù)增廣技術,本文對傳統(tǒng)個人信用數(shù)據(jù)使用SMOTE算法進行增廣。與傳統(tǒng)信用評分模型相比,本文將數(shù)據(jù)增廣思想運用于個人信用數(shù)據(jù)這類二維結(jié)構(gòu)化數(shù)據(jù)集中,提出了一種融合數(shù)據(jù)增廣技術與機器學習算法的個人信用評分模型。相比之前未經(jīng)過數(shù)據(jù)增廣的模型,該模型算法具有預測精準度高、魯棒性好等特點。

1 相關技術原理

1.1 數(shù)據(jù)增廣技術

數(shù)據(jù)增廣技術是深度學習中的常用技巧,主要用于增加訓練數(shù)據(jù)集數(shù)據(jù)量,讓數(shù)據(jù)集盡可能多樣化,使得訓練的模型具有更強的泛化能力。在實際各項應用中,并非所有數(shù)據(jù)增廣方式都適用于當前訓練數(shù)據(jù)集,需要根據(jù)自己的數(shù)據(jù)集特征確定應該使用哪幾種數(shù)據(jù)增廣方式。目前,在視覺領域,數(shù)據(jù)增廣主要包括:水平/垂直翻轉(zhuǎn)、旋轉(zhuǎn)、縮放、裁剪、剪切、平移、對比度、色彩抖動等方式;在自然語言處理領域,數(shù)據(jù)增廣主要包括:同義詞替換、隨機插入、隨機交換、隨機刪除等技術;而在二維結(jié)構(gòu)化數(shù)據(jù)領域,目前尚未有學者提出統(tǒng)一數(shù)據(jù)增廣技術,而僅僅在出現(xiàn)不平衡數(shù)據(jù)集時,有研究者提出了基于SMOTE算法、SMOTE算法的以變種為代表的過采樣技術,這種過采樣技術實際上就是針對不平衡數(shù)據(jù)集中少數(shù)類數(shù)據(jù)的數(shù)據(jù)增廣技術,如果將對象換作全體各類數(shù)據(jù)集,將全體數(shù)據(jù)集做過采樣處理,則那些過采樣技術就是本文所指的數(shù)據(jù)增廣技術。

1.2 機器學習算法

常用的機器學習算法主要分為無監(jiān)督學習和有監(jiān)督學習。本文主要用到了有監(jiān)督學習,有監(jiān)督學習主要是指輸入的樣本數(shù)據(jù)有相應的標記類別。有監(jiān)督學習算法可以從給定的訓練數(shù)據(jù)集中學習出一個模型參數(shù),當給定一個新的數(shù)據(jù)樣本時,可以根據(jù)該模型參數(shù)預測一個相應類別的結(jié)果。有監(jiān)督學習的訓練集要求包含輸入和輸出,也可以說是特征屬性和目標屬性。監(jiān)督學習包括回歸預測問題和分類預測問題,通過已有的訓練樣本去訓練得到一個誤差最小的最優(yōu)模型,再利用該最優(yōu)模型對輸入樣本輸出相應結(jié)果,最后對輸出進行簡單判斷從而實現(xiàn)預測目的,也即對未知數(shù)據(jù)樣本具有預測的能力。常見的有監(jiān)督學習分類算法有K近鄰、支持向量機、決策樹、隨機森林、梯度提升樹、XGBoost等。本文在實驗部分將使用以上幾種有監(jiān)督學習的分類算法。

1.3 數(shù)據(jù)增廣算法流程

本文數(shù)據(jù)增廣技術原理與SOMTE算法思想一致,區(qū)別在于傳統(tǒng)SOMTE算法只擴增少數(shù)類樣本,使少數(shù)類樣本數(shù)據(jù)與多數(shù)類樣本達到平衡,而本文數(shù)據(jù)增廣原理是指擴充所有樣本數(shù)據(jù),使得依據(jù)樣本訓練出來的模型達到精確度高、避免過擬合的效果。

(1)首先,對于數(shù)據(jù)集中每一行樣本記錄X,以歐氏距離為標準計算它到它所屬類別樣本集S中所有樣本的距離,取其中距離最近的K個樣本記錄,得到其k近鄰。

(2)其次,根據(jù)樣本數(shù)據(jù)集設置一個增廣比例以確定增廣倍率N,對于每一個類樣本記錄X,從其k近鄰的樣本中隨機選擇若干樣本,記選擇的近鄰樣本為XN。

(3)最后,對于每一個隨機選出的樣本XN,分別與原樣本按照式(1)構(gòu)建新的樣本。

2 實驗與結(jié)果分析

2.1 數(shù)據(jù)集描述及預處理

為更好地驗證經(jīng)過數(shù)據(jù)增廣的模型具有更高的準確率,本文選取兩個公開Benchmark的數(shù)據(jù)集,它們均來源于加州大學UCI公開數(shù)據(jù)庫,其中包括著名German、Australian兩個信用數(shù)據(jù)集,它們都是關于銀行信用卡個人用戶業(yè)務信息的數(shù)據(jù),如表1所示。

德國數(shù)據(jù)集共有樣本記錄1 000條,其中正類300,負類700,屬性數(shù)目共20個,其中數(shù)值型屬性7個,類別屬性13個。澳大利亞數(shù)據(jù)集共有樣本記錄690條,其中正類383,負類307,屬性數(shù)目共14個,其中數(shù)值型屬性8個,類別屬性6個。這兩個數(shù)據(jù)集的具體屬性信息如表2和表3所示,其中澳大利亞數(shù)據(jù)集公開貢獻者為了保護數(shù)據(jù)隱私,所有屬性名和值都被替換成一些沒有意義的變量。

在實際問題的數(shù)據(jù)集中經(jīng)常會出現(xiàn)缺失值的情況,而缺失值往往也會導致模型的準確率不高,因此在訓練原始數(shù)據(jù)集之前,需要對原始數(shù)據(jù)樣本進行數(shù)據(jù)預處理。首先,對原始數(shù)據(jù)集中嚴重缺失數(shù)據(jù)的樣本記錄予以剔除,對部分缺失數(shù)值型樣本采用均值填充方法,對分類型變量部分缺失數(shù)值的樣本記錄采用眾數(shù)填充的方法;其次,對所有分類型變量的數(shù)據(jù)進行編碼,本文采用的是OneHot編碼;最后,對所有數(shù)值型數(shù)據(jù)進行規(guī)范化處理,本文對數(shù)據(jù)采取極差標準化,如式(2)所示,其中[X]代表某屬性原始數(shù)據(jù),[Xmin]代表某屬性數(shù)據(jù)的最小值,[Xmax]代表某屬性數(shù)據(jù)的最大值,[X*]代表標準化后某屬性的數(shù)據(jù)。

2.3 實驗結(jié)果

為了驗證經(jīng)過數(shù)據(jù)增廣后的算法模型具有更好的性能,本文對德國個人信用數(shù)據(jù)集建立邏輯回歸、支持向量機、樸素貝葉斯、K近鄰、決策樹、隨機森林、極限梯度提升、梯度提升樹等8對算法模型,結(jié)果如表3所示。

由表3可以看出,在德國信用數(shù)據(jù)集上,除回歸(lr)、樸素貝葉斯(mnb)與數(shù)據(jù)增廣技術融合后的模型較原模型性能低外,其它6個融合模型都比原模型性能好,特別是k近鄰(knn)、決策樹(dtc)、隨機森林(rfc)、極限梯度提升(XGBoost)、梯度提升樹(GBDT)等融合后的模型在所有性能指標上都比原模型要高出不少,準確率平均高出6%左右。

由圖2可以看出,兩個ROC曲線凸出,也即在德國數(shù)據(jù)集上,經(jīng)過與數(shù)據(jù)增廣技術融合的算法性能都得到了顯著提升。

3 結(jié)語

隨著機器學習深度學習算法的不斷發(fā)展,個人信用評分也得到了巨大發(fā)展,但是面對眾多算法模型,算法模型側(cè)的升級換代已成為個人信用評分研究領域發(fā)展的瓶頸。本文參考視覺和自然語言處理領域的數(shù)據(jù)增廣思想,提出了一種數(shù)據(jù)增廣技術與算法相融合的思路。基于兩個公開信用數(shù)據(jù)集,對比8組機器學習算法模型實驗,結(jié)果顯示,采用融合數(shù)據(jù)增廣技術的算法顯著提高了個人信用評分模型的預測準確率及其它相應性能指標。在下一步工作中,將對信用數(shù)據(jù)增廣技術進行改進,研究改進后的數(shù)據(jù)增廣技術與機器學習算法相融合,以進一步提高個人信用評分模型性能。

參考文獻:

[1] 石慶焱,靳云匯. 多種個人信用評分模型在中國應用的比較研究[J]. 統(tǒng)計研究,2004(6):43-47.

[2] 劉峙廷. 我國P2P網(wǎng)絡信貸風險評估研究[D]. 南寧:廣西大學,2013.

[3] 秦宛順. ?一個基于Logistic回歸的個人信用評分模型[C]. 中國數(shù)量經(jīng)濟學會,2003.

[4] 李建平,徐偉宣,石勇. 基于主成分線性加權(quán)綜合評價的信用評分方法及應用[J]. 系統(tǒng)工程,2004(8):64-68.

[5] 金妍彥. ?遺傳規(guī)劃模型在我國個人信用評估中的應用研究[D]. 哈爾濱:哈爾濱工業(yè)大學,2006.

[6] 徐少鋒. FISHER判別分析在個人信用評估中的應用[J]. 統(tǒng)計與決策,2006(2):133-135.

[7] 王靜,王延清,何德權(quán). 基于多層前饋神經(jīng)網(wǎng)絡的個人信用評分模型[J]. 經(jīng)濟師,2004(12):20-21.

[8] 肖文兵,費奇,萬虎. 基于支持向量機的信用評估模型及風險評價[J]. 華中科技大學學報(自然科學版),2007(5):23-26.

[9] 蕭超武,蔡文學,黃曉宇,等. 基于隨機森林的個人信用評估模型研究及實證分析[J]. 管理現(xiàn)代化,2014,34(6):111-113.

[10] 朱兵,賀昌政,李慧媛. 基于遷移學習的客戶信用評估模型研究[J]. 運籌與管理,2015,24(2):201-207.

[11] 殷爽,姜明輝. 基于PSO的個人信用評估組合預測模型[J]. 經(jīng)濟研究導刊,2008(14):83-86.

[12] 朱毅峰,孫亞南. 精煉決策樹模型在個人信用評估中的應用[J]. 統(tǒng)計教育,2008(1):5-7.

[13] 向暉,楊勝剛. 個人信用評分關鍵技術研究的新進展[J]. 財經(jīng)理論與實踐,2011,32(4):20-24.

[14] 肖進,劉敦虎,顧新,等. 銀行客戶信用評估動態(tài)分類器集成選擇模型[J]. 管理科學學報,2015,18(3):114-126.

[15] 陳力,黃艷瑩,游德創(chuàng). 一種基于Boosting的集成學習算法在銀行個人信用評級中的應用[J]. 價值工程,2017,36(18):170-172.

[16] 盧海濤,吳磊,周建云,等. 基于Faster R-CNN及數(shù)據(jù)增廣的滿文文檔印章檢測[J]. 大連民族大學學報,2018,20(5):455-459.

[17] 蔣夢瑩,林小竹,柯巖. 基于優(yōu)化分類的數(shù)據(jù)增廣方法[J]. 計算機工程與設計,2018,39(11):3559-3563.

[18] 王鈺清,陸文凱,劉金林,等. 基于數(shù)據(jù)增廣和CNN的地震隨機噪聲壓制[J]. 地球物理學報,2019,62(1):421-433.

(責任編輯:孫 娟)

主站蜘蛛池模板: 人禽伦免费交视频网页播放| jizz在线免费播放| 一区二区午夜| 亚洲精品国产精品乱码不卞 | 久久午夜夜伦鲁鲁片无码免费| 538国产视频| 伦伦影院精品一区| 免费一级毛片不卡在线播放| 极品国产在线| 久久这里只精品国产99热8| 亚洲五月激情网| 亚洲第一成网站| 国内精品视频| 久久久久亚洲精品成人网| 午夜无码一区二区三区| 成年人福利视频| 亚洲愉拍一区二区精品| 日韩在线中文| 91精品免费久久久| 一本无码在线观看| a级毛片一区二区免费视频| 天天综合网色| 666精品国产精品亚洲| 国产成人精品2021欧美日韩| 国产精品天干天干在线观看| 激情影院内射美女| 欧美人与性动交a欧美精品| 亚洲AV无码乱码在线观看裸奔| 久久亚洲AⅤ无码精品午夜麻豆| 天天综合网站| 国产91高跟丝袜| 久久综合结合久久狠狠狠97色| 欧美日韩高清| 久久99国产精品成人欧美| 蝌蚪国产精品视频第一页| 亚洲一区二区在线无码| 97视频免费在线观看| 国产精品19p| 99久久国产综合精品女同| 日本国产精品一区久久久| 韩国自拍偷自拍亚洲精品| 国产精品免费p区| 极品av一区二区| 国产在线97| 91欧美在线| 亚洲免费福利视频| 凹凸国产分类在线观看| 国内精品视频| 国产麻豆另类AV| 91精品国产91久无码网站| 成人永久免费A∨一级在线播放| 日韩精品一区二区三区免费在线观看| 精品视频91| 亚洲第一页在线观看| 国产美女无遮挡免费视频网站| 色视频国产| 国产成人啪视频一区二区三区| 亚洲精品成人片在线播放| 日韩a在线观看免费观看| 色天堂无毒不卡| 在线日韩日本国产亚洲| 久久精品丝袜高跟鞋| 国产日韩欧美中文| 在线看免费无码av天堂的| 国产性爱网站| 在线观看亚洲国产| 亚洲看片网| 免费看黄片一区二区三区| 色婷婷亚洲综合五月| 67194亚洲无码| 9966国产精品视频| 国产亚洲精品无码专| 91国内外精品自在线播放| 婷婷色婷婷| a色毛片免费视频| 亚洲三级a| 一级毛片视频免费| 亚洲国产精品日韩av专区| 国产伦精品一区二区三区视频优播| 亚洲人在线| 黄色免费在线网址| 人人91人人澡人人妻人人爽|