999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于決策樹模型的信用風險等級預測

2022-08-24 03:39:04游杰蘚重慶理工大學
品牌研究 2022年23期
關鍵詞:分類模型

文/游杰蘚(重慶理工大學)

一、引言

現在人們在外面借共享充電寶、騎共享單車、支付寶的花唄等,都是基于一個人的信用,可以說信用現在已經影響到我們生活的方方面面,而且對企業和個人的信用預測是金融領域的主要研究問題。中國的銀行等金融機構也正在面臨著互聯網金融的挑戰,如某東的白條、一些*唄、一些*粒貸等。因此,對信用等級的預測也引起了金融機構從業人員的極大興趣,對信用等級預測準確率的提高是當前金融領域亟待解決的問題。

以前一些專家對信用的評價主要是用一些傳統的統計方法,例如根據人們以往的收入、工作、家庭等情況來判斷一個人的信用等級,其最大的優點是有清晰的解釋性,但缺點是前提條件非常嚴格,且其結果往往帶有主觀性,數據也有滯后性和不及時性。而現在利用機器學習算法模型進行建模預測信用的方法已獲得了廣泛的應用。在機器學習算法模型中,決策樹是最常用的算法模型之一。

在互聯網技術發展迅速的時代,利用人工智能去處理大量的數據已經成了現在的主流。而機器學習作為人工智能的核心,已經受到了廣泛的關注。本文運用機器學習的五種模型分別對四個國家的人們的以前數據進行信用預測,以選出最優方法。

二、相關工作

由于互聯網的發展,機器學習的模型算法已被廣泛運用到對信用風險、信用等級的預測上,目前已經取得了不錯的效果。方匡南等人使用Lassologistic進行指標的篩選、構建個人信用風險評估模型,提高了信用風險預警的效果。沈翠華和高萬林(2004)利用SVM對企業信用等級鏡像分析[5]。Hui-Chung Yeh(2007)運用決策樹、神經網絡以及判別分析方法進行信用評估時得出決策樹分類準確率最高,線性判別分析準確率最低的結論。鄭也夫、徐軍等(2012)對60家上市公司與75家非上市公司,通過機器學習的一些模型進行比較研究,得出決策樹的算法在上市公司信用風險評估中效果最好的結論。

在決策樹運用的其他研究方面,張凱、丁波等人采用決策樹算法構建了預測成人學位英語考試成績的分類模型,其預測準確率為81%。王聯英等人將決策樹算法用在人力資源推薦方面,以此提升招聘平臺的人力資源推薦質量。

此外,已經有越來越多的企業都建立了自己的信用評分體系,如*巴的“芝麻信用”、*訊的“*信用”等。

綜上,目前已有大量學者和企業在研究采用機器學習算法進行信用等級預測,總結出了一些最優算法模型。

三、模型介紹

(一)實驗模型結構

大數據個人征信是指將云計算、大數據分析等新技術運用到個人征信系統的信用評估和數據預測等環節,通過對個人可變的信用數據進行不斷地采集而實現動態的信用分析。

本文通過決策樹的構造算法及應該以怎樣的順序來選取實例的屬性進行擴展予以說明,并分析了其他幾種模型算法的優缺點,以得出信用等級預測結果準確率相對較好的模型。

(二)DECISION TREE 決策樹

1.概述

DECISION TREE算法是從機器學習領域中逐漸發展起來的,它采用了從最頂向下的遞歸方式來構造決策樹。最早的決策樹算法是概念學習系統,之后的許多決策樹算法基本是概念學習系統衍生而來的。如今,利用DECISION TREE算法對數據進行分類得到了深入的研究。由此,在決策樹的基礎上又形成了越來越多的生成算法。

2.決策樹的構造算法

假設如下:給定訓練集TR,分類對象的屬性表AttrList為[A1,A2,A3,……,An],全部分類結果構成的集合為Class,表示為{C1,C2,C3,……,Cm},一般n≥1和m≥2。對每一屬性Ai,其值域為ValueType(Ai),值域可以是離散的,也可以是連續的。這樣決策樹TR的元素就可表示成的形 式,其 中X=(a1,a2,a3,……,an),ai對應于實例地i個屬性的取值,C∈Class為實例X的分類結果。

輸入:訓練集TR={特征向量Xn,分類結果Cn}Nn=1,屬性列表AttrList

輸出:以屬性Ai為根節點的決策樹

(1)從屬性表中選擇某一屬性Ai作為檢測屬性。

(2)根據Ai取值的不同,將TR劃分為k個訓練集TR1,TR2,TR3,……, TRk,其 中,TRj={|∈TR且V(X,Ai)為屬性Ai的第j個值}。

(3)從屬性表中扣除已做檢測的屬性Ai。

(4)對每一個j,用TRj和新的屬性表遞歸調用CLS以生成字分支決策樹DTRi。

(5)返回以屬性Ai為根,DTR1,DTR2,DTR3,……,DTRk為子樹的決策樹。

3.屬性的選取方法-信息熵

屬性的重要性不同,選取方法不同,對樹的構造及結果的準確率往往是不同的,以下是屬性的選擇方法:

(1)信息熵:

(2)信息增益Gain:Coin(S,A)

(三)SVM(Support Vector Machine)支持向量機

支持向量機是在監督學習中最有影響力的方法之一。SVM輸出的僅僅是樣本的類別,且SVM最重要的創新是核函數。

(四)KNN(K-Nearest Neighbor)K-最近鄰

K近鄰算法是一種統計分類器,于1968年提出,是最簡單的有監督的機器算法之一,對包容性數據的特征變量篩選特別有效。

(五)NAIVE BAYES樸素貝葉斯

貝葉斯定理是英國數學家貝葉斯發明的,它主要描述了兩個概率之間關系的定理。因為它的應用廣泛性和良好統計推斷性質,被越來越多地應用于各個領域,成為現代統計學的重要分支。

(六)CNN(Convolutional Neural Network)卷積神經網絡

卷積的目的在于將某些特征從圖像中提取出來,就像視覺系統去辨識有方向性的物體邊緣。卷積神經網絡是受視覺神經機制的啟發而設計的一種特殊的深層神經網絡模型。

四、實驗結果

我們用以上五種模型分別預測了四個不同國家的人們信用數據集。

(一)評價標準

(1)準確率(ACC):指使用測試集對模型進行分類時,分類正確的記錄個數占總記錄個數的比例:

TP(True positives):被正確地劃分為正例的個數;TN(True negatives):被正確地劃分為負例的個數;FP(False positive):被錯誤地劃分為正例的個數;FN(False negative):被錯誤地劃分為負例的個數。

(2)F1分數(F1 Score),F1分數能看作是模型精確率和召回率的一種加權平均,它的最大值是1,最小值是0。

Precision,即精度是精確性的度量,表示被分為正例的示例中實際為正例的比例。

Recall,即召回率是覆蓋面的度量,度量有多個正例被分為正例。

表2 以F1分數為標準的Chinese Credit Approval Data Set

表3 以準確率(ACC)為標準的Japanese Credit Screening Data Set

表4 以F1-score為標準的Japanese Credit Screening Data Set

表5 以準確率(ACC)為標準的Statlog (Australian Credit Approval) Data Set

(二)結果

表1至表8是用五種模型得出的四個國家的人們信用等級預測,分別用了ACC和F1-score評價標準,五種機器學習算法模型的準確率如表1-8所示。

表1 以準確率(ACC)為標準的Chinese Credit Approval Data Set

表8 以F1-score為標準的Statlog (German Credit Data) Data Set

五、實驗分析

實驗分別運用機器學習的五種模型對四個不同國家的個人信用進行預測。首先運用支持向量機、K-最近鄰、樸素貝葉斯、決策樹、卷積神經網絡五種不同的算法對數據集進行訓練,以便記住相關指標和模型對分類準確度的貢獻率,為測試集中的試驗做準備。

從表中的數據總體可以看出,無論是對哪一個國家的信用等級預測,用卷積網絡模型(CNN)對人的信用預測所得出的結果的準確率都是最低的,這是因為CNN具有的缺點;另外是卷積神經網絡目前廣泛應用于圖像處理領域,對圖像進行領域間采樣,在數據挖掘方面不如其他幾種算法模型。

而支持向量機、K-最近鄰、樸素貝葉斯的預測結果的準確率相差不大,但預測結果的準確率都不如決策樹高。相較于CNN,SVM能利用有限的訓練數據信息,力圖在模型的學習能力與其復雜性之間取得較好的折中;但是SVM對于無法直接輸入又含有一定結構信息的結構化數據不能直接解決。

表6 以F1-score為標準的Statlog (Australian Credit Approval) Data Set

表7 以準確率(ACC)為標準的Statlog (German Credit Data) Data Set

K-最近鄰(KNN)模型與其他算法不同的是,它不僅可以解決二分類場景的問題,并且也可以解決多分類的問題;但當樣本量很大時,很大一部分點附近沒有樣本點,這就使利用空間中的每一附近的樣本點來構造預估的近鄰法就非常難以運用。

樸素貝葉斯(Naive Bayes)在預測結果的準確率上雖然比CNN高,但當屬性個數較多或屬性之間相關性較大時,它的分類效率不如決策樹模型,對樸素貝葉斯分類的準確性有影響。

從得出的實驗結果總體看來,DECISION TREE算法模型在這五種模型中,對信用預測結果的準確率是最高的,因為決策樹能夠提取規則,構建一棵決策樹;除此之外,決策樹僅通過少量比較就能找到樹葉,空間復雜度非常小,這使得該算法模型中的條件很簡單,易于理解。

六、總結

本文基于機器學習的幾種模型建模,并用真實數據集進行信用等級準確率的預測分析,最終選擇出來的決策樹算法模型在預測數據的準確率上表現良好,在實際運用中具有一定的研究意義。但在現實生活中,其問題的復雜程度要大得多,因此,其對信用預測的建模方法有待進一步優化。

猜你喜歡
分類模型
一半模型
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 亚洲精品福利网站| 色婷婷狠狠干| 天堂岛国av无码免费无禁网站 | 性视频一区| 成年av福利永久免费观看| 欧美日韩一区二区在线免费观看| 国产日韩欧美在线播放| 亚洲国产系列| 国产91视频免费观看| 国产女人在线视频| 日本三级黄在线观看| 国内精品伊人久久久久7777人| 好久久免费视频高清| 亚洲国产日韩在线观看| 伊人色综合久久天天| 欧美不卡二区| 亚洲久悠悠色悠在线播放| 中文一区二区视频| 亚洲综合色区在线播放2019| 国产激情无码一区二区三区免费| 国产成人精品视频一区二区电影| 国产精品夜夜嗨视频免费视频| 国产麻豆另类AV| 狼友视频一区二区三区| 亚洲va在线∨a天堂va欧美va| 永久成人无码激情视频免费| 日本亚洲欧美在线| 久久青青草原亚洲av无码| 国产精品成人第一区| 欧美一级高清片欧美国产欧美| 爆乳熟妇一区二区三区| 无码久看视频| 亚洲a级在线观看| 国产成人精品在线1区| 在线观看国产小视频| 精品国产福利在线| 不卡无码h在线观看| 午夜a级毛片| 直接黄91麻豆网站| 亚洲第一在线播放| 国产极品粉嫩小泬免费看| 2021国产精品自产拍在线| 亚洲第一精品福利| 日本日韩欧美| 国产精品视频猛进猛出| 久久香蕉国产线看精品| 中文无码日韩精品| 久久黄色视频影| 国产女同自拍视频| 国产视频只有无码精品| 精品无码国产一区二区三区AV| 免费一级α片在线观看| 亚洲成AV人手机在线观看网站| 女人18一级毛片免费观看| 青青草原国产精品啪啪视频| a网站在线观看| 国产成a人片在线播放| 成年人国产网站| a毛片免费在线观看| 一级一级特黄女人精品毛片| 91丨九色丨首页在线播放| 国产三区二区| 国产高清自拍视频| 狠狠ⅴ日韩v欧美v天堂| 午夜精品久久久久久久无码软件| 91久久偷偷做嫩草影院| 国产美女叼嘿视频免费看| 国产成人精品日本亚洲77美色| 美女裸体18禁网站| 免费欧美一级| 手机永久AV在线播放| 亚洲第一黄片大全| 欧美精品亚洲精品日韩专区| 久久国产精品77777| 欧美国产中文| 日韩午夜福利在线观看| 国产精品白浆无码流出在线看| 国产精品久久久久久久伊一| 久久久久亚洲精品成人网 | 国产福利微拍精品一区二区| 中文字幕资源站| 风韵丰满熟妇啪啪区老熟熟女|