999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

主成分分析對(duì)決策樹算法精度的影響

2019-01-16 05:38:39武君
科技經(jīng)濟(jì)市場 2019年11期

武君

摘 要:本文使用風(fēng)投企業(yè)風(fēng)險(xiǎn)識(shí)別案例,用四種決策樹算法,對(duì)比了提取主成分前后算法精度的變化。結(jié)果表明,提取主要成分后,四種算法中只有C5.0算法的精度獲得了提高,而其他三種算法提取主成分后的精度反而有所下降,并且C5.0算法在未提取主成分時(shí)的精度已高于其他三種算法,可見在風(fēng)險(xiǎn)識(shí)別案例中先提取主成分再使用C5.0算法后精度較其他三種算法高。

關(guān)鍵詞:風(fēng)險(xiǎn)識(shí)別;主成分分析;決策樹算法

0 引言

數(shù)據(jù)挖掘中比較熱門的就是分類算法的研究,而決策樹算法是分類算法中最重要的。常見的決策樹算法有四種:CART、C5.0、CHAID和QUEST。每種算法針對(duì)不同的數(shù)據(jù)類型,精度也不同。如何提升算法的預(yù)測(cè)精度,是許多學(xué)者都嘗試解決的問題。有些使用集成學(xué)習(xí)算法,如boosting,Bagging,如趙敏等(2007)[1]研究Adaboost算法在決策樹中的應(yīng)用,劉余霞等(2012)[2]使用Bagging集成學(xué)習(xí)研究字符識(shí)別,李詒靖等(2016)[3]使用boosting算法解決分類問題。有些將決策樹和其他模型結(jié)合在一起,如顧雨等(2010)[4]、張俊深等(2016)[5],都是將多種方法用于分類和預(yù)測(cè)。另一種提高精度的方法是在數(shù)據(jù)分析前將主成分分析法引入,先提取主要成分,然后做決策樹分析。本文基于創(chuàng)業(yè)企業(yè)風(fēng)險(xiǎn)識(shí)別數(shù)據(jù),從實(shí)證方面研究主成分分析對(duì)決策樹算法精度的影響。

1 理論基礎(chǔ)

1.1 CART算法

CART算法即分類與回歸樹,它包含了分類樹和回歸樹,分類樹用于目標(biāo)變量是分類型的,回歸樹用于目標(biāo)變量是連續(xù)型的。CART的生長是二叉樹,如果目標(biāo)變量是分類型,則以Gini系數(shù)來確認(rèn)分割點(diǎn),如果目標(biāo)變量是數(shù)值型,則以方差來確認(rèn)分割點(diǎn)。

1.2 C5.0算法

C5.0是經(jīng)典的決策樹模型算法之一,可生成多分支的決策樹,目標(biāo)變量為分類型變量,使用C5.0算法可以生成決策樹或者規(guī)則集。

1.3 CHAID算法

CHAID算法其核心思想是根據(jù)給定的目標(biāo)變量和解釋變量對(duì)樣本進(jìn)行最優(yōu)分割。利用卡方自動(dòng)交互檢測(cè)法可以快速、有效地挖掘出主要影響因素,它不僅可以處理非線性和高度相關(guān)的數(shù)據(jù),而且還可以將缺失值考慮在內(nèi)。

1.4 QUEST算法

QUEST算法是二叉樹算法。它通過將判別坐標(biāo)分配給預(yù)測(cè)變量類別,將分類變量轉(zhuǎn)換為連續(xù)變量,然后利用二次判別分析QDA來確定分割點(diǎn)。QUEST樹算法的一個(gè)優(yōu)點(diǎn)是它是無偏的,不像CART算法那樣偏向于選擇允許更多分裂的分裂變量以及缺失值更多的分裂變量。

2 實(shí)證分析

2.1 數(shù)據(jù)來源及描述

本文研究數(shù)據(jù)來自某風(fēng)投公司提供的所投資創(chuàng)業(yè)企業(yè)數(shù)據(jù)。風(fēng)險(xiǎn)投資是風(fēng)投公司為創(chuàng)業(yè)企業(yè)提供的投資服務(wù),一段時(shí)期后,創(chuàng)業(yè)企業(yè)將面臨成功或失敗兩種可能,風(fēng)投企業(yè)進(jìn)行的風(fēng)險(xiǎn)識(shí)別是將創(chuàng)業(yè)成功與否的離散變量作為因變量,企業(yè)創(chuàng)業(yè)因素作為自變量,進(jìn)行決策樹分析判斷,進(jìn)而研究創(chuàng)業(yè)成功與否的影響因素。

2.1.1 指標(biāo)匯總

對(duì)風(fēng)投公司提供的數(shù)據(jù)脫敏、預(yù)處理后,整理指標(biāo)如下表。

2.1.2 基本描述

剔除缺失值、無效數(shù)據(jù)后,得樣本總量209,正樣本99,負(fù)樣本110。

2.2 主成分提取

2.2.1 KMO檢驗(yàn)

對(duì)數(shù)據(jù)計(jì)算KMO檢驗(yàn)得到如下結(jié)果。

2.2.2 提取主成分

主要成分解釋總方差表如下表。

根據(jù)結(jié)果提取數(shù)據(jù)10個(gè)主要成分,主要成分占原始信息的69.830%。

2.3 實(shí)證結(jié)果對(duì)比

首先對(duì)未提取主成分的原始數(shù)據(jù)分別做CART、C5.0、CHAID和QUEST的決策樹運(yùn)算,再對(duì)提取了主成分的數(shù)據(jù)進(jìn)行上述四種決策樹算法,其結(jié)果對(duì)比

如下。

分析結(jié)果可得:

第一,與未提取主成分相比,提取主成分后四種算法中,只有C5.0算法的精度獲得了提高;而其他三種算法,提取主成分后的精度反而有所下降。

第二,從上述8個(gè)結(jié)果中可以看出,C5.0算法在未提取主成分時(shí)的精度已高于其他三種算法,可見在該案例中先提取主成分再使用C5.0算法后精度較其他三種算法高。

3 結(jié)論

本文使用風(fēng)投企業(yè)投資成功與否案例,利用四種決策樹算法,對(duì)比了提取主成分前后,算法精度的變化。結(jié)果表明,提取主要成分后,四種算法中只有C5.0算法的精度獲得了提高,而其他三種算法提取主成分后的精度反而有所下降,并且C5.0算法在未提取主成分時(shí)的精度已高于其他三種算法,可見在該案例中先提取主成分再使用C5.0算法后精度較其他三種算法高。

參考文獻(xiàn):

[1]趙敏,陳恩紅,宋睿.基于集成學(xué)習(xí)的Adaboost演化決策樹算法[J].計(jì)算機(jī)應(yīng)用與軟件,2007(03):1-2+21.

[2]劉余霞,呂虹,胡濤,孫小虎.基于Bagging集成學(xué)習(xí)的字符識(shí)別方法[J].計(jì)算機(jī)工程與應(yīng)用,2012,48(33):194-196+211.

[3]李詒靖,郭海湘,李亞楠,劉曉.一種基于Boosting的集成學(xué)習(xí)算法在不均衡數(shù)據(jù)中的分類[J].系統(tǒng)工程理論與實(shí)踐,2016,36(01): 189-199.

[4]顧雨,徐廣軍,夏訓(xùn)峰,席北斗,周素霞.基于最優(yōu)組合預(yù)測(cè)模型的中國工業(yè)固體廢物產(chǎn)生量預(yù)測(cè)[J].環(huán)境污染與防治,2010,32(05): 89-91+109.

[5]張俊深,袁程煒.基于BP神經(jīng)網(wǎng)絡(luò)與修正GM(1,1)模型的能源消費(fèi)組合預(yù)測(cè)[J].統(tǒng)計(jì)與決策,2016(05):90-93.

[6]劉敏,趙璟,薛偉賢.“一帶一路”產(chǎn)能合作與發(fā)展中國家全球價(jià)值鏈地位提升[J].國際經(jīng)貿(mào)探索,2018,34(08):49-62.

主站蜘蛛池模板: 毛片手机在线看| 丝袜国产一区| 99视频在线看| 免费Aⅴ片在线观看蜜芽Tⅴ| 国产夜色视频| 欧美成a人片在线观看| 91麻豆久久久| 欧美精品一区在线看| 亚洲久悠悠色悠在线播放| 亚洲天堂免费观看| 成人午夜在线播放| 九一九色国产| 国产18在线| 91成人在线观看视频| 丁香六月激情综合| 国产美女一级毛片| 久草青青在线视频| 久久精品中文字幕免费| 亚洲开心婷婷中文字幕| 国产午夜不卡| 黄色福利在线| 无码区日韩专区免费系列 | 国产波多野结衣中文在线播放| 高h视频在线| 在线精品自拍| 欧美亚洲国产日韩电影在线| 人妻21p大胆| 99久久精品免费视频| 在线看国产精品| 亚洲AV成人一区国产精品| 国产精品永久免费嫩草研究院| 日韩在线视频网站| www.精品视频| 欧美激情网址| 亚洲精品免费网站| 青青青国产精品国产精品美女| 日韩黄色精品| 麻豆国产在线观看一区二区| 中文成人无码国产亚洲| 亚洲aaa视频| 欧美色亚洲| 黄色成年视频| 日韩 欧美 小说 综合网 另类| 亚洲国产天堂久久九九九| 国产欧美日韩视频怡春院| 国产区在线观看视频| 乱系列中文字幕在线视频| 最新精品久久精品| 亚洲高清中文字幕| 无码人妻热线精品视频| 1024你懂的国产精品| 在线观看的黄网| 国产成人综合网| 亚洲国产精品无码AV| 国产精品播放| 亚洲日本中文字幕乱码中文 | 久久久久国产精品熟女影院| 国产成人精品2021欧美日韩| 精品久久久无码专区中文字幕| 精品一區二區久久久久久久網站 | 精品色综合| 国产手机在线ΑⅤ片无码观看| 久久精品无码中文字幕| 国产三级a| 亚洲区一区| 国产浮力第一页永久地址| 六月婷婷激情综合| 国产日韩欧美精品区性色| 综合人妻久久一区二区精品 | 欧美区一区二区三| 国产精品无码在线看| a亚洲视频| 国产福利观看| 国产精品无码在线看| 国产va在线观看| 狠狠色婷婷丁香综合久久韩国| 四虎精品国产AV二区| 免费人成网站在线观看欧美| 免费人成视网站在线不卡| 毛片基地美国正在播放亚洲 | 国内精品自在欧美一区| 女人一级毛片|