999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

Logistic模型與決策樹在定性數據分析中的效果分析

2015-04-29 00:00:00李英娟
企業文化·下旬刊 2015年11期

摘 要:在對因變量為定性變量的的回歸分析中,傳統的方法包括Logistic回歸模型、Probit模型等廣義線性模型,同時,在機器學習法中也產生了諸如決策樹回歸、支持向量機等方法,此類方法的優點在于可以處理任意類型的數據以及在短時間類處理大型數據源。本文的目的在于面對定性變量的回歸分析中,比較傳統模型(以Logistic模型為例)與機器學習法(以決策樹為例)兩者的優劣。

關鍵詞:Logistic回歸模型;機器學習法;決策樹回歸;R軟件

一、Logistic模型

Logistic回歸(logistic regression)是研究因變量為二分類觀測結果與影響因素(自變量)之間關系的一種多變量分析方法,屬概率型非線性回歸。一般Logistic模型為:

其中p為事件發生的概率。

Logistic回歸參數的估計通常采用最大似然法。最大似然法的基本思想是先建立似然函數與對數似然函數,再通過使對數似然函數最大求解相應的參數值,所得到的估計值為參數的最大似然估計值。最大似然估計具有的一致性、有效性和正態性都是一些很好的統計性質,樣本數據越大時其估計值就越準確。

由于Logistic回歸模型就是基于二項分布族的廣義線性模型,因此在R軟件中,Logistic回歸分析可以通過調用廣義線性回歸模型函數glm()來實現。

二、決策樹回歸模型

機器學習中,決策樹是一個預測模型;它代表的是對象屬性與對象值之間的一種映射關系。樹中每個節點表示某個對象,而每個分叉路徑則代表的某個可能的屬性值,而每個葉結點則對應從根節點到該葉節點所經歷的路徑所表示的對象的值。決策樹僅有單一輸出,若欲有復數輸出,可以建立獨立的決策樹以處理不同輸出。 數據挖掘中決策樹是一種經常要用到的技術,可以用于分析數據,同樣也可以用來作預測。

決策樹分析主要有兩種,一種為分類樹分析,它是當預計結果可能為離散類型(例如三個種類的花,輸贏等)使用的概念;另一種為回歸樹分析,它是是當預計結果可能為實數(例如房價,患者住院時間等)使用的概念。

三、兩種模型效果比較的實證分析

下面采用愛爾蘭教育水平數據來檢測logistic模型與決策樹模型在對含有名義變量的回歸中的效果,本數據來自http://lib.stat.cmu.edu/datasets/irish.ed

(一)數據說明

該數據包括500個樣本,六個變量,變量分別為:

變量1為性別,以V1表示;變量2為一項測試的得分,以V2表示;變量3為獲得的教育水平,以V3表示;變量4表示是否獲得畢業證書,其中1表示否,2表示是,以V4表示;變量5表示被調查者的職業社會地位得分,以V5表示;變量6表示學校類型,以V6表示。

其中變量2、變量5為定量變量,而變量1、變量3、變量4、變量6為定性變量,這里對變量4作回歸分析,即建立是否獲得畢業證書的回歸模型,顯然,這里的變量4即V4為二元變量,回歸模型適合用logistic模型以及決策樹來建立。下面分別用R軟件建立logistic模型與決策樹模型。

(二)數據預處理

這里的預處理包括對數據缺失值的處理以及對某些變量的合并。

可以看到在V3及V5中出現了最小值0,顯然V3與V5數據中出現了缺失值。對數據缺失采用R軟件中的missForest進行處理。

對missForest處理后的數據作缺失值檢測,顯示缺失值為0,缺失值處理成功。

下面對處理后的新數據檢測是否有做合并處理的必要,數據合并是對某些對因變量相關性很強的變量內部值作合并處理,這一點在作logistic回歸中影響不大,但在作決策樹回歸時會由于變量相關性太強容易導致數據不能充分利用。下面嘗試對V4作決策樹:

顯然,以V3作決策變量時,對V4的判定相當完美,可以說V3與V4是等同的,意味著在作決策樹回歸時產生了“過擬合”現象,即在樣本內擬合相當完美,但在樣本外擬合效果會很差。在盡量不刪除變量的原則下,對V3中的11個水平數作一些合并,具體合并原則為:將未完成當前學制的(原類2、類3、類6、類7、類10)歸為類2,完成當前學制的(原類4、類5、類8、類9、類11)歸為類3,原類1任為類1,這樣合并以后的V3只有3個水平。

(三)建立Logistic回歸模型

R軟件中通過glm函數直接建立logistic回歸模型,另外這里采用逐步回歸,回歸結果如下

其中,V1在逐步回歸中被淘汰,由于V4的水平數分別為1和2,在進行回歸時,使之變為0-1變量,最后納入回歸模型的因變量為V4-1,得到的回歸模型為

這里對的擬合結果給每一個觀測值一個概率值,這里以0.5為分類界限,并檢驗錯判概率。

一共有83個觀測值被錯分,誤判率為0.166。

(四)決策樹回歸

同樣的,R軟件中可以用rpart函數直接給出決策樹回歸結果,運行結果及決策樹如下

同時,也可以得到決策樹效果圖

下面檢測決策分類法的錯分概率

一共有74個觀測值錯分,錯分概率為0.148。

四、結論

由以上分析可看出,在對含有定性變量的回歸分析中,同時因變量為二元變量時,logistic回歸模型仍然是一個好的選擇,錯判概率在一個很低的水平。而決策樹作為分類模型是個更好的選擇,錯判率比logistic回歸模型的效果更好,即上圖所示logistic回歸模型的錯判率為0.166而決策樹分類模型的錯判率為0.148。

參考文獻:

[1]王濟川,郭志剛.Logistic回歸模型——方法與應用[M].高等教育出版社,2001.

[2]湯銀才.R語言與統計分析[M].高等教育出版社,2008.

[3]呂曉玲,謝邦昌.數據挖掘:方法與應用[M].中國人民大學出版社,2009.

[4]吳喜之,復雜數據統計方法——基于R的應用[M].中國人民大學出版社,2012.

主站蜘蛛池模板: 人禽伦免费交视频网页播放| 国产精品无码作爱| 中文字幕在线看| 欧洲一区二区三区无码| 久无码久无码av无码| 香蕉久久国产超碰青草| 亚洲无码视频喷水| 亚洲精品在线91| 亚洲V日韩V无码一区二区| 波多野结衣在线se| 国产亚洲美日韩AV中文字幕无码成人| 91毛片网| 亚洲AV无码精品无码久久蜜桃| 岛国精品一区免费视频在线观看| 成人在线第一页| 久久www视频| 国产精品护士| 久久黄色小视频| 中文字幕一区二区人妻电影| 亚洲第一中文字幕| 激情六月丁香婷婷四房播| 理论片一区| 欧美va亚洲va香蕉在线| 国产精品xxx| 亚洲第一中文字幕| 日韩欧美国产中文| 精品1区2区3区| 伊人久久大香线蕉综合影视| 激情无码字幕综合| 欧美亚洲国产日韩电影在线| 高潮毛片无遮挡高清视频播放| 亚洲女同一区二区| 国产性爱网站| 久久久久久尹人网香蕉| 亚洲综合18p| 中文纯内无码H| 超薄丝袜足j国产在线视频| 久久综合色视频| 99在线视频免费| 一级毛片不卡片免费观看| 国产一线在线| 爱色欧美亚洲综合图区| 五月激情综合网| 久青草免费在线视频| 一区二区理伦视频| 一区二区自拍| 欧美综合成人| 中文字幕第4页| 一级毛片在线免费看| 精品一区二区三区视频免费观看| 免费在线一区| 国产精品自拍合集| 久久这里只有精品2| 亚洲视频三级| 亚洲无码37.| 中文字幕日韩欧美| 精品久久久久无码| 在线观看国产网址你懂的| 国产欧美高清| 国产精品黑色丝袜的老师| 人妻一区二区三区无码精品一区 | 亚洲婷婷丁香| 国产激情无码一区二区免费| 亚洲中文字幕精品| 亚洲综合18p| 日韩中文字幕亚洲无线码| 亚洲欧美另类色图| 欧美在线综合视频| 精品一区二区无码av| 波多野结衣中文字幕久久| 亚洲成人精品在线| 成AV人片一区二区三区久久| 亚洲日韩精品欧美中文字幕| 国产手机在线小视频免费观看| 国产激情第一页| 波多野一区| 57pao国产成视频免费播放| 无码国内精品人妻少妇蜜桃视频 | 一级黄色欧美| 亚洲国产中文综合专区在| 亚洲成A人V欧美综合| 国产成人高清精品免费软件|