999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

半?yún)?shù)方法在缺失數(shù)據(jù)中的研究及應(yīng)用

2019-03-01 08:17:16樊思敏施三支翟芳慧
關(guān)鍵詞:機(jī)制方法

樊思敏,施三支,翟芳慧

(長春理工大學(xué) 理學(xué)院,長春 1300222)

在現(xiàn)實應(yīng)用中,由于人為、機(jī)械等因素,數(shù)據(jù)缺失比較普遍。數(shù)據(jù)缺失造成的部分信息丟失,在不同程度上影響統(tǒng)計推斷,導(dǎo)致得出結(jié)果存在一定的失真。數(shù)據(jù)缺失的處理研究引起了更多的關(guān)注。從缺失數(shù)據(jù)的缺失值排列方式來看,數(shù)據(jù)缺失可分為單調(diào)缺失和非單調(diào)缺失。從缺失數(shù)據(jù)的缺失影響因素來看,分為隨機(jī)缺失(MAR)、非隨機(jī)缺失(NMAR)和完全隨機(jī)缺失(MCAR),缺失機(jī)制概念及三種缺失機(jī)制由 Rubin(1976)[1]提出。非隨機(jī)依賴完全觀測變量時,也可稱為不可忽略機(jī)制(NI)。在不可忽視機(jī)制的基礎(chǔ)上,由Samiran Sinha等(2014)[2]提出了NI-機(jī)制。本文主要討論隨機(jī)缺失下的非單調(diào)缺失情況。

缺失數(shù)據(jù)加大了數(shù)據(jù)分析和挖掘的困難程度,提高了分析結(jié)果的偏差。最簡單的方式是刪除帶有缺失項的樣本,即完全數(shù)據(jù)分析(CC)。樣本量缺失項較少時,CC帶來的偏差較少,當(dāng)缺失項較多時,由于一部分的數(shù)據(jù)信息缺失,CC方法的偏差很大。為糾正由缺失數(shù)據(jù)導(dǎo)致的結(jié)論偏倚,缺失數(shù)據(jù)處理方法相繼被提出。Horvitz和Thompson(1952)[3]最先提出了逆概率加權(quán)方法。Rubin和Laird(1977)[4]提出了用于處理缺失數(shù)據(jù)的EM算法。Zhao(1994)[5]提出了一類在MAR機(jī)制下的逆概率加權(quán)方法。Chen等(1999)[6]提出了一種用EM算法的全似然方法。Robins(2000)[7]提出了一種基于逆概率加權(quán)的改進(jìn)方法,即逆概率刪失加權(quán)法(IPCW)。Ibrahim,Chen(2004)[8]在不同缺失機(jī)制情況下,把半?yún)?shù)方法應(yīng)用到多缺失協(xié)變量上。Samiran Sinha、Wang S.J和K.Saha(2014)[2]將半?yún)?shù)方法與NI-機(jī)制結(jié)合,應(yīng)用到多變量缺失中。Jiwei Zhao和Jun Shao(2015)[9]基于不可忽視(NI)機(jī)制下提出了一種半?yún)?shù)似然方法。

本文對完全數(shù)據(jù)進(jìn)行隨機(jī)缺失,在隨機(jī)缺失的背景下,使用了Samiran Sinha、Wang S.J和K.Saha(2014)[2]相似的半?yún)?shù)方法處理來達(dá)到估計Logistic模型中參數(shù)的目的,并與單一均值插補(bǔ)、多重插補(bǔ)和EM算法進(jìn)行了比較分析。

1 半?yún)?shù)方法

記Y為因變量,X為帶有缺失數(shù)據(jù)的自變量,Z為完全數(shù)據(jù)自變量,設(shè)定缺失自變量為2維的情況,樣本量為h,數(shù)據(jù)類型為離散型。示性函數(shù)為I,當(dāng)數(shù)據(jù)可觀測時,示性函數(shù)為1,不可觀測為0。

設(shè)Xij(i=1,2,…,h;j=1,2)表示為第i行第j列的觀測值,Xi(-j)則表示為此觀測值缺失。本文關(guān)注數(shù)據(jù)缺失的隨機(jī)缺失,即缺失的數(shù)據(jù)與完全數(shù)據(jù)相關(guān),假設(shè)缺失機(jī)制的選擇概率為π,有:

設(shè)回歸模型為g(Y|θ,Z,X),θ為模型的參數(shù)。則似然函數(shù)為:

對上述似然函數(shù)取對數(shù),對參數(shù)求導(dǎo),得到得分函數(shù)如下:

其中,S=?log(g(Y|θ,Z,X))/?θ,ki,m(P)=g(Yi|θ,Zi,Xi)*P*f(Xir|Xi(-m),Zi)。

m的取值為1,2,12。P為相應(yīng)的缺失選擇概率,f(Xim|Xi(-m),Zi)為缺失項Xi(-m)的條件分布。由于缺失變量的條件分布未知,根據(jù)Chatterjee.N、Chen.Y.-H.和 Breslow.N.E(2003)[10]的理論可知:

當(dāng)Ii1=Ii2=1,Ii=1。將得到的估計值代入得分函數(shù),產(chǎn)生新的得分函數(shù)。對得分函數(shù)求導(dǎo),得出目標(biāo)參數(shù)θ。

與文獻(xiàn)中不同的是,Samiran Sinha、Wang S.J和 K.Saha(2014)[2]在似然方程中與NI-機(jī)制結(jié)合,文中的應(yīng)用數(shù)據(jù)模擬時進(jìn)行隨機(jī)缺失,故而在MAR的背景下,將似然函數(shù)方程(2)中缺失機(jī)制的選擇概率設(shè)置為與MAR相對應(yīng)的選擇概率。

2 模擬與實證分析

文中采用的數(shù)據(jù)為太平洋車險數(shù)據(jù)[11],數(shù)據(jù)量為50,數(shù)據(jù)量均為布爾型數(shù)值。因變量為車險理賠情況,自變量分別為調(diào)研者的性別、視力情況、抽煙史、是否有駕駛教育和相關(guān)年齡。由汪靜波(2015)[11]變量與因變量的相關(guān)性可知,理賠與視力情況、抽煙史有關(guān)。設(shè)視力情況為X1,抽煙史為X2,由于半?yún)?shù)方法的需要,自變量的數(shù)量偏少,且MAR機(jī)制與完全數(shù)據(jù)相關(guān),本文中再添加輔助變量Z=X1*X2作為完全觀測數(shù)據(jù)。對兩個自變量及輔助變量作共線性診斷,k的值為18.31,在100之內(nèi),可認(rèn)為三者之間共線性小。

表1 自變量與因變量之間單因素logistic顯著性

三個自變量與因變量的單因素Logistic分析結(jié)果如上,均呈現(xiàn)出顯著性。

表2 Logistic回歸分析

表2為因變量與自變量之間的回歸分析結(jié)果,視力情況和抽煙史極為顯著,視力*抽煙對方程的顯著性不如視力情況和抽煙史。因此可得出實際應(yīng)用數(shù)據(jù)的回歸方程為:

設(shè)自變量X1、X2帶有缺失項,Z為可完全觀測數(shù)據(jù),設(shè)置的缺失率分別為10%、20%、30%、40%,數(shù)據(jù)缺失模擬結(jié)果如表3所示。

表3為在不同缺失率的情況下不同缺失數(shù)據(jù)處理方法的結(jié)果。從表中可以看出,當(dāng)缺失率為10%時,綜合偏差和標(biāo)準(zhǔn)差來看,后三種方法相比均值方法效果稍微好些,當(dāng)缺失率升至20%時,EM和半?yún)?shù)方法較均值插補(bǔ)和MI方法估計偏差更少。MI方法與均值插補(bǔ)相差不大。隨著缺失率的進(jìn)一步增大,這四種方法明顯受到缺失率的影響,估計精度變差。而半?yún)?shù)方法較其他三種方法估計效果更好。

3 結(jié)論

在實際問題中,由于信息缺失,缺失的數(shù)據(jù)給研究者帶來不少困擾。本文在離散變量背景下對完整的車險數(shù)據(jù)采用了Logistic回歸,對自變量模擬了四種缺失率,在不同缺失率的情況下運(yùn)用四種缺失數(shù)據(jù)處理方法來處理缺失數(shù)據(jù)以得到模型參數(shù)估計。從分析結(jié)果表中可知,缺失率越小,幾種方法的估計精度越高。缺失率增加時,插補(bǔ)類方法明顯差于模型法,而半?yún)?shù)方法受到的影響較其他幾種方法小,有較好的魯棒性。

插補(bǔ)類方法依賴數(shù)據(jù)之間的關(guān)系,對數(shù)據(jù)插補(bǔ)時有一定的偏倚,EM方法和半?yún)?shù)方法未直接對數(shù)據(jù)填補(bǔ),利用似然函數(shù)處理缺失部分,對數(shù)據(jù)缺失處理有更大優(yōu)勢,而半?yún)?shù)方法自身結(jié)合參數(shù)和非參數(shù)優(yōu)點,合理利用缺失部分信息,參數(shù)估計準(zhǔn)確度和魯棒性均高于EM算法,但半?yún)?shù)方法也受限于缺失機(jī)制,實現(xiàn)過程中受到初始參數(shù)的影響,這兩者在將來都是值得探討和改進(jìn)的地方。

表3 不同缺失率模擬結(jié)果

猜你喜歡
機(jī)制方法
構(gòu)建“不敢腐、不能腐、不想腐”機(jī)制的思考
學(xué)習(xí)方法
自制力是一種很好的篩選機(jī)制
文苑(2018年21期)2018-11-09 01:23:06
定向培養(yǎng) 還需完善安置機(jī)制
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
破除舊機(jī)制要分步推進(jìn)
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
注重機(jī)制的相互配合
主站蜘蛛池模板: 欧美成人看片一区二区三区 | 五月婷婷导航| 国产主播在线一区| 久久免费观看视频| 日韩午夜片| 国产欧美日本在线观看| 国产尹人香蕉综合在线电影| 999精品视频在线| 国产欧美精品一区aⅴ影院| 91青青在线视频| 亚洲欧美日韩另类在线一| 美女视频黄又黄又免费高清| 日韩精品久久无码中文字幕色欲| 尤物特级无码毛片免费| 国产精品v欧美| 青青草原国产av福利网站| 91麻豆精品国产高清在线| 国产精品午夜电影| 日韩精品毛片| 国产99视频精品免费视频7| 多人乱p欧美在线观看| 久久天天躁夜夜躁狠狠| AV在线天堂进入| 自慰网址在线观看| 爱爱影院18禁免费| 国产91九色在线播放| 亚洲欧洲日本在线| 波多野结衣久久高清免费| 亚洲国产一区在线观看| 思思99思思久久最新精品| 欧美激情综合| 国产精品高清国产三级囯产AV| 日本日韩欧美| 2021天堂在线亚洲精品专区| 午夜成人在线视频| 亚洲国产高清精品线久久| 成人在线第一页| 欧美特黄一级大黄录像| 国产精品女主播| 亚洲一区二区日韩欧美gif| 亚洲欧美在线看片AI| 免费看一级毛片波多结衣| 99热6这里只有精品| 国产大片喷水在线在线视频| 久久精品欧美一区二区| 亚洲免费播放| 四虎国产永久在线观看| 欧美激情第一欧美在线| 免费看久久精品99| 91口爆吞精国产对白第三集| 中文字幕亚洲乱码熟女1区2区| 亚洲最大看欧美片网站地址| 国产成人精品高清不卡在线| 国产青榴视频在线观看网站| 色综合久久88| 日韩毛片在线播放| 欧美精品另类| 在线看国产精品| www.国产福利| 在线日本国产成人免费的| 国产午夜福利片在线观看| 99在线小视频| 无码综合天天久久综合网| 日本国产精品一区久久久| 亚洲欧洲自拍拍偷午夜色| 毛片免费高清免费| 99在线视频网站| 99久久国产自偷自偷免费一区| 国产青榴视频| 又大又硬又爽免费视频| 日韩精品一区二区三区视频免费看| 一本大道东京热无码av| 国内精品视频区在线2021| 伊人久久久久久久| 国产自在线拍| 亚洲色图欧美在线| 伊人久久久久久久| 青青草原国产一区二区| 天天摸夜夜操| 免费国产在线精品一区| 美女扒开下面流白浆在线试听 | 久久精品aⅴ无码中文字幕|