999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

隨機試驗設計中缺失值插補方法研究

2013-03-23 08:08:52張曉玲
大理大學學報 2013年10期
關鍵詞:方法模型設計

李 杰,張曉玲

(大理學院數學與計算機學院,云南大理 671003)

隨機化區組試驗設計中,由于試驗樣本退出試驗、損壞、記錄丟失等原因常常會產生缺失數據。缺失數據的處理方法最簡單的是刪掉缺失值,這種處理方法有兩個缺點:①樣本量減少,使得模型的標準誤差增大,從而影響模型的精度;②丟失了珍貴的樣本信息。為了克服以上兩種缺點,可以采用插補的方法來填補缺失值。研究缺失數據插補和應用的文獻有很多,現在也是一個研究熱點。

帥平等〔1〕只對缺失數據的方法進行了綜述,沒有針對隨機化區組試驗設計給出缺失數據處理方法的建議;田兵〔2〕簡單介紹了缺失數據的單一插補方法;龐新生〔3〕簡單介紹了隨機抽樣、分層隨機抽樣條件下缺失數據多重插補的抽樣推斷方法;楊基棟〔4〕從理論上分析了缺失數據插補方法的方差和誤差,沒有給出模擬研究的例子;鄧銀燕〔5〕從回歸分析的角度對缺失數據插補方法進行了實證分析,但是沒有考慮實驗設計中的隨機化區組設計缺失數據的問題。郁文和鄭明〔6〕研究了缺失數據的均值推斷問題。在隨機缺失及半參數模型的假設下,設計了基于影響函數理論的經驗似然推斷方法。此外,也有學者〔7-9〕從貝葉斯角度對缺失數據進行了研究;相關文獻〔10-12〕從廣義線性模型的角度對缺失數據進行了研究;還有學者〔13-15〕在數據挖掘方面對缺失數據造成的影響進行了研究;除理論研究外,部分學者對缺失數據插補方法進行了實例研究〔16-21〕。

通常有3種填補缺失值的方法:均值法、公式法和Yate’s法。均值插補的思想非常簡單,即用觀測樣本的均值來插補缺失值,這種方法簡單易行。公式法最初是由Allan和Wishart(1930年)在處理隨機化區組試驗中缺失數據時提出來的,其思想是用行和列的均值的組合進行插補。Yate’s法是由Yate于1933年提出來的,其基本思想是不考慮缺失值,僅對觀測值進行線性回歸,然后根據回歸模型對缺失部分進行預測,用預測值代替缺失值。

直接刪除缺失數據法和3種缺失值插補方法哪一個好,所填補的缺失值引起的模型誤差最小是一個很值得研究的問題。主要用隨機模擬來研究4種方法的好壞,首先產生一個4×5的隨機區組設計,其次指定的缺失值個數m,缺失位置的組合數有(m=1,…,6)個,對每一個不同的組合,分別研究4種方法回歸的標準誤差、可決系數和復可決系數,根據這3個指標的優劣來評價4種方法的好壞。

1 隨機化區組試驗設計及回歸

1.1 隨機化區組試驗設計 在農業、社會、經濟和科研中經常需要考察一個變量受一個或者幾個變量的影響,例如在水稻種植試驗中,不同的施肥量和灌溉量會影響水稻的產量,實驗者想尋找最優的施肥量和灌溉量組合,使得水稻的單畝產量最大,這就需要試驗設計。

假設變量y受到兩個因素A和B的影響,因素A有t個水平,因素B有b個水平,因素A和B共有t×b個組合。變量y在每種組合下的觀測值用yij(i=1,… ,t,j=1,… ,b)表示,一般用二維表來表示,見表1。

表1 變量y在雙因素影響下的觀測值

表1所示是試驗設計中常見的雙因素模型,對雙因素模型,有很成熟的理論來進行分析,實質上它是一種線性回歸。

1.2 線性回歸 用線性回歸的理論進行建模,重點在于構造相應的設計矩陣。表1中變量y共有t×b個,因素A和B不同的水平數共有t+b個,構造設計矩陣的主要思想就是把因素A和B的每個水平看成一個二元變量,用0和1表示。設計矩陣的形式要根據變量y排列的形式,變量y可以按行,或者按列拉直,不失一般性,變量y約定按行拉直。即

Y= (y11…y1j…y1b…yi1…yij…yib…yt1…ytj…ytb)T。

根據線性回歸理論,設計矩陣變量的個數應該為t+b-1個,前t個變量為因素A的各個水平,后b-1個變量為因素B的前b-1個變量,設計矩陣用X表示。設計矩陣的取值依據變量y而定,例如變量y的第i×j個變量yij對應的設計矩陣X第i×j行的取值為:Ai變量對應的位置取值為1,Bj變量對應的位置取值為1,其余位置都取為0,即(0,…,1,…,1,…,0),假設t=b=2,設計矩陣可以表示為:

線性模型可以表示為:

其中,β是回歸系數向量,ε=(ε11…εij…εtb),εij獨立同分布,均值為0,方差為1。

2 插補方法

對于完全數據,可以用線性回歸理論的方法建模。當表1中某一個或幾個單元格數據缺失時,線性模型就不再適用。一個樸素的想法:把缺失的部分填補起來,然后再用線性模型進行分析。填補的方法有很多種,這里只涉及到3種。

均值插補:假設數據共有n個,其中有m個缺失值,觀測到的數據有n-m個,均值插補的方法就是用n-m個觀測數據的均值來填補m個缺失值。填補后再用線性模型進行分析。

公式法:由Allan和Wishart(1930年)在處理隨機化區組試驗中缺失數據時提出來的。假設表1中第i行第j列的數據缺失,填補該處缺失值的方法是:

Yate’s法:用n表示全部數據的個數,m表示觀測數據的個數,n-m為缺失數據,Yate’s方法的基本步驟是:

1)用m個觀測數據進行建模;

2)估計模型的參數;

3)用模型來預測n-m個缺失值;

4)把n-m個缺失值的預測值作為插補值;

5)運用補全的n個數據進行建模;

6)重復3-5步,直到插補的值收斂為止。

這3種方法使用時各有優劣,用以評價優劣的標準是回歸標準誤差、可決系數和復可決系數。可決系數是衡量自變量與因變量關系密切程度的指標,表示自變量解釋了因變量變動的百分比,用R2表示,其公式是:

而復可決系數同可決系數一樣是衡量回歸優劣的指標,但復可決系數消除了變量個數的影響,可以用于不同變量個數模型間的比較,其公式是:

其中n是樣本量,m是自變量的個數。

3 模擬研究

模擬研究所用的分析軟件是R軟件,后面所有的編程程序都是用R語言編寫的。首先設計一個隨機化區組實驗。A因素有4個水平,B因素有5個水平,即t=4,b=5。對于A因素的第一個水平,產生5個服從均值是2,方差是1的正態隨機數;對于第二個水平產生5個服從均值是4,方差是1的正態隨機數;對于第三個水平產生5個服從均值是6,方差是1的正態隨機數;對于第四個水平產生5個均值為8,方差為1的正態隨機數;而對于因素B,產生的隨機數的方法同A類似,只不過B因素每一個水平產生正態隨機數的均值為1,3,5,7,9,方差都為1。因素A和B各產生了20個隨機數,變量y的值通過如下方法確定:

其中εij是服從均值為0,方差為1的正態分布。產生的數據見表2。

表2 隨機產生的雙因素實驗設計

表2中的數據是依據(3)式進行計算的,接下來的模擬計算完全依據表2中產生的數據。下面進行缺失方法介紹。

表2中共有20個單元格,要進行缺失值模擬研究,需具備兩種條件:缺失值的個數和缺失值的位置。缺失值的個數m擬定為1,2,3,4,5,6個,不同的缺失值個數對應著不同的缺失位置數,當缺失值個數m=1時,缺失的位置共有個;缺失值個數m=2時,缺失的位置共有個;缺失值個數m=3時,缺失的位置共有個;缺失值個數m=4時,缺失的位置共有個;缺失值個數m=5時,缺失的位置共有個;缺失值個數m=6時,缺失的位置共有個。考慮到計算機內存和程序計算的復雜性,m只取到6。

對每一個確定的缺失值個數m和與其對應的缺失位置組合數mi,在每一種缺失位置情況下計算刪除缺失值回歸、均值插補回歸、公式插補回歸和Yate’s插補回歸4種回歸的標準誤差、可決系數和復可決系數,只到mi個缺失位置的情況全部遍歷為止。圖1所示的是缺失個數不同的情況下,4種方法標準誤差的箱型圖。從圖1中可以看出Yate’s方法是這4種方法中最好的,標準誤差明顯比均值插補和公式插補要好,表現最差的是均值插補方法。圖2所示的是在不同的缺失值個數下,4種方法可決系數均值的折線圖。因可決系數和復可決系數在模擬結果中非常接近,故只研究可決系數。

圖1 不同缺失值個數下4種插補方法標準誤差的箱型圖

圖2 不同缺失值個數下4種插補方法可決系數均值折線圖

綜合圖1箱型圖和圖2可決系數折線圖的分析,可以得出Yate’s方法插補的標準誤差和可決系數表現是4種方法中最好的;隨著缺失值個數的增加,公式法和刪除法的可決系數有下降的趨勢。

4 實例

下面這個例子來自于Snedecor和Cochran(1967年)的例子,該例子是一個5×5的拉丁方設計,其中3個數值缺失,表中的數據表示的是小米的產量數據,“—”表示缺失,見表3。

表3 小米的產量數據

對表3中的數據分別運用前面4種方法進行分析,得到的結果如下:直接刪除缺失值方法得到的標準誤差是32.72,可決系數是0.9904,復可決系數是0.9838;均值插補方法的回歸標準誤差是35.27,可決系數是0.9879,復可決系數是0.9811;公式插補方法的回歸標準誤差是30.65,可決系數是0.9904,復可決系數是0.985;Yate’s插補方法的回歸標準誤差是29.49,可決系數是0.9912,復可決系數是0.9862。Yate’s插補方法的各項指標都優于其它三種方法,用Yate’s方法得到插補的值分別是(194.7434,236.0789,165.9934)。

5 結論

在隨機化區組實驗設計中,有4種方法可以進行缺失值處理:第一種方法是刪除缺失的案例,只對觀測的數據進行回歸;第二種方法是利用觀測數據的均值進行插補,填補缺失值;第三種方法是利用公式法對缺失的部分數據進行插補;第四種是根據Yate’s方法進行插補。這4種方法各有優劣,在樣本量足夠的情況下,可以考慮直接運用觀測數據進行回歸,或者采用均值插補。公式法插補較為麻煩,計算量最大的應該是Yate’s插補,因為Yate’s插補需要進行迭代,計算量比其他三種方法要大,也較為耗時。就回歸標準誤差和可決系數而言,Yate’s插補方法是4種方法中最好的,尤其是在樣本量較少的情況下,建議使用Yate’s插補方法。

〔1〕帥平,李曉松,周曉華,等.缺失數據統計處理方法的研究進展〔J〕.中國衛生統計,2013,30(1):135-142.

〔2〕田兵.缺失數據的單一插補方法〔J〕.陰山學刊:自然科學版,2011,25(3):17-19.

〔3〕龐新生.缺失數據插補處理方法的比較研究〔J〕.統計與決策,2012(24):18-22.

〔4〕楊基棟.缺失數據的插補方法及其統計分析〔J〕.華北水利水電學院學報,2010,31(2):98-103.

〔5〕鄧銀燕.缺失數據的填充方法研究及實證分析〔D〕.西安:西北大學,2010.

〔6〕郁文,鄭明.缺失數據均值推斷的經驗似然方法〔J〕.數學年刊,2010,31A(1):71-80.

〔7〕胡思貴,趙明.完全隨機缺失數據下配對試驗的Bayes分析〔J〕.數學的實踐與認識,2011,41(8):73-77.

〔8〕和燕,彭燕梅,唐年勝.帶不可忽略缺失數據的再生散度隨機效應模型的Bayes估計〔J〕.寧夏大學學報:自然科學版,2011,32(3):193-197.

〔9〕胡芳芳.缺失數據的貝葉斯模型處理〔D〕.長沙:中南大學,2011.

〔10〕汪金暉,張淑梅,辛濤.缺失數據下等級反應模型參數MCMC估計〔J〕.北京師范大學學報:自然科學版,2011,47(3):229-234.

〔11〕鄧明.基于GMM的缺失數據回歸模型的半參數估計〔J〕.統計與信息論壇,2013,28(3):9-15.

〔12〕陳盼盼.缺失數據下半參數變系數部分線性模型的統計推斷〔D〕.北京:北京工業大學,2012.

〔13〕方匡南,謝邦昌.基于聚類關聯規則的缺失數據處理研究〔J〕.統計研究,2011,28(2):87-92.

〔14〕張宙鋒,張磊,王志超.改進的數據流缺失數據處理算法〔J〕.微電子學與計算機,2012,29(3):55-59.

〔15〕紀燕霞.數據挖掘中處理不完全數據的類均值方法及其擴展〔D〕.西安:長安大學,2010.

〔16〕曾潔美.數據缺失處理在“綠色礦山”中的應用〔D〕.馬鞍山:安徽工業大學,2012.

〔17〕張熙.多重填補方法估計存在不依從與缺失值的隨機對照試驗的因果效應〔D〕.上海:復旦大學,2012.

〔18〕廖娟芬,黃紹軍,李春紅.具有部分缺失數據的異均值方差分析法〔J〕.海南師范大學學報:自然科學版,2011,24(1):9-11.

〔19〕游曉鋒,丁樹良,劉紅云.缺失數據的估計方法及應用〔J〕.江西師范大學學報:自然科學版,2011,35(3):325-330.

〔20〕岳春柳.缺失數據的概率主成分分析〔D〕.長春:東北師范大學,2010.

〔21〕余競,鐘涵宇,劉利,等.統計調查表缺失數據插補效果的實證分析〔J〕.成都大學學報:自然科學版,2010,29(4):307-310.

猜你喜歡
方法模型設計
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
瞞天過海——仿生設計萌到家
藝術啟蒙(2018年7期)2018-08-23 09:14:18
設計秀
海峽姐妹(2017年7期)2017-07-31 19:08:17
有種設計叫而專
Coco薇(2017年5期)2017-06-05 08:53:16
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 99这里精品| 91久久天天躁狠狠躁夜夜| 色综合狠狠操| 久久香蕉国产线看精品| 五月天香蕉视频国产亚| 国产福利小视频高清在线观看| 国产午夜人做人免费视频| 亚洲无线一二三四区男男| 激情六月丁香婷婷四房播| 2021天堂在线亚洲精品专区 | 午夜视频www| 亚欧美国产综合| 日韩欧美国产精品| 日韩中文无码av超清| 丁香婷婷激情网| 国产视频a| 久久96热在精品国产高清| 欧美另类图片视频无弹跳第一页| 亚洲视频无码| 国产三级a| 亚洲男人天堂网址| 久久久久国产一级毛片高清板| 欧美色伊人| 久久精品这里只有国产中文精品| 欧美日韩高清| 国产一区亚洲一区| 欧美A级V片在线观看| 亚洲综合在线最大成人| 伊人国产无码高清视频| 91麻豆久久久| 亚洲精品爱草草视频在线| 久久午夜夜伦鲁鲁片无码免费| 国产在线视频欧美亚综合| 米奇精品一区二区三区| 日韩国产一区二区三区无码| 亚洲国产欧洲精品路线久久| 又爽又黄又无遮挡网站| 国产精品护士| 又黄又湿又爽的视频| 久久婷婷人人澡人人爱91| 色天堂无毒不卡| 成人综合在线观看| 成人福利一区二区视频在线| 激情午夜婷婷| 激情综合网址| 自拍偷拍欧美日韩| 成人在线观看不卡| 中文字幕有乳无码| 日韩激情成人| 国产成人凹凸视频在线| 国内精品久久九九国产精品| 久久精品亚洲专区| 亚洲一区二区三区在线视频| 国产一在线观看| 国产99在线观看| 91黄色在线观看| 91精品啪在线观看国产91| 国产精品女同一区三区五区| 成人福利在线看| 久久精品人妻中文视频| 欧美在线国产| 18禁黄无遮挡免费动漫网站| 视频一本大道香蕉久在线播放| 亚洲免费福利视频| jizz亚洲高清在线观看| 久久无码高潮喷水| 91国语视频| 国产乱人免费视频| 欧美视频在线不卡| 久久久久亚洲精品成人网 | 国产成人一区免费观看| 欧美在线黄| 午夜国产不卡在线观看视频| 免费国产无遮挡又黄又爽| 日韩在线中文| 欧美性猛交xxxx乱大交极品| 91视频区| 成人一区专区在线观看| vvvv98国产成人综合青青| 99久久精品视香蕉蕉| 一区二区日韩国产精久久| 一级毛片网|