隨機試驗設計中缺失值插補方法研究

2013-03-23 08:08:52張曉玲

大理大學學報 2013年10期

李杰，張曉玲

（大理學院數學與計算機學院，云南大理 671003）

隨機化區組試驗設計中，由于試驗樣本退出試驗、損壞、記錄丟失等原因常常會產生缺失數據。缺失數據的處理方法最簡單的是刪掉缺失值，這種處理方法有兩個缺點：①樣本量減少，使得模型的標準誤差增大，從而影響模型的精度；②丟失了珍貴的樣本信息。為了克服以上兩種缺點，可以采用插補的方法來填補缺失值。研究缺失數據插補和應用的文獻有很多，現在也是一個研究熱點。

帥平等〔1〕只對缺失數據的方法進行了綜述，沒有針對隨機化區組試驗設計給出缺失數據處理方法的建議；田兵〔2〕簡單介紹了缺失數據的單一插補方法；龐新生〔3〕簡單介紹了隨機抽樣、分層隨機抽樣條件下缺失數據多重插補的抽樣推斷方法；楊基棟〔4〕從理論上分析了缺失數據插補方法的方差和誤差，沒有給出模擬研究的例子；鄧銀燕〔5〕從回歸分析的角度對缺失數據插補方法進行了實證分析，但是沒有考慮實驗設計中的隨機化區組設計缺失數據的問題。郁文和鄭明〔6〕研究了缺失數據的均值推斷問題。在隨機缺失及半參數模型的假設下,設計了基于影響函數理論的經驗似然推斷方法。此外，也有學者〔7-9〕從貝葉斯角度對缺失數據進行了研究；相關文獻〔10-12〕從廣義線性模型的角度對缺失數據進行了研究；還有學者〔13-15〕在數據挖掘方面對缺失數據造成的影響進行了研究；除理論研究外，部分學者對缺失數據插補方法進行了實例研究〔16-21〕。

通常有3種填補缺失值的方法：均值法、公式法和Yate’s法。均值插補的思想非常簡單，即用觀測樣本的均值來插補缺失值，這種方法簡單易行。公式法最初是由Allan和Wishart（1930年）在處理隨機化區組試驗中缺失數據時提出來的，其思想是用行和列的均值的組合進行插補。Yate’s法是由Yate于1933年提出來的，其基本思想是不考慮缺失值，僅對觀測值進行線性回歸，然后根據回歸模型對缺失部分進行預測，用預測值代替缺失值。

直接刪除缺失數據法和3種缺失值插補方法哪一個好，所填補的缺失值引起的模型誤差最小是一個很值得研究的問題。主要用隨機模擬來研究4種方法的好壞，首先產生一個4×5的隨機區組設計，其次指定的缺失值個數m，缺失位置的組合數有（m=1,…，6）個，對每一個不同的組合，分別研究4種方法回歸的標準誤差、可決系數和復可決系數，根據這3個指標的優劣來評價4種方法的好壞。

1 隨機化區組試驗設計及回歸

1.1 隨機化區組試驗設計在農業、社會、經濟和科研中經常需要考察一個變量受一個或者幾個變量的影響，例如在水稻種植試驗中，不同的施肥量和灌溉量會影響水稻的產量，實驗者想尋找最優的施肥量和灌溉量組合，使得水稻的單畝產量最大，這就需要試驗設計。

假設變量y受到兩個因素A和B的影響，因素A有t個水平，因素B有b個水平，因素A和B共有t×b個組合。變量y在每種組合下的觀測值用yij（i=1，… ，t，j=1，… ，b）表示，一般用二維表來表示，見表1。

表1 變量y在雙因素影響下的觀測值

表1所示是試驗設計中常見的雙因素模型，對雙因素模型，有很成熟的理論來進行分析，實質上它是一種線性回歸。

1.2 線性回歸用線性回歸的理論進行建模，重點在于構造相應的設計矩陣。表1中變量y共有t×b個，因素A和B不同的水平數共有t+b個，構造設計矩陣的主要思想就是把因素A和B的每個水平看成一個二元變量，用0和1表示。設計矩陣的形式要根據變量y排列的形式，變量y可以按行，或者按列拉直，不失一般性，變量y約定按行拉直。即

Y= （y11…y1j…y1b…yi1…yij…yib…yt1…ytj…ytb）T。

根據線性回歸理論，設計矩陣變量的個數應該為t+b－1個，前t個變量為因素A的各個水平，后b-1個變量為因素B的前b-1個變量，設計矩陣用X表示。設計矩陣的取值依據變量y而定，例如變量y的第i×j個變量yij對應的設計矩陣X第i×j行的取值為：Ai變量對應的位置取值為1，Bj變量對應的位置取值為1，其余位置都取為0，即（0，…，1，…，1，…，0），假設t=b=2，設計矩陣可以表示為：

線性模型可以表示為：

其中，β是回歸系數向量，ε=（ε11…εij…εtb），εij獨立同分布，均值為0，方差為1。

2 插補方法

對于完全數據，可以用線性回歸理論的方法建模。當表1中某一個或幾個單元格數據缺失時，線性模型就不再適用。一個樸素的想法：把缺失的部分填補起來，然后再用線性模型進行分析。填補的方法有很多種，這里只涉及到3種。

均值插補：假設數據共有n個，其中有m個缺失值，觀測到的數據有n－m個，均值插補的方法就是用n－m個觀測數據的均值來填補m個缺失值。填補后再用線性模型進行分析。

公式法：由Allan和Wishart（1930年）在處理隨機化區組試驗中缺失數據時提出來的。假設表1中第i行第j列的數據缺失，填補該處缺失值的方法是：

Yate’s法：用n表示全部數據的個數，m表示觀測數據的個數，n-m為缺失數據，Yate’s方法的基本步驟是：

1）用m個觀測數據進行建模；

2）估計模型的參數；

3）用模型來預測n-m個缺失值；

4）把n-m個缺失值的預測值作為插補值；

5）運用補全的n個數據進行建模；

6）重復3-5步，直到插補的值收斂為止。

這3種方法使用時各有優劣，用以評價優劣的標準是回歸標準誤差、可決系數和復可決系數。可決系數是衡量自變量與因變量關系密切程度的指標，表示自變量解釋了因變量變動的百分比，用R2表示，其公式是：

而復可決系數同可決系數一樣是衡量回歸優劣的指標，但復可決系數消除了變量個數的影響，可以用于不同變量個數模型間的比較，其公式是：

其中n是樣本量，m是自變量的個數。

3 模擬研究

模擬研究所用的分析軟件是R軟件，后面所有的編程程序都是用R語言編寫的。首先設計一個隨機化區組實驗。A因素有4個水平，B因素有5個水平，即t=4，b=5。對于A因素的第一個水平，產生5個服從均值是2，方差是1的正態隨機數；對于第二個水平產生5個服從均值是4，方差是1的正態隨機數；對于第三個水平產生5個服從均值是6，方差是1的正態隨機數；對于第四個水平產生5個均值為8，方差為1的正態隨機數；而對于因素B，產生的隨機數的方法同A類似，只不過B因素每一個水平產生正態隨機數的均值為1,3,5,7,9，方差都為1。因素A和B各產生了20個隨機數，變量y的值通過如下方法確定：

其中εij是服從均值為0，方差為1的正態分布。產生的數據見表2。

表2 隨機產生的雙因素實驗設計

表2中的數據是依據（3）式進行計算的，接下來的模擬計算完全依據表2中產生的數據。下面進行缺失方法介紹。

表2中共有20個單元格，要進行缺失值模擬研究，需具備兩種條件：缺失值的個數和缺失值的位置。缺失值的個數m擬定為1,2,3,4,5,6個，不同的缺失值個數對應著不同的缺失位置數，當缺失值個數m=1時，缺失的位置共有個；缺失值個數m=2時，缺失的位置共有個；缺失值個數m=3時，缺失的位置共有個；缺失值個數m=4時，缺失的位置共有個；缺失值個數m=5時，缺失的位置共有個；缺失值個數m=6時，缺失的位置共有個。考慮到計算機內存和程序計算的復雜性，m只取到6。

對每一個確定的缺失值個數m和與其對應的缺失位置組合數mi，在每一種缺失位置情況下計算刪除缺失值回歸、均值插補回歸、公式插補回歸和Yate’s插補回歸4種回歸的標準誤差、可決系數和復可決系數，只到mi個缺失位置的情況全部遍歷為止。圖1所示的是缺失個數不同的情況下，4種方法標準誤差的箱型圖。從圖1中可以看出Yate’s方法是這4種方法中最好的，標準誤差明顯比均值插補和公式插補要好，表現最差的是均值插補方法。圖2所示的是在不同的缺失值個數下，4種方法可決系數均值的折線圖。因可決系數和復可決系數在模擬結果中非常接近，故只研究可決系數。

圖1 不同缺失值個數下4種插補方法標準誤差的箱型圖

圖2 不同缺失值個數下4種插補方法可決系數均值折線圖

綜合圖1箱型圖和圖2可決系數折線圖的分析，可以得出Yate’s方法插補的標準誤差和可決系數表現是4種方法中最好的；隨著缺失值個數的增加，公式法和刪除法的可決系數有下降的趨勢。

4 實例

下面這個例子來自于Snedecor和Cochran（1967年）的例子，該例子是一個5×5的拉丁方設計，其中3個數值缺失，表中的數據表示的是小米的產量數據，“—”表示缺失，見表3。

表3 小米的產量數據

對表3中的數據分別運用前面4種方法進行分析，得到的結果如下：直接刪除缺失值方法得到的標準誤差是32.72，可決系數是0.9904，復可決系數是0.9838；均值插補方法的回歸標準誤差是35.27，可決系數是0.9879，復可決系數是0.9811；公式插補方法的回歸標準誤差是30.65，可決系數是0.9904，復可決系數是0.985；Yate’s插補方法的回歸標準誤差是29.49，可決系數是0.9912，復可決系數是0.9862。Yate’s插補方法的各項指標都優于其它三種方法,用Yate’s方法得到插補的值分別是（194.7434,236.0789,165.9934）。

5 結論

在隨機化區組實驗設計中，有4種方法可以進行缺失值處理：第一種方法是刪除缺失的案例，只對觀測的數據進行回歸；第二種方法是利用觀測數據的均值進行插補，填補缺失值；第三種方法是利用公式法對缺失的部分數據進行插補；第四種是根據Yate’s方法進行插補。這4種方法各有優劣，在樣本量足夠的情況下，可以考慮直接運用觀測數據進行回歸，或者采用均值插補。公式法插補較為麻煩，計算量最大的應該是Yate’s插補，因為Yate’s插補需要進行迭代，計算量比其他三種方法要大，也較為耗時。就回歸標準誤差和可決系數而言，Yate’s插補方法是4種方法中最好的，尤其是在樣本量較少的情況下，建議使用Yate’s插補方法。

〔1〕帥平,李曉松,周曉華,等.缺失數據統計處理方法的研究進展〔J〕.中國衛生統計,2013,30（1）:135-142.

〔2〕田兵.缺失數據的單一插補方法〔J〕.陰山學刊：自然科學版,2011,25（3）:17-19.

〔3〕龐新生.缺失數據插補處理方法的比較研究〔J〕.統計與決策,2012（24）:18-22.

〔4〕楊基棟.缺失數據的插補方法及其統計分析〔J〕.華北水利水電學院學報,2010,31（2）:98-103.

〔5〕鄧銀燕.缺失數據的填充方法研究及實證分析〔D〕.西安：西北大學,2010.

〔6〕郁文,鄭明.缺失數據均值推斷的經驗似然方法〔J〕.數學年刊,2010,31A（1）:71-80.

〔7〕胡思貴,趙明.完全隨機缺失數據下配對試驗的Bayes分析〔J〕.數學的實踐與認識,2011,41（8）:73-77.

〔8〕和燕,彭燕梅,唐年勝.帶不可忽略缺失數據的再生散度隨機效應模型的Bayes估計〔J〕.寧夏大學學報:自然科學版,2011,32（3）:193-197.

〔9〕胡芳芳.缺失數據的貝葉斯模型處理〔D〕.長沙：中南大學,2011.

〔10〕汪金暉,張淑梅,辛濤.缺失數據下等級反應模型參數MCMC估計〔J〕.北京師范大學學報:自然科學版,2011,47（3）:229-234.

〔11〕鄧明.基于GMM的缺失數據回歸模型的半參數估計〔J〕.統計與信息論壇,2013,28（3）:9-15.

〔12〕陳盼盼.缺失數據下半參數變系數部分線性模型的統計推斷〔D〕.北京：北京工業大學,2012.

〔13〕方匡南,謝邦昌.基于聚類關聯規則的缺失數據處理研究〔J〕.統計研究,2011,28（2）:87-92.

〔14〕張宙鋒,張磊,王志超.改進的數據流缺失數據處理算法〔J〕.微電子學與計算機,2012,29（3）:55-59.

〔15〕紀燕霞.數據挖掘中處理不完全數據的類均值方法及其擴展〔D〕.西安：長安大學,2010.

〔16〕曾潔美.數據缺失處理在“綠色礦山”中的應用〔D〕.馬鞍山:安徽工業大學,2012.

〔17〕張熙.多重填補方法估計存在不依從與缺失值的隨機對照試驗的因果效應〔D〕.上海：復旦大學,2012.

〔18〕廖娟芬,黃紹軍,李春紅.具有部分缺失數據的異均值方差分析法〔J〕.海南師范大學學報：自然科學版,2011,24（1）:9-11.

〔19〕游曉鋒,丁樹良,劉紅云.缺失數據的估計方法及應用〔J〕.江西師范大學學報:自然科學版,2011,35（3）:325-330.

〔20〕岳春柳.缺失數據的概率主成分分析〔D〕.長春：東北師范大學,2010.

〔21〕余競,鐘涵宇,劉利,等.統計調查表缺失數據插補效果的實證分析〔J〕.成都大學學報：自然科學版,2010,29（4）:307-310.