李 杰,張曉玲
(大理學院數學與計算機學院,云南大理 671003)
隨機化區組試驗設計中,由于試驗樣本退出試驗、損壞、記錄丟失等原因常常會產生缺失數據。缺失數據的處理方法最簡單的是刪掉缺失值,這種處理方法有兩個缺點:①樣本量減少,使得模型的標準誤差增大,從而影響模型的精度;②丟失了珍貴的樣本信息。為了克服以上兩種缺點,可以采用插補的方法來填補缺失值。研究缺失數據插補和應用的文獻有很多,現在也是一個研究熱點。
帥平等〔1〕只對缺失數據的方法進行了綜述,沒有針對隨機化區組試驗設計給出缺失數據處理方法的建議;田兵〔2〕簡單介紹了缺失數據的單一插補方法;龐新生〔3〕簡單介紹了隨機抽樣、分層隨機抽樣條件下缺失數據多重插補的抽樣推斷方法;楊基棟〔4〕從理論上分析了缺失數據插補方法的方差和誤差,沒有給出模擬研究的例子;鄧銀燕〔5〕從回歸分析的角度對缺失數據插補方法進行了實證分析,但是沒有考慮實驗設計中的隨機化區組設計缺失數據的問題。郁文和鄭明〔6〕研究了缺失數據的均值推斷問題。在隨機缺失及半參數模型的假設下,設計了基于影響函數理論的經驗似然推斷方法。此外,也有學者〔7-9〕從貝葉斯角度對缺失數據進行了研究;相關文獻〔10-12〕從廣義線性模型的角度對缺失數據進行了研究;還有學者〔13-15〕在數據挖掘方面對缺失數據造成的影響進行了研究;除理論研究外,部分學者對缺失數據插補方法進行了實例研究〔16-21〕。
通常有3種填補缺失值的方法:均值法、公式法和Yate’s法。均值插補的思想非常簡單,即用觀測樣本的均值來插補缺失值,這種方法簡單易行。公式法最初是由Allan和Wishart(1930年)在處理隨機化區組試驗中缺失數據時提出來的,其思想是用行和列的均值的組合進行插補。Yate’s法是由Yate于1933年提出來的,其基本思想是不考慮缺失值,僅對觀測值進行線性回歸,然后根據回歸模型對缺失部分進行預測,用預測值代替缺失值。
直接刪除缺失數據法和3種缺失值插補方法哪一個好,所填補的缺失值引起的模型誤差最小是一個很值得研究的問題。主要用隨機模擬來研究4種方法的好壞,首先產生一個4×5的隨機區組設計,其次指定的缺失值個數m,缺失位置的組合數有(m=1,…,6)個,對每一個不同的組合,分別研究4種方法回歸的標準誤差、可決系數和復可決系數,根據這3個指標的優劣來評價4種方法的好壞。
1.1 隨機化區組試驗設計 在農業、社會、經濟和科研中經常需要考察一個變量受一個或者幾個變量的影響,例如在水稻種植試驗中,不同的施肥量和灌溉量會影響水稻的產量,實驗者想尋找最優的施肥量和灌溉量組合,使得水稻的單畝產量最大,這就需要試驗設計。
假設變量y受到兩個因素A和B的影響,因素A有t個水平,因素B有b個水平,因素A和B共有t×b個組合。變量y在每種組合下的觀測值用yij(i=1,… ,t,j=1,… ,b)表示,一般用二維表來表示,見表1。

表1 變量y在雙因素影響下的觀測值
表1所示是試驗設計中常見的雙因素模型,對雙因素模型,有很成熟的理論來進行分析,實質上它是一種線性回歸。
1.2 線性回歸 用線性回歸的理論進行建模,重點在于構造相應的設計矩陣。表1中變量y共有t×b個,因素A和B不同的水平數共有t+b個,構造設計矩陣的主要思想就是把因素A和B的每個水平看成一個二元變量,用0和1表示。設計矩陣的形式要根據變量y排列的形式,變量y可以按行,或者按列拉直,不失一般性,變量y約定按行拉直。即
Y= (y11…y1j…y1b…yi1…yij…yib…yt1…ytj…ytb)T。
根據線性回歸理論,設計矩陣變量的個數應該為t+b-1個,前t個變量為因素A的各個水平,后b-1個變量為因素B的前b-1個變量,設計矩陣用X表示。設計矩陣的取值依據變量y而定,例如變量y的第i×j個變量yij對應的設計矩陣X第i×j行的取值為:Ai變量對應的位置取值為1,Bj變量對應的位置取值為1,其余位置都取為0,即(0,…,1,…,1,…,0),假設t=b=2,設計矩陣可以表示為:

線性模型可以表示為:

其中,β是回歸系數向量,ε=(ε11…εij…εtb),εij獨立同分布,均值為0,方差為1。
對于完全數據,可以用線性回歸理論的方法建模。當表1中某一個或幾個單元格數據缺失時,線性模型就不再適用。一個樸素的想法:把缺失的部分填補起來,然后再用線性模型進行分析。填補的方法有很多種,這里只涉及到3種。
均值插補:假設數據共有n個,其中有m個缺失值,觀測到的數據有n-m個,均值插補的方法就是用n-m個觀測數據的均值來填補m個缺失值。填補后再用線性模型進行分析。
公式法:由Allan和Wishart(1930年)在處理隨機化區組試驗中缺失數據時提出來的。假設表1中第i行第j列的數據缺失,填補該處缺失值的方法是:

Yate’s法:用n表示全部數據的個數,m表示觀測數據的個數,n-m為缺失數據,Yate’s方法的基本步驟是:
1)用m個觀測數據進行建模;
2)估計模型的參數;
3)用模型來預測n-m個缺失值;
4)把n-m個缺失值的預測值作為插補值;
5)運用補全的n個數據進行建模;
6)重復3-5步,直到插補的值收斂為止。
這3種方法使用時各有優劣,用以評價優劣的標準是回歸標準誤差、可決系數和復可決系數。可決系數是衡量自變量與因變量關系密切程度的指標,表示自變量解釋了因變量變動的百分比,用R2表示,其公式是:

而復可決系數同可決系數一樣是衡量回歸優劣的指標,但復可決系數消除了變量個數的影響,可以用于不同變量個數模型間的比較,其公式是:

其中n是樣本量,m是自變量的個數。
模擬研究所用的分析軟件是R軟件,后面所有的編程程序都是用R語言編寫的。首先設計一個隨機化區組實驗。A因素有4個水平,B因素有5個水平,即t=4,b=5。對于A因素的第一個水平,產生5個服從均值是2,方差是1的正態隨機數;對于第二個水平產生5個服從均值是4,方差是1的正態隨機數;對于第三個水平產生5個服從均值是6,方差是1的正態隨機數;對于第四個水平產生5個均值為8,方差為1的正態隨機數;而對于因素B,產生的隨機數的方法同A類似,只不過B因素每一個水平產生正態隨機數的均值為1,3,5,7,9,方差都為1。因素A和B各產生了20個隨機數,變量y的值通過如下方法確定:

其中εij是服從均值為0,方差為1的正態分布。產生的數據見表2。

表2 隨機產生的雙因素實驗設計
表2中的數據是依據(3)式進行計算的,接下來的模擬計算完全依據表2中產生的數據。下面進行缺失方法介紹。
表2中共有20個單元格,要進行缺失值模擬研究,需具備兩種條件:缺失值的個數和缺失值的位置。缺失值的個數m擬定為1,2,3,4,5,6個,不同的缺失值個數對應著不同的缺失位置數,當缺失值個數m=1時,缺失的位置共有個;缺失值個數m=2時,缺失的位置共有個;缺失值個數m=3時,缺失的位置共有個;缺失值個數m=4時,缺失的位置共有個;缺失值個數m=5時,缺失的位置共有個;缺失值個數m=6時,缺失的位置共有個。考慮到計算機內存和程序計算的復雜性,m只取到6。
對每一個確定的缺失值個數m和與其對應的缺失位置組合數mi,在每一種缺失位置情況下計算刪除缺失值回歸、均值插補回歸、公式插補回歸和Yate’s插補回歸4種回歸的標準誤差、可決系數和復可決系數,只到mi個缺失位置的情況全部遍歷為止。圖1所示的是缺失個數不同的情況下,4種方法標準誤差的箱型圖。從圖1中可以看出Yate’s方法是這4種方法中最好的,標準誤差明顯比均值插補和公式插補要好,表現最差的是均值插補方法。圖2所示的是在不同的缺失值個數下,4種方法可決系數均值的折線圖。因可決系數和復可決系數在模擬結果中非常接近,故只研究可決系數。

圖1 不同缺失值個數下4種插補方法標準誤差的箱型圖

圖2 不同缺失值個數下4種插補方法可決系數均值折線圖
綜合圖1箱型圖和圖2可決系數折線圖的分析,可以得出Yate’s方法插補的標準誤差和可決系數表現是4種方法中最好的;隨著缺失值個數的增加,公式法和刪除法的可決系數有下降的趨勢。
下面這個例子來自于Snedecor和Cochran(1967年)的例子,該例子是一個5×5的拉丁方設計,其中3個數值缺失,表中的數據表示的是小米的產量數據,“—”表示缺失,見表3。

表3 小米的產量數據
對表3中的數據分別運用前面4種方法進行分析,得到的結果如下:直接刪除缺失值方法得到的標準誤差是32.72,可決系數是0.9904,復可決系數是0.9838;均值插補方法的回歸標準誤差是35.27,可決系數是0.9879,復可決系數是0.9811;公式插補方法的回歸標準誤差是30.65,可決系數是0.9904,復可決系數是0.985;Yate’s插補方法的回歸標準誤差是29.49,可決系數是0.9912,復可決系數是0.9862。Yate’s插補方法的各項指標都優于其它三種方法,用Yate’s方法得到插補的值分別是(194.7434,236.0789,165.9934)。
在隨機化區組實驗設計中,有4種方法可以進行缺失值處理:第一種方法是刪除缺失的案例,只對觀測的數據進行回歸;第二種方法是利用觀測數據的均值進行插補,填補缺失值;第三種方法是利用公式法對缺失的部分數據進行插補;第四種是根據Yate’s方法進行插補。這4種方法各有優劣,在樣本量足夠的情況下,可以考慮直接運用觀測數據進行回歸,或者采用均值插補。公式法插補較為麻煩,計算量最大的應該是Yate’s插補,因為Yate’s插補需要進行迭代,計算量比其他三種方法要大,也較為耗時。就回歸標準誤差和可決系數而言,Yate’s插補方法是4種方法中最好的,尤其是在樣本量較少的情況下,建議使用Yate’s插補方法。
〔1〕帥平,李曉松,周曉華,等.缺失數據統計處理方法的研究進展〔J〕.中國衛生統計,2013,30(1):135-142.
〔2〕田兵.缺失數據的單一插補方法〔J〕.陰山學刊:自然科學版,2011,25(3):17-19.
〔3〕龐新生.缺失數據插補處理方法的比較研究〔J〕.統計與決策,2012(24):18-22.
〔4〕楊基棟.缺失數據的插補方法及其統計分析〔J〕.華北水利水電學院學報,2010,31(2):98-103.
〔5〕鄧銀燕.缺失數據的填充方法研究及實證分析〔D〕.西安:西北大學,2010.
〔6〕郁文,鄭明.缺失數據均值推斷的經驗似然方法〔J〕.數學年刊,2010,31A(1):71-80.
〔7〕胡思貴,趙明.完全隨機缺失數據下配對試驗的Bayes分析〔J〕.數學的實踐與認識,2011,41(8):73-77.
〔8〕和燕,彭燕梅,唐年勝.帶不可忽略缺失數據的再生散度隨機效應模型的Bayes估計〔J〕.寧夏大學學報:自然科學版,2011,32(3):193-197.
〔9〕胡芳芳.缺失數據的貝葉斯模型處理〔D〕.長沙:中南大學,2011.
〔10〕汪金暉,張淑梅,辛濤.缺失數據下等級反應模型參數MCMC估計〔J〕.北京師范大學學報:自然科學版,2011,47(3):229-234.
〔11〕鄧明.基于GMM的缺失數據回歸模型的半參數估計〔J〕.統計與信息論壇,2013,28(3):9-15.
〔12〕陳盼盼.缺失數據下半參數變系數部分線性模型的統計推斷〔D〕.北京:北京工業大學,2012.
〔13〕方匡南,謝邦昌.基于聚類關聯規則的缺失數據處理研究〔J〕.統計研究,2011,28(2):87-92.
〔14〕張宙鋒,張磊,王志超.改進的數據流缺失數據處理算法〔J〕.微電子學與計算機,2012,29(3):55-59.
〔15〕紀燕霞.數據挖掘中處理不完全數據的類均值方法及其擴展〔D〕.西安:長安大學,2010.
〔16〕曾潔美.數據缺失處理在“綠色礦山”中的應用〔D〕.馬鞍山:安徽工業大學,2012.
〔17〕張熙.多重填補方法估計存在不依從與缺失值的隨機對照試驗的因果效應〔D〕.上海:復旦大學,2012.
〔18〕廖娟芬,黃紹軍,李春紅.具有部分缺失數據的異均值方差分析法〔J〕.海南師范大學學報:自然科學版,2011,24(1):9-11.
〔19〕游曉鋒,丁樹良,劉紅云.缺失數據的估計方法及應用〔J〕.江西師范大學學報:自然科學版,2011,35(3):325-330.
〔20〕岳春柳.缺失數據的概率主成分分析〔D〕.長春:東北師范大學,2010.
〔21〕余競,鐘涵宇,劉利,等.統計調查表缺失數據插補效果的實證分析〔J〕.成都大學學報:自然科學版,2010,29(4):307-310.