付志慧,李 斌,李曉毅,彭毳鑫
(1.沈陽師范大學 數學與系統科學學院,沈陽 110034;2.吉林師范大學 外語部,吉林 四平 136000)

另外,在似然基本結構中,參數ζ和θ需是已知的。如果缺失數據是隨機缺失(MAR)且是確定的,那么缺失數據就是可以被忽略的。所以在似然基本推斷中,如果缺失數據是MAR,那么缺失數據機制或過程是可忽略的。這意味著,在分析過程中我們可以不用考慮ζ還能夠保證我們得估計結果是不變的。而Bayesian過程中,在缺失數據是MAR且θ與ζ的先驗是獨立的條件下,缺失數據機制是可忽略的。
在教育測量中,有時候不反應項目是不可忽略的。例如,有時間限制的測試中,能力低的測試者不能答到最后,缺失數據的模式與被測試者的能力有關,因此缺失數據是不可忽略的。
處理缺失數據有四種方法[2,3]。
第一種,在做統計分析前先刪除缺失數據,這種刪除數據的方法偶爾是合適的,但這種方法存在它的弊端,這種嘗試會導致減少樣本的大小使估計是無效的,如果缺失數據是系統的或者與我們的結果相關聯,刪除數據會使估計是有偏的[4];
第二種,填補法。簡單填補和多重填補。簡單填補是指對于每一個缺失數據給一個替代值,再按照完全數據來處理;多重填補法是指以一系列隨機值來替代缺失值,來保證缺失數據的隨機性[5,6]。
第三種,忽略缺失數據,利用所有合適的可觀測數據進行估計,這種方法存在的問題是對軟件要求很高,需要能夠處理很復雜的計算問題[7];
第四種,明確地模擬引起缺失數據的機制,將觀測數據擬合模型和附加模型合并[8-10]。
本文采用第四種方法,引入缺失模型。用一個二值項目反應模型來擬合缺失機制[11,12](Moustakiand Knott,2000;Holman and Glas,2005),目的是處理項目反應理論中不可忽略的缺失數據參數估計問題。分別采用2PLM模型和Rasch模型來擬合觀測數據和缺失指標。通過MCMC中的Gibbs抽樣方法,對數據進行擴充,將較為復雜的后驗密度轉化成滿條件分布,在此基礎上,給出參數的Bayes后驗估計。
培育現代竹產業園區。對符合條件的竹產業園區進行培育,并納入到省級現代農業(林業)示范園區中,擇優推薦申報國家林業產業示范園區。2015年四川創建的青神竹文化創意產業園成為四川省首個成功創建全國版權示范園區(基地)的縣(區)域。
設X為二維數據陣,矩陣元素Xik表示被試i對項目k的反應變量;定義與反應陣相同的指示陣D,當Xik有觀測時,其元素dik=1;當 Xik缺失時,dik=0,其中i=1,…,N,k=1,…,K 。 觀 測 數 據 的 測 量 模 型 為p(xik|dik,θi,αk,βk),是觀測變量關于缺失數據指示變量指標、潛變量θ和項目參數的條件概率。當數據缺失時,Xik的條件分布為退化分布,p(Xik=xik|dik=0,θi,αk,βk)=1;當dik=1時,采用2PLM對其建模,被試i對項目k的正確反應概率為:

其中ζi為缺失過程的潛在變量,δk為缺失過程的難度參數。
在MAR模型中,似然函數為:

其中,g(·)是 ζi和 θi的密度函數,來自于一個多元正態分布,均值為0,斜方差陣為Σ。
我們采用Bayesian對(3)和(4)進行參數估計。Beguin(2001)和Glas(2005)給出了模型識別的方法,從他們的結論可知,通過基底變換,可以使觀測數據模型和缺失數據指示模型依賴于相同的兩個潛在變量。因此,在這個模型框架下,這兩個潛在變量是函數相依的。
MCMC方法的基本思想是通過建立一個平穩分布為π(x)的Markov鏈來得到π(x)的樣本,基于這些樣本就可以做統計推斷。最簡單、應用最廣泛的MCMC方法就是Gibbs抽樣。本文利用Gibbs方法來建立馬氏鏈。在Gibbs抽樣的構造之初,先將參數分成幾個分量,依次給定其他分量,對每一個分量關于滿條件分布抽樣。
令 λ=(θ,ζ,α,β,δ,μ,Σ)為模型中所有未知參數分量的集合,λ的后驗分布為

引入潛在變量Uik和Vik,對應于第i個被試在第k個項目上的反應變量Xik和缺失數據指示變量dik,潛在變量服從均勻分布U(0,1),Xik與Uik之間滿足如下關系:
Xik=1當且僅當Uik≤Φik

第三步:抽取η。

通過以上五步,我們完成了所有參數滿條件分布的抽取。利用Gibbs抽樣的優勢,除去參數u,Σ外的所有參數的滿條件分布都是相應先驗的截尾分布。給定參數初值,進行迭代,從上述分布中抽取樣本U,V,β,δ,η,α,μ,Σ。但要注意的是,所有的抽樣分布都是以缺失數據指示陣D為條件的(詳細程序由MATLAB編寫)。

利用生成的數據,對隨機缺失模型和非隨機缺失模型進行項目參數的Bayes估計,利用Geman-Rubin方法進行收斂性診斷。進行如下操作:調試期n0=4000,迭代次數為20000次,重復進行模擬實驗20次。比較實驗結果υ^(r),r=1,…,20和參數真值,兩者之間差異越小說明估計方法越有效。選取統計量偏差,表達式為:



圖1 Bias(β′)(細線)及Bias(β )(粗線)在不同 ρ下取值的比較
近年來,缺失數據的處理方法很受統計學家的重視,相關文獻很多。在IRT框架下,大部分研究主要還是處理可忽略缺失數據,對于不可忽略缺失問題,Holman&Glas提出采用邊際最大似然法給出估計,然而該方法要受積分維數的限制。本文針對二參數Logistic模型,通過對缺失指標進行建模,采用一種簡單靈活的Gibbs抽樣方法給出了模型參數的Bayesian估計。通過模擬易見,對于不可忽略缺失數據,如果將其忽略掉(采用MAR(3)模型估計),會給項目參數估計帶來很大偏差,而且觀測數據模型中的潛變量和缺失指標模型中的潛變量之間的相關度越高,偏差越大;進一步地,模擬表明采用NONMAR(4)估計,偏差大大減少。另外,該方法還可以推廣到含有協變量的缺失模型及多層反應模型中。
[1]Beguia A A,Glas C A W.MCMC Estimation and Some Model-Fit Analysis of Multidimensional IRT Models[Z].Psychometrika,2001,(66).
[2]Little R J A,Rubin D B.Statistical Analysis With Missing Data.2nd ed.(Sun,S Z,Trans.)[Z].New York:John Wiley&Sons,2004.
[3]Rubin D B.Inference and Missing Data[C].Biometrika,1976,(63).
[4]Karkee T,Finkelman M.(April).Missing Data Treatment Methods in Parameter Recovery for A Mixed-Format Test[J].Paper Presented at The Annual Meeting of The American Educational Research Association,Chicago,2007.
[5]Gelman A,Rubin D B.Inference From Iterative Simulation Using Multiple Sequences(With Discussion)[J].Statistical Science,1992,(7).
[6]Huisman M.Imputation of Missing Item Responses:Some Simple Techniques[J].Quality and Quantity,2000,(34).
[7]Muraki E,Bock R D.IRT Based Test Scoring and Item Analysis For Graded Open-Ended Exercises and Performance Tasks[J].Chicago:Scienti-C Software Int,1993.
[8]Moustaki I,Knott M.Weighting for Item Non-Response in Attitude Scales By Using Latent Variable Models With Covariates[J].Journal of The Royal Statistical Society,2000,(163).
[9]汪金暉,張淑梅,辛濤.缺失數據下等級反應模型參數MCMC估計[J].北京師范大學學報(自然科學版),2011,47(3).
[10]曾莉,辛濤,張淑梅.2PL模型的兩種馬爾科夫蒙特卡洛缺失數據處理方法比較[J].心理學報,2009,(41).
[11]Holman R,Glas C A W.Modeling Non-Ignorable Missing-Data Mechanism With Item Response Theory Models[J].British Journal of Mathematical and Statistical Psychology,2005,(58).
[12]付志慧.多維項目反應模型的參數估計[D].吉林大學,2010.