多項選擇題數(shù)據(jù)的非參數(shù)統(tǒng)計方法探究

2015-08-15 03:38:50程曦

學周刊·中旬刊 2015年8期

程曦

在統(tǒng)計研究中的各類問卷調查中，多項選擇題的應用十分普遍。多項選擇題有較多備選項，可以同時選擇多個選項，其復雜度也強于一般分類數(shù)據(jù)。因此，本文運用本學期所學的非參數(shù)統(tǒng)計檢驗知識，針對各選項的顯著性，嘗試運用多種方法對該類數(shù)據(jù)進行檢驗與分析，也對各類方法的效果進行分析和比較。

在記錄多選題調查結果時，為了便于定量分析，采用多重二分法（Multiple Dichotomy Method）的編碼方法，即將多項選擇題的每一個選項視為一個“處理”，每一份問卷看作一個“區(qū)組”，并用“0”表示沒有被選中、“1”表示被選中。這樣，多項選擇題的數(shù)據(jù)可以表示為二元完全區(qū)組數(shù)據(jù)。

一、問題的提出

本文的例證數(shù)據(jù)采用以下多選題的調查數(shù)據(jù)：請問您日常飲用下列哪種水？（多選）A 自來水，B井水，C 家用凈水器處理后的水，D 桶裝水或瓶裝水。

選取調查結果中的25份問卷，其調查結果以多重二分法編碼如下：

二、關于隨機性的游程檢驗

（一）模型建立

游程檢驗是用于檢驗取值“1”概率為p的Bernoulli試驗中的“1”和“0”是否隨機出現(xiàn)的方法。其原理是，將連在一起的“0”或“1”作為一個游程，當已知出現(xiàn)了多少個“1”和“0”時，游程個數(shù)R服從固定的分布。

其假設為：H0：有隨機性;H1：無隨機性（有聚類傾向）

統(tǒng)計量及其分布為：R=游程數(shù)～Y（m ，n）

其中m為“0”的個數(shù)，n為“1”的個數(shù)，Y代表游程分布。

其具體計算是通過累加概率求得P值：

（二）模型求解

編寫R程序實現(xiàn)這一檢驗方法，得到4個選項檢驗的p值分別為：（α=0.05）

可見，均不能拒絕原假設，即認為源數(shù)據(jù)的隨機性良好，符合問卷調查的隨機抽樣原則。也就是說，這部分問卷在填寫時并沒有出現(xiàn)較為嚴重的相互抄襲或人為編造等影響問卷質量的現(xiàn)象，因此，該數(shù)據(jù)適合進行進一步分析。

三、關于單對選項差異的McNemar檢驗

（一）模型建立

McNemar檢驗是用于檢驗配對二元取值數(shù)據(jù)中取“1”的比例是否相等的檢驗方法，對于本例，則是選擇某選項的比例，該方法首先將數(shù)據(jù)寫成列聯(lián)表形式：

分別為處理1和處理2的取“1”的比例，則檢驗的假設為：

統(tǒng)計量和近似分布為：

其p值即是統(tǒng)計量在分布中的雙邊概率值。

（二）模型求解

編寫R程序實現(xiàn)這一檢驗方法，得到AD、DC、CB三對檢驗的p值分別為：（α=0.05）

可見，A>D>C>B中的A>D，D>C，C>B這三個關系都不是顯著的。也就是說，目前沒有足夠的理由認為飲用“自來水”的人數(shù)多于“桶裝水或瓶裝水”，飲用“桶裝水或瓶裝水”的人數(shù)多于“家用凈水器處理后的水”，飲用“家用凈水器處理后的水”的人數(shù)多于“井水”。

那么，如果跨步檢驗，即A>C，D>B，甚至直接檢驗A>B，大于關系是否顯著呢？檢驗結果為：

可見，結果發(fā)生了巨大變化，全部都非常顯著。

四、關于全部選項差異的Cochran檢驗

（一）模型建立

Cochran檢驗是對二元響應的完全區(qū)組數(shù)據(jù)中不同處理的位置參數(shù)是否相同的檢驗。位置參數(shù)表征四個選項在受訪者眼中的排序。假設為第i個選項的位置參數(shù)，則檢驗的假設為：不全相等

統(tǒng)計量及其分布為：

其中，b為區(qū)組數(shù)，即問卷數(shù);k為處理數(shù)，即選項數(shù);Ni為第i個選項1出現(xiàn)的個數(shù);Lj為第j個問卷中選1的個數(shù);N為1出現(xiàn)的總個數(shù)。

（二）模型求解

編寫R程序實現(xiàn)這一檢驗方法，得到檢驗的p值為：

可見，顯著性是非常強的。也就是說，對于“自來水”“井水”“家用凈水器處理后的水”“桶裝水或瓶裝水”這幾種飲用水方式，人們對其選擇的比例差異是非常大的。這也說明，該問卷中該多項選擇題的設置是十分有意義的，收回問卷后得到的數(shù)據(jù)也是十分有比較價值的。

五、結論

通過各個模型的建立、實際問題的求解，以及對二元數(shù)據(jù)的新的處理方法的效果討論，可以從實際問題和研究方法兩方面得出結論。

對于本文所示的多項選擇題來說，其調查所得數(shù)據(jù)的隨機性是良好的;在4個選項之間的兩兩大小關系的比較中，只有3個跨步大小關系是顯著的，因此A>D>C>B不是顯著成立的，只能確信A>C，D>B，A>B這三種關系。作為多選題整體來看，該題的整體選項差異是顯著的，因此用本例來進行調查是有意義的。

對于研究方法來說，游程檢驗能夠很好地判斷調查問卷所得數(shù)據(jù)是否具有隨機性，即是否是完全隨機抽樣;McNemar檢驗能夠很好地比較兩個選項的差異性，即選一種選項的人數(shù)是否顯著大于另一種;Cochran檢驗能夠很好地判斷多選題整體的各個選項是否具有差異性，即從整體判斷多選題調查的效果;而加入隨機變量后的Friedman檢驗方法也在本例中達到了比較好的效果，能夠以較高的準確率判斷多選題整體差異性是否顯著。

參考文獻：

[1]李燦.調查問卷中多項選擇題的處理方法[J].統(tǒng)計與決策，2006（06）.

[2]吳喜之，趙博娟.非參數(shù)統(tǒng)計[M].中國統(tǒng)計出版社，2013.

[3]趙江濤.多項選擇模型的參數(shù)估計[J].網(wǎng)絡財富，2009（15）.

[4]羅明奎.配對資料McNemar檢驗法的適用范圍[J].中國衛(wèi)生統(tǒng)計，1993（03）.

[5]趙國龍，杜詩軍.非虛假設綜合卡方檢驗[J].應用概率統(tǒng)計，2003（04）.