程曦

在統(tǒng)計研究中的各類問卷調查中,多項選擇題的應用十分普遍。多項選擇題有較多備選項,可以同時選擇多個選項,其復雜度也強于一般分類數(shù)據(jù)。因此,本文運用本學期所學的非參數(shù)統(tǒng)計檢驗知識,針對各選項的顯著性,嘗試運用多種方法對該類數(shù)據(jù)進行檢驗與分析,也對各類方法的效果進行分析和比較。
在記錄多選題調查結果時,為了便于定量分析,采用多重二分法(Multiple Dichotomy Method)的編碼方法,即將多項選擇題的每一個選項視為一個“處理”,每一份問卷看作一個“區(qū)組”,并用“0”表示沒有被選中、“1”表示被選中。這樣,多項選擇題的數(shù)據(jù)可以表示為二元完全區(qū)組數(shù)據(jù)。
一、問題的提出
本文的例證數(shù)據(jù)采用以下多選題的調查數(shù)據(jù):請問您日常飲用下列哪種水?(多選)A 自來水,B井水,C 家用凈水器處理后的水,D 桶裝水或瓶裝水。
選取調查結果中的25份問卷,其調查結果以多重二分法編碼如下:
二、關于隨機性的游程檢驗
(一)模型建立
游程檢驗是用于檢驗取值“1”概率為p的Bernoulli試驗中的“1”和“0”是否隨機出現(xiàn)的方法。其原理是,將連在一起的“0”或“1”作為一個游程,當已知出現(xiàn)了多少個“1”和“0”時,游程個數(shù)R服從固定的分布。
其假設為:H0:有隨機性;H1:無隨機性(有聚類傾向)
統(tǒng)計量及其分布為:R=游程數(shù)~Y(m ,n)
其中m為“0”的個數(shù),n為“1”的個數(shù),Y代表游程分布。
其具體計算是通過累加概率求得P值:
(二)模型求解
編寫R程序實現(xiàn)這一檢驗方法,得到4個選項檢驗的p值分別為:(α=0.05)
可見,均不能拒絕原假設,即認為源數(shù)據(jù)的隨機性良好,符合問卷調查的隨機抽樣原則。也就是說,這部分問卷在填寫時并沒有出現(xiàn)較為嚴重的相互抄襲或人為編造等影響問卷質量的現(xiàn)象,因此,該數(shù)據(jù)適合進行進一步分析。
三、關于單對選項差異的McNemar檢驗
(一)模型建立
McNemar檢驗是用于檢驗配對二元取值數(shù)據(jù)中取“1”的比例是否相等的檢驗方法,對于本例,則是選擇某選項的比例,該方法首先將數(shù)據(jù)寫成列聯(lián)表形式:
分別為處理1和處理2的取“1”的比例,則檢驗的假設為:
統(tǒng)計量和近似分布為:
其p值即是統(tǒng)計量在分布中的雙邊概率值。
(二)模型求解
編寫R程序實現(xiàn)這一檢驗方法,得到AD、DC、CB三對檢驗的p值分別為:(α=0.05)
可見,A>D>C>B中的A>D,D>C,C>B這三個關系都不是顯著的。也就是說,目前沒有足夠的理由認為飲用“自來水”的人數(shù)多于“桶裝水或瓶裝水”,飲用“桶裝水或瓶裝水”的人數(shù)多于“家用凈水器處理后的水”,飲用“家用凈水器處理后的水”的人數(shù)多于“井水”。
那么,如果跨步檢驗,即A>C,D>B,甚至直接檢驗A>B,大于關系是否顯著呢?檢驗結果為:
可見,結果發(fā)生了巨大變化,全部都非常顯著。
四、關于全部選項差異的Cochran檢驗
(一)模型建立
Cochran檢驗是對二元響應的完全區(qū)組數(shù)據(jù)中不同處理的位置參數(shù)是否相同的檢驗。位置參數(shù)表征四個選項在受訪者眼中的排序。假設為第i個選項的位置參數(shù),則檢驗的假設為:不全相等
統(tǒng)計量及其分布為:
其中,b為區(qū)組數(shù),即問卷數(shù);k為處理數(shù),即選項數(shù);Ni為第i個選項1出現(xiàn)的個數(shù);Lj為第j個問卷中選1的個數(shù);N為1出現(xiàn)的總個數(shù)。
(二)模型求解
編寫R程序實現(xiàn)這一檢驗方法,得到檢驗的p值為:
可見,顯著性是非常強的。也就是說,對于“自來水”“井水”“家用凈水器處理后的水”“桶裝水或瓶裝水”這幾種飲用水方式,人們對其選擇的比例差異是非常大的。這也說明,該問卷中該多項選擇題的設置是十分有意義的,收回問卷后得到的數(shù)據(jù)也是十分有比較價值的。
五、結論
通過各個模型的建立、實際問題的求解,以及對二元數(shù)據(jù)的新的處理方法的效果討論,可以從實際問題和研究方法兩方面得出結論。
對于本文所示的多項選擇題來說,其調查所得數(shù)據(jù)的隨機性是良好的;在4個選項之間的兩兩大小關系的比較中,只有3個跨步大小關系是顯著的,因此A>D>C>B不是顯著成立的,只能確信A>C,D>B,A>B這三種關系。作為多選題整體來看,該題的整體選項差異是顯著的,因此用本例來進行調查是有意義的。
對于研究方法來說,游程檢驗能夠很好地判斷調查問卷所得數(shù)據(jù)是否具有隨機性,即是否是完全隨機抽樣;McNemar檢驗能夠很好地比較兩個選項的差異性,即選一種選項的人數(shù)是否顯著大于另一種;Cochran檢驗能夠很好地判斷多選題整體的各個選項是否具有差異性,即從整體判斷多選題調查的效果;而加入隨機變量后的Friedman檢驗方法也在本例中達到了比較好的效果,能夠以較高的準確率判斷多選題整體差異性是否顯著。
參考文獻:
[1]李燦.調查問卷中多項選擇題的處理方法[J].統(tǒng)計與決策,2006(06).
[2]吳喜之,趙博娟.非參數(shù)統(tǒng)計[M].中國統(tǒng)計出版社,2013.
[3]趙江濤.多項選擇模型的參數(shù)估計[J].網(wǎng)絡財富,2009(15).
[4]羅明奎.配對資料McNemar檢驗法的適用范圍[J].中國衛(wèi)生統(tǒng)計,1993(03).
[5]趙國龍,杜詩軍.非虛假設綜合卡方檢驗[J].應用概率統(tǒng)計,2003(04).