孫豐霖,類淑河
(中國海洋大學 數(shù)學科學學院,山東 青島 266100)
社會調(diào)查往往會收集到大量的定性數(shù)據(jù),一般分為無序的名義數(shù)據(jù)(Nominal Data)和有順序概念的有序數(shù)據(jù)(Ordinal Data)[1],它們所代表的總體分別是名義變量和有序變量。“有序”是指對變量進行分類并按照一定的順序排列,不同類別之間的距離并不需要相等的一種測量尺度[2]。對于有序數(shù)據(jù)的數(shù)據(jù)分析,以一種定量的方式,比如按照順序的概念進行賦值在數(shù)據(jù)處理中十分有益[3]。雖然可以簡單的將有序變量賦值1,2,…,k,但這些數(shù)字除了有次序關(guān)系以外并沒有實際意義。均值、方差以及協(xié)方差對這類數(shù)據(jù)也是沒有意義的[4]。例如:對一種商品售后服務的滿意程度有:1很滿意、2滿意、3尚可、4不滿意、5十分不滿意。雖然“1很滿意”和“2滿意”的差距與“3尚可”和“4不滿意”之間數(shù)字差距都為1,但不能認為二者之間的真實差距是相同的。因此,用于連續(xù)型數(shù)據(jù)的方法不能簡單地應用到有序數(shù)據(jù)上,否則,所得到結(jié)果往往是粗糙甚至完全錯誤的。如果能夠?qū)τ行蜃兞窟M行合理的賦值,找到各個類別真實的代表值,有序數(shù)據(jù)就變成了一種特殊的計數(shù)數(shù)據(jù)(取值離散、有限但非整數(shù)),此時,均值、方差以及協(xié)方差等量就存在意義,應用于連續(xù)數(shù)據(jù)的模型和方法就能夠應用到各類別的代表值上來。丁元林、孔丹莉(2005)[5]借助層次分析法來對各類別進行量化,雖然能夠一定程度上解決各類別之間等距的問題,但還是存在較強的主觀性。因此,一種客觀的賦值方法對于有序變量的處理十分關(guān)鍵。
多總體均值的比較問題在實際數(shù)據(jù)分析中十分常見。在許多領(lǐng)域,ANOVA是最常用的統(tǒng)計方法之一[6]。當數(shù)據(jù)滿足正態(tài)性和方差齊性時,ANOVA的F檢驗被認為是最簡單也是最優(yōu)的方法。不過當假定不滿足時,F(xiàn)檢驗就會變得無效。針對正態(tài)異方差情況,已經(jīng)有許多檢驗方法可以使用,如Weerahandi(1995)[7],Krishnamoorthya、Lu、Mathew(2007)[8]等。對于非正態(tài)異方差情況,Luh和Guo(1999)[6]提出了一種具有較好穩(wěn)健性的方法。此外,還可以對數(shù)據(jù)進行正態(tài)化,不過正態(tài)化的方法有多種多樣,往往難以做出最優(yōu)的選擇,有時還會存在解釋上的困難[9]。其他處理非正態(tài)的方法還有使用更加穩(wěn)健的位置參數(shù)代替均值或者使用秩方法[10],比如Wilcoxon秩和檢驗、Kruskal-Wallis秩和檢驗等。不過需要注意到,從連續(xù)型數(shù)據(jù)轉(zhuǎn)化為秩數(shù)據(jù)時會令原始數(shù)據(jù)損失一部分信息。
以上方法都是針對連續(xù)型數(shù)據(jù)而言的方法,當數(shù)據(jù)來自有序變量時,數(shù)據(jù)的不連續(xù)性和打結(jié)現(xiàn)象(數(shù)據(jù)中存在相同的數(shù)字)會使得前面的方法都不夠穩(wěn)健或者無法使用,這就對新的檢驗方法提出了要求。Lu、Poon、Cheung(2015)[11]提出了針對有序數(shù)據(jù)的多重比較方法,通過正態(tài)潛變量模型解決有序數(shù)據(jù)的一元多總體期望是否一致的問題,該方法假定觀測到的有序數(shù)據(jù)是對某一潛在的連續(xù)正態(tài)變量的一種粗略度量,通過對潛變量總體均值的兩兩比較來得出結(jié)果。魯統(tǒng)宇等(2016)[4]在實際的社會調(diào)查數(shù)據(jù)中應用了此方法,并通過Bonferroni校正來控制總體錯誤率,由于沒有考慮檢驗統(tǒng)計量之間的相關(guān)性,檢驗的功效比較低。
本文提出了一種針對有序數(shù)據(jù)的一元單因素方差分析方法。首先通過潛變量模型對有序數(shù)據(jù)進行客觀合理的賦值,計算各個類別真實的代表值。此時,有序數(shù)據(jù)就轉(zhuǎn)化為可以進行數(shù)學運算的量。然后,通過ANOVA來檢驗多組別數(shù)據(jù)總體期望是否一致。鑒于ANOVA要求各組別數(shù)據(jù)應滿足正態(tài)性和方差齊性,因此采用Bootstrap方法重抽樣進行重構(gòu)數(shù)據(jù)。根據(jù)中心極限定理,合適的自助樣本容量可以保證重構(gòu)后的數(shù)據(jù)滿足正態(tài)性,在保證正態(tài)性的基礎上對各總體的自助樣本容量進行調(diào)整,可以令各組重構(gòu)數(shù)據(jù)的方差近似相等,這樣重構(gòu)數(shù)據(jù)就滿足了正態(tài)性和方差齊性。該過程保證了重構(gòu)數(shù)據(jù)與原始數(shù)據(jù)有相同的總體均值,接下來利用一元單因素ANOVA方法檢驗重構(gòu)數(shù)據(jù)的均值是否一致,對重構(gòu)數(shù)據(jù)進行的方差分析也就是對原始數(shù)據(jù)均值信息的假設檢驗。
對于有序變量z,假定存在一個潛在的連續(xù)變量x。連續(xù)變量x代表z在各類別下潛在的真實值,通常假設x的取值范圍是從-∞到+∞,潛變量x可以用于有連續(xù)性要求的統(tǒng)計方法和模型。如果z有m個類別,標記為1,2,…,m,則有序變量z和潛變量x的關(guān)系是:
其中:
τi(i=0,1,…,m)稱為臨界值。因為在有序數(shù)據(jù)中所獲得的都是z的信息,而潛變量x的分布并沒有任何信息。原則上來說,可以選擇任何連續(xù)型分布作為潛變量的分布函數(shù)。但在實際應用中,正態(tài)分布應該是潛變量最常見的分布,因此假設潛變量x服從標準正態(tài)分布對處理問題是十分方便的[12]。記標準正態(tài)分布的密度函數(shù)為φ(x),分布函數(shù)為Φ(x)。有序變量z取值為i的概率為:
于是:
Φ-1是標準正態(tài)分布的逆變換。由于在實際中,pi是未知總體的量,一般用的所對應的類別的樣本頻率 pi來代替,即:
各個類別的臨界值確定后,可以通過計算積分平均值的方法得到各類別的代表值,即:
接下來就可以將ai作為各類別的真實代表值計算均值、方差、協(xié)方差等。當假設潛變量服從[0,c]區(qū)間上的均勻分布時,就簡化為陳民肯(2007)[13]中的秩分析方法。
得到各類別的代表值后,k組有序數(shù)據(jù)就可以表達成來自k個服從離散分布的隨機變量的樣本。設ξi(i=1,2,…,k)是相互獨立的隨機變量,概率分布為:
下面進行數(shù)據(jù)重構(gòu):給定自助樣本容量m1,m2,…,mk和自助樣本數(shù)量n1,n2,…,nk,從x1中有放回的隨機抽取m1個樣本,求所抽出樣本的均值上述步驟重復n1次,可以從x1中得到重構(gòu)數(shù)據(jù),當m1足夠大時,由中心極限定理可得。對總體G2至Gk也進行上述步驟,可以得到各個總體的重構(gòu)數(shù)據(jù)y2,…,yk。當m2,…,mk足夠大時,各總體的重構(gòu)數(shù)據(jù)服從相應的正態(tài)分布。事實上,當m1,m2,…,mk足夠大時,可以保證各組數(shù)據(jù)正態(tài)性,在此基礎上調(diào)整m1,m2,…,mk的取值可以令各重構(gòu)樣本的方差相近,這樣重構(gòu)數(shù)據(jù)就滿足數(shù)據(jù)正態(tài)性和方差齊性條件。在實際應用中,總體方差一般是未知的,可以用樣本方差替代。下面對重構(gòu)數(shù)據(jù)y1,y2,…,yk進行方差分析。記:
當原假設成立時,由yij之間的獨立性和正態(tài)性,可以得到:
假設變量已經(jīng)能夠得到客觀合理的賦值,驗證上文中重構(gòu)數(shù)據(jù)和ANOVA方法。以組別k=2,3,5為例,簡單起見,假設各組別的原始樣本量s和自助樣本數(shù)量n相同。以s=50,100,150,200,250,300;n=10,15,20,25,30為例,隨機生成k組總體均值相同相互獨立的隨機樣本,計算在α=0.05和0.01兩種情況下,該方法對原假設的拒絕率,即實際error I(每個s和n的組合進行105次實驗),結(jié)果見下頁表1。
表1 k=2,3,5時實際error I
從表1可以發(fā)現(xiàn):無論自助樣本數(shù)量和樣本量取何值,實際error I都會發(fā)生不同程度“膨脹”現(xiàn)象。不過隨著樣本量的增大,實際error I會越來越接近名義error I。隨著自助樣本數(shù)量增加,實際error I會逐漸增大,這是因為自助樣本數(shù)量增大會導致檢驗的均值越來越趨近于樣本均值,如果樣本均值與總體均值有一定差距的話,會傾向于拒絕原假設。當類別數(shù)增大時,實際error I也會有一定程度的增加。在實際應用中,可以采取如下方法控制實際error I:
(1)增大原始樣本量。樣本量的增大會使得樣本與總體差距越來越小,樣本代表總體的程度也越來越好,實際的兩類錯誤都會得到控制。現(xiàn)如今,數(shù)據(jù)量往往不再成為限制統(tǒng)計的一個難題,科技的發(fā)展讓大量樣本的獲取成為可能,使得該方法有一定的應用空間。當樣本量由于獲取手段、環(huán)境等因素不可增加時,可采取方法(2)、方法(3)。
(2)減小名義error I。雖然該方法的實際error I無法達到名義error I,但可以通過降低名義error I來控制實際error I。例如表1中,當k=2、s=300、n=10時,給定α=0.05,但此時實際error I達到0.14,但如果將α減小到0.01時,實際error I就可以控制到0.05。
(3)進行多次檢驗。由于本文方法的核心是通過重抽樣進行重構(gòu)樣本,所以允許進行多次抽樣和假設檢驗。例如制定策略:進行10次重抽樣和假設檢驗,當有6次或者6次以上拒絕原假設時,得出拒絕原假設的結(jié)論。當k=2、s=300、n=10、α=0.05時,實際error I為0.29,如果采用該策略,實際error I就會降低到0.04<α=0.05。
秩方法和潛變量模型都可以對有序變量進行客觀地賦值,雖然前者更加簡單和易于理解,但在實際中,后者應該是更為合適的選擇。重構(gòu)數(shù)據(jù)的過程將有序數(shù)據(jù)轉(zhuǎn)化為連續(xù)數(shù)據(jù),在轉(zhuǎn)換過程中把原始數(shù)據(jù)的總體均值的信息保留下來。在這一過程中,確定合適的自助樣本容量m、自助樣本數(shù)量n和名義error I十分關(guān)鍵,前者保證了重構(gòu)數(shù)據(jù)的正態(tài)性和方差齊性,后兩者保證了假設檢驗結(jié)論的正確性,防止誤判的發(fā)生。由于Bootstrap方法是可放回的隨機抽樣,該方法對原始樣本數(shù)量并沒有要求。當樣本質(zhì)量較高時,即樣本均值、方差等與總體一致,即使是小樣本情況,該方法在控制實際error I和error II方面都有很好的效果。不過,更穩(wěn)妥的適用范圍應該是在大樣本情況。雖然在普通樣本下,會導致該方法的實際error I明顯偏大,但可以通過增大原始樣本量、降低名義error I和進行多次試驗來解決出現(xiàn)的“膨脹”現(xiàn)象。如果一味地選擇降低名義error I,雖然可以使得實際error I降低到給定值,但這樣做可能會使實際error II增加,所以解決方法(2)和方法(3)配合使用時往往能產(chǎn)生很好的效果,這也是該方法的優(yōu)勢所在。
本文實際上為多總體一元有序數(shù)據(jù)提供了一種簡單的比較總體均值一致性的參數(shù)方法,為社會調(diào)查數(shù)據(jù)分析者提供了一種解決多組別比較問題的手段。由于本文只考慮了單因素情況的ANOVA,如何將其應用到多因素甚至多元ANOVA中及該方法的效果有待進一步研究。
參考文獻:
[1]張堯庭等.定性資料的統(tǒng)計分析[M].南寧:廣西師范大學出版社,1991.
[2]Vogt W P,Johnson R B.Dictionary of Statistics&Methodology:A Nontechnical Guide for the Social Sciences[M].Newcastle:Sage,2011.
[3]Agresti A.An Introduction to Categorical Data Analysis[M].New Jersey:John Wiley&Sons,2007.
[4]魯統(tǒng)宇,劉春雨,王珮.社會調(diào)查數(shù)據(jù)中的多組別比較分析[J].統(tǒng)計與決策,2016,(12).
[5]丁元林,孔丹莉.對比標度權(quán)重法在量化有序多分類變量中的應用[J].數(shù)理醫(yī)藥學雜志,2005,18(1).
[6]Luh W M,Guo J H.A Powerful Transformation Trimmed Mean Method for One-way Fixed Effects ANOVA Model Under Non-normality and Inequality of Variances[J].British Journal of Mathematical and Statistical Psychology,1999,52(2).
[7]Weerahandi S.Anova Under Unequel Error Variances[J].Biometrics,1995.
[8]Krishnamoorthy K,Lu F,Mathew T.A Parametric Bootstrap Approach for ANOVA With Unequal Variances:Fixed and Random Models[J].Computational Statistics&Data Analysis,2007,51(12).
[9]鮑貴.方差分析穩(wěn)健性的蒙特卡羅研究[J].外語研究,2004,(1).
[10]吳喜之.非參數(shù)統(tǒng)計[M].北京:中國統(tǒng)計出版社,1999.
[11]Lu T Y,Poon W Y,Cheung S H.Multiple Comparisons With a Control for a Latent Variable Model With Ordered Categorical Responses[J].Statistical Methods in Medical Research,2015,24(6).
[12]J?reskog K G.Structural Equation Modeling With Ordinal Variables Using LisrEL[R].Technical Report,Scientific Software International,Inc.,Lincolnwood,IL,2005.
[13]陳民肯.多分類有序變量間距差異的統(tǒng)計分析與實際應用[D].廈門:廈門大學碩士學位論文,2007.