姜 博王麗敏劉 艷△李鎰沖△
復雜抽樣數據統計分析方法回顧*
姜 博1王麗敏2劉 艷1△李鎰沖2△
當今社會科學與健康科學調查研究,尤其是大規模調查,往往涉及多地區或多中心的抽樣問題,采取單純隨機抽樣選擇樣本因調查對象過于分散,成本高,可行性低[1],調查設計者更傾向于可行性較高的復雜抽樣,但其通常使樣本結構復雜化。若采用忽略抽樣特征的傳統統計學方法分析此類數據,會導致標準誤的低估,進而低估可信區間,且增大犯I類錯誤的可能性,最終導致偏倚甚至得到錯誤的統計推斷[2]。目前,對于復雜抽樣數據的統計分析主要分為基于設計和基于模型兩種方法體系[3],本文對這兩種分析體系的主要文獻進行了回顧。
復雜抽樣指在抽樣過程中采用除一階段單純隨機抽樣外,其他抽樣方法或其組合的抽樣方案。復雜抽樣通常具有分層、整群、不等概率或多階段等設計特點,其產生的樣本稱為復雜樣本。復雜抽樣優勢在于:節省人力物力,使大規模調查更具可行性;可靈活調整樣本量在各級抽樣單位中的分配;可通過改變抽樣比來提高子總體的代表性和估計的可靠性。因此,目前在衛生領域調查研究中,復雜抽樣設計已非常普遍[4],許多大規模國家級調查均采用了復雜抽樣設計,如2010年中國慢性病及其危險因素監測[5]、美國全國健康及營養狀況調查[6]等。
復雜抽樣設計往往使樣本具有明顯層次性,即樣本信息在一定地理區域或范圍內存在聚集性[7],其內個體彼此不獨立。以2010年慢性病及其危險因素監測多階段復雜抽樣設計為例:第一階段在所有162個監測縣/區中按不等概率方法(與人口規模成比例的抽樣方法,PPS)隨機抽取4個鄉鎮;第二階段在每個抽中的鄉鎮中利用PPS法隨機抽出3個村;第三階段在每個抽中的村中利用整群抽樣隨機抽取居民戶;第四階段從抽中的居民戶中隨機抽取1名符合條件的居民作為調查對象[5]。四個階段抽樣將樣本分為5個水平,1水平是居民,2水平是居民戶,依次類推,每個水平包含多個抽樣單位即鄉鎮是縣/區的抽樣單位,依次類推。生活在同一水平、單位間的居民因有相同的經濟、環境等因素,常具有相似的生活習慣,使得居民個體觀測指標數據有明顯層次聚集性,這種數據稱為層次結構數據。這種現象廣泛存在于自然界和人類社會中,衛生領域大規模調查更是無法避免接觸此類數據。因此,能夠解釋復雜樣本層次結構的統計分析方法就顯得尤為重要。
針對復雜樣本,目前有兩種統計分析方法體系,即基于設計和基于模型的統計分析方法,二者主要區別在于假設總體是否來自于一個無限的超總體[3]。前者不依賴于數據分布特征,通過對樣本的抽樣設計特點來分析并解釋數據;后者則不考慮設計因素,利用相應模型假設進行分析[8]。
1.基于設計的統計分析方法
(1)描述性統計
基于設計的統計描述方法常結合權重進行構造,權重包括三個方面:抽樣權重、無應答權重和事后分層權重[9],可表示為:

ws為抽樣權重,wr為無應答權重,wps為事后分層權重。抽樣權重為入樣單元被抽中概率倒數,若存在多階段抽樣,則為各階段入樣單元權重之積[10]。無應答權重為樣本應答率倒數,可用與應答率相關變量分層計算。事后分層權重目的在于將樣本特征調整與目標總體一致,其計算需將目標總體與樣本按關鍵指標分層,分別計算各層目標總體總量與累計權重(抽樣權重與無應答權重)之和,最終形式即每層總體總量與累計權重之比[11]。利用權重,均數可表示為:

率可表示為:

δi表示當第i個對象具有某特征,則δi=1,否則δi=0。
對于方差估計,主要包括泰勒級數線性近似法、刀切法、平衡半樣本法[12]。泰勒級數線性近似法基本思想是利用泰勒級數方法將非線性統計量線性化,然后計算方差的估計值[2,9]。刀切法基本思想是將總體分成k組,每次抽取時從中去掉一組,得到的多個二次抽樣樣本,每個二次樣本可得到一個均數或率的估計值,根據估計值的差異估計方差[13]。平衡半樣本法基本思想是假設總體分成L層,從每層隨機抽取兩個樣本單位,共抽取2L次,產生2L個半樣本,得到多個均數或率的估計值,利用多個估計值的差異估計方差[12,14]。研究顯示,泰勒級數線性近似法更為穩定[15],應用范圍更廣[16]。為簡化計算,SAS等統計軟件應用泰勒級數線性近似法估計方差時一般只考慮初級抽樣單元的數目,而忽略其他級別抽樣單元[17],當初級抽樣單元抽樣比例較小時,方差估計的偏倚也較小[18]。
基于設計的統計推斷方法適合大樣本層次結構數據,估計較為精確、穩定[8],對于小樣本數據、缺失數據等情況可能造成估計偏倚[3]。
(2)分析性統計(關系或效應估計)
基于設計的統計分析方法是將權重引入模型。若因變量為連續型變量,常用基于設計的線性回歸模型。其模型參數估計方法根據偽極大似然法推導出[19]:

w表示權重,Y=(Y1…Yn)T,XT=(x1…xn)。
若因變量為分類變量,常用基于設計的logistic回歸模型,其采用極大似然法估計參數,似然函數為[20-21]:

H為分層抽樣層數,h=1,2,…,H;i為第h層中第i單位,i=1,2,…,nh;j為第h層中第i單位的第j個觀測值,j=1,2,…,mhi,h層中總計mhi個觀測值;whij為權重;y為結局變量。以二分類為例,yhij表示y第一類的指示變量,y′hij表示y第二類的指示變量;πhij是y的期望向量。
基于設計的方法不足在于,需要足夠樣本量,即使大型調查研究中,也可能出現某些地區樣本量較小導致結果不可靠;覆蓋不全、無應答等情況導致抽樣隨機化假定被破壞,造成偏倚[16]。基于設計的統計分析方法應用較為廣泛,如英國健康調查、英國社會態度調查等[22]。
2.基于模型的統計分析方法
(1)描述性統計
基于模型的方法通過擬合相應模型進行統計描述。對于計量資料,假設數據滿足線性模型,Y=β+e且e~(0,δ),β的估計值即為樣本均數,可用公式=計算,采用正態近似法估計總體均數雙側可信區間為同理對于計數資料,假設數據滿足二項分布概率模型,總體概率π的估計值p=X/n,正態近似法估計總體概率雙側可信區間為p±uα/2Sp。
另一種描述方法是根據超總體模型理論,假設所研究的總體是隨機從超總體中抽取的一個樣本。對總體參數的統計推斷轉變為預測未抽中單元[23],即在某種特定模型假設條件下,利用樣本數據估計未抽到數據,進而估計總體參數[24]。

如公式所示,從總體中抽取樣本S后,總體總和Y被分解為兩個部分。其中是抽取到的樣本集合屬于未抽中部分,通過樣本S擬合相應模型進行估計。通過此方法可以估計總體總和、均數、比率、方差等,具體計算方法可參考相關文獻[3,23-24],目前超總體模型在衛生領域的應用并不多見。
基于模型的統計推斷方法可適用于小樣本問題、數據缺失問題、離群值問題[3],但其對模型的假設有較高要求,也無法很好描述層次結構數據[23]。
(2)分析性統計
基于模型的方法采用適當的模型來擬合數據,如線性模型、多水平模型等。多水平模型與傳統模型(線性模型、logistic回歸模型等)區別在于其將總的隨機誤差分解到相應水平中,每個水平都有與其誤差項相應的殘差、方差與協方差項,最終構建適應層次結構數據具有復雜誤差結構的模型[25]。多水平模型中因變量可為定量或定性變量,以多水平logistic回歸模型為例,擬合兩水平隨機效應模型[7]。

i為1水平;j為2水平;β0為平均截距,u0j為截距的隨機變量;β1為平均斜率,u1j為平均斜率的隨機變量;(β0+β1xij)為固定效應,(u0j+u1jxij)為隨機效應,以迭代廣義最小二乘法與邊際擬似然法等方法估計參數。
因層次結構數據有聚集性特點,應用傳統模型將導致各參數及方差估計不準確,并可能掩蓋不同水平對反應變量的影響,導致錯誤結論[25],而多水平模型可以有效將各水平作用分離出來,較精確地調整因不同水平個體間相關性對結果產生的偏倚[26];可有效處理缺失值問題[27]。其不足在于,各水平單位數量不能太少;模型參數估計與假設檢驗較復雜[28]。多水平模型常用于注重區域影響作用的調查,如不同水平醫學心理學調查研究[29]、不同地區兒童生長發育影響因素調查研究[30]等。
3.基于設計的模型輔助方法
若樣本來自于不等概率的抽樣設計,忽略設計特點可能導致估計的偏倚[31]。基于設計的分析方法雖考慮了權重的影響,但對數據的處理僅停留在一水平單位[32],無法同時考慮各水平的影響,且對缺失數據較敏感。所以能夠同時汲取二者優點,相互取長補短的方法具有較強的理論吸引力和應用價值。近20年來,許多統計學家積極探索基于設計的模型輔助方法,加權多水平模型(weighted multilevelmodels)即為其中重要的一部分。
加權多水平模型從抽樣理論與多水平模型理論兩個角度綜合對層次結構數據進行分析,利用權重減小不等概率抽樣在參數估計中產生的偏倚,又能同時分析多個水平單位的影響。加權多水平模型的模型結構與一般多水平模型相似,但加權多水平模型是利用偽極大似然估計法進行參數估計[33-34]:

i為1水平,j為2水平,權重wj=1/πj,wi|j=1/πi|j,標準誤可根據泰勒線性三明治法計算。模型中,需分別計算各水平權重,但如果樣本量較少會導致偽極大似然估計產生偏倚,為減小偏倚可以調整權重。以兩水平為例,目前權重縮放(scaling of weights)常用計算方法有兩種,其一是Pfeffermann等于1998年提出,另一種是由Longford等于1995年提出[35]:

加權多水平模型可通過SAS 9.4版本GLIMMIX過程、Stata軟件gllamm分析模塊實現。目前由于權重的收集與計算較復雜、統計學軟件支持較少等原因,加權多水平模型的應用較少,還處于推廣之中。
目前公共衛生領域大規模調查研究中,復雜抽樣的應用十分廣泛,基于設計和基于模型的統計分析方法都可以普遍應用在復雜樣本,有研究表明,在大樣本的條件下,其估計結果相差不大[21],可根據調查研究目的、抽樣設計等因素選擇相應的方法,在抽樣框信息完整,樣本量足夠大的前提下,推薦使用基于設計的統計分析方法;抽樣信息不完整時或更多考慮層次結構關系的前提下,推薦使用基于模型的統計分析方法。而加權多水平模型綜合了兩種方法優點即在統計分析時,不僅考慮抽樣設計而且考慮層次結構關系,具有較大的使用價值和推廣意義,可以為衛生及相關領域政策的制定提供更加全面、精確的參考。
[1]Warszawski J,Messiah A,Lellouch J,et al.Estimating means and percentages in a complex sampling survey:application to a French national survey on sexual behaviour(ACSF).Stat Med,1997,16(4):397-423.
[2]劉建華,金水高.復雜抽樣調查總體特征量及其方差的估計.中國衛生統計,2008,25(4):377-379.
[3]金勇進,賀本嵐.復雜抽樣推斷方法體系的比較研究.統計與信息論壇,2011,26(10):3-8.
[4]Osborne JW.Best Practices in using large,complex samples:The importance of using appropriate weights and design effect compensation.Practical Assessment,Research&Evaluation,2011,16(12):1-7.
[5]趙文華,寧光.2010年中國慢性病監測項目的內容與方法.中華預防醫學雜志,2012,46(5):477-479.
[6]ES Ford WHG,Dietz WH.Prevalence of themetabolic syndrome among US adults:findings from the third National Health and Nutrition Exam ination Survey.Jama,2002,287(3):356-359.
[7]楊珉,李曉松主編.醫學和公共衛生研究常用多水平統計模型.北京:北京大學醫學出版社,2007:374-374.
[8]DCWheeler JEV,Paskett E.A Comparison of Design-based and Model-based Analysis of Sample Surveys in Geography.The Professional Geographer,2008,60(4):466-477.
[9]West BT.Statistical and methodological issues in the analysis of complex sample survey data:practical guidance for trauma researchers.JTrauma Stress,2008,21(5):440-7.
[10]胡楠,姜勇,李鎰沖,等.2010年中國慢病監測數據加權方法.中國衛生統計,2012,29(3):424-426.
[11]Little R.Post-stratification:a modeler′s perspective.J Am Stat Assoc,1993,88(423):1001-1012.
[12]王曉榮,趙俊康,王彤.復雜抽樣下的截取回歸模型在醫學研究中的應用.中國衛生統計,2012(5):691-697.
[13]D Krewski JR.Inference from stratified samples:properties of the linearization,jackknife and balanced repeated replication methods.The Annals of Statistics,1981,9(5):1010-1019.
[14]呂萍.重權數在復雜調查的方差估計中的應用.統計研究,2011(2):93-99.
[15]Paben SP.Comparison of Variance Estimation Methods for the National Compensation Survey:Proceedings of the Section on Survey Research Methods,American Statistical Association,1999.[16]Statistics-stockholm gk-jofo.Models in the practice of survey sampling(revisited).JOURNAL OF OFFICIAL STATISTICS-STOCKHOLM,2002,18(2):129-154.
[17]SAS Institute Inc.2011.SAS/STAT?9.3 User′s Guide.Cary,NC:SAS Institute Inc.
[18]Rao J.Interplay between sample survey theory and practice:an appraisal.Survey Methodology,2005,31(2):117-138.
[19]Li J.Regression Diagnostics for Complex Survey Data:Identification of Influential Observations.Ann Arbor:Proquest,2007:5-8.
[20]繆凡,童峰.復雜抽樣數據的logistic回歸分析方法及其應用.中國衛生統計,2008,25(6):577-579.
[21]陳丹萍.廣義線性混合效應模型(GLMM)與復雜抽樣的logistic回歸模型在分層整群抽樣數據分析中的比較:復旦大學,2010.
[22]Rafferty A.Introduction to Complex Sample Design in UK Government Surveys.London:ESDSGovernment,2011:21-33.
[23]鄒國華,馮士雍.超總體模型下有限總體的估計.系統科學與數學,2007,27(1):27-38.
[24]艾小青,金勇進.有限總體的估計——基于超總體模型.統計教育,2009,(2):3-6.
[25]孫振球主編.醫學統計學(第3版).北京:人民衛生出版社,2002:445-464.
[26]C Duncan KJ,Moon G.Context,composition and heterogeneity:usingmultilevelmodels in health research.SocSciMed,1998,46(1):97-117.
[27]王艷梅,王潔貞,丁守鑾,等.多水平模型在縱向研究資料中的應用.山東大學學報(醫學版),2007,(7):658-661.
[28]谷曉然.資本資產定價之收益率影響因素分析——基于多水平模型的實證研究:云南財經大學,2012.
[29]張巖波,張海敏,何大衛.多水平模型及其在醫學心理領域中的應用.山西醫科大學學報,2001,(6):510-512.
[30]金芳,倪宗瓚,李曉松,等.多元多水平模型及其在兒童生長發育研究中的應用.中國衛生統計,2004,(04):13-15.
[31]D Pfeffermann CJS,Holmes DJ.Weighting for unequal selection probabilities in multilevelmodels,1998,60(1):23-40.
[32]Asparouhov T.Weighting for unequal probability of selection in multilevelmodeling.Mplusweb notes,2004(8):1-28.
[33]SRabe-Hesketh.Multilevelmodelling of complex survey data.J.R.Statist.Soc.A,2006,169:805-827.
[34]于石成,廖加強,等.復雜抽樣數據多水平模型分析方法及其應用.中國衛生統計,2014,31(2):1-5.
[35]Carle AC.Fittingmultilevelmodels in complex survey data with design weights:Recommendations.BMCMedical Research Methodology,2009,9(1):49.
(責任編輯:劉 壯)
國家自然科學基金(81202287)
1.哈爾濱醫科大學衛生統計教研室(150081)
2.中國疾病預防控制中心慢性非傳染性疾病預防控制中心
△通信作者:李鎰沖,E-mail:alexleeliyichong@gmail.com;劉艷,E-mail:liuyan@ems.hrbmu.edu.cn