權重引入對大型入戶調查慢性病患病數據統計分析結果的影響

2019-03-18 03:31:28四川大學華西公共衛生學院610041

中國衛生統計 2019年1期

四川大學華西公共衛生學院(610041)

張黎陳芍兵楊薛玉張菊英△

為了以較低的調查成本獲取具有代表性的樣本,大型入戶調查通常是多種基本抽樣技術的結合使用,稱為復雜抽樣,如國家衛生服務調查、中國居民營養與健康狀況調查[1]等。復雜抽樣帶來的不等概率問題導致抽樣個體所代表的總體研究對象的個數并不相同[2]。同時,如果調查對象某些重要特征與總體的分布不一致,如年齡結構等,也會影響某些指標的估計。這時就需要對抽樣個體賦以適當的權重,以期望得到一些重要指標的無偏估計。但是,目前我國大型衛生服務和健康調查采用的統計推斷方法通常是建立在等概率隨機抽樣這一假設基礎上,研究者普遍沒有意識到在處理復雜抽樣數據時忽略各抽樣單位的權重以及人口結構時對分析結果的影響,對復雜抽樣數據的處理方法缺乏正確的認識。

因此,本文將以2015年四川省分級診療需方調查數據為例,詳述抽樣權重的計算方法,并通過比較引入和不引入權重時的人口結構、參數點估計值以及統計推斷結果的差異,說明權重的引入在處理大型入戶調查數據時的必要性。

資料與方法

1.資料來源

資料來源于2015年四川省分級診療需方調查,權重的計算還利用了2015年四川省統計年鑒數據[3]和2010年四川省第六次人口普查數據[4]。

2.抽樣方法

四川省分級診療需方調查采用多階段分層整群隨機抽樣。調查以四川省城市分類[5](成都市和攀枝花市為一類地區,甘孜藏族自治州、阿壩藏族羌族自治州和涼山彝族自治州為三類地區,其余城市為二類地區)作為分層依據,分層后各階段具體抽樣單位、數量和方法見表1。

共調查14個區縣,4141戶,共11522人,具體樣本分布見表2。

表1 各階段的抽樣單位、抽樣數量和抽樣方法

表2 調查樣本分布

3.統計分析

本研究采用基礎抽樣權重、標準化權重以及比例校正權重的聯合權重,通過比較加權前后人口結構、慢性病患病率以及兩水平logistic回歸模型結果,來探討權重引入對人口結構、參數點估計值以及統計推斷的影響。

(1)抽樣權重的計算

①基礎抽樣權重

基礎抽樣權重即樣本個體被抽中概率的倒數,若抽樣方法為多階段抽樣,則為各階段抽樣權重之積[6]。

假設多階段抽樣中第一階段到第四階段的抽樣權重分別為w1,w2,w3和w4,則基礎抽樣權重wbase=w1×w2×w3×w4。

②標準化權重

性別、年齡等人口學特征對指標估計有影響,進行標準化可以將樣本人口結構有效地調整至總體的水平。標準化權重wstd具體計算方法見表3。

表3 標準化權重計算方法

wstd=PPrc/PSrc

其中,PPrc為總體中第r行第c列的人口數占總體人口總數的比例,PSrc為樣本經過基礎抽樣權重加權后第r行第c列的加權人數占加權總人數的比例。

③比例校正權重

經過基礎抽樣權重和標準化權重聯合加權之后權重之和與總體實際人口數有一定的偏差,需要比例校正權重再次加權。比例校正權重wadj即實際總體人數與樣本加權后估計的總體人數之比。

④個體最終權重

個體最終的權重為基礎抽樣權重、標準化權重和比例校正權重的乘積。

wfinal=wbase×wstd×wadj

(2)兩水平加權logistic回歸模型

多水平模型可將隨機誤差分解到相應數據層次結構上,很好地解決了各觀察值之間不相互獨立的問題[7]。

logit(Pij)=(β0+u0j)+β1xij

u0j=β0j-β0

加權多水平模型綜合了抽樣理論與多水平模型理論,利用抽樣權重減小不等概率抽樣在參數估計中產生的偏倚,同時可以分析多個水平單位的影響[8]。加權多水平模型結構類似于一般多水平模型,但是其參數估計是構造加權對數偽似然函數如下[9-10]:

式中wj和wi|j分別為水平2和水平1的權重。

采用牛頓-拉夫遜最大算法求出上述參數估計值。個體水平權重如不經過縮放直接納入模型,在參數估計時可能會產生偏倚。常用的權重縮放方法有兩種[11-12]:

(3)統計分析軟件采用STATA 14.0進行數據分析,檢驗水準為0.05。

結果

1.權重計算結果

經事后分層,第一階段 14個縣區的抽樣權重見表4。

Seminar屬于開放性教學方式，充分利用工具書和大量的數據庫資源，將學生的閱讀范圍有效擴大，使學生養成獨立思考和分析問題的習慣。學生通過對文獻資料進行閱讀、分析、內化，使閱讀的作用遠遠超過僅對某些概念和定義的了解，上升到對于學術觀點的思考、評析和研究，學生的閱讀占有資料能力得到了切實提高。

表4 第一階段抽樣權重結果

由于鄉鎮、街道等下級抽樣單位的抽樣信息不夠完整,本研究在權重計算時視為兩階段抽樣,第二階段的抽樣概率為樣本人數與縣區人數之比,具體結果見表5。

表5 第二階段抽樣權重結果

為了使人口結構與總體盡量保持一致,進一步以 2010 年人口普查的人口結構為參照進行分層-性別-年齡別標準化。以一類地區男性各年齡段為例,標準化權重結果見表6。

表6 一類地區男性標準化權重結果

經基礎抽樣權重以及標準化權重聯合加權計算的各層人口總數與實際人口總數存在偏差,需要用比例校正權重作進一步校正。比例校正權重見表7。

表7 比例校正權重結果

根據四川省分級診療需方調查各級抽樣框架及權重計算公式算得基礎權重,再根據各層年齡-性別結構、人口比例校正之后,得出個體最終權重。

2.對人口結構的影響

表8為四川省第六次人口普查總體、未納入權重時四川省分級診療需方調查樣本以及納入權重后的人口構成。與加權前相比,加權后四川省分級診療需方調查樣本的年齡-性別構成更加接近普查總體。

人口金字塔可以更直觀的反映人口分布特征。圖1和圖2分別是四川省分級診療需方調查(未加權)和四川省第六次人口普查人口金字塔。顯然,相對于四川省第六次人口普查總體,四川省分級診療需方調查樣本人口結構偏老齡化。圖3是引入權重校正后的四川省分級診療需方調查人口金字塔,可見權重引入后的人口結構基本和四川省第六次人口普查數據保持一致。

表8 調查人口年齡-性別構成(%)

圖1 四川省分級診療需方調查人口金字塔(未加權)

圖2 四川省第六次人口普查人口金字塔

圖3 四川省分級診療需方調查人口金字塔(加權)

3.對點估計值的影響

以15歲及以上居民的慢性病患病率為例說明權重引入對點估計值的影響。

慢性病患病率是指調查前半年內15歲及以上患病例數與15歲及以上調查總人數之比。加權前后四川省分級診療需方調查15歲及以上居民的慢性病患病率結果見表9。

表9 15歲及以上居民慢性病患病率(%)

2013年四川省衛生服務調查結果[13]顯示,15歲及以上居民慢性病患病率為40.8%,城市地區(43.3%)高于農村地區(38.2%);不論是城市地區還是農村地區,四川省分級診療需方調查15歲及以上居民慢性病患病率均高于2013年四川省衛生服務調查結果。加權后,分級診療調查慢性病患病率明顯下降,總慢性病患病率由原來的43.3%下降至29.6%,農村地區由41.5%下降至32.1%,城市地區下降更為明顯,由45.1%下降至27.6%。表10展示了加權后分級診療需方調查中關于衛生服務需求和利用的一些其他的重要指標,如兩周患病率、住院率和分級診療知曉率均有不同程度的下降。

表10 分級診療需方調查重要指標(%)

4.對統計推斷的影響

以四川省城市地區15歲及以上居民慢性病患病影響因素分析為例,說明權重的引入對統計推斷的影響。分別擬合未引入權重的兩水平logistic模型和加權兩水平logistic模型,兩種模型結果見表11。

表11 四川省城市地區15歲及以上居民慢性病患病影響因素分析兩種模型結果對比

討論

本研究采用基礎抽樣權重、標準化權重以及比例校正權重的聯合權重加權以后,四川省15歲以上居民慢性病患病率由未加權時的43.3% 變為29.6%,降幅明顯。其他指標如兩周患病率、住院率和分級診療知曉率均有不同程度的下降。這就提示我們,加權對于點估計值的影響非常之大。忽略權重、年齡、性別等人口學特征對各指標的影響,可能會帶來錯誤的估計。目前,我國大型衛生服務和健康調查的分析報告通常只計算點估計值,如慢性病患病率、兩周就診率等指標,而年齡、性別等人口學特征會影響對這些重要指標的估計,因此權重的引入就顯得十分必要。

相對于四川省第六次人口普查總體,四川省分級診療需方調查樣本人口結構明顯偏老齡化,可能是由于調查時間為2015年8-9月份,而四川省作為勞務輸出大省[14],外出務工者一般在年底才會返鄉,空巢現象嚴重;另外,由于本次調查是利用上班時間進行入戶調查,城市地區抽中的年輕上班族家庭可能由于調查員多次入戶無人在家錯過本次調查而被其他家庭替代(樣本備用戶啟用原則)。而權重引入后其人口結構基本和四川省第六次人口普查數據保持一致,說明權重的引入對全省人口結構起到很好的校正作用。

研究還發現,利用兩水平加權logistic模型分析慢性病患病率的影響因素時大部分影響因素回歸系數的P值增大,這與呂筠[2]等研究結果一致。部分系數的P值變化較大,例如加權后婚姻狀況(已婚)的P值由0.719下降到0.016,基本醫療保險P值由0.333下降到0.034,按照0.05的檢驗水準,兩者由不拒絕無效假設變為拒絕無效假設。而學歷(高中/技校/中專)的P值由加權前的0.016變為加權后的0.155,由拒絕無效假設變為不拒絕無效假設。可見,在利用具有層次結構的大型入戶調查進行統計推斷時,忽略權重可能會得到完全相反的結論,做出錯誤的統計推斷。

結論

大型家庭入戶調查為了節省人力物力,通常采用復雜抽樣設計,但是由此造成的不等概率和數據的層次結構也給后期的數據分析帶來一定的困難。如忽略不等概率某些重要指標可能會得到有偏的點估計,忽略數據的層次結構則可能會極大地降低標準誤[15],從而可能得出錯誤的統計推斷結論。因此針對大型家庭入戶調查數據的統計分析,為了最大可能地降低復雜抽樣所帶來的影響,我們需要在方案設計階段確定科學的抽樣方案,并且完整地保存所有關于抽樣過程的信息,嘗試通過各類權重的校正方法聯合計算最終權重,同時在數據分析階段根據所研究的資料類型選擇合適的統計分析模型和軟件。