西安交通大學醫學院公共衛生系衛生統計學教研室(710061) 裴磊磊 任 琳 高文龍 顏 虹
集中指數及可信區間的SAS實現*
西安交通大學醫學院公共衛生系衛生統計學教研室(710061) 裴磊磊 任 琳 高文龍 顏 虹Δ
目的 利用SAS軟件實現集中指數及其可信區間的計算。方法 以2001年和2005年中國西部地區兒童營養狀況的調查數據為例,分別計算兩年干預組與對照組的生長遲緩、消瘦和低體重等指標的集中指數及其差值,利用bootstrap再抽樣計算集中指數的可信區間。結果 根據集中指數計算公式,我們把SAS程序分為6步,最終得到2001年到2005年干預組各營養指標的集中指數差值分別為生長遲緩-0.084,95%可信區間(-0.161,-0.001),消瘦為-0.094(-0.210,0.036),低體重為-0.109(-0.200,-0.004)。結論 SAS程序及bootstrap方法具有通用性、實用性和高效性的特點。
bootstrap 集中指數 可信區間
△通信作者:顏虹,E-mail:xjtu_yh.paper@yahoo.com.cn
集中指數(concentration index,CI)是評價人群健康不平等程度的一個重要指標,被認為能較準確地表達不同社會經濟階層下健康狀況的公平性,而且較適用于國家地區間的比較和時間趨勢研究〔1〕。集中指數的點估計可以利用一般統計軟件實現,而利用SAS軟件實現其區間估計在目前文獻中尚無報道,因此本文試圖利用SAS軟件編程計算集中指數的估計值及其可信區間。
集中曲線是以經濟狀況排序的人口累計百分比為橫軸,以人群健康累計百分比為縱軸的光滑曲線,如果健康水平在不同的社會經濟階層分布均勻,那么集中曲線與對角線重合,集中曲線離對角線越遠,健康不公平程度越大。集中指數等于集中曲線與對角線之間的面積與對角線下的面積之比,取值范圍是(-1,1)。當集中曲線在對角線下方時,收入較高的人群承受更差的健康狀況,規定集中指數為正值;當集中曲線在對角線上方時,收入較低的人群具有更差的健康狀況,規定集中指數為負值。
集中指數的一般計算公式為:

h為健康指標,μ是健康指標的均數,ri=i/N為個體按照財富等級從低到高排列的分數秩,其中i=1為財富等級最低的人,而i=N為財富等級最高的人。

經濟分層 兒童調查人數兒童數構成比(%)兒童數累計構成比(%)生長遲緩人數(構成比%)生長遲緩累計構成比(%)消瘦人數(構成比%)消瘦累計構成比(%)第一階層 2128 19.87 19.87 616(26.62) 26.62 126(24.14)24.14第二階層 2138 19.96 39.83 516(22.30) 48.92 109(20.88) 45.02第三階層 2144 20.02 59.85 468(20.22) 69.14 110(21.07) 66.09第四階層 2150 20.07 79.92 394(17.03) 86.17 92(17.62) 83.71第五階層 2151 20.08 100.00 320(13.83) 100.00 85(16.28) 100.00合計107112314 522
如2001年中國西部地區3歲以下兒童調查總數為10711,根據經濟收入將他們從低到高分為5個不同的階層,各個階層的兒童數構成比和累計構成比分別見表1第3和4列,依據不同階層兒童生長遲緩率計算出兒童生長遲緩人數,最后得到各階層兒童生長遲緩數構成比和累計構成比。可以發現經濟收入低的組兒童生長遲緩人數所占比例最大,經濟收入高的組兒童生長遲緩人數所占比例最小。以經濟狀況排序的兒童累計構成比為橫坐標,以兒童生長遲緩累計構成比為縱坐標,得到如圖1所示的集中曲線,結果集中曲線在對角線的上方,說明2001年中國西部地區3歲以下兒童生長遲緩更多地集中在經濟收入低的人群中。同理,我們可以得到兒童消瘦在不同階層的構成比和累計構成比(見表1最后兩列),將兒童生長遲緩與消瘦進行比較發現,生長遲緩在中低收入階層的比例要大于消瘦的比例(69.14% >66.09%),生長遲緩集中曲線在消瘦的上方,相應的集中指數分別為生長遲緩為-0.116和消瘦為-0.059,說明兒童生長遲緩比消瘦更易出現于貧困階層,這樣較好地反映了不同社會階層下健康狀況的公平性。

圖1 兒童營養不良集中指數曲線
以2001年和2005年中國西部農村3歲以下兒童健康狀況的調查數據為例,2001年把兒童分為干預組(2782人)和對照組(7633人),在2005年分別評估干預組(2754人)和對照組(7162人)兒童健康公平性的變化。我們通過SAS軟件編程求出集中指數之間差值及可信區間,觀察2001年與2005年集中指數的變化情況。
表2給出數據中各指標編碼,其中家庭財富指數是對母親受教育年限、是否擁有汽車以及清潔飲用水等指標根據主成分分析法求取第一主成分的因子得分〔2〕。本例評價指標為生長遲緩、消瘦和低體重三個指標〔3〕,根據集中指數的計算公式,我們把過程分為六步,具體SAS過程見附錄。

表2 兒童營養狀況資料變量及其代碼
由附錄程序得到干預組與對照組在不同年份之間的集中指數差值及其可信區間見表3。

表3 集中指數差值及其95%CI
集中指數及bootstrap可信區間結果顯示,經過干預之后,3歲以下兒童生長遲緩、消瘦與低體重的集中指數出現了不同程度的降低,即干預后家庭經濟狀況較差的兒童具有更高營養不良發生率。但是對照組從2001年到2005年集中指數差值沒有統計學差異。
集中指數作為評價公平性的一個重要指標應用于多個方面,但目前文獻中很少涉及運用SAS軟件對其進行區間估計,本文根據集中指數計算公式編寫SAS程序,并分析了中國西部地區兒童營養不良在不同社會經濟階層的分布狀況。研究顯示兒童營養不良在家庭經濟狀況較差的人群中更易出現,同時發現從2001年到2005年兒童營養不良經干預后不平等程度有增大的趨勢,但對照組尚無統計學差異,這可能是由于我們的干預項目對不同階層的家庭作用不同,即家庭經濟狀況較差的家庭對干預的依從性差,而家庭經濟狀況好的家庭依從性強,此現象應引起有關部門的重視,在以后的健康干預過程中應加強對經濟狀況差的家庭的宣教和督促力度,以提高健康干預的效果。
在求集中指數可信區間的過程中使用了Bootstrap再抽樣技術,Efron〔4〕提出以原始的樣本資料為基礎,借助經驗分布理論進行有放回的重復抽樣,從而估計和推斷統計量的分布特征。此方法特別適用于難以用常規方法進行參數估計和假設檢驗的問題,具有通用性、高效性和實效性的優點,而且隨著計算機技術的高速發展,計算量大這一缺陷已被逐漸克服,因此,目前bootstrap已經成為非常常用的統計分析方法。1.Owen O’Donnell,Eddy van Doorslaer,Adam Wagstaff,et al.Analyzing Health Equity Using Household Survey Data.The World Bank Washington,D.C,2008:95-108.
2.Deon Filmer,Lant H.Pritchett.Estimating wealth effects without expenditure data—or tears:an application to educational enrollments in states of india.Demography,2001,38(1):115-132.
3.黨少農,顏虹,曾令霞,等.運用人體測量法評估中國西部40個縣農村3歲以下兒童的營養狀況.中華流行病學雜志,2005,26(3):177-181.
4.Efron B,Tibshirani R.Bootstrap methods for standard errors,confidence intervals,and other measures of statistical accuracy.Statistical Science,1986,1(1):54-77.
附錄:
/*第一步:對兒童生長遲緩stunting數據集進行bootstrap再抽樣*/
proc surveyselect data=Stunting out=Stuntingboot/*輸出數據集為Stuntingboot*/
seed=8888 method=urs/*urs為非限制隨機抽樣*/
samprate=1 outhits rep=500;/*samprate表示抽樣比例為1,rep表示產生500個新數據集*/
run;
/*第二步:bootstrap再抽樣后,根據不同年份與干預分組對家庭財富求分數秩*/
proc sort data=Stuntingboot;
by replicate year treat;/*對產生的Stuntingboot數據集按照年份、干預及抽樣號進行排序*/
proc rank data=Stuntingboot out=Stuntingranka;/*輸出數據集為Stuntingranka*/
by replicate year treat;var wealth;/*根據年份、干預及抽樣號分組分別求家庭財富的秩*/
ranks wealthrank;/*家庭財富的秩表示為wealthrank*/
proc means data=Stuntingranka noprint;/*對數據集Stuntingranka進行統計描述*/
by replicate year treat;var wealthrank;
/*根據年份、干預及抽樣號分組分別求家庭財富的最大秩wealthrank_max*/
output out=wealthrank_max max=wealthrank_max;
/*家庭財富的最大秩 wealthrank_max,輸出數據集wealthrank_max*/
data Stuntingrank;/*建立數據集Stuntingrank*/
merge Stuntingranka wealthrank_max;/*合并數據集Stuntingranka與wealthrank_max*/
by replicate year treat;/*根據年份、干預及抽樣號分組*/
wealthrank_frac=wealthrank/wealthrank_max;/*根據年份與干預分組分別求出家庭財富的分數秩*/
/*第三步:求結局變量與分數秩的協方差*/
proc corr data=Stuntingrank COV;
by replicate year treat;/*根據年份、干預及抽樣號分組*/
var stunting wealthrank_frac;/*求出家庭財富分數秩與結局變量之間的協方差*/
ods output cov=cov;/*輸出數據集cov*/
data cova;set cov;/*建立數據集cova*/
if variable=“wealthrank_frac”;cov=stunting;/* 家庭財富分數秩與stunting之間的協方差表示為cov*/
keep replicate year treat cov;/*數據集cova只保留變量replicate year treat cov*/
/*第四步:求不同年份與干預組的集中指數*/
proc means data=Stuntingboot noprint;
by replicate year treat;/*根據年份、干預及抽樣號分組*/
var stunting;output out=mu mean=mu;/*求出各組中stunting的均數mu并保存為數據集mu*/
data mua;set mu;keep replicate year treat mu;/*保留變量replicate year treat mu建立數據集mua*/
data ci;merge cova mua;/*合并協方差數據集cova與數據集mua,建立數據集ci*/
by replicate year treat;/*根據年份、干預及抽樣號分組*/
CI=2*COV/mu;/*根據公式求出各組的集中指數*/
if year=1 and treat=1 then group=1;/*2001年干預組命名為組1*/
else if year=1 and treat=2 then group=2;/*2001年對照組命名為組2*/
else if year=2 and treat=1 then group=3;/*2005年干預組命名為組3*/
else if year=2 and treat=2 then group=4;/*2005年對照組命名為組4*/
/*第五步:求在不同年份干預組和對照組集中指數的差值*/
proc sort;by replicate group;/*對數據集ci按照變量replicate與group分組進行排序*/
proc transpose data=ci out=cia prefix=CI;/*對數據集ci轉置產生新數據集cia,變量前綴CI*/
by replicate;/*根據抽樣號對變量ci分組轉置*/
ID group;var ci;/*根據變量group對結果分組*/
data cib;set cia;/*建立數據集cib*/
cid1=ci3-ci1;/*求出干預組2005年與2001年之間的差值*/
cid2=ci4-ci2;/*求出對照組2005年與2001年之間的差值*/
/*第六步:求在不同年份干預組及對照組集中指數差值的可信區間*/
proc univariate data=cib;
var cid1;output out=pmethod1 mean=cid1 pctlpts=2.5 97.5 pctlpre=p pctlname=_lb_ub;/*求出干預組及對照組在不同年份之間的集中指數差值的95%可信區間*/
run;
聯合國兒童基金會(UNICEF)(No.YH001)
(責任編輯:郭海強)