顧丹彤 林燧恒
(復旦大學公共衛(wèi)生學院生物統計學教研室 上海 200032)
哮喘是最為常見的兒童慢性呼吸系統疾病,其癥狀主要為喘息、胸悶、咳嗽等。哮喘發(fā)病率逐年升高,已經成為全球最大的公共衛(wèi)生健康問題之一[1]。20年來,在美國城市兒童哮喘的防治方面并無突破,目前仍無可以治愈哮喘的治療方案。更好地了解哮喘的危險因素,并及早提供預防方案,已成為控制兒童哮喘的當務之急[2]。
為了調查與哮喘癥狀相關的潛在危險因素,美國城市合作哮喘研究(National Cooperative Inner City Asthma Study,NCICAS)團隊在1993年對診斷為哮喘且居住于市中心貧困地區(qū)的1 376名兒童進行了9個月的隨訪,并于基線、3、6和9個月重復測量了4次,研究的主要結局變量之一是患兒在過去2周內氣喘的天數,取值范圍是0~14的整數。NCICAS是第一個大型的美國城市兒童哮喘病研究,之后的針對美國城市哮喘兒童的研究多是基于此研究結果來設計干預或集中探討某方面的因素,所包含的危險因素較這個原始數據反而相對較少。由于NCICAS收集到的縱向數據在0值和14值處出現大量堆積,用傳統的廣義線性模型進行建模可能會導致估計偏倚,并影響對危險因素的估計。
事件發(fā)生數中含有大量的零值或其他某一數值時,由于計數資料中某個值過多,且取相同的值時反映的情況不同,常常會導致計數資料的變異度較大,這類現象被稱為計數資料的膨脹[3]。這種離散數據的特殊性使其無法用一般的泊松、二項或負二項分布等計數模型來進行預測。多項膨脹模型能解釋計數資料中某些過多的值,彌補了普通模型分析膨脹結構數據時的缺陷[4],使得估計結果更加無偏和可靠,并已經用于解決一些傳統模型無法回答的實際問題。
NCICAS收集的美國城市哮喘兒童發(fā)病因素變量最多,數據最全面。本研究旨在利用NCICAS數據以發(fā)現更全面的兒童哮喘危險因素,首次通過建立更適合反應變量的多項膨脹效應模型,以更好地吻合數據分布、減少偏倚,并在此基礎上進一步采用單因素及多因素分析挖掘美國城市兒童哮喘發(fā)病與危險因素之間的關系,為兒童哮喘的預防提供理論依據。
數據獲取及研究對象本研究的數據來源于美國NCICAS,我們通過美國公開數據政策M-13-13獲得NCICAS項目主持人的授權并使用這批數據。NCICAS是一項對美國城市兒童哮喘發(fā)病率進行的兩階段研究。該項目收集了1993—1997年關于哮喘癥狀及有關因素的隨訪數據,并針對基線收集的數據進行分析[5]。研究對象為美國國家城市合作哮喘研究中被觀測的1 376名4~9歲的兒童,由美國北部、中部和東北部氣候條件相似的大城市的8個哮喘研究中心招募。
研究變量該項目中每個家庭在基線檢查后再次接受問卷調查,并要求估計過去2周有氣喘癥狀的天數和前3個月計劃外就診或住院的次數。基線調查主要包括被監(jiān)測兒童的年齡、性別、家庭住址、開始監(jiān)測時的季節(jié)等。
本研究探討的兒童哮喘影響因素主要包括兒童自身情況、父母或照料者情況及環(huán)境因素三方面。其中患兒年齡(age)、父母心理量表(Brief Symptom Inventory,BSI)得 分 、兒 童 行 為 量 表(Child Behavior Checklist,CBCL)得分、服藥次數(medicine)、就醫(yī)次數(doctor)、社會支持(support)得分、家庭環(huán)境(environment)得分為連續(xù)性變量;患兒種族(race)分為3類,黑人、西班牙人、其他種族分別賦值為1、2、3;患兒性別分為2類,男性賦值為0,女性賦值為 1;患兒是否過敏(atopic)、患兒出生時是否住進重癥監(jiān)護室(ICU)、患兒哮喘時是否難以得到照料(hard_1)、是否難以得到后續(xù)看護(hard_2)、家長是否關心患兒治療的不良反應(sideeffect)、家中是否吸煙(smoke)、是否在冬天進行觀測(winter)均為分類變量,是賦值為1,否賦值為0。
統計學方法
描述性分析 我們將患兒按家長匯報的氣喘天數分為0天,1~13天和14天3類。分析所研究變量的情況,連續(xù)變量描述其均數及標準差情況,分類變量描述其人數及占比情況,描述其分布后檢驗數據正態(tài)及方差齊性,對滿足正態(tài)性及方差齊性的數據進行χ2檢驗,對不滿足條件的數據進行Kruskal-Wallison檢驗。
模型擬合與比較傳統的用于擬合計數數據最常見的模型是泊松回歸(Poisson regression,POI)模型,泊松回歸模型要求數據的期望均數等于期望方差。當均數與方差不等時,可以考慮使用負二項回歸(negative binomial regression,NB)模型進行擬合。針對本文使用的零值較多且符合泊松分布的過離散(方差明顯大于均值)復合計數資料,采用零膨脹及多項膨脹泊松分布模型進行擬合。零膨脹泊松模型(zero-inflated Poisson regression,ZIP)的基本方法是將數據集看成全0數據集A和一個服從泊松或負二項分布的數據集B組成的混合數據集,對混合計數數據建立混合概率分布,用一些特征變量對個體是否真的屬于A用Logistic模型進行預測,然后將真實屬于A中的個體排除后,構建泊松或負二項分布的計數模型;Logistic部分主要回答協變量影響事件發(fā)生與否的問題,泊松或負二項模型部分主要回答協變量影響事件發(fā)生次數多寡的問題。多項膨脹泊松模型(multi-inflated Poisson regression,ZKIP)則是在零膨脹模型的基礎上再多加一個全n數據集C[6]。泊松、負二項、零膨脹泊松和多項膨脹模型的概率密度函數及其參數見表1。

表1 不同模型概率密度及其參數Tab 1 Probability density and parameters of different models
模型的擬合及參數估計使用統計軟件SAS中的過程步PROC NLMIXED完成,相應的代碼如下所示。
/*zkip*/
procnlmixed data=data.time0 method=gauss qtol=0.0005 TECH=nmsimp;
parameters a0=-..9 a14=-2.3 b0=1.2;
prob0=exp(a0+u1)/(1+exp(a0)+exp(a14));
prob14 = exp (a14+u2)/(1+exp (a0) +exp(a14));
mu=exp(b0);
if whzchst=0 then ll=log(prob0+(1-prob0-prob14)*exp(-mu));
else if whzchst=14 then ll=log(prob14+(1-prob0-prob14)*exp(-mu)*(mu**14)/gamma(15));
else ll=log((1-prob0-prob14))-mu+whzchst*log(mu)-lgamma(whzchst+1);
model whzchst~general(ll);
title3"Zero-14-inflated Poisson Effects Model";
run;
單因素分析 我們向ZKIP模型中的3個部分分別設置連接函數并引入協變量,在零膨脹部分,我們引入額外0概率和期望泊松計數與線性預測指標間的連接函數logit(p i);在14膨脹部分,引入額外14概率和期望泊松計數與線性預測指標間的連接函數logit(qi);在泊松回歸部分,引入期望泊松計數與線性預測指標間的連接函數logit(θi)。通過在這些連接函數中引入協變量來構建含有協變量的多項膨脹泊松模型:

其中W 1是零膨脹部分的一個1376×c的協變量矩陣,W 2是14膨脹部分的一個1376×c的協變量矩陣,該矩陣除截距項共有c-1個協變量;X是負二項部分的一個1376×c的協變量矩陣,該矩陣除截距項共有c-1個協變量;γ1是零膨脹部分協變量的c×1的回歸系數向量,該矩陣除截距項共有c-1個協變量;γ2是14膨脹部分協變量的c×1的回歸系數向量,β是負二項部分協變量的c×1的回歸系數向量。在單因素分析中W1、W2、X中同時納入相同的變量。
多因素分析 通過在W1、W2、X中同時納入變量建立模型,并比較各個模型的擬合優(yōu)度參數AIC、AICC、BIC,選擇最優(yōu)的模型。首先對泊松回歸部分加入一系列協變量進行建模,找出泊松部分的最優(yōu)模型后,在0和14膨脹部分分別加入協變量建模。建立最優(yōu)模型后,對該模型進行多因素分析,旨在發(fā)現實際情況下,多個影響因素并存時,研究變量對發(fā)病指標的影響大小,并找出針對不同人群相應的有影響的變量。
統計軟件 本研究采用SAS 9.4軟件進行分析,所有統計均采用雙側檢驗,P<0.05為差異有統計學意義。
研究對象基本特征我們對1 376名兒童進行基線分析。共有男性兒童508名(36.9%),平均年齡6.24歲,其中328名(64.6%)呈現過敏陽性,152名(29.9%)在冬季監(jiān)測;共有女性兒童868名(63.1%),平均年齡6.15歲,其中589名(67.9%)呈現過敏陽性,257名(29.6%)在冬季監(jiān)測。匯報患兒氣喘天數為0天、1~13天和14天的3個人群中,兒童行為量表得分、服藥次數、就醫(yī)次數、患兒哮喘時是否難以得到照料、是否難以得到后續(xù)看護等方面差異均有統計學意義(表2)。
表2 1 376名哮喘兒童的基本特征Tab 2 Basic characteristics of 1 376 children with asthma[ or n(%)]

表2 1 376名哮喘兒童的基本特征Tab 2 Basic characteristics of 1 376 children with asthma[ or n(%)]
a:χ2 or Kruskal-Wallis test.BSI:Brief Symptom Inventory scores;CBCL:Child Behavior Checklist scores;ICU:Lived in ICU at birth;Medicine:Number of medications;Doctor:Number of doctor’s visit;Hard_1:Hard to get care for asthma;Hard_2:Difficult to get followup care;Side-effect:Concern for treatment side effects;Support:Social support score;Smoke:Caretaker smokes;Environment:Family environment score;Winter:Observation was done in winter.
Characteristics P a Days of wheeze due to Asthma 0(n=451)6.2±1.8 1-13(n=852)6.1±1.7 14(n=73)6.2±1.70.933 0.899 0.106 0.301 0.100<0.001 0.456<0.001 0.007 0.007<0.001 0.156 0.180 0.811 0.936 0.082 Age(y)Race(%)Black Spanish Others Atopic(%)Gender(male%)BSI CBCL ICU(yes%)Medicine Doctor Hard_1(yes%)Hard_2(yes%)Side-effect(yes%)Support Smoke(yes%)Environment Winter(yes%)331(73.4)89(19.7)31(6.9)347(76.9)176(39.0)55.0±11.3 55.6(11.7)104(23.1)1.7±1.2 1.2±0.4 202(44.8)192(42.6)271(74.7)7.2±2.2 252(57.0)5.4±1.5 163(36.1)628(73.7)169(19.8)55(6.5)691(81.1)310(36.4)55.9±11.3 57.4±11.5 212(24.9)2.1±1.3 1.1±0.3 460(54.0)488(57.3)587(79.4)7.1±2.3 495(58.9)5.5±1.4 268(30.3)57(78.1)11(15.1)5(6.8)54(74.0)22(30.1)58.0±11.2 61.9(9.61)22(30.1)2.0±1.4 1.2±0.4 41(56.2)50(68.5)49(81.7)6.7±2.4 43(58.9)5.4±1.4 21(28.8)
對基線問卷的結局變量(即孩子在2周內的氣喘天數)進行分析,據家長匯報情況,氣喘的平均次數為2.86,方差為12.67。我們進一步研究發(fā)現匯報為0次和14次的人群相對于計數分布的其他次數人群呈現出匯報的高峰,以基線數據為例,0次和14次的占比分別為32.8%和5.3%。
模型擬合比較本研究所使用的數據明顯具有過離散的特征,故而在傳統模型擬合的基礎上,我們考慮使用零膨脹泊松和多項膨脹泊松模型與傳統的泊松及負二項模型進行對比,擇優(yōu)選擇最佳的模型進行擬合,擬合結果見表3。綜合考慮模型參數AIC、BIC、AICC均顯示多項膨脹泊松模型擬合效果最佳。

表3 不同模型的擬合優(yōu)度比較Tab 3 Comparison of goodness in fit in different models
將以上各個模型擬合后的預測頻數分布與原始數據的頻數分布相比較(圖1),明顯可以看出,多項膨脹泊松模型的擬合效果最好。

圖1 各模型擬合分布比較Fig 1 Comparison of fitted distributions of various models
多項膨脹泊松模型的單因素分析在0膨脹部分,對于額外0的對數發(fā)生比,就醫(yī)次數具有顯著的正效應,兒童行為量表得分和服藥次數具有顯著的負效應,患兒為女性、在冬天觀測的患兒家長更不容易將氣喘天數匯報為0次。在14膨脹部分,對于額外14的對數發(fā)生比,患兒為女性、哮喘時難以得到治療、難以得到后續(xù)照料、出生時住進重癥監(jiān)護室、在冬天觀測的患兒家長更不容易將氣喘天數匯報為14天。在泊松部分,患兒的年齡、服藥次數具有顯著的正效應,女性、過敏、就醫(yī)次數多、不關心治療的不良反應、在冬天觀測的患兒家長傾向于匯報更少的氣喘天數(表4)。
多項膨脹泊松模型的多因素分析我們先對泊松模型加入協變量進行建模,以找到能最好解釋泊松部分的協變量,建模過程見表5,通過后退法逐步剔除上一個模型中無顯著統計學意義的變量,并不斷比較模型的擬合優(yōu)度參數AIC、AICC、BIC(3個指標均為越小越好),我們最終選擇model 8進行泊松部分的建模。
在選取擬合效果最好的泊松模型后,我們在模型的泊松部分固定使用模型8的變量,即在泊松部分固定納入協變量年齡、服藥次數、家長是否關心治療的不良反應、是否在冬天觀測。然后開始對0和14膨脹部分使用后退法加入協變量建模,建模過程見表6。進行多次建模嘗試后,通過比較模型的評價參數AIC、AICC、BIC,我們最終選擇model 7進行最終的建模,最終在模型的0膨脹部分納入變量性別、過敏、服藥次數、就醫(yī)次數、是否在冬天觀測、兒童行為量表得分,在14膨脹部分納入變量性別、種族、哮喘時難以得到治療、是否難以獲得后續(xù)照料、兒童行為量表得分。

表4 多項膨脹泊松模型中患兒氣喘天數的單因素分析Tab 4 Single-factor analysisof the number of days child had wheeze in ZKIPmodel

表5 泊松部分構建過程——變量及評價參數Tab 5 Model comparison of poisson part:variables and goodnessof fit

表6 多項膨脹泊松模型構建過程——變量及評價參數Tab 6 Model comparison of multi-inflated parts:variables and goodness of fit
對最優(yōu)模型進行多因素分析,我們發(fā)現在泊松回歸部分,控制其他協變量后:年齡每增長1歲,家長匯報患兒氣喘的的期望天數增加4%;服藥次數每增加1次,家長匯報患兒氣喘的期望天數增加7%;與不關心治療不良反應的家長相比,關心治療不良反應的家長匯報氣喘的期望天數增加12%;與其他季節(jié)相比,在冬天進行問卷調查的患兒家長匯報的氣喘期望天數減少11%,差異均有統計學意義;對0處的膨脹研究顯示,服藥次數越少、就醫(yī)次數越多、兒童行為量表得分越低,對兒童家長匯報其氣喘天數為0具有正效應;兒童行為量表得分越高,對兒童家長匯報其氣喘天數為14具有正效應,具體分析結果見表7。
本文使用的美國哮喘兒童哮喘病發(fā)病數據具有零膨脹數據的特征,在對其進行描述性分析后,我們發(fā)現其還具有在某點處的聚集性,符合0_K膨脹分布的特征,這個數據特征是由問卷收集過程中的回憶偏倚和選擇偏倚導致的,使用傳統的廣義線性模型進行分析可能難以得出準確的參數估計,故而我們考慮使用多項膨脹泊松模型分析數據。為了進一步研究對美國家長匯報患兒氣喘天數有影響的變量,我們在多項膨脹模型中引入協變量,并構建模型,最終發(fā)現年齡、服藥次數、家長關心治療的不良反應是家長匯報患兒氣喘天數增多的危險因素;對0處的膨脹研究顯示,服藥次數越少、就醫(yī)次數越多、兒童行為表現越差,對兒童家長匯報患兒氣喘天數為0具有正效應。兒童行為表現越好,對兒童家長匯報患兒氣喘天數為14天具有正效應。

表7 多項膨脹泊松模型中患兒氣喘天數的多因素分析Tab 7 Multi-factor analysis of thenumber of days child had wheeze in ZKIPmodel
本研究的模型發(fā)現了美國哮喘兒童的心理量表得分越高對家長匯報的氣喘14膨脹的正效應,一組臨床隨機對照的干預研究顯示哮喘組的兒童行為量表得分顯著高于健康組[7],支氣管哮喘患兒存在一定的心理損傷,同時哮喘兒童更易出現焦慮、抑郁、退縮等不良心理現象,提示我們在對哮喘兒童進行管理時需要預防心理方面的疾病。目前的哮喘治療主要采用吸入糖皮質激素,可能會導致患者發(fā)生咽部不適、咽炎、口腔念珠菌病等不良反應[8],孩子的服藥次數越多、家長對治療的不良反應越關心,家長越可能存在焦慮與抑郁現象。有研究顯示患兒家長的焦慮和抑郁水平檢出率顯著高于正常群體[9],這可能可以解釋在泊松部分期望天數的增加。
模型顯示在冬天進行問卷調查的情形下,家長報告患兒氣喘的期望天數減少11%,極有可能與冬天過敏源的相應減少有關。以往研究中也明確提出了過敏對哮喘的影響,過敏史一般包括藥物過敏及食物過敏,對哮喘兒童而言,這兩種過敏往往同時存在,而食物過敏更為常見[10]。食物過敏引發(fā)的兒童哮喘約占總發(fā)病人數的6%~8%,它能顯著增加兒童哮喘的發(fā)病率,且呈現出發(fā)病率隨過敏食物增多而增高的特點[11],對雞蛋(OR=2.0,P<0.01)和堅果的食物過敏(OR=2.0,P=0.02)是兒童哮喘的獨立危險因素;更有研究結果報告食物過敏的兒童中有45.6%為哮喘病患者[12]。大量研究發(fā)現,孕婦及兒童對目前廣泛使用的對乙酰氨基酚有過敏反應,且其使用劑量與致哮喘風險呈現出劑量反應關系。研究發(fā)現某些存在抗氧化基因缺陷的兒童在使用對乙酰氨基酚后會出現嗜酸粒細胞炎癥,且其患哮喘的風險顯著增加[13]。過敏陽性的兒童出現哮喘的可能性更高,其父母也更易發(fā)現其有氣喘的情況,這與本文的研究結果一致。
哮喘兒童的年齡越大,治療時間越長,被診斷為難治性哮喘的可能性越大[14]。難治性哮喘是指結合使用長效β2激動劑及吸入中高劑量糖皮質激素和兩種或更多種的控制藥物進行規(guī)范治療至少3~6個月后仍不能得到良好控制的哮喘。若兒童在急性哮喘發(fā)作期未得到有效治療,極易轉化為慢性哮喘,病情難以得到緩解,且隨年齡增大愈發(fā)成為頑疾。另外有研究指出,母嬰保護是哮喘的重要保護路徑[15],Meta分析指出母乳喂養(yǎng)(OR=0.508,95%CI:0.396~0.653)是兒童哮喘的保護因素[13],其主要原因可能是母乳中包含大量消化寡糖類物質、細胞因子、IgA及長鏈脂肪酸,可以有效減少嬰兒感染并降低特異性反映發(fā)生概率[16]。本研究發(fā)現兒童年齡越大,父母匯報其氣喘的期望天數顯著增加,這可能與大齡兒童出現慢性哮喘、難治性哮喘的可能性增加且其來自母乳的免疫功能降低有關。
分析表明,我們的多項膨脹泊松模型更適合于擬合這個存在數值堆積的哮喘數據。該模型擬合數據的預測值更接近實際值、模型的擬合優(yōu)度更好,通過該模型,我們發(fā)現了以往使用傳統模型研究中未曾發(fā)現的兒童行為量表得分對患兒家長匯報患兒氣喘天數的影響,可以為哮喘的預防提供一些理論基礎。
作者貢獻聲明顧丹彤 數據統計和分析,模型運算,論文撰寫和修訂。林遂恒 論文構思,數據采集,論文修訂。
利益沖突聲明所有作者均聲明不存在利益沖突。