費麗萍,許望東,范 頌,何 敏,李遠盛,張俊輝
西南醫(yī)科大學(xué)公共衛(wèi)生學(xué)院,四川 瀘州 646000
慢性阻塞性肺疾病(COPD)是中老年人常見的呼吸系統(tǒng)疾病,我國40 歲以上人群COPD 患病率為13.7%[1]。截至目前,COPD 居全球人群死亡原因的第4 位,是造成我國人群死亡的第3 位大死因[2]。COPD 已成為我國疾病負擔(dān)排名第3位的慢性病,但其并未得到患者、醫(yī)生以及相關(guān)部門的足夠關(guān)注[3]。目前,COPD 的確切病因尚不明確。從相關(guān)危險因素暴露到COPD 患病是一個緩慢的過程,通常需要數(shù)年至數(shù)十年時間。如果能識別COPD患病的危險因素、確定COPD 高危人群并在早期進行積極干預(yù),對減少COPD患病率具有重要意義。在流行病學(xué)危險因素研究中,logistic回歸是探索分類疾病結(jié)局危險因素的最常用方法,其參數(shù)的可解釋性強,但對共線性等問題控制不佳;分類樹模型具有對數(shù)據(jù)的類型和分布無特殊要求等特點,目前也有學(xué)者用于疾病危險因素篩選[4]。本研究利用《瀘州市人口健康信息平臺》的數(shù)據(jù),采用成組病例對照研究設(shè)計,運用logistic回歸和分類樹模型對比探討了瀘州市居民COPD 患病的影響因素,為COPD 的病因?qū)W研究和防治提供依據(jù)。
本研究資料來源于四川黑馬數(shù)碼科技有限公司協(xié)助開發(fā)的《瀘州市人口健康信息平臺》,該平臺整合了瀘州市衛(wèi)生和計劃生育委員會管轄內(nèi)各基層醫(yī)療機構(gòu)的全部健康體檢數(shù)據(jù)。在52 016條COPD患者記錄中,剔除關(guān)鍵變量有缺失的、有異常值及重復(fù)體檢記錄,最終整理出COPD患者有效樣本共2 271 例。從數(shù)據(jù)庫中抽取非COPD 患者30萬條記錄,剔除關(guān)鍵變量有缺失的、有異常值及重復(fù)體檢記錄,最終整理出非COPD 患者有效樣本共79 065 例。采用成組病例對照研究設(shè)計,將2 271 例COPD 患者全部作為病例組,并按照區(qū)縣分層從非COPD患者中隨機抽取2 367例非COPD患者作為對照組。
本次分析的變量包括研究對象的基本信息(性別、年齡、婚姻狀況、職業(yè)等)、體格檢查指標(身高、腰圍、體重)、行為生活方式(飲酒、吸煙、廚房燃料等)。
身體質(zhì)量指數(shù)(BMI)的標準:參照《中國成人超重和肥胖癥預(yù)防控制指南》,BMI<18.5 kg/m2為低體重,18.5 kg/m2≤BMI<24 kg/m2為正常體重,24 kg/m2≤BMI<28 kg/m2為超重,BMI≥28 kg/m2為肥胖[5]。吸煙的判定:根據(jù)1997 年WHO 對吸煙的定義,一生中連續(xù)或累積吸煙6 個月或以上為吸煙[6]。心率的判定:指正常人安靜狀態(tài)下每分鐘心跳的次數(shù),也叫安靜心率,一般為60~100 次/min[7]。COPD 的診斷標準:吸入支氣管舒張藥后FEV1/FVC<70%可確定為不完全可逆性氣流受限。少數(shù)患者并無咳嗽、咳痰、明顯氣促等癥狀,僅在肺功能檢查時發(fā)現(xiàn)FEV1/FVC<70%,在除外其他疾病后,亦可診斷為COPD[8]。
采用SPSS 22.0 軟件進行統(tǒng)計分析。分類資料用例數(shù)和百分比(%)表示。單因素分析采用單因素logistic 回歸,多因素分析采用多因素logistic 回歸模型(納入標準0.05,剔除標準0.1)和分類樹模型。以模型預(yù)測概率為驗證模型的擬合程度檢驗變量,結(jié)局指標為狀態(tài)變量繪制受試者工作特征曲線(ROC 曲線)并計算ROC 曲線下面積(AUC),用以評價模型的優(yōu)劣[9]。
2 271 例COPD 患者中,女性834 例(36.7%),男性1 437 例(63.3%)。2 367 例對照組中,女性1 411 例(59.6%),男性956例(40.4%),見表1。

表1 患者一般資料情況例(%)
分別對COPD 患病的可能影響因素進行單因素logistic回歸分析,結(jié)果顯示,性別、年齡、心率、BMI、廚房燃料、吸煙情況、職業(yè)這7 個因素差異有統(tǒng)計學(xué)意義(P<0.05),見表2。

表2 COPD影響因素的單因素logistic回歸分析結(jié)果
以是否患COPD 為因變量(患病=1,不患病=0),將單因素分析結(jié)果中差異有統(tǒng)計學(xué)意義的7個因素作為自變量,采用多因素logistic回歸分析,結(jié)果顯示:性別、廚房燃料、吸煙、年齡、BMI、心率是COPD 的危險因素,差異有統(tǒng)計學(xué)意義(P<0.05),見表3。

表3 COPD相關(guān)影響因素的多因素logistic回歸分析結(jié)果
以是否患COPD 為因變量(患病=1,不患病=0),將單因素分析結(jié)果中差異有統(tǒng)計學(xué)意義的7個因素作為自變量,采用CHAID 算法建立分類樹模型,共建立了21 個節(jié)點,13 個終節(jié)點,厚度為3 層,篩選出了5 個解釋變量,分別是年齡、職業(yè)、性別、吸煙情況和廚房燃料。第一層的變量是年齡,說明年齡與COPD患病相關(guān)性最強,年齡在40歲以下人群患COPD的比例為2.2%,年齡在40~49歲人群患COPD 的比例為14.4%,年齡在50~59 歲人群為35.1%,60~69 歲人群為67.9%,70 歲及以上人群患COPD的比例為86.8%。在年齡為50~59 歲、70 歲及以上且廚房燃料為沼氣、液化氣人群中,吸煙是COPD的主要危險因素。在年齡為60~69歲且廚房燃料為沼氣、液化氣的人群中,性別是COPD 的主要危險因素。在40~49 歲的女性人群中職業(yè)是農(nóng)林人員者患COPD的比例高,見圖1。

圖1 COPD患病影響因素的CHAID分類樹模型分析
分別繪制logistic 回歸模型和CHAID 分類樹模型的ROC 曲線,logistic 回歸和CHAID 分類樹模型的AUC 分別為0.925和0.905,都大于0.9,可認為兩個模型有較高的準確性,見圖2。

圖2 logistic回歸和CHAID分類樹模型的ROC曲線
本研究多因素logistic 回歸分析結(jié)果顯示,性別、年齡、廚房燃料、吸煙、心率和BMI 是COPD 的危險因素。分類樹模型結(jié)果篩選出5個影響因素,即年齡、職業(yè)、性別、吸煙和廚房燃料,且年齡是COPD的主要影響因素。
男性更易患COPD,可能是男性從事粉塵接觸職業(yè)的人數(shù)比女性多,而粉塵是導(dǎo)致COPD 的主要的原因之一[10];此外,男性吸煙的比例也大于女性,所以男性患COPD的風(fēng)險較女性更高[11]。年齡越大,研究對象受各種危險因素影響的時間越長,同時年齡越大機體抵抗力越來越低,患病的風(fēng)險也會增高。廚房燃料和COPD 有相關(guān)性,煤燃燒產(chǎn)生的氮化物和二氧化硫,能使氣道發(fā)生炎癥反應(yīng),從而使氣道發(fā)生損傷[12]。推廣使用清潔能源也是控制COPD 患病的重要措施之一。吸煙是眾所周知的COPD危險因素[13],這也與慢阻肺診治指南(2013 修訂版)中提到的危險因素符合。心率異常與COPD有關(guān),但心率異常不是COPD 的危險因素,COPD 患病后引起了肺源性心臟病導(dǎo)致的心率異常[14]。BMI 低于正常水平的人群患COPD 的風(fēng)險比正常BMI 和高BMI 的人群更高??赡茉蚴荁MI水平低于正常水平的人群由于營養(yǎng)不良,往往體質(zhì)水平較正常人低下所致[15]。職業(yè)與COPD 的患病密切相關(guān),這和國內(nèi)外的報道內(nèi)容結(jié)果一致[16]。logistic回歸是從整體水平上來分析各個因素與COPD的關(guān)系,優(yōu)點是對各自變量的流行病學(xué)意義解釋很明確,缺點是無法處理自變量間的共線性問題,在分析各變量之間的交互作用時存在缺陷。分類樹分析是一種非參數(shù)回歸模型,利用遞歸分型將人群分為不同的子集,是消除變量間的共線性影響和探討影響因素的交互作用的一種有效方法,還可以清晰的顯示哪些變量重要。如在本研究中,分類樹模型分析挖掘出了職業(yè)與COPD 存在關(guān)聯(lián),分析出了年齡是第一危險因素,可分析高危人群的分布。但分類樹也存在一定的局限性,如分析僅限于樣本量較大的資料。
綜上所述,在使用AUC評估兩種模型的準確度時,結(jié)果顯示logistic 回歸和分類樹模型的曲線下面積分別為0.925和0.905,都大于0.9,可認為兩個模型有較高的準確性。兩者相結(jié)合的方法能更加仔細挖掘數(shù)據(jù)中的信息,更加準確分析COPD的相關(guān)影響因素。