哈爾濱醫科大學公共衛生學院(150086) 趙 晶 所佳寧 羅 瀟 董曉慧 蔡富文 劉美娜
基于零膨脹模型的陽性過敏原數影響因素研究*
哈爾濱醫科大學公共衛生學院(150086) 趙 晶 所佳寧 羅 瀟 董曉慧 蔡富文 劉美娜△
目的探討陽性過敏原數影響因素是過敏反應研究的新角度,利用零膨脹模型進行回歸分析,了解陽性過敏原數的影響因素,為過敏反應的早期預防提供理論依據。方法收集2010年3月至2011年12月在哈爾濱醫科大學附屬第一醫院過敏反應科就診的3191例患者信息。根據零膨脹、過離散檢驗以及擬合指標評價選取最優模型——零膨脹負二項模型,分析陽性過敏原數的影響因素。結果生活地區和吸煙是出現陽性過敏原的影響因素:生活在城市相對于農村易出現陽性過敏原,吸煙易出現陽性過敏原;性別、過敏史和辛辣食物是影響陽性過敏原數目多少的因素:男性、有過敏史、不喜好辛辣食物的人陽性過敏原數更多。結論應用零膨脹模型解釋陽性過敏原數影響因素更為新穎和細致,是過敏反應研究領域方法學的突破。預防過敏反應發生提示應關注城市和吸煙人群,降低過敏反應的嚴重程度應關注男性、有過敏史和不喜好辛辣食物人群。
零膨脹模型 陽性過敏原數 影響因素
零膨脹(zero-inflated)是指計數資料中常常出現的觀測數據0值很多的一種現象,數據變異性很大,傳統計數模型不能滿足應用條件。20世紀60年代,零膨脹現象就引起了廣泛關注[1],零膨脹概念首先是由Lambert在1992年提出,將零膨脹模型應用于質量控制,對0計數部分和非0計數部分建立混雜概率分布,建立具有協變量的零膨脹Poisson模型[2]。還有研究者在零膨脹Poisson模型基礎上構建零膨脹負二項模型,分析銀行信用卡不良消費記錄[3]。在本研究中,數據為計數資料,具有零膨脹、過離散特點,零膨脹模型比傳統計數模型更適用。
1.研究對象
研究人群來源于2010年3月至2011年12月在哈爾濱醫科大學附屬第一醫院過敏反應科就診的患者,對研究人群進行問卷調查以及血清過敏原特異性IgE檢測,共收集有效樣本3191例。
2.問卷調查
采用面訪式調查,調查員均是統一培訓過的在讀研究生。問卷調查內容包括一般情況、生活飲食習慣、過敏史和家族史等。
3.實驗室檢測
應用德國MEDIW ISS“敏篩”定量過敏原檢測系統,進行血清過敏原特異性IgE檢測。血清樣本可檢測戶塵螨屋塵、矮豚草蒿、魚、牛奶、小麥等19種過敏原[4]。IgE抗體濃度值≥0.35認為該過敏原陽性,每個受試者均可得到陽性過敏原數。
4.研究方法
零膨脹模型將計數數據的來源看成兩個過程:第一個過程是由生成零計數的二項分布支配,此過程個體取值只能為0,解釋因素是否影響事件的發生;第二個過程對應事件發生數,由計數分布支配,此過程個體的取值可以是0,也可以是正的事件數,解釋因素影響事件數發生的多少。零膨脹模型適用于0值很多、過離散的數據,估計結果有效性強,沒有偏差,可以得到可靠的假設檢驗與參數估計。
(1)零膨脹Poisson回歸模型(ZIP)和零膨脹負二項回歸模型(ZINB)
零膨脹Poisson回歸模型是將原始數據集看做由一個全0數據集與一個滿足Poisson分布的數據集混合而成[2]。

logitπ()i=Giγ,ln()μ=Biβ。Gi和Bi為協變量向量;γ和β為待估參數,兩者可以一致也可以不同[5]。
零膨脹負二項回歸模型是將原數據集看做一個全為0的數據集與一個滿足負二項分布的數據集混合而成[6]。

logit(πi)=Giγ,ln(μ)=Biβ+εi。Gi和Bi為協變量向量;γ和β為待估參數,兩者可以一致也可以不同,εi與自變量無關,exp(εi)服從均值為1的伽馬分布。
零膨脹回歸模型數據來源兩部分,logit部分和計數部分(如Poisson或負二項部分)。將單因素logistic回歸分析的參數估計作為零膨脹回歸模型Logit部分的參數初始值;將傳統計數回歸分析的參數估計作為零膨脹回歸模型計數部分的參數初始值。進行零膨脹回歸模型擬合,得到參數估計結果、P值、擬合效果指標等,探討陽性過敏原數影響因素。
(2)最優模型的選擇
最優模型選擇包括三部分:過離散檢驗、零膨脹檢驗以及模型擬合效果指標比較。
1)采用O檢驗判定數據是否過離散,統計量的計算如下[7],當O≥1.96時,數據存在過離散。

2)Vuong檢驗用于檢驗0頻數是否過多,幫助判定選擇Poisson模型、負二項模型這類傳統模型或選擇零膨脹模型[8,9]。Vuong統計量的計算如下。

f1、f2表示回歸模型的PDF。V≥1.96時,模型應選擇f1,V<-1.96則選擇f2,當V在-1.96與1.96之間時,說明倆模型均不是最優模型。
3)模型擬合指標,包括AIC、AICC、BIC以及似然比值。數值越小,擬合效果越好。
1.陽性過敏原數分布
研究對象陽性過敏原數分布情況如表1,0值比例占總例數的79.41%,其它陽性過敏原數的比例均較小。

表1 陽性過敏原數分布
2.變量賦值
本研究自變量的一般情況包括性別、年齡、文化程度、生活地區、體質指數;疾病家族史情況如父親過敏、母親過敏、自身過敏史;生活飲食因素有鍛煉、吸煙、被動吸煙、飲酒、生冷食物、油炸食物、辛辣食物、高鹽食物。其中,年齡、體質指數為連續型變量,文化程度為等級變量,其余均為二分類變量。變量賦值見表2。
3.最優模型的選擇
(1)零膨脹檢驗結果:

表2 變量賦值說明
(2)過離散檢驗結果:
(3)擬合指標結果
運用SAS9.1軟件,PROC NLM IXED語句進行分析,模型收斂給出四個擬合指標:-2LL、AIC、AICC、BIC,各模型擬合指標情況見表3。

表3 各模型的擬合指標
綜合(1)(2)(3)可知,數據零膨脹、過離散,綜合擬合指標,零膨脹負二項模型擬合效果較好,選取零膨脹模型為最優模型,利用零膨脹負二項模型進行影響因素回歸分析。
4.零膨脹負二項回歸分析結果
零膨脹負二項回歸分析模型包括兩部分,Logit部分和負二項部分。兩部分參數初始值設定依據為:根據單因素Logistic回歸分析設定Logit部分參數初始值,根據負二項回歸設定負二項部分參數初始值。以陽性過敏原數為應變量,表2中變量為解釋變量,進行零膨脹負二項回歸分析。零膨脹負二項回歸分析Logit部分與負二項部分結果分別見表4和表5。參數意義:Logit部分是以0的發生為響應概率,與Logistic回歸分析參數意義相同,但正負相反,參數可以體現因素是否影響事件的發生,即本研究中是否具有陽性過敏原。負二項部分的參數體現因素影響事件發生數的多少,參數為正,表示隨自變量值變大,應變量變大,即陽性過敏原數更多。

表4 零膨脹負二項回歸分析Logit部分結果
零膨脹負二項回歸分析Logit部分有統計學意義的因素有生活地區和吸煙,生活在城市相對于農村易出現陽性過敏原,吸煙易出現陽性過敏原;零膨脹負二項回歸分析負二項部分有統計學意義的因素有性別、過敏史和辛辣食物,男性相對于女性出現陽性過敏原數更多,有過敏史、不喜好辛辣食物的人出現陽性過敏原數更多。

表5 零膨脹負二項回歸分析負二項部分結果
相對于Logistic回歸分析,零膨脹模型從陽性過敏原數角度研究過敏反應的影響因素,能更充分地利用數據的有效信息;相對于傳統的Possion、負二項回歸分析,零膨脹模型解決了數據的零膨脹問題。有模擬數據研究,當0頻數比例大于70%時零膨脹負二項模型擬合效果優于其它模型[10]。在本研究中0頻數為79.41%,綜合過離散、零膨脹檢驗以及擬合指標結果,選取零膨脹負二項回歸模型為最優模型。
城市人口數量不斷增多、工業化腳步進展加快、空氣質量下降、含有有機化學物的現代化建筑材料使用廣泛,易釋放大量有害物質,會對身體產生刺激作用,引起過敏反應,生活在城市發生過敏反應的危險性高。相關研究表明吸煙有增加過敏風險的傾向[11]。吸煙時煙霧中的一氧化碳、尼古丁、煙焦油等有害物質不僅對人體會產生理化損傷,同時還會刺激人體過敏反應,導致過敏癥狀出現。本研究顯示生活在城市相對于農村易出現陽性過敏原,吸煙易出現陽性過敏原。
有關過敏性疾病的病例對照研究報道,女性是過敏反應發生的保護因素;也有過敏原皮試研究,男性的陽性率明顯高于女性[12]。有過敏史的人容易疾病反復、病情加重,控制不好很容易合并多種物質過敏。葉世泰主編的變態反應學一書中從免疫學角度總結,有過敏史的人形成特異性IgE的能力往往較高[13],陽性過敏原數較多。辛辣食物中辣椒VC含量高,可以增加人體免疫系統功能;洋蔥大蒜具有抗炎癥作用,可預防過敏反應發生;姜能減輕過敏引起的炎癥,可以有效緩解過敏癥狀。
1.Johnson NL,Kotz S.Houghton M ifflin.Boston.Distributions in Statistics:Discrete Distributions,1969.
2.Lambert D.Zero-inflated Poisson Regression w ith an Application to Defects in Manufacturing.Technometrics,1992,34:1-14.
3.GreeneW.Accounting for excess zeros and sample selection in Poisson and negative binom ial regression models.Department of Econom ics,Stern School of Business:New York University,1994.
4.趙晶,張莉華,關媛媛,等.速發型超敏反應疾病影響因素病例對照研究.中國公共衛生,2013,29(5):654-656.
5.曾平,劉桂芬,曹紅艷.零膨脹模型在心肌缺血節段數影響因素研究中的應用.中國衛生統計,2008,25(5):464-466.
6.JosePh M,Hilbe.Negative Binom ial Regression.London:Cambridge Univ Pr,2007:77-96,173-177.
7.Ceppi M,Biasotti B,Fenech M,et al.Human Population studies w ith the exfoliated buccalm icronucleus assay:statistical and epidem iological issues.Mutat Res,2010,705(1):11-9.
8.Yau KK,Lee AH,Carrivick PJ.Modeling zero-inflated count series w ith Application to occupational health.Computer Methods Programs Biomedicine,2004,74(l):47-52.
9.Riccardo E,Marionia1,Fiona E.Matthews and Carol Brayne.The association between late-life Cognitive test scores and retrospective informant interview data.Int Psychogeriatr,2011,23(2):274-279.
10.徐濤.零頻數過多資料的統計學模型應用研究.北京:北京協和醫學院,2011.
11.Nagasaki T,Matsumoto,Nakaji H,et al.Smoking attenuates the age-related decrease in IgE levels and maintains eosinophilic inflammation. Clin Exp Allergy,2013,4(6):608-615.
12.趙玉霞,康健,于潤紅.沈陽郊區農民過敏原皮試反應陽性率性別差異.中國公共衛生,2000,16(5):471.
13.葉世泰.變態反應學.北京:科學出版社,1998,38.
(責任編輯:丁海龍)
國家重大專項課題(2011ZX08011-005)
△通信作者:劉美娜,E-mail:liumeina369@163.com