楊麗娟 段 禹 張燕杰 黃曉磊 范引光 潘貴霞 王 靜
安徽醫科大學公共衛生學院流行病與衛生統計學系(230032)
動態因子模型在安徽省乙類傳染病發病情況分析中的應用*
楊麗娟 段 禹 張燕杰 黃曉磊 范引光 潘貴霞 王 靜△
安徽醫科大學公共衛生學院流行病與衛生統計學系(230032)
目的采用動態因子模型分析安徽省近11年常見乙類傳染病發病率,為傳染病的防控工作提供參考。方法用Stata 11.0軟件基于安徽省2004年1月到2014年12月乙類傳染病的發病率建立動態因子模型,通過提取的共同因子來了解傳染病發病率的動態趨勢。結果2004-2014年安徽省發病率最高的5種乙類傳染病依次是肺結核、乙肝、痢疾、瘧疾和梅毒,其年均發病率(/10萬)分別為73.14,53.79,21.42,16.33和15.25。消化道傳染病、呼吸道傳染病和蟲媒傳染病的發病率總體呈下降趨勢,模型中消化道傳染病共同因子一階和二階滯后參數為1.620(P<0.001)和-0.882(P<0.001),呼吸道傳染病共同因子一階和二階滯后參數為1.242(P<0.001)和-0.494(P<0.001),蟲媒傳染病共同因子一階滯后參數為0.881(P<0.001)。經體液傳播乙類傳染病發病波動較大且呈上升趨勢,其共同因子一階和二階滯后參數為-1.081(P<0.001)和-0.440(P=0.008)。結論應重點加強對經體液傳播乙類傳染病的防控力度,動態因子模型可用于乙類傳染病的綜合分析。
乙類傳染病 時間序列 動態因子模型
乙類傳染病從2004年開始網絡直報,病例較多且對人群健康危害較重大[1]。了解認識傳染病的發病水平和流行規律對傳染病防控工作有重要意義。目前已有多種動態分析傳染病資料的方法[2-3],但一般都是只分析某一種疾病,而不能同時對多種疾病進行綜合分析。由于某些原因,如相同傳播途徑,不同傳染病的發生可能存在一定的共性。若能觀測到這種共性便可從總體上了解某一類傳染病發病和流行規律,進而為某一類傳染病的防控提供思路。動態因子模型(dynamic factor model,DFM)的思想是從若干變量中提取潛在、不可觀測的共同趨勢,并利用這個共同趨勢,對變量進行分析、預測等。DFM因其靈活性和在處理高維數據時的明顯優勢近年來逐漸受到更多學者的關注,DFM已被廣泛應用在宏觀經濟和管理領域的評估、預測等方面廣泛應用[4]。本次研究采用DFM分析對安徽省近十一年的常見乙類傳染病的總體發病情況進行研究,并觀察其動態變化情況,為傳染病的防控工作提供參考,同時嘗試DFM這種分析方法在醫學研究領域中的應用。
DFM是一種基于因子模型提出的,適用于分析多組時間序列分析的統計方法[5-6]。以本次研究為例,每種疾病不同時期發病率構成都是一個時間序列,DFM將每個時間序列的變化看作由全部時間序列的共同趨勢部分和每個時間序列的特殊部分組成,共同部分用幾個不可觀測共同因子ft的滯后多項式表示,特殊部分用相互獨立的特殊因子ut表示,其形式可表述如下:
yt=Pft+Qxt+ut
(1)
ft=Rwt+A1ft-1+A2ft-2+…+At-pft-p+vt
(2)
ut=C1ut-1+C1ut-2+…+Ct-qut-q+εt
(3)
其中,yt是通過觀測得到的n個發病率時間序列;ft是共同因子,即這n個時間序列的共同趨勢,P是因子載荷矩陣;ut是每個時間序列除去共同趨勢后的特殊因子;ft和ut分別有p和q階自回歸結構,自回歸參數矩陣分別是Ai和Ci,νt和εt是自回歸方程的擾動向量;xt和wt是可能納入方程的外生變量,Qi和Ri是外生變量參數矩陣。以發病率時間序列為因變量建模可得到模型中各參數,進而可得到不可觀測的共同因子。
建模時需確定因子個數,目前確定因子個數的方法尚無權威性定論[4],研究者常根據所選數據特征取合適因子個數。因子自回歸階數可根據模型似然函數值最大化(MLR),赤池信息量準則(AIC)和貝葉斯信息準則(BIC)等來選擇。
1.資料與方法
(1)數據與變量選取
收集2004-2014年安徽乙類傳染病月發病數并從國家統計局獲取安徽各年平均人口數,計算各月發病率(/10萬)。乙類傳染病按傳播途徑可分四類,我們分別對這四類傳染病進行DFM分析。實際操作中有些疾病發病率被納入模型時會存在變量不顯著,海塞矩陣非半負定等問題,所以需嘗試對納入的變量進行調整以使模型能運行。在綜合考慮了疾病發病率和模型自身等多方面因素后,擬在每一類中選取3到4種疾病的發病率作為觀測變量。
(2)統計分析方法
本研究采用Stata 11.0對數據進行分析。DFM要求觀測序列有平穩性,故用單位根檢驗(augmented dickey-fuller test,ADF)判斷序列平穩性并用差分來調整非平穩序列。為估計出因子,所有序列做標準化處理。參照相關方法[7]對所選的3或4個觀測變量提取一個動態因子且該因子有一階或二階自回歸過程,無內生變量被納入方程,擾動項自回歸階數q=0。
1.常見乙類傳染病發病率
本次研究,消化道傳染病選取痢疾、戊肝和傷寒發病率作為觀察變量,呼吸道傳染病以肺結核、麻疹、流腦和百日咳發病率為觀察變量,經體液傳播疾病選取乙肝、梅毒、淋病和HIV感染發病率,經蟲媒傳播傳染病選瘧疾、乙型腦炎、血吸蟲病和狂犬病發病率。各疾病發病率(/10萬),單位根檢驗及相關性檢驗結果見表1。

表1 四類傳染病發病率和單位根檢驗以及相關性檢驗
安徽省近十一年發病率較高的乙類傳染病有痢疾、肺結核、乙肝、梅毒和瘧疾。狂犬病發病率最低。由Kaiser-Meyer-Olkin(KMO)值和Bartlett球形檢驗結果知,同類傳染病之間有較好相關性,適合做DFM分析。梅毒、淋病和HIV感染的發病率時間序列是非平穩的。
2.消化道傳染病
乙類消化道傳染病有4種,選取痢疾、戊肝和傷寒為觀察變量,動態因子數為1,自回歸階數為2,參數估計和檢驗結果及共同因子的變化見表2和圖1。

圖1 消化道傳染病動態因子變化趨勢
表2中各種疾病所對應參數即為式1中參數P的矩陣,L1和L2即為式2中A1和A2估計值。圖1中,共同因子波動較規律,其峰值在2005年之后逐漸減小,到2008年開始上升,在2012年之后又逐漸下降。
3.經呼吸道傳播疾病
乙類呼吸道傳染病共8種,以其中4種為觀察變量,參數估計和檢驗結果及共同因子的變化情況見表2和圖2。呼吸道傳染病共同因子在2005年,2008年和2009年分別有一次大幅度上升,且波動的幅度逐漸減小,2010年之后保持平穩狀態,且大致處于零水平線以下。

圖2 呼吸道傳染病動態因子變化趨勢

圖3 經體液傳播疾病動態因子變化趨勢

圖4 經蟲媒傳播疾病動態因子變化趨勢
4.經體液傳播疾病
該類傳染病共4種,所有觀測序列經一階差分處理,參數估計結果及共同因子的變化見表2和圖3。經體液傳播疾病共同因子波動頻率較大,波動幅度相對較小,總體上保持相對平穩狀態。2013年左右波動幅度達到最大。從圖中不能看出共同因子具有明顯規律性。
5.經蟲媒傳播疾病
經蟲媒傳播乙類傳染病共10種,以其中四種為觀察變量,參數估計和檢驗結果及共同因子變化見表2和圖4。2008年之前共同因子波動幅度較大,2008年后減小且總體處于零水平線以下,2014年因子波動有增加。總體上看,動態因子呈下降趨勢。

表2 四類傳染病的動態因子模型參數估計及檢驗結果
*:ft,共同因子;L1,一階滯后;L2,二階滯后
從圖1共同因子趨勢看,消化道傳染病發病有明顯季節性,與其他研究相符[8],總體發病率有下降,這可能與經濟發展和飲用水管理等有關[9]。加強5到8月間疾病的防治,尤其在4月份左右發病率迅速上升前采取措施,對降低發病有重要意義。在2005,2008和2009年呼吸道傳染病發病率均有大幅上升,2010年后較平穩且處于歷年平均發病率以下,2014年后有增大趨勢,應注意加強防控。發病率幾次升高可能與麻疹等局部暴發有關[10],也可能是由于手足口病及流感暴發[11]增加了呼吸道疾病的檢測和報告率。平穩性檢驗時只有體液傳播疾病不滿足平穩性要求,原始數據差分處理過,共同因子趨勢不能直接代表發病率變化,但其波動情況說明在消除原有趨勢后發病率總體波動較不穩定,防控措施需進一步加強。2008年之前蟲媒傳染病發病率波動較大,2008年后較平穩且多處于歷年平均發病率以下。這可能與常見疾病的防控[12]及疫苗的使用等有關。蟲媒傳染病發病常有季節性,這種波動可能也與發病季節性有關[12]。
DFM與分析某類或單種疾病發病趨勢的傳統方法相比[1-3,12],考慮到相同類型疾病的相關性,并能充分提取每一種疾病發病率變化信息,從總體層面對多種疾病同時分析,所得的總體趨勢不受單種疾病發病率絕對值大小影響,結果更為可信。DFM在處理高維時間序列方面有明顯優勢,可用于指數構建[13],變量預測[14]及結構分析[15],其預測效果要優于VAR和ARIMA模型,以后的研究可參照經濟學領域,用DFM構建指數以從總體評價及預測疾病流行和防控效果等。DFM也有不足,主要是共同因子含義不明確,由此擴展出的分層DFM在一定程度上解決了這一問題。DFM理論尚處于發展期,由其拓展出的許多理論方法也越來越受關注[16-18]。由于模型本身特點和軟件限制,本次研究不能把所有乙類傳染病都納入分析,只能選幾種疾病代表一類疾病分析。盡管如此,本次研究內容和結果可對傳染病的分析方法以及預防和控制措施提供一定參考價值。
[1] 李欣,裴姣,高博.我國6年間法定甲乙類傳染病流行趨勢分析.現代預防醫學,2009,36(1):25-27.
[2] 王伶,姚文清.利用時間序列模型分析預測遼寧手足口病疫情趨勢.中國衛生統計,2016,33(5):847-849.
[3] 孟凡東,吳迪,隋承光.2004-2015年中國狂犬病發病數據ARIMA乘積季節模型的建立及預測.中國衛生統計,2016,33(3):389-391+395.
[4] 高華川,張曉垌.動態因子模型及其應用研究綜述.統計研究,2015,32(12):101-109.
[5] Geweke J.The Dynamic Factor Analysis of Economic Time Series.Latent Variables in Socio-Economic Models.Netherlands.Springer Netherlands,1982,317-337.
[6] Breitung J,Eickmeier S.Dynamic factor models.AStA Advances in Statistical Analysis,2006,90(1):27-42.
[7] 沈磊.基于動態因子模型構建的中國廣義價格指數的估計.安徽:安徽財經大學,2015.
[8] 魏珊.我國乙類法定報告傳染病的發病趨勢和季節性研究.上海:復旦大學,2013.
[9] Teschke K,Bellack N,Shen H,et al.Water and sewage systems,socio-demographics,and duration of residence associated with endemic intestinal infection diseases:A cohort study.BMC Public Health,2011,10(1):767-780.
[10]Zhang Z,Zhao Y,Yang L,et al.Measles Outbreak among Previously Immunized Adult Healthcare Workers,China,2015.Can J Infect Dis Med Microbiol.2016,2016:1742530.
[11]葉冬青.甲型H1N1流感的流行與應對.中華疾病控制雜志,2009,13(3):215-218.
[12]樊雯婧,陸群,仰鳳桃,等.2005-2009年安徽省合肥市瘧疾發病趨勢分析.中華疾病控制,2013,17(5):410-413.
[13]Kim CJ,Nelson CR.Business Cycle Turning Points,a New Coincident Index,and Tests of Duration Dependence Based on a Dynamic Factor Model with Regime Switching.The Review of Economics and Statistics,2006,80(2):188-201.
[14]Eickmeier S,Ziegler C.How successful are dynamic factor models at forecasting output and inflation? A meta-analytic approach.Journal of Forecasting,2008,27(3):237-265.
[15]Forni M,Gambetti L.The dynamic effects of monetary policy:A structural factor model approach.Journal of Monetary Economics,2010,57(2):203-216.
[16]朱滿洲.動態因子模型的理論和應用研究.湖北:華中科技大學,2013.
[17]Forni M,Hallin M,Lippi M,et al.The Generalized Factor Model:Identification And Estimation.Review of Economics and Statistics,2000,82(4):540-554.
[18]Koop G,Potter S.Forecasting in dynamic factor models using Bayesian model averaging.The Econometrics Journal,2004,7(2):550-565.
ApplicationofDynamicFactorModelintheIncidencesofBCategoryInfectiousDiseasesinAnhuiProvince
Yang Lijuan,Duan Yu,Zhang Yanjie,et al
(DepartmentofEpidemiologyandBiostatistics,SchoolofPublicHealth,AnhuiMedicalUniversity(230032),Hefei)
ObjectiveWe aimed to analysis the incidence of B category infectious diseases in last eleven years in Anhui province based on dynamic factor model,and provide references for control of B category infectious diseases.MethodsWe set up dynamic factor models with Stata 11.0 software based on incidences of B category infectious diseases in Anhui province from 2004 to 2014 and extracted a general factor to analysis the dynamic trend of incidence.ResultsPulmonary tuberculosis,hepatitis B,dysentery,malaria and syphilis were the top five B category infectious diseases with incidences of 73.14,53.79,21.42,16.33 and 15.25 per 100000 persons in Anhui province from 2004 to 2014.Infectious diseases transmitted through digestive tract,respiratory tract and insect were on the decline,parameters of lag dynamic factor in the models were 1.620(P<0.001) and -0.882(P<0.001),1.242(P<0.001) and -0.494(P<0.001),and 0.881(P<0.001) respectively.Humoraldiseases were on the rise in general,parameter of lag dynamic factor in the model were -1.081(P<0.001)and-0.440(P=0.008).ConclusionTo prevent and control B category infectious diseases,more attention should be humoral diseases.Dynamic factor model can be used in the comprehensive analysis of B category infectious diseases.
B category infectious diseases;Time series;Dynamic factor model
國家自然科學基金(11526034);安徽省重大自身免疫性疾病重點實驗室;2016年安徽省質量工程教學研究重大項目(2016jyxm0378)
△通信作者:王靜,E-mail:jwang2006@126.com
郭海強)