李玲慧
摘要:根據疾病預防控制局發布的全國法定傳染病疫情概況,基于混合正態分布模型和EM算法,用R軟件對乙肝發病數建立兩混合正態分布的模型。結果顯示,處在低發期的乙肝疫情服從正態分布
關鍵詞:混合正態分布模型;EM算法;乙肝
中圖分類號:TP18? ? ? ? 文獻標識碼:A? ? ? ? 文章編號:1009-3044(2019)03-0239-03
1 研究背景與問題提出
乙型病毒性肝炎(簡稱乙肝)是由乙型肝炎病毒(HBV)感染引起的以肝臟炎性病變為主并可引起多器官損害的一種傳染病[1]。本病可廣泛流行于世界各國,一年四季均可發病,近年來,乙型肝炎發病率呈明顯增長趨勢,據世界衛生報道,全球約20億人曾感染過HBV,每年約有100萬人死于HBV感染所致的肝衰竭、肝硬化和原發性肝細胞癌等。我國自2004年1月開始每月定期發布全國法定傳染病疫情概況,這對探討疾病的流行規律有著重要的指導意義。
目前關于我國乙肝發病預測的方法[2-5]有ARIMA模型、廣義回歸神經網絡、灰色系統和隱馬爾科夫模型等,這些方法都存在著缺點,ARIMA模型沒有深入研究模型所具有的局限性,如乙肝發病數量的非負性和整數性;廣義回歸神經網絡和灰色系統忽略了從傳染病學角度分析模型的參數;隱馬爾科夫模型得出的結論局限于預測發病的狀態,而不能很好地預測發病數量。本文創造性地運用兩混合正態分布的模型進行乙肝發病數量分析,通過乙肝疫情所處狀態,分析各狀態服從的分布,為乙肝預警機制提供理論依據。
混合正態分布在樣本量足夠大的隨機現象中具有很好的擬合能力,可以用正態分布逼近,因此在進行參數估計的問題中被廣泛應用[6]。有效地運用混合正態分布模型來擬合數據其關鍵在于參數的精確估計,比如在兩個正態分布的混合模型中有6個參數需要估計,如果用矩估計或極大似然估計法來估計參數,其過程相當復雜[7]。EM算法是用來對含有不可觀測數據的極大似然估計,在許多場合該算法能很好地估計模型的參數。
2 模型構建
2.1 混合正態分布
2.2 EM算法在R中的實現
EM算法是一種迭代算法,主要應用于含有隱變量的參數估計[8],在統計計算中,EM算法是在概率模型中尋找參數最大似然估計或者最大后驗估計的算法,如果不用統計軟件,則需在觀測數據的基礎上添加一些數據以構成完全數據,進而簡化計算過程[9]。事實上簡化后的計算量也相當大,楊晴等[10]EM算法在混合正態分布模型參數估計中的應用研究通過R軟件對EM算法進行數值模擬并驗證了EM算法的收斂性和有效性,所以本文運用R語言對所建立的混合正態分布模型進行數值模擬[11-12],在多次迭代之后參數趨于平穩,即可得出模型的參數值。
3 實證分析
疾病預防控制局自2004年1月起每月定期發布全國法定傳染病疫情概況,其中乙肝(乙型病毒性肝炎)是目前各類病毒性肝炎中危害最嚴重的,也是發病數和死亡數最多的一個型別,并且不像其他類型的肝炎那樣呈現出明顯的季節性或趨勢性變化,因此對于乙肝發病數和死亡數的建模比其他類型的肝炎更復雜。
本文以2004年1月至2018年5月每月乙肝的發病數為樣本,對乙肝發病數的模型進行參數估計,通過乙肝疫情所處狀態,對各狀態服從的分布進行分析。
由樣本的均值和標準差,得出乙肝發病人數的直方圖和密度估計,分別與正態分布的密度比較(圖1和圖2),再對該樣本的基本統計指標進行分析,會發現乙肝發病數不服從正態分布。
我們知道乙肝發病存在高發期和低發期兩個狀態,如果這兩個狀態分別服從正態分布,則發病人數就服從混合正態分布。不妨設乙肝發病數服從以下混合正態分布:
4 結語
近年來乙肝疫情一直是各類病毒性肝炎中發病人數最多、危害最大的傳染病,對乙肝發病人數進行分析可以有效預防該疫情的傳播。本文以混合正態分布模型為基礎,基于疾病預防控制局每月定期發布的全國法定傳染病疫情概況,用R統計軟件分析數據的直方圖、密度估計和各項統計指標,并用QQ圖檢驗,建立了兩混合正態分布模型。在此基礎上,利用EM算法來估計模型的參數,對乙肝發病數進行分析。
參考文獻:
[1] 中國醫師協會檢驗醫師分會.乙型病毒性肝炎檢驗診斷報告模式專家共識[J].中華醫學雜志,2017(18):1363-1368.
[2] 劉瓊,楊建華.隱馬爾科夫模型在乙肝發病預測中的應用[J].數學的實踐與認識,2017 Vol.47 No.19:203-210.
[3] 陳遠方,張熳,王小莉,等.ARIMA模型和BP神經網絡模型在我國乙型肝炎發病預測中的應用[J].江蘇預防醫學,2015(3):23-26.
[4] 楊德志.廣義回歸神經網絡在乙肝發病數時間序列預測中的應用[J].計算機應用與軟件,2013,30(4):217-219.
[5] 陳銀蘋,吳愛萍,范紅敏,等.灰色系統對乙型病毒性肝炎發病率的預測研究[J].中國現代醫學雜志,2014,24(24):77-81.
[6] 陳曉林,汪四水.一類混合正態分布參數估計的EM算法和數據擴張[J].蘇州大學學報,2007 Vol.23 No.3:13-17.
[7] 吳為人.兩個正態分布的混合分布參數的估計[J].福建農學院學報,1989,18(2):236-243.
[8] 楊珂玲,韓慧芳.兩混合正態分布的參數估計方法[J].黃岡:黃岡師范學院學報,2006 Vol.26:16-19.
[9] Maria Grünewald,Keith Humphreys,Ola H?ssjer. A Stochastic EM Type Algorithm for Parameter Estimation in Models with Continuous Outcomes, under Complex Ascertainment [J]. The International Journal of Biostatistics,2011,6(1).
[10] 楊晴,魏立力.EM算法在混合正態分布模型參數估計中的應用研究[J].科技廣場,2014.2:6-10.
[11] Jochen Voss. An Introduction to Statistical Computing, A Simulation-based Approach [M]. John Wiley & Sons,Ltd,The Atrium,Southem Gate,Chichester,West Sussex,PO19 8SQ,United Kingdim,WILEY, 2014.
[12] [美] Robert I.Kabacoff. R語言實戰[M].2版. 王小寧,劉擷芯,黃俊文,等.譯.北京:人民郵電出版社,2016.
【通聯編輯:唐一東】