孫震 朱寶立
【摘 要】
目的: 對比灰色預測模型和線性回歸模型的特點和各自的優缺點,為職業病發病率預測時選取何種建模方式提供指導。方法::查閱了闡述兩種建模的基本原理以及運用兩種建模方式進行疾病預測的相關文獻,分別摘錄和對比了灰色預測模型和線性回歸模型的函數表達式,數據的應用范圍和適用條件,并參照預測應用案例,與實際數據進行比對,評估其效果。結論: 兩種建模方式對假設條件、樣本量大小、數據特點均有不同的要求,各自也具有明確的優缺點。在符合其適用范圍的模型中均有較高的預測可靠性。因此在實際工作中應根據實際情況,選取合適的建模方法,為工作起到指導作用。
【關鍵詞】 灰色系統;Logistic回歸;發病率;預測
【中圖分類號】R979.3
【文獻標志碼】
B 【文章編號】1005-0019(2018)16-242-02
隨著經濟的快速發展,各種各樣的職業危害因素給相關崗位勞動者所帶來的職業病也越來越嚴重。很多職業病已經給勞動者的生命和健康帶來了嚴重的影響。可喜的是,職業病的防治現在越來越受到重視。無論是一線的衛生醫療人員,還是相關專業的專家學者,都積極地參與到其中來,給職業病的防治引入了很多有效的思路和方法。其中對于職業病發病率的調查研究和預測,是近年來發展很快的領域,各種不同的方法分別被應用在相關工作當中,并且給職業病的防治起到了很好的指導作用。本文在對相關文獻資料中比較常用的預測方法進行了簡單的分析比較,并且討論在針對某一特定類型的職業病發病例的預測時,應該選取哪一種預測方法,以達到最佳的預測結果,并與實際情況最為吻合。從而可以以此為衛生行政部門以及職業病防治單位的工作起到更好的指導和參考作用。
1 灰色預測模型
1.1 灰色預測模型的概念
灰色系統理論(Grey System Theory)的建模法就是運用數學方法使信息不完全明確的系統經數據處理后能得到較明確的,符合實際情況的結果的數學預測系統。職業病作為一類具有流行病學特征的疾病,其發病率受到多種因素的影響,其中包括明確的影響因素(白色系統)、內容確定不明確的影響因素(黑色系統),以及一些部分信息明確,而部分信息不明確的信息系統。這部分信息系統被稱為灰色信息系統。當我們在進行職業病初查時常常收集到的是大量無明顯規律的數據,用灰色理論將無規律的原始資料經生成后數據累加的方法,使其變為較有規律的生成數列在建模式,所以灰色模型GM實際上是生成數列模型,從而揭示事物內部的特征與規律,使進一步達到預想目的。
1.2 GM(1,1)模型的建立
依照周霞等[1]推算的計算方法,建立GM(1.1)模型主要包括下列步驟
1.2.1 一次性積加生成
將最初數列X(t)= x(1),x(2),… ,x(n) ,進行一次性累加生成,將削弱為隨機性,深化為規律性,使累計生成列Y(t):Y(t)= ∑ti= 1x(i) t= 1,2,… ,n (1)
1.2.2 均值生成
對累計數據列公式(2)作為均值生成,用均值數據列Z(t):Z(t)=12[Y(t)+ Y(t- 1)] t= 2,3,… ,n (2)
1.2.3 創立GM(1.1)模版
創立關于Y(t)的一階限線性微分方程:dY(t)dt+ aY(t)= u (3)
此式即為GM(1.1)預算模型,解為該變量分離型微分方程得其特釋為:Y(t)= x(1)-aue- a(t- 1)+au(4)
1.2.4 使式(4)所得估計值 Y(t)數列作為累減還原生成,得原始
數列X(t)的預算值 X(t)數列: X(t)= Y(t)- Y(t- 1) (5)
1.2.5 對數列 X(t)與X(t)結果的擬合度檢查,使盤算結果準確性檢驗。
若兩方結合精度好,但模型可使用于外推推測;若兩方結合精度不規范,則不可直接用于外推預算,須經殘差修改后,再次進行外推測。確定為灰色數列模型的真實性可用于平均相對差別、后檢差比結果和小距差概率來檢驗。
1.3 灰色預測模型的應用及效果
灰色預測模型已經被研究者應用到了疾病預防當中。比較典型的是史善富[2]選取了 1995~2009 年在南京市職業病防治院檢出的塵肺病人數量作為數列進行了灰色模型建模,提示了之后的5年該地區塵肺的發生率呈緩慢下降趨勢,并預測了之后5年的發病率,通過對比實際數據,預測基本符合實際狀況。
2 一元線性回歸模型
2.1 線性回歸模型的概念
Logistic回歸模型是一種采用多變量分析法的幾率性回歸模型。可以來用探討調查過程中分類觀察結果和需要探索的影響因素之間的聯系。依據設計類型,Logistic回歸模型可以分非條件Logistic因歸和Logistic條件回歸,分別適用于成組設計資料和配對設計資料;其因變量是定性變量,而對于自變量的類型、數目和性質沒有特殊的要求,因而其應用范圍很廣,不僅可以用于流行病學的病因學分析,也可用于臨床療效和試驗評價、實驗研究中的剣量效應分析、衛生服務領域研究。根據關雪[4]等人的計算,LogiStic回歸模型可表示為:
P(X)=1/1+exp[-(α+β1X1+β2X2.......+βpXp)]
Logistic 回歸方程中數估計使用最大似然推算法。假如y1,y2,…,yn是從總體中提取 n 本,設 p i=P (y i=11x i)為給用 xi的條件下得到效果y i= 1 的條件幾率,那么 yi = 0的條件概率為 P(yi=0|xi)=1-pi.。于是,得到一個觀測值的幾率為: P(yi)=pyii(1-pi)1-yi。由而可建立樣本的似然函數為:
L(θ)=∏ni=1pyii(1-pi)(1-yi)
為了簡化計算,通常取似然函數的對數形式,
InL(θ)=∑ni=1[yiInpi+(1-yi)In(1-pi)]
通過解似然方程組:1nL(θ)α=0,1nL(θ)βj=0[4]可以求得其中某一參數的估計值。并且可以通過擬合度檢驗,來檢查所建立模型與所調查實際情況的數據吻合程度。
2.2 線性回歸模型的應用效果
劉寶龍[5]等選取了資料可靠的27個單位的粉塵暴露工人以及塵肺病患者作為研究對象,建立工齡,工齡平均濃度和粉塵毒性三個因素和塵肺發病率的回歸模型,并且進行了模型擬合度檢驗,結果顯示對人群的符合率較高,對相關單位的塵肺發病率預測有較好的適用性。唐惠紅[6]等人在研究青壯年結核病發病率的時候更是用14個變量進行多因素回歸分析,依然可以從中篩選出與發病率關系較為密切的影響因素,并對發病率進行可靠的預測。
3 討論
通過對不同時期應用灰色數列模型對疾病發展趨勢研究的文獻分析發現,灰色數列模型在樣本的概率呈不典型分布時預測效果較佳,GM(1.1)通過對數據進行一次累加加成,形成新數列,可以有效地減少原始數據的隨機性,增加數據的穩定性。同時計算方式相對簡單,是一種簡單、快速且運用廣泛的預測方法。同時,灰色數列模型對疾病影響因素的考慮較少,相對比較粗糙,一般只用于較短時期的趨勢預測。在做長期預測的時候,需要輔助其他的修正方式,來使結果更加符合實際。
Logistic回歸模型對于樣本的要求較為簡單,實際應用非常廣泛。其回歸系數具有可解釋性,因此在醫學研究中研究多個影響因素時,可以用相對危險度(RR)來比較各個因素對于疾病發病率或者死亡率的作用大小。不過該模型對數據要求變量之間相對獨立,因變量與 logit P 之間滿足線性關系。同時在樣本含量方面,Logistic回歸方程的樣本量不能太少,一般要求樣本含量大于因變量的5倍以上。當樣本數量太少時,結果的可靠性并不理想。
4 結論
隨著職業病防治的深入,很多職業病已經被認為多種因素共同作用所致,如果針對單一因素進行防治,效果可能不甚理想。因此對職業病相關有害因素進行風險評估,開發準確的發病預測和預后預測方法,是有效降低發病率關鍵。疾病有害因素評估模型是職業病評估的主要工具,建立有效的模型可以指導高危人群的防治工作,進而減小患病風險。目前尚無一種可以適用于任何數據特點的建模方法,包括灰色預測模型和Logistic回歸模型在內的統計學常用建模分析方法對于數據的范圍,條件,樣本量大小及變量之間的關系要求均有差別,并直接影響到結果的適用性。因此,今后我們在進行職業病發病率預測模型的構建工作時中,應根據研究目的、試驗設計類型、數據特點及各種建模方法的應用條件等不同情況,選取最合適的建模方法構建疾病模型,如果必要。也可結合不同建模方式,組合構建模型,采取各種方法的長處,從而使構建的模型能夠獲得較好的可靠性和較高的預測性。
參考文獻
[1] 周霞 灰色預測建模方法及在醫學中的應用 數理醫藥學雜志2007.01-0073-03
[2] 史善富,魏春龍 應用灰色數列模型預測南京市塵肺病發病危險度 現代醫藥衛生 1009-5519(2014)24-3838-03
[3] Hermanlin AI.The multi-level aprroach: Theory and concepts[M].Ann Anbor:Populaiton Study Center,University of Michigan,1986.
[4] 關雪 五種定性資料統計分析方法研究,軍事醫學科學院 2012
[5] 劉寶龍,樊晶光,陳勝,耿鳳,劉鐵民,劉占元 Logistic回歸模型在塵肺發病預測與控制中的應用研究 中國科學安全學報 2001.2
[6] 唐惠紅,何志青,龔芳,胡貴方,資青蘭 青壯年肺結核發病影響因素的條件Logistic回歸分析 實用預防醫學 1006- 3110(2012)06- 0830- 04