張艷萍 高皓楠 曹云珍



目的:探索影響邯鄲市居民食管癌發病的主要因素,并建立其食管癌風險預測模型。
方法:首先收集了邯鄲市食管癌患者100個和非食管癌患者114個。然后,運用Spearman相關系數對8個自變量之間的相關性進行分析后找到影響是否患食管癌的主要因素,基于Logistic回歸模型建立了最優食管癌的風險預測模型。
結果:影響邯鄲市居民食管癌發病的主要因素為年齡、居住地、飲酒情況、從事工作。并通過逐步回歸方法得到最優的Logistic回歸預測模型,同時應用5折交叉驗證方法驗證了模型基本不存在過擬合現象,預測準確度達到92.99%。
結論:食管癌風險預測模型的建立為邯鄲市食管癌高危人群預警、早期診斷、個體化防治可提供更有力的理論依據。
背景及目的
通過預測模型可以確定患者未來發病風險。疾病風險預測模型不僅在發病率較高的高血壓等應用廣泛,在腫瘤發病率相對較低的食管癌等也有應用。食管癌的病理類型在不同國家地區有所差異。在西方國家,食管癌的病理類型以食管腺癌為主,且與Barrett食管癌的發病密切相關。而在亞洲國家,食管癌以食管鱗狀細胞癌(ESCC)為主,占到了全部食管癌的90%以上,我國河北涉縣、磁縣等地是食管癌高發地區。近年來國內外研究者對食管癌進行了大量的流行病學研究和病因學研究,從不良生活方式和飲食習慣等多方面進行了探索,取得了有意義的進展,為食管癌的防治提供了一定的科學依據。為了更好的為邯鄲市食管癌高危人群預警、早期診斷、個體化防治提供更有力的理論依據,本文探索影響邯鄲市居民食管癌發病的主要因素,并建立其食管癌風險預測模型。
資料和方法
研究對象
通過收集邯鄲市某醫院2017年食管癌住院患者信息和居民健康人群調查問卷信息,最后分別得到100個樣本和114個樣本。我們定義抽煙者、飲酒者的標準如下:平均每周至少兩次并達一年的人定義為飲酒者,否則為非飲酒者;一生種吸煙總量大于100支或吸煙斗大于100次的人定義為吸煙者,否則為非吸煙者。因變量為是否患有食管癌,自變量為性別(X1)、年齡(X2)、居住地(X3)、吸煙情況(X4)、飲酒情況(X5)、個人健康情況( X6)、從事工作(X7)。
數據處理和統計分析
通過自變量與因變量的列聯表分析以及Spearman相關系數矩陣得到年齡(X2)、居住地(X3)、吸煙情況(X4)、飲酒情況(X5)、從事工作類型(X7)與患有食道癌具有顯著的相關性。而性別(X1)、個人健康情況(X6)與患有食管癌沒有顯著的相關性。
食管癌風險預測模型的構建
Logistic回歸模型建立
從相關分析可以看出,性別(X1)、個人健康情況(X6)與因變量沒有統計學相關性。因此Logistic回歸模型中,納入以下自變量:年齡(X2)、居住地(X3)、吸煙情況(X4)、飲酒情況(X5)、從事工作(X7)。從而建立logit(p)關于自變量X2,X3,x5,X1的Logistic回歸方程為:
logit(P)=βo+β1X2+β2X3+β3X5+β4X7
利用SPSS17.0進行數據處理和分析,各回歸系數中吸煙情況(X4)的P>0.05,從而得到此變量對Logistic回歸模型沒有顯著的統計學意義。進一步,利用逐步回歸方法對模型進行優化,發現去除吸煙情況(X4)變量后,所有的回歸系數P<0.05,說明各變量對Logistic回歸優化模型具有顯著的統計學意義。
為了驗證優化模型的有效程度,對原模型和優化模型的卡方檢驗進行了比較,如表1所示:
從表中得到,卡方值P=0.1946>0.05,得到吸煙情況(X4)這個變量不會顯著影響模型的預測精度,從而驗證了優化模型的有效程度。
最終得到是否患有食管癌的Logistic回歸優化模型為:
模型驗證及指標分析
為了避免引入過多變量導致模型的過度擬合,以至于預測的嚴重失真,通過5折交叉驗證方法進行檢驗,得到平均誤差為7.01%,說明模型基本不存在過擬合現象。模型預測準確度為92.99%,并通過最優模型Logistic回歸中的受試者工作特征曲線(receiver operating characteristic curve,ROC曲線),計算了相應的曲線下面積(areasunder the curve,AUC)為0.985(如圖1所示),從而說明建立的Logistic回歸優化模型是高度有效的。
進一步,對回歸系數的風險比值比(oddsratio,OR)進行了分析,隨著年齡的變化,每增大一個單位,患有食管癌的概率就會增加1.139倍;隨著居住地的變化,每變化一個單位,患有食道癌的概率就增加1.136倍;隨著飲酒情況的變化,飲酒者是非飲酒者患有食道癌概率的0.894倍;工作人群患有食道癌的概率是退休人群的1.658倍。
綜上所述,邯鄲市居民食管癌的患病率主要跟其生活習慣以及居住環境的工作人群相關,但是食管癌相關危險因素的影響仍需進一步研究和探討,從而建立準確性更高的食管癌風險預測模型,為食管癌高危人群預警、早期診斷、個體化防治提供更有力的理論依據。