廣東藥學院流行病與衛生統計學系(510310) 徐 英 張 敏 周舒冬
在流行病學疾病(結果變量、因變量)與影響因素(自變量)的關系研究中,研究者常傾向利用比值比(OR)大小或相對危險度(RR)大小來衡量兩者之間的聯系強度。但對于連續型自變量而言,研究其每改變一個單位對疾病的影響實際意義不大。因此,在數據處理時,往往將其離散化,轉化成分類變量進行分析。然而,由于不同研究者對同一變量離散化的方法不同,常使得該變量與疾病的關系缺乏穩定性。而分式多項式模型(fractional polynomial model,FP)則可以在保持變量連續性的基礎上較好地解決上述問題。
分式多項式模型是由Royston和Altman在1994年提出的,當時主要討論單個變量對結果的影響,并初步擴展到了多個變量的情形。1999年,Sauerbrei和Royston提出用后退法對多個變量的模型進行篩選。2003年,Royston和Sauerbrei又利用Bootstrap法對多個變量的模型的穩定性和模型的過度擬合問題進行了探討。
FP基本模型的表達式為:
FPm(X)=β1Xp1+… +βmXpm
這里,p1,…,pm表示冪,常用的取值范圍為{-2,-1,-0.5,0,0.5,1,2,3};m 表示模型的階數,一般而言,二階模型就足以擬合數據〔1〕。
根據冪的取值范圍,一階模型可以有8種表達式,其中p=0表示對變量取對數變換,p=1則為一般線性回歸模型。二階模型可以有36種表達式,其中,當p1=p2時,模型表示為:FP2(X)=β1Xp1+β2(Xp1)log X。
當需要分析多個變量對結果變量的影響時,該模型可以擴展到多個變量的情形,即在模型等號右邊加上類似X變量表達式的其他變量即可。
在實際應用時,往往需要選擇合適的模型對數據進行擬合,原則是希望用盡可能少的變量得到擬合較好的模型〔2〕。Royston和Altman建議,在決定用一階或二階模型時,似然比越大,模型越好。當兩個模型之間存在嵌套關系,可以用似然比檢驗的方法,兩者的Deviance偏差近似服從某自由度卡方分布,如P值<0.05時,則選擇相對較復雜的模型,反之,則選用較簡單的模型。其中自由度的大小與比較的模型有關。例如,當二階模型與無效模型比較時,Deviance偏差服從自由度為4的卡方分布;二階模型與線性模型比較時,Deviance偏差服從自由度為3的卡方分布;二階模型與一階模型比較時,Deviance偏差服從自由度為2的卡方分布。
在分析多個變量對結果變量的影響時,Royston和Altman建議可以根據研究的目的選用合適的P值,利用后退法,從較為復雜的二階模型出發對變量進行篩選。
統計軟件stata 8.0及以上版本即可實現對該模型的擬合〔3〕。本文以一個示例說明該模型的應用。
本例中的數據來源于Lee(1974年)的文章,記錄的是癌癥病人的特征和病情是否減輕的數據。共有27個觀測,1個結果變量和6個連續型變量,分別是remiss(remiss=1,表示病情減輕,remiss=0,表示病情未減輕,)、cell、smear、infil、li、blast、temp。原文中對于該數據的分析,使用了logistic回歸分析的后退法。在此,嘗試使用FP模型后退法進行多變量分析。當篩選水準為P=0.05時,可以得到如表1所示的結果。FP模型的表達式為:
LogitP= -2.22×Ili_1-0.34 STATA10.0 程序:
stepwise,pr(0.05):logistic remiss cell smear infil li blast temp
logistic remiss li,coef
mfp logistic remiss cell smear infil li blast temp,sequential select(0.05)
fracplot li
fracpred dr,dresid
twoway scatter dr li
logistic remiss Ili__1
logistic remiss Ili__1,coef
由分析結果可見,兩個模型篩選的自變量結果一致,但FP模型對自變量進行了分式變換,使得模型的對數似然函數和Pseudo R2均增大,擬合效果更好。FP模型的擬合曲線及殘差圖分別見圖1、圖2。

表1 logistic回歸模型與FP模型分析結果的比較

圖1 FP模型擬合曲線圖

圖2 FP模型擬合殘差圖
由圖1可見,研究自變量li對結果變量的影響時,當li<1時,曲線較陡峭,自變量變化時影響較大;而當li>1時,曲線較平緩,自變量變化時影響較小。因此,可以按照表2對自變量進行分段報告結果。例如,li=0.7時病情減輕的可能性是li=0.5時的77.77倍(95%CI:1.63~3721.17)。

表2 基于FP模型的比值比OR的估計結果
擬合FP模型,不僅可以得到模型的表達式,方便研究者對結果變量進行預測,還能基于模型估計常用于表達疾病與影響因素之間關聯強度的指標,如比值比OR。同時,FP模型不僅可以擬合logistic回歸模型,還可以擬合 Cox回歸模型、Poisson回歸模型、Probit回歸模型等。
1.與連續型變量離散化處理方法的比較 研究者往往習慣用一些分界點,將連續型變量離散化。而分界點的選擇往往與數據的分布特點有關,如以分位數、平均數等作為劃分不同類的標準。一方面,常導致相同目的的不同研究往往得出不同的結論,使該變量與疾病的關系缺乏穩定性。另一方面,從統計學的角度而言,分界點的選擇應該在數據分析之前就確定下來,而不是由數據出發來確定。因為研究者為了得出有統計學意義的結論,往往會嘗試選擇不同的分界點,這樣做可能會增加犯第一類錯誤的概率〔4〕。
2.與其他回歸分析方法的比較 不少研究者也直接利用線性回歸模型來分析連續型變量和疾病之間的關系,然而,由于線性假定并不是總是能夠得到滿足。同時,隨著計算機技術的發展,非參數的回歸模型越來越受到研究者青睞,如廣義可加模型等。然而,對于上述模型的選擇往往缺乏既定的標準方法,而且其估計過程對于非統計學專業人員而言總是不得而知的,且由于其對數據存在過度依賴,模型往往是過度擬合的。另外,從結果的表達而言,非參數回歸模型往往不能寫出明確的模型的表達式。
和其他依賴數據建立的模型一樣,FP模型的結果從嚴格的意義上來講比較難解釋,而且,其參數的估計值可能是有偏的,參數估計值的標準誤也可能被低估〔1〕。這些問題均有待于進一步探討。
1.Patrick R,Gareth A,Willi S.The use of fractional polynomials to model continous risk variables in epidemiology.Int.J.Epi,1999,28:964-974.
2.陳峰.醫用多元統計分析方法.第2版.北京:中國統計出版社,2007.
3.Sauerbrei W,Meier-Hirmer C,Benner A,et al.Multivariable regression model building by using fractional polynomials:Description of SAS,STATA and R programs.Computational Statistics & Data Analysis,2006,50(12):3464-3485.
4.Altman DG,Lausen B,Saauerbrei W,et al.The dangers of using‘optimal’cutpoints in the evalution of prognostic factors.J Natl Cancer Inst,1994,86:829-835.