畢秀媛 錢占成 馮國雙
比例優勢模型(proportional odds model)是處理有反應資料的常用方法〔1,2〕,目前在國內醫學領域已有較多應用〔3,4〕。但該法必須滿足比例優勢假定條件,即自變量的回歸系數應與分割點k無關。盡管以往有研究認為,比例優勢模型對這一條件并不敏感〔5〕,但實際情況可能并非如此。Bender曾對此做過討論〔6〕,如果不滿足比例優勢假定條件,比例優勢模型跟其他模型的結果可能相反。Lall建議〔7〕,對假定條件不滿足的數據,可采用偏比例優勢模型(partial proportional odds model)進行分析,而不是比例優勢模型。本文通過對一組有序反應變量的分析,介紹如何利用SAS軟件實現偏比例優勢模型的分析。?

比較一下可以發現,偏比例優勢模型與比例優勢模型的不同之處在于多了γ系數。γ系數僅當自變量不符合比例優勢假定條件的情況下才存在,如果所有自變量均滿足該假定條件,則γ系數均為0,此時就是普通的比例優勢模型。
偏比例優勢模型的分析首先要定義一個新變量,代表不同分割點(k個等級共有k-1個分割點),并分析自變量在不同分割點情況下的參數估計。γ系數反映了在不同分割點的情況下,在回歸系數β基礎上的增加值。
由于定義了k-1個分割點變量,每一觀測的反應變量不再是1個,而變成了k-1個。因此可利用SAS proc genmod命令中的GEE(generalized estimating equations)算法來實現多結果變量的分析。
本文數據來源于某關于胃癌病變的影響因素研究,從中隨機選擇48例作為示例分析。因變量y為胃癌病變,分為淺表性胃炎(SG)、萎縮性胃炎(CAG)、腸上皮化生(IM)、異型增生(DYS),分別用 0、1、2、3 表示。自變量x1、x2分別為基因A和基因B,均為二分類變量,0表示表達陰性,1表示表達陽性。欲分析x1、x2對 y的影響。
首先我們采用比例優勢模型分別對x1和x2進行分析,結果發現,x1不滿足比例優勢假定(χ2=12.6659,P=0.0018),x2滿足比例優勢假定(χ2=2.0151,P=0.3651)。因此我們采用偏比例優勢模型,對不同分割點的x1進行參數估計。
分析程序如下:

run;
/*上段程序對每一觀測創建3個logit,logit表示分割點,分別為3、2、1,新的反應變量yy賦值為1和0,每一觀測均有3個反應變量*/
proc genmod desc;
class id logit;
model yy=x1 x2 logit logit*x1/link=logit dist=bin type3;
repeated subject=id/type=un;
run;
/*上段程序利用proc genmod命令調用GEE算法,此時每一觀測包含3個反應變量。由于X1不滿足比例優勢假定條件,因此加入logit*x1,分析不同logit下x1的參數估計。作業相關矩陣類型選擇un,即無結構相關*/
主要輸出結果分別見表1和表2。表1給出了參數估計結果。其中X1對應的是以3為分割點(0,1,2 vs 3)的參數估計值,由于程序中加入desc選項,因此實際反映的是(3 vs 0,1,2)的參數估計。由于參數估計值為1.7869,表明基因A陽性發生DYS的危險高于基因A陰性。X1*logit1、X1*logit2分別對應以1、2為分割點的X1估計值的增加值。也就是說,分割點為2(0,1 vs 2,3)時(實際為 2,3 vs 0,1)X1的參數估計值為1.7869-2.2501=-0.4632,表明基因A陽性發生DYS和IM的危險低于基因A陰性。分割點為1(0 vs 1,2,3)時(實際為 1,2,3 vs 0)X1的參數估計值為1.7869-0.2004=1.5865,表明基因A陽性發生DYS、IM和CAG的危險高于基因A陰性。
logit與此類似,Intercept反映的是 logit3的估計值,即分割點為3時的截距項。logit1反映了分割點為1時的截距項,其參數估計值為-2.2729+3.9428=1.6699。logit2反映了分割點為2時的截距項,其參數估計值為-2.2729+3.3225=1.0496。

表1 參數估計結果
表1的參數估計結果顯示,以不同分割點對因變量進行劃分,其參數估計值相差較大。以3為分割點時,X1的影響有統計學意義(P=0.0419)。以2為分割點時,X1也有統計學意義(P=0.0078)。以1為分割點時,X1無統計學意義(P=0.8788)。而如果直接采用比例優勢模型,結果顯示X1無統計學意義(P=0.1841)。
表2給出了score得分檢驗,結果顯示,X1*logit有統計學意義,提示不同分割點的X1估計值不同,進一步驗證了x1不符合比例優勢假定條件。

表2 Score得分檢驗
表3列出了偏比例優勢模型與比例優勢模型的參數估計比較結果。可以看出,兩種模型的X1估計值差別較大。對于偏比例優勢模型而言,不同分割點的X1估計值差別很大,當j=3和j=2時,出現了截然相反的結果,這也正是比例優勢模型失效的原因。

表3 比例優勢模型與偏比例優勢模型的參數估計比較
有序分類資料最常用的分析方法是比例優勢模型,目前該模型在國內不少領域都有應用,但關于其正確應用的探討卻很少。比例優勢模型的前提條件是自變量的回歸系數與分割點無關,也就是要求不同分割點的回歸系數相同。只有滿足這一條件,模型的估計結果才是比較可靠的。但在實際中這一條件并不總是能滿足,尤其自變量較多的情況下,很難保證每一自變量都符合這一條件。此時如果采用比例優勢模型是不妥的,而應選擇其他更為合適的模型。Bender認為〔6〕,比例優勢假定條件不滿足時,可用獨立的二分類模型(separate binary model)或偏比例優勢模型進行擬合,且偏比例優勢模型效率高于獨立的二分類模型。偏比例優勢模型實際上也是基于累積logit的一種方法,可利用GEE算法來實現〔8,9〕。以往由于受統計軟件功能的限制,偏比例優勢模型的實現較為困難。目前包括SAS軟件在內的很多統計軟件均可實現GEE算法,因此偏比例優勢模型可作為比例優勢假定條件不滿足時的首選替代方法。
偏比例優勢模型主要有兩種:非限制的偏比例優勢模型(unconstrained partial proportional model)和限制的偏比例優勢模型(constrained partial proportional model)。非限制的偏比例優勢模型中,符合比例優勢假定的變量在不同分割點有相同的參數估計,不符合假定條件的變量在不同分割點有不同的參數估計。限制的偏比例優勢模型中,假定自變量的參數估計在各分割點有一定的趨勢(如線性趨勢),該模型一般需要事先對估計值有一定的了解,或者可以先通過非限制的偏比例優勢模型估計出參數值,然后看是否有一定的趨勢。
本文所介紹的是非限制的偏比例優勢模型及其分析過程,這一模型也是實際中較為常用的。目前國內關于該模型的介紹極少,本文旨在拋磚引玉,以便進一步推動該模型的應用。
1.Amstrong BG,Sloan M.Ordinal regression models for epidemiologic data .Am J of Epodemiology,1989,129(1):191-204.
2.Bender R,Grouven U.Ordinal logistic regression in medical research.Journal of the Royal College of Physicians of London,1997,31(5):546-551.
3.吳彬,田俊,羅仁夏.胃癌患者生存質量影響因素的累積比數模型分析.中國衛生統計,2007,24(1):36-38.
4.吳彬,曹建平,宋建華,等.福州地區高校教師亞健康影響因素的累積比數模型分析.中國衛生統計,2010,27(3):262-264.
5.李康,郭祖超,胡琳,等.有序分類數據回歸模型及醫學應用.中國衛生統計,1992,9(6):52-54.
6.Bender R,Grouven U.Using binary logistic regression models for ordinal data with non-proportional odds.Journal of Clinical Epidemiol,1998,51(10):809-816.
7.Lall R,Campbell MJ,Walters SJ,et al.A review of ordinal regression models applied to health-related quality of life assessments〔j〕.statistical methods in medical research,2002,11(1):49-67.
8.Peterson B,Harrell F.Partial proportional odds models for ordinal response variables.Appl Statist,1990,39(2):205-217.
9.Bender R,Benner A.Calculating ordinal regression models in SAS and S-plus .Biometrical Journal,2000,42(6):677-699.