安徽醫科大學公共衛生學院流行病與衛生統計學系(230032) 朱 玉 王 靜 何 倩
廣義估計方程在SPSS統計軟件中的實現*
安徽醫科大學公共衛生學院流行病與衛生統計學系(230032) 朱 玉 王 靜△何 倩
△通訊作者:王靜,E-mail:jwang2006@126.com
在實際研究中,常常需要處理縱向資料(longitudinal data)、重復測量資料(repeated measurement data)、整群抽樣設計資料(cluster sampling design data)、聚集性資料(clustered data)或是多層次結構資料(hierarchical data)等。這些資料由于部分觀察值之間含有非獨立的或相關的信息,不能用傳統的一般線性模型進行分析,需要特殊的統計方法進行處理。廣義估計方程是其中一種處理方法,廣義估計方程(generalized estimating equations,GEEs)是 Liang和 Zeger(1986)在廣義線性模型的基礎上提出來用于縱向資料的處理中,近年來廣義估計方程的應用范圍得到了擴展。下面介紹廣義估計方程及其在SPSS17.0統計軟件中的實現。
以常見的重復測量資料為例,簡單介紹廣義估計方程原理。假設Yij表示為第i個觀察對象的第j個觀察值(i=1,…,k,j=1,…,t),相應的協變量記為 Xijm(m=1,…,p)。各觀察對象間是獨立的,但同一觀察對象內的觀察值間存在相關。構建如下模型:

其中g(·)為聯接函數,通過它把Yij的邊際期望表達成協變量Xijm的線性組合。其協方差矩陣為Vi:

其中Ai為對角矩陣,其對角線上的元素是h(μij)=υijΦ,表示Y的均數μ與方差υ的函數關系,Ri(α)稱為作業相關矩陣。按照Liang&Zeger的定義,構建廣義估計方程:

作業相關矩陣是廣義估計方程中的一個重要概念,表示的是應變量的各次重復測量值兩兩之間相關性的大小。作業相關矩陣常有以下幾種形式〔6〕:
(1)等相關,又稱可交換的相關(exchangeable correlation),或復對稱相關(compound symmetry correlation),即任意兩次觀測之間的相關是相等的。
(2)相鄰相關,即只有相鄰的兩次觀察值間有相關。
(3)自相關(autocorrelation),即相關與間隔次數有關,相隔次數越長,相關關系越小。
(4)不確定型相關(unstructured correlation),即相關矩陣非對角線上的元素均不等。
(5)獨立(independent),即不相關(uncorrelated),即應變量之間不相關。
隨著廣義估計方程理論的提出與完善,SAS、SPSS和Stata等統計分析軟件包紛紛增設了廣義估計方程模塊,SPSS軟件從15.0版本增設了此功能。下面結合SPSS統計軟件自帶的資料(wheeze_steubenville.sav)介紹廣義估計方程在SPSS17.0中的實現。
該資料是空氣污染對兒童健康影響的縱向研究的一個子集,收集了俄亥俄州兒童在7歲、8歲、9歲和10歲的喘息性狀況,并記錄了母親在研究第一年是否吸煙。研究目的是分析兒童的年齡和母親吸煙情況對兒童喘息性狀況是否是有影響。該資料包括537例兒童,變量(id)表示每個兒童個體的編號,變量(age)表示每個兒童個體的測量時的年齡,變量(wheeze)表示每個兒童個體測量時的喘息性狀況,是二分類資料(“1”代表發生,“0”代表沒有發生),變量(smoker)表示每個兒童個體的母親在研究第一年吸煙情況,是二分類資料(“1”代表吸煙,“0”代表不吸煙)。資料在錄入SPSS時按照長形格式錄入。
其分析步驟如下:


在廣義估計方程的窗口菜單設置好后,運行程序,得到分析結果。下面給出主要的分析結果。表1給出模型中自變量的檢驗結果,可見age有統計學意義,而smoker沒有統計學意義。表2給出了具體的回歸系數值和一些統計檢驗量,age等于7歲、8歲、9歲分別與10歲比較偏回歸系數為0.375、0.429、0.348并且都有統計學意義,表明與10歲相比7歲、8歲、9歲是一個高發年齡段,smoker等于“0”與等于“1”比較偏回歸系數為-0.261,表明母親吸煙是個危險因素,但是這種關系沒有統計學意義。表3給出了重復測量資料的組內作業相關矩陣。

表1 模型中自變量的檢驗

表2 廣義估計方程的參數估計

表3 作業相關矩陣
此例選擇了不確定型相關系數矩陣作為組內作業相關矩陣,不確定型相關系數矩陣是最常見的作業相關矩陣,但不一定是最合適的作業相關矩陣。從相關系數矩陣可見,組內相關系數(0.309~0.441)可能不合適,所以可以重新定義作業相關矩陣為獨立或是其他相關矩陣,然后通過Quasi Likelihood under Independence Model Criterion(QIC)統計量的大小來決定合適的作業相關矩陣,在同一個模型中統計量(QIC)值越小模型越合適。此例在相同的模型下,不同作業相關矩陣的QIC值見表4,等相關作業矩陣與不確定性相關作業矩陣的QIC值最小,雖然不同作業相關矩陣間QIC值差別不大。

表4 不同作業相關矩陣的QIC值
廣義估計方程在廣義線性模型的基礎上,引入了作業相關矩陣。在模型擬合之前應定義好作業相關矩陣的形式,模型擬合完畢時會計算出具體的相關矩陣。只要模型本身建立的正確,即聯接函數選擇正確,即使作業相關矩陣定義有誤,所得到模型的固定部分參數的估計仍然是一致的,所以作業相關矩陣定義有誤對參數的估計影響也不大。但是定義正確的作業相關矩陣,有助于研究者對資料的了解。在建立廣義估計方程時可以使用統計量(QIC)來幫助選擇合適的作業相關矩陣結構和模型,用SPSS擬合模型時,會給出統計量(QIC)的值,根據統計量(QIC)值的大小確定合適的作業相關矩陣〔7,8〕。另外,廣義估計方程能夠處理含有缺失值或是不平衡設計,無需對缺失的數據進行處理。但是廣義估計方程只能處理2水平資料,對于2水平以上的資料需要用多水平模型來完成〔9〕。
1.Liang KY,Zeger SL.Longitudinal data analysis using generalized linear models.Biometrika,1986,73(1):13-22.
2.Zeger SL,Liang KY,Albert PS.Models for longitudinal data:a generalized estimating equation approach.Biometrics,1988,44(4):1049-1060.
3.陳峰.非獨立數據的統計分析方法.見:方積乾,陸盈主編.現代醫學統計學.北京:人民衛生出版社,2002:25-60.
4.陳啟光.縱向研究中重復測量資料的廣義估計方程分析.中國衛生統計,1995,12(1):22-25.
5.張文彤,田曉燕.基于廣義估計方程的多重應答資料統計分析方法.中國衛生統計,2004,21(3):139-141.
6.陳峰,任仕泉,陸守曾.非獨立試驗的組內相關與廣義估計方程.南通醫學院學報,1999,19(4):359-362.
7.馮麗云,James Cui.縱向數據準似然獨立準則在GEE模型中的應用.中國衛生統計,2008,25(4):369-372.
8.Pan W.Akaike's information criterion in generalized estimating equations.Biometrics,2001,57(1):120-125.
9.陳峰.廣義估計方程和多水平模型.見:饒克勤主編.衛生統計方法與應用進展.第2卷.北京:人民衛生出版社,2008:153-170.
2009年安徽省人文重點項目基金(2009sk192zd)、安徽醫科大學學科帶頭人基金、安徽醫科大學博士科研基金。
·學術討論·