吳 彬 曹建平 鄒煌秀 徐寶川 林佳榮
廣義估計方程在糖尿病并發癥影響因素分析中的應用*
吳 彬1曹建平2鄒煌秀3徐寶川1林佳榮1
目的探討廣義估計方程在糖尿病并發癥影響因素研究中的應用。方法對570例2型糖尿病患者的基本情況、生活方式和糖尿病患病情況等進行問卷調查,采用廣義估計方程分析并發癥的危險因素。結果患病時間、血糖水平和體質量指數是影響糖尿病并發癥發生的主要因素。結論廣義估計方程可較好分析疾病多種結局的影響因素。
廣義估計方程 糖尿病 并發癥 影響因素
糖尿病最重要的危害就在于其并發癥的發生,并發癥可導致傷殘和早死,嚴重影響患者的生活質量。分析糖尿病并發癥影響因素傳統的做法是把并發癥作為應變量,各種危險因素作為自變量,采用logistic回歸模型分析自變量與應變量的關系。一種是設有并發癥為1,無并發癥為0,采用兩分類的logistic模型進行分析,另一種是把并發癥的個數作為應變量,采用有序logistic模型來進行統計分析[1-2]。但一個糖尿病患者,可能目前沒有并發癥,也可能伴發一種或多種并發癥,不同人并發癥的個數相同但種類可能不同,故傳統分析把并發癥發生情況作為一個應變量不太合適,應該用多個應變量表示并發癥發生情況,不同并發癥發生可能存在相關性,即多個應變量存在關聯。分析此類數據采用上述兩種統計方法將丟失大量有用的信息。廣義估計方程是Liang和Zeger在廣義線性模型的基礎上提出的,它可以分析傳統方法無法分析的多個定性應變量且應變量之間存在相關性的資料,得到的參數估計值穩健、可靠[3]。本文采用廣義估計方程分析糖尿病并發癥的危險因素,以期為其他研究者在處理疾病多種結局數據時提供參考。
選擇2015年1月至2015年2月到福建省某三甲醫院內分泌科就診的600例2型糖尿病患者(診斷依據1999年WHO修訂的糖尿病診斷標準[4]),納入標準為病程在6個月以上、年齡18~80歲、目前無急性并發癥的患者,排除文盲病例,糖尿病并發癥由門診醫生確診。
采用自行設計調查表進行調查,調查項目包括患者的基本情況:年齡、性別、身高、體重、文化程度、壓力狀況等;患病及治療情況:患病年齡、血糖水平、血壓水平、用藥情況、治療費用、并發癥等:生活方式:吸煙、喝酒、飲食、運動等。血糖和血壓水平為離調查時間最近的測定結果。
由經過培訓的福建醫科大學公共衛生學院研究生和本科實習生在門診醫生允許的條件下對就診的2型糖尿病患者進行面對面問卷調查,問卷填寫完畢后當場檢查回收,收回有效問卷570份。
擬合廣義估計方程模型[3,5-7]。
假設有n個觀察對象,每個觀察對象可能發生P種并發癥,第 i個觀察對象(i=1,2,…,n)第 j(j=1,2,…,p)種并發癥發生情況記為 Yij(Yij=0,未患第 j種并發癥,Yij=1,患第 j種并發癥),Xij(Xij1,Xij2,…,Xijm)為與Yij相對應的自變量向量。不同觀察對象之間的觀察值相互獨立,同一觀察對象的多種并發癥發生與否存在相關。廣義估計方程的模型結構如下:
(1)Yij的期望為 E(Yij),有

其中,g(μij)為聯接函數,可根據數據類型選取合適的聯接函數。本次選擇Binary logistic作為聯接函數。
(2)Yij的方差為 Var(Yij),有

其中υ(μij)為已知方差函數,φ表示尺度參數,表示Y的方差不能被υ(μij)解釋的部分。
(3)第i個觀察對象發生P種并發癥存在相關性,可用P×P維“作業相關矩陣”Ri(α)來表示,α又叫相關參數。
(4)Ri(α)對應的作業協方差陣為

Ai為P×P維對角矩陣,其對角元素為υ(μij)廣義估計方程為:

模型求解:假設多個測量值之間無相關性,按廣義線性模型計算β的估計值,作為迭代運算的β初始值。求出φ,α后修正β,直至收斂。本研究將糖尿病并發癥分成視網膜病變、腎臟病變、糖尿病皮膚病、糖尿病足、神經病變、心腦血管病變和其他7類。由于無法確定各種并發癥的相關結構,故采用無結構的作業相關矩陣。患者年齡、性別、文化程度、患病時間、吸煙、飲酒、血糖情況等作為自變量擬合廣義估計方程模型。應變量和自變量的賦值情況見表1。所有的數據用PASW 18.0和SAS9.0統計軟件分析處理。廣義估計方程用SAS9.0中的GENMOD模塊來實現。

表1 變量賦值情況
1.一般情況 共發放問卷600人,實際調查570人,有效應答率95%。其中男性290人,占50.88%,女性280人,占49.12%。年齡 <40歲的31人,占5.44%,40~49歲的53人,占9.30%,50~59歲的139人,占24.36%,60~69歲的189人,占33.16%,≥70歲的158人,占27.72%。570名糖尿病患者中,有170人患有并發癥,占總調查患者人數的29.8%,其中患有心腦血管和神經病變的并發癥人數分別占調查人數的12.8%和12.5%,各種類型并發癥發生情況見表2。

表2 570例糖尿病患者并發癥發生情況
2.廣義估計方程的分析結果
(1)單因素分析
以并發癥發生情況為應變量,患者的年齡、性別、文化程度、患病時間、吸煙、飲酒、體質量指數(BM I)、規律用藥情況、血糖、鍛煉情況和壓力等為自變量擬合廣義估計方程,采用無結構的作業作相關矩陣,單因素分析發現文化程度、患病時間、吸煙、飲酒、體質量指數、規律用藥情況、血糖、鍛煉情況、壓力和是否將您了解的預防糖尿病并發癥知識付之行動對糖尿病并發癥發生的影響差異有統計學意義,詳見表3。
(2)多因素分析
對單因素分析結果有統計學意義的變量進行共線性診斷,結果方差擴大因子均小于10,條件指數均小于30,提示這些自變量不存在共線性。以7種并發癥發生情況為應變量,患者的文化程度、患病時間、吸煙、飲酒、體質量指數(BM I)、規律服藥情況、血糖、鍛煉情況和壓力等為自變量擬合廣義估計方程,采用無結 構的作業相關矩陣,多因素分析結果見表4。

表3 單因素廣義估計方程分析結果

表4 多因素廣義估計方程分析結果
在對影響因素各參數估計和假設檢驗中,患病年限長、體質量指數大、血糖不正常的糖尿病患者更容易出現并發癥,文化程度、是否鍛煉、壓力情況、是否將了解的預防糖尿病并發癥知識付之行動和規律用藥對并發癥的影響無統計學意義。
(3)作業相關矩陣
7類并發癥間的作業相關矩陣見表5,說明大多數并發癥的發生存在一定的正相關關系即發生一種并發癥的患者更容易發生其他并發癥。

表5 廣義估計方程的作業相關矩陣
在醫學研究中,經常會遇見疾病多種結局數據的分析,這類數據與一般資料不同,它的應變量之間存在相關關系,若采用傳統的統計分析方法會忽略數據內部的相關性,低估模型參數的標準誤,從而高估檢驗統計量,使得統計結果出現偏差[3]。廣義估計方程突破了廣義線性模型“獨立性”條件,解決了數據中應變量相關的問題,能得到穩健的參數估計值。
廣義線性模型與經典的線性模型相比雖然不要求應變量服從正態分布、應變量與自變量呈線性關系,但它無法解決多個因變量的問題。混合線性模型雖然能解決多個相關性應變量的問題,但要求應變量服從正態分布且應變量與自變量呈線性關系,當應變量是兩分類或多分類定性變量時就不適用了。目前國內對多個相關定性應變量的分析方法為多水平模型和廣義估計方程,在弱相關和小樣本時,廣義估計方程比多水平模型穩定[5,7-10]。
一般認為在廣義估計方程中只要連接函數選擇正確,即使作業相關矩陣的選擇不正確,也可以得到穩定的參數估計值[11]。然而,Fitzmaurice的研究結果顯示,在模型包含的協變量隨時間變化時,若對作業相關矩陣的指定不正確,模型參數估計的效能將降低40%左右[12]。因此,根據實際情況選擇合適的作業相關矩陣是比較關鍵的環節。一般來說,當1水平單位數較少且相等的平衡完全設計資料,推薦采用無結構的作業相關矩陣;對重復測量等具有時間順序的資料,使用與時間相關的作業相關矩陣;對于整群抽樣等資料,測量值間無邏輯順序關系,建議采用等相關結構的相關矩陣;如果難以確定相關結構,可采用無結構的作業工作相關矩陣。本研究數據屬最后一種情形,故采用無結構的作業相關矩陣[3,5]。
本研究發現血糖異常、體質量指數和患病時間是并發癥發生的主要影響因素。這與目前于世鵬等人的研究結果一致[13-15],這提示采用廣義估計方程分析多疾病結局資料能取得較為滿意的結果。
感謝福建醫科大學附屬第一醫院內分泌科的趙淑好、嚴孫杰等主任對本次調查給予的指導和幫助。
[1]范麗霞.2型糖尿病患者慢性并發癥特點及影響因素.中國醫院現代遠程教育,2012,10(3):17-18.
[2]彭宇輝.二型糖尿病血管并發癥的影響因素分析.福州:福建醫科大學,2007.
[3]饒克勤主編.衛生統計方法與應用進展(第二卷).北京:人民衛生出版,2008:53-170.
[4]錢榮立.關于糖尿病的新診斷標準及分型.中國糖尿病雜志,2008,8(1):5-6.
[5]萬崇華,羅家洪主編.高級醫學統計學.北京:科學出版社,2014:235-369.
[6]洪榮濤,曹衛華,歐劍鳴,等.多重應答資料統計分析及其SAS軟件實現過程.中國衛生統計,2009,26(6):595-598.
[7]馮國雙,羅鳳基主編.醫學案例統計分析及SAS應用.北京:北京大學醫學出版社,2011:222-253.
[8]張華君,閔捷.廣義估計方程與多水平模型在相關資料中的比較研究.中國衛生統計,2012,31(1):123-125.
[9]柳青.中華醫學統計百科全書多元統計分冊.北京:中國統計出版社,2013.
[10]毛廣運,沈恬,陳常中,等.廣義估計方程在多元統計分析中的運用及檢驗效率評價.中國衛生統計,2014,31(1):123-125.
[11]張文彤,田曉燕.基于廣義估計方程的多重應答資料統計分析方法.中國衛生統計,2004,21(3):139-141.
[12]Fitzmaurice GM.A caveat concerning independence estimating equations with multivariate binary data.Biometrics.1995,51(1):309-317.
[13]于世鵬,班博,孫琳,等.二級預防對糖尿病高血壓患者發生大血管并發癥的影響.中國臨床康復,2006,10(24):4-6.
[14]周春來,丘霞.不同體重指數對初發2型糖尿病并發癥及治療方案的影響.中國醫藥導報,2014,11(27):58-61.
[15]張威.糖尿病并發心血管疾病的影響因素.實用心腦肺血管病雜志,2008,16(7):11-12.
The Application of Generalized Estimating Equations in the Research about Influencing Factors of Complications of Diabetes Mellitus
Wu Bin,Cao Jianping,Zhou Huangxiu,et al(Department of Epidemiology and Health Statistics,Fujian Medical University(350004),Fuzhou)
ObjectiveTo investigate the application of generalized estimating equations in the research about influencing factors of complications of diabetesmellitus.MethodsThe basic situation,disease and treatment of 570 diabetesmellitus patients were surveyed and the data were analyzed by generalized estimating equations to select risk factors of diabetesmellitus complications.ResultsDuration of disease,body mass index,blood sugar levels are the main factors affecting DM complications.ConclusionGeneralized estimating equation can analyze influencing factors of various outcomes of disease.
Generalized estimating equations;Diabetesmellitus;Complications;Influencing factors
全國統計科學研究計劃項目(2012LY169);福建醫科大學基金項目(2014JY029S)
1.福建醫科大學流行病與衛生統計系(350001)
2.福建醫科大學衛生管理系
3.福建省疾控中心健康教育科
(責任編輯:郭海強)