單苗慧,朱春華,倪其偉
(1.南京審計大學 統計與數據科學學院,江蘇 南京 210000;2.安徽師范大學 數學與統計學院,安徽 蕪湖 241000)
隨著社會經濟的發展、人民生活水平的不斷提高,糖尿病患者的數量正在逐年增加[1].有研究表明我國糖尿病患者將于2030年達到3億多[2],糖尿病儼然已經成為危害我國人民健康的三大慢性疾病之一[3].而由于人們自身對糖尿病的忽視,往往會導致糖尿病發展成為各類疾病的合并癥,例如:高血壓、腦卒中、雙目失明等慢性合并癥[4].因此,深入對患者糖尿病危險因素與合并癥的研究對于早期的糖尿病預防具有重要的影響意義.
目前,針對糖尿病合并癥有許多病理學、醫藥學和統計學方向的研究文獻,姚春芳[5]利用頸動脈彩色多普勒超聲技術,對糖尿病合并高血壓、高脂血癥患者的檢查中,可有效了解患者頸動脈粥樣硬化斑塊狀況;梁春波等[6]探討了老年糖尿病合并高血壓患者的影響因素和慢性合并癥的患病率,發現老年糖尿病合并高血壓患者的危險因素發生率和慢性合并癥的患病率都較高;張世超[7]研究了2型糖尿病合并癥冠心病患者的中醫證型分布規律,分析影響該病的臨床風險因素,發現T2DM合并CHD患者的中醫證型與性別、BMI、空腹血糖、HbA1c、血壓、心肌酶譜等指標無明確關系,但收縮壓、BMI、HbAlc、空腹血糖等是本病的重要危險因素;曲逸倫[8]從中西醫結合的角度,利用logistic回歸模型,研究了2型糖尿病(T2DM)患者慢性腎臟病(CKD)分期增加的相關因素以及糖尿病腎病(DN)和非糖尿病腎病(NDRD)相關因素,為早期的診斷提供了理論技術支持.
基于大多數糖尿病合并癥的文獻研究,多數學者均是直接采用Logistic回歸模型.而在實際問題中,往往會存在著大量的影響因素,面臨“維數災難”的困境.這會使得模型變得復雜化,增加研究成本,降低模型的分類性能,導致模型過擬合等問題.
本文的創新點:主要針對變量過多的情況,將EM算法貝葉斯變量選擇法(EMVS)、Lasso變量選擇法與Logistic回歸相結合,以此來達到估計參數的同時進行變量選擇壓縮的目的.將兩種變量選擇法進行多種模型評價指標的對比研究,選擇最優的模型進行糖尿病合并癥高血壓的關鍵因素的篩選及風險預測.這對于提高糖尿病合并癥高血壓的識別模型的預測精度,簡化模型結構和降低研究成本等方面都具有著重要意義.
二分類Logistic回歸的因變量為分類變量,Yi∈{0,1},具體的模型為[9]

其中:xi′=(xi1,…,xip)表示協變量;α0是常數項;β1,…,βp表示p維的回歸系數;ω(xi)表示Yi=1的概率.
貝葉斯變量選擇是基于Monte Carlo抽樣方法[10],根據模型中各參數的先驗分布推導出相應的后驗分布,然后從后驗分布中來抽樣估計參數,它適應各種層次模型先驗結構.將基于spike-and-slab先驗分布[11]的EM算法貝葉斯變量選擇的方法(EMVS)與Logistic回歸相結合,使得模型可以在進行Logistic分類回歸的同時進行模型的自變量篩選和參數估計.具體的模型理論推導如下:
考慮i=1,…,n個觀測,yi∈{0,1},有p個潛在的協變量,yi在β的條件下概率密度函數可以表示為
其中:ω(xi)=exp(α0+β1xi1+…+βpxip)/(1+exp(α0+β1xi1+…+βpxip));β是一個回歸系數的p維向量,其先驗調節了EMVS的變量選擇過程,給定先驗為混合正態分布:
π(β|γ,v0,v1)=Np(0,Dγ),
其中:Dγ是一個p×p維對角矩陣,每個Djj項取值(1-γj)v0+γjv1;v0、v1是先驗包含概率參數,且0 π(γ|θ)=θ|γ|(1-θ)p-|γ|, π(θ)∝θa-1(1-θ)b-1. 回歸方程的X為列滿秩觀測矩陣時,回歸系數β可由普通最小二乘法進行估計, 當觀測矩陣X不滿秩時,普通最小二乘法會失效,此時需要通過壓縮系數為0來達到變量選擇的效果.懲罰方法是取懲罰似然函數最小時的值作為回歸系數的參數估計值[12],即為 其中:m>0,λ為調節參數(可為向量形式).當m=2時,為L2懲罰項,稱之為嶺估計;當m=1時,為L1懲罰項,稱之為Lasso懲罰. 數據來源于臨床醫學科學數據中心(301醫院)的《糖尿病數據集》[13].該數據集來源于真實的臨床數據,總共包含了1000個樣本.這1000個樣本中均患有糖尿病并發視網膜病變.數據集包括了病人編號、患病種類、年齡、性別、民族、婚姻狀況、身高、體重、收縮壓、舒張壓等89個變量. 由于數據來源于真實的臨床數據,數據集中存在大量的缺失值、異常值、重復值等情況.因此,本文首先將缺失20%的數據的變量直接刪除;其次,取數據集中糖尿病合并癥高血壓為因變量;最后參考張立、范馨月的研究[14],保留了21個變量,詳細的自變量指標信息見表1所列. 表1 自變量的指標取值 針對篩選出來的21個變量,考慮到該數據集中包含1000個樣本,樣本量較大,因此,本文將含有缺失值、異常值和重復值的樣本刪除,最終保留了662個樣本. 由于數據之間尺度不完全相同,為了消除量綱影響,本文利用如下公式,對除高血壓和性別以外的19個變量進行Z標準化處理. 其中:E(x)表示均值;Var(x)表示方差. 針對多維樣本的線性相關性研究,最常用的方法為簡單相關分析.本文計算出21個變量之間的相關系數,以此來判斷變量之間是否存在線性關系并且將結果進行可視化處理,處理結果如圖1所示. 圖1 相關系數熱力圖 根據圖1可以看出總膽紅素和直接膽紅素的相關系數為0.86,兩者之間存在比較嚴重的相關性;性別和身高之間的相關系數為0.7,兩者之間相關性較嚴重;谷氨酰胺轉移酶和堿性磷酸酶之間的相關系數為0.61,兩者之間的相關性較嚴重.因此,認為變量之間存在多重共線性問題.為了解決變量之間存在多重共線性的問題,將整理好的662例樣本按照7:3的比例隨機劃分為訓練集和測試集.其中,訓練集包含了463例樣本,測試集包含了199例樣本.將訓練集用于EM算法貝葉斯變量選擇Logistic回歸模型和Lasso變量選擇Logistic回歸模型的建立,測試集數據用于模型的預測檢驗,兩種方法求得變量選擇結果如表2所列. 根據表2的結果顯示,EMVS變量選擇共剔除12個變量,保留了x1、x4、x5、x13、x14、x15、x17和x19,共8個變量,其對應的指標分別為年齡、體重、收縮壓、血肌酐、血清尿素、總膽紅素、乳酸脫氫酶和堿性磷酸酶.Lasso變量選擇共剔除7個變量,最終保留了x1、x4、x5、x7、x9、x11、x12、x14、x15、x16、x17、x19和x20,共13個變量,其對應的指標分別為年齡、體重、收縮壓、BMI、糖化血紅蛋白、高密度脂蛋白膽固醇、血清尿酸、總膽紅素、直接膽紅素、乳酸脫氫酶和堿性磷酸酶. 表2 變量選擇及參數估計 本文利用ROC曲線進行模型之間的比較,ROC曲線如圖2所示.結果顯示EMVS模型的AUC值為0.81,Lasso變量選擇的AUC值為0.80,EMVS的AUC值大于Lasso的. 圖2 ROC曲線 本文進一步引入AIC值、準確度、靈敏度和特異度等評價指標對兩個方法進行模型的評價.其中,各評價指標的準則分別為:AIC值越小越好,準確度、靈敏度和特異度均是越大且越接近于顯著性水平: 0 “***”、0.001 “**”、0.01 “*”、0.05 “·”、0.1 “ “、11越好,以此來選擇最優的模型進行風險預測.研究結果如表3所列. 表3 模型比較結果 根據表3可以知道,AIC值(赤池信息量準則)214.85<381.32、準確度0.849>0.809、靈敏度0.656>0.517、特異度0.882>0.858.因此,根據EMVS方法所選的變量得到的模型更優. 結合上述兩種變量選擇方法的綜合評價結果,本文挑選EMVS變量選擇的結果為最終的關鍵因素篩選結果,并且將這些篩選出來的變量進行Wald檢驗,OR值計算結果如表4所列. 表4 EMVS-關鍵因素 結合表4中的EMVS變量選擇的參數估計結果和表中的OR值,EMVS變量選擇方法所保留的8個變量均通過Wald檢驗.其中,年齡、體重、收縮壓、血肌酐、血清尿酸、乳酸脫氫酶、堿性磷酸酶的參數估計值均大于0,且OR值均大于1,說明這7個影響因素均是糖尿病合并癥高血壓的危險因素.總膽紅素的參數估計值小于0,且OR值小于1,說明此影響因素是糖尿病并發癥高血壓的保護因素.對于參數估計的結果,包括年齡的參數估計值為0.36;體重為0.37;收縮壓為0.76;血肌酐為0.59;血清尿酸為0.55;乳酸脫氫酶為0.44;堿性磷酸酶為0.36,說明這7個危險因素每增加一單位,就會提高相應參數值單位的糖尿病并合并癥高血壓疾病的患病風險,也可以進一步看出,收縮壓(0.76)和血肌酐(0.59)對患糖尿病并合并癥高血壓的風險影響最大.而總膽紅素的參數估計值為-0.41,說明直接膽紅素每增加一個單位,就會降低0.41個單位的患病風險. 本文將所選取的EMVS Logistic回歸模型應用于整體數據的風險預測研究,具體的預測模型如下所示: 利用上述所構造的預測模型,結合混淆矩陣的形式進行表示,具體結果如表5所列. 表5 EMVS Logistic預測混淆矩陣 從表5中可以看出,針對662條數據真實數據的預測,結合一定評價分類好壞標準的公式,即假陽性率(FPR),假陰性率(FNR)可計算求得. 其中:假陽性率即誤診率為0.204;假陰性率即漏診率為0.014.說明此模型的分類預測精度較高. 本文采用國家臨床醫學科學數據中心(301醫院)的《糖尿病數據集》.前期,在數據的清洗中,發現多數變量存在嚴重的缺失,例如:GLU_2H(餐后2小時血糖)、LP_A(脂蛋白)、FIBRIN(纖維蛋白)等,本文對缺失值占比大于20%的自變量進行剔除處理,并結合相關研究共挑選了20個影響因素變量,其中包括年齡、體重、血清尿酸等.將1000個樣本中存在缺失值的異常樣本直接進行剔除處理,最終保留了662條正常樣本. 在統計分析中,通過相關性檢驗中的相關性熱力圖,發現20個自變量之間存在著多重共線性問題.本文首先將數據預處理所得到的662個樣本拆分為訓練集(70%)與測試集(30%),其中訓練集用于模型的構建,測試集用于模型的風險預測.通過EM算法貝葉斯變量選擇和Lasso變量選擇方法與Logistic回歸模型相結合,并且進行對比研究,利用AIC值、準確度、靈敏度等模型評價指標,進行最優模型的選擇.通過多個模型評價指標的比較,得出EM算法貝葉斯變量選擇方法要優于Lasso變量選擇的結論. 在關鍵因素篩選中,本文選擇最優模型-EM算法貝葉斯變量選擇Logistic回歸模型所保留的8個關鍵因素,包括:年齡、體重、收縮壓、血肌酐、血清尿酸、總膽紅素、乳酸脫氫酶和堿性磷酸酶,進行參數估計、Wald檢驗及OR值計算.結果表明,年齡、體重、收縮壓、血肌酐、血清尿酸、乳酸脫氫酶和堿性磷酸酶是糖尿病合并癥高血壓的危險因素,并且收縮壓和血肌酐是影響最大的危險因素;總膽紅素是糖尿病合并癥高血壓的保護因素. 在風險預測中,本文將EM算法貝葉斯變量選擇Logistic回歸模型所篩選出來的8個關鍵因素,進行測試集的風險預測.具體預測結果利用二分類混淆矩陣的形式表示.結果表明,EM算法貝葉斯變量選擇Logistic回歸模型的風險預測精度為0.85,假陽性率(誤診率)為0.357,假陰性率(漏診率)為0.152,均比較小,這說明本文所選取的方法能夠較好的進行關鍵因素的篩選和風險預測.
1.2 Lasso回歸模型
2 數據的來源及處理
2.1 數據的來源
2.2 數據的清洗

2.3 數據的標準化
3 統計分析
3.1 模型的建立


3.2 模型的比較


3.3 關鍵因素的選取

3.4 風險預測


4 討論