程云飛,王淑影,張亞男
(長春工業大學 數學與統計學院,吉林 長春 130012)
糖尿病是一種常見的內分泌代謝性疾病,國際糖尿病聯盟在Diabetes Atlas上預測糖尿病患者數量將持續升高。糖尿病在中國是高發疾病,常伴有家族遺傳史,長期血糖控制不良將導致多種急性、慢性疾病并發,使人體抵抗力變差,危及患者生命。由于無法根治,糖尿病的病癥只有及早發現、及早治療才能降低出現并發癥的隱患。因此,構建糖尿病病人的生存時間預測模型,對提高糖尿病病人的生存質量有著重要意義。
在實際研究中,針對某一領域的一個問題,通常可以建立多個模型,如何在所有可能的模型中選擇適合的模型是統計學界研究的核心問題之一。模型選擇的目標是從模型集合中選出估計或預測誤差較小的模型,如Akaike Information Criterion (AIC)、Bayes Information Criterion (BIC)、Focused Information Criterion (FIC)等。模型選擇方法在一定程度上解決了選擇較“優”模型的問題,然而模型選擇過程中總是存在著不確定性,因此無法避免選擇很“差”模型的風險。對于模型選擇過程中存在的缺點,學者們進行了大量研究,近些年來,模型平均方法作為解決模型選擇不確定性的重要方法受到了廣泛關注。與模型選擇方法相比,模型平均方法的估計及預測并不依靠于單個模型,而是基于整個候選模型。Bates J等[1]將模型組合用于對航空需求的預測,研究肯定了組合預測的優勢。目前,按照權重形式的不同,模型平均方法可以分為兩大類,分別為貝葉斯模型平均和頻率模型平均。最初的模型平均方法可以追溯到由Buckland S T等[2]提出的基于AIC和BIC兩種信息準則的Smoothed-AIC(S-AIC)和Smoothed-BIC(S-BIC)方法,它們也是最簡便、常用的方法。對于小樣本量的研究,Hua Liang[3]提出的OPT權重選擇方法具有良好的表現。張新雨等[4]介紹了幾種常用的模型平均方法,并將它們應用于中國糧食產量預測,且取得了較好的預測效果。朱容等[5]將模型平均方法應用于部分函數線性模型,并對肉類和玉米樣本的近紅外反射光譜數據集進行分析,結果表明,模型平均方法要比模型選擇方法的預測效果更好。
綜合以上國內外文獻可以發現,模型平均方法提高了估計及預測的穩健性,為選擇模型提供了一種保障機制,降低了選擇很“差”模型的風險性[6]。在一定情況下,相較于模型選擇方法,模型平均方法在解決模型不確定和研究醫學方面預測問題上具有一定優勢。因此,文中將模型平均方法應用于糖尿病病人的生存時間預測上。
文中考慮如下線性模型

(1)
式中:Yi——因變量;
Xi——p維必選協變量向量;
Zi——q維可選協變量向量;
β——p維回歸參數;
γ——q維回歸參數;
εi——隨機誤差項。
因此,模型中的待估參數為θ=(β′,γ′)′。



(2)
對其求極大值,參數的最大似然估計為
在醫學研究中,影響疾病預后生存時間的協變量往往有多個,將不同的協變量組合就能得到不同的模型,但在不同的模型里如何選擇出最優模型是我們關注的重點。權衡模型復雜度與優良性的標準,簡稱AIC;貝葉斯信息準則,簡稱BIC。兩者都是基于模型的信息量來遴選最優模型,這兩種最常用的信息準則定義為
HIC=-2logl+F,
(3)
式中:HIC——表示AIC或者BIC;
l——模型的極大似然函數;
F——懲罰項。
當F=2g時,式(3)為AIC表達式,當F=glog(n)時,式(3)為BIC表達式,其中g為未知參數個數,n為樣本個數。
通常情況下,多元回歸模型通過擬合因變量與多個協變量估計模型中的參數,單一模型選擇的過程中總是存在著不確定性,選擇的模型過于復雜或是過于簡單都會使得估計或者預測的方差偏大[7]。因此統計學家提出模型平均的思想。Buckland S T等[2]介紹了S-AIC和S-BIC兩種基于信息準則的組合權重方法,則組合權重為

(4)
式中:k——第k個模型;
K——模型集合中模型的數量;
HIC——表示AIC或BIC;
ωk——第k個模型所對應的權重。
假定X中有m1個必選協變量,Z中有m2個可選擇的協變量,因此模型集合中有N=2m2個子模型可供選擇。在實際研究中,某些模型不符合實際可以事先排除,所以至多考慮N≤2m2個子模型。首先假定OPT方法的權重形式,

(5)

M=In-X(X′X)-1X′,
因此,全模型下σ2的最小二乘估計為



將所有候選模型的估計與上述模型平均方法計算的權重平均起來,可得到Yi均值的組合估計

(6)
式中:k——第k個模型;
hk——上述模型平均方法估計的各候選模型估計權重。
文中選取的數據為1971-1988年對128位糖尿病人隨訪研究的臨床數據,數據來源于Ovid數據庫。所選的協變量有X1(患者被診斷出糖尿病時的年齡)、Z1(身體質量指標(BMI))、Z2(心電圖讀數(ECG))、Z3(舒張壓與收縮壓之差(DBF-SBF))、Y(自基準檢查起的生存時間)。文中將2種模型選擇方法AIC、BIC,3種模型平均方法S-AIC、S-BIC、OPT應用到糖尿病數據集上。為了便于分析,對數據做標準化處理。根據以往糖尿病預后因素所做的研究,患者確診糖尿病時的年齡對自基準檢查起的生存時間有著顯著影響,故選定X1為必選協變量,其他3個協變量Z1、Z2和Z3為可選協變量,因此模型集合中有N=23=8個備選模型。例如,第1個模型只有必選協變量為Y=β1X1+ε,第2個模型包含可選協變量為Y=β1X1+γ1Z1+ε,以此類推,第8個模型包含必選協變量和所有可選協變量,即全模型為Y=β1X1+γ1Z1+γ2Z2+γ3Z3+ε,根據不同的加權方法將全部模型預測值加權平均,得到最后的預測結果。文中目的是根據試驗研究中的協變量數據預測糖尿病病人自基準檢查起的生存時間。
結合實例分析比較以上5種方法的預測效果,將糖尿病病人數據分為訓練集與測試集,將訓練集的樣本量設置為n1=90、100、110、120,測試集樣本量n-n1,樣本量為n=128,使用任意訓練集樣本進行回歸,得到未知參數估計,然后對測試集樣本進行預測,這個過程重復c=1 000,則最后得到的均方預測誤差(MSPE)為

(7)


計算5種方法MSPE的均值與中位數,結果見表1。

表1 糖尿病病人生存時間的均方預測誤差
由表1可以得出,OPT模型平均方法得出預測值的MSPE均值與中位數比其他4種方法要小,說明OPT模型方法均方預測誤差較小,預測精度要優于其他4種方法;S-AIC和S-BIC方法MSPE的均值與中位數都要比AIC和BIC方法要小,說明在糖尿病病人生存時間預測研究中,模型平均方法比模型選擇方法的預測精度更高。此外,兩種模型選擇方法的預測結果很接近,而S-AIC要略優于S-BIC方法。
對1971-1988年128位糖尿病病人隨訪研究的臨床數據運用模型平均方法與模型選擇方法進行了病人生存時間的預測。通過對比5種方法的MSPE均值與中位數發現,OPT方法的預測精度更高,S-AIC和S-BIC方法要優于AIC和BIC方法。綜合比較,在對糖尿病病人的生存時間進行預測時,模型平均方法要優于模型選擇方法。
根據文中研究結果可以發現,模型平均方法在糖尿病病人生存時間的預測中取得了較好的效果,因此可以把模型平均方法運用到更多數據類型或模型中,如文中研究的是線性模型,在后期研究中可以將模型平均方法進一步擴展到部分線性模型中。