雷馨鈺,徐嘉璐
(蘭州財經大學,甘肅 蘭州 730101)
在信息爆炸的時代,高維數據的產生便于研究者從多個維度去分析問題,但同時,傳統的回歸模型就不能滿足高維數據的需要,故近年來,半參數回歸模型的產生很好地解決了模型構造問題。Cox 模型是由英國統計學家D.R.Cox 于1972 年提出的一種半參數回歸模型[1]。該模型以生存結局和生存時間為因變量,引入基線風險函數,對實際問題中的無規律分布、刪失數據等問題可以很好地處理。該模型自問世以來,在醫學隨訪研究中得到廣泛的應用,也是迄今生存分析中應用最多的多因素分析方法。
然而,在實踐中,通常很少或沒有先驗信息表明協變量的影響呈線性形式或屬于任何其他有限維參數族。因此需要通過使用一類更靈活的非參數模型,例如加性Cox 模型,加性Cox 模型中分量函數的引入顯著增加了模型的靈活性,因此,大量學者對加性Cox 模型進行了研究。
Tibshirani(1997)首次提出在Cox 模型中使用Lasso進行變量選擇,Fan 和Li(2002a,2002b)提出在Cox模型中使用平滑剪裁絕對偏差(SCAD)懲罰進行變量選擇和估計,Huang(1999)利用多項式樣條研究了部分線性可加Cox 模型下最大偏似然估計的性質,但是,上述作者僅僅研究了加性模型維數p 固定時的情況。對于稀疏加性Cox 模型,Lemler(2012)考慮了Cox 模型中基線風險函數和回歸系數的聯合估計,但未考慮由分量函數和基線函數的線性組合引起的近似誤。基于高維數據與生存分析模型所具有的特殊性,傳統的變量選擇方法就不再適用,這是由于傳統的變量選擇方法不滿足變量選擇應該具有的準確性、可解釋性、穩定性等顯著特點。因此需要對加性Cox 模型在高維情況下的變量選擇進行系統分析,以便高效處理高維數據下的變量選擇問題。
總體上看,在高維數據中,使用變量選擇方法來篩選出數據中的重要信息是未來發展的趨勢。大量學者基于懲罰思想對有關模型的變量選擇進行不斷地改進,常見的變量選擇的方法有嶺回歸、Lasso、SCAD、MCP[2]等。但往往有些變量選擇方法的“過度壓縮”會導致重要信息的損失,從而損失模型估計的精確度。故如何使模型在變量選擇后仍保留更多的有用信息也是研究者們大量關注的問題。
傳統Lasso 方法對不同系數進行相同程度的加權,造成過度壓縮絕對值較大的參數的情況,得到過于稀疏的模型,而且Lasso 方法是在單個變量的基礎上對模型進行特征選擇,不具備處理具有組特性的數據。Yuan(2006)提出了組Lasso(Group Lasso)方法,組Lasso是Lasso 的擴展,它的不同之處是對一組系數向量添加約束,因此克服了Lasso 方法無法實現從組的水平進行特征選擇的這一缺點。組Lasso 在各個領域中都被廣泛使用:
在醫學方面,Ma(2007)將有監督的組Lasso 方法用于基因選擇和模型預測,并通過組Lasso 方法選擇集群,從基因簇中找到重要的基因。基于變量選擇特征,Kim(2012)將組Lasso 方法用于生存數據的分析中,該方法可以有效地結合臨床和基因組協變量,并在實際微陣列中進行了實驗。
在機器學習方面,Yeh(2014)將組Lasso 多核學習方法應用于異構特征選擇,并證明了在選擇緊湊特征子集方面是有效的。在金融風險投資方面,Qi 等(2021)利用非負稀疏組Lasso 方法[3],用于成分股的選擇和權重系數的估計。
針對現有文獻中存在的問題,本文使用了一類正則化方法,通過對對數偏似然函數施加群組懲罰,并基于一些溫和的假設條件可以同時對高維Cox 加性模型進行結構識別,變量選擇及其估計。特別地,我們將模型的結構識別和變量選擇問題轉化為一個對于分量函數的判別問題,通過構建正交B 樣條基可以將這些問題參數化,并通過快坐標最優下降法lv(2017)[4]對提出的變量選擇方法進行識別。
一般來說,醫學中生存分析的研究應用在觀察時間與事件發生時間不一致的情況,它將事件發生的結果與觀察時間兩因素結合起來,研究生存函數與斜變量之間的關系,可以分別對完全、不完全數據進行分析,通??捎蒙媛?、生存曲線等指標來估計生存時間。但當生存時間的分布過于復雜時,簡單的計算指標不能滿足現實的需要,而Cox 比例風險模型就可以很好地解決上述問題。
Cox 模型不直接考察生存函數與斜變量之間的關系,而是用風險函數作為因變量,將參數與非參數結合,排除混雜因素影響,篩選出影響生存時間的因素。但在Cox 模型中,當引進的斜變量對時間的響應較為敏感時,偏似然函數損失的信息較多。故在本文中對帶有時間變量的Cox 模型進行假設。


由lv(2017)知稀疏加性Cox 模型如下:

其中,Yi(t)為關于i 的主觀時變風險過程,為參數部分,f*(Xi(t))為具有P 維斜變量的真實分量函數,為非參數部分。Λ0(t)為未知的基線累積函數。并且針對稀疏加性cox 模型要滿足p≥n。但在實際中關于f(x)的重要協變量相對較少,所以,針對式(1)中的分量函數可以表示為:

其中,中的元素都為單變量,并且??{1,2,...,p}是基底|?|=d0的子集,滿足d0<<p。
本文針對模型,提出主要應用B樣條[5]的方法對未知的分量函數進行樣條基函數展開,從而進行后續估計。在樣條估計中,主要利用樣條基函數的線性組合來逼近未知的光滑函數,這種組合可以擬合不同形狀或分布的數據,因此,為了使得B 樣條估計方法可以對更復雜的模型進行逼近求解,對于合適的基函數的選取也是我們值得關心的問題。
假定Xj(t)在任意t∈[0,T]在區間[a,b]上取值,且j=1,2,…p,假定多項式空間Sn中有K個點,滿足a=ξ0<ξ1<…ξK+1=b,則K個點就為多項式空間Sn中的K個節點。用IKq表示為區間[a,b]上的子集,建立IKq=[ξq,ξq+1],q=0,1,…K,其中K滿足K=K(n)=nv0<v<1/2 并使得max1≤q≤K+1|ξq-ξq+1|=O(n-v)成立。
此時定義Sn為滿足以下條件的多項式樣條空間:(1)IKq為Sn的子集,且1≤q≤K;(2)對于?≥2 與0≤?≤?-2,函數s是? 次連續可微的。
由上述可知,在空間Sn上,當1<k<mn,mn=K(n)+l時存在一個B 樣條基k使得對于任意fnj∈Sn都存在:

基于光滑性假定,基函數fnj(z)可以逼近Sn,在上述近似下,每個分參數分量都可以表示為樣條基函數的線性組合,則通過B 樣條可以將模型中未知的分量選擇問題變成了線性組合中選擇系數組的問題,便于之后的估計。

目標函數:


本節對整合后的加性Cox 模型進行蒙特卡洛模擬分析,因高維數據的特殊性,分別考慮當P=10 和P=50時的擬合情況。

其中,假定在上式中前三個變量當j=1,2,3 時定義為f1(x)=sinx+2,f2(x)=sin(2x)2+12,f3(x)=10(x-2)2,當j=4,…p定義為fj(x)=0,且協變量和殘差都滿足均勻分布。
情形1:當P=10 時,分別取n=100、200、500??傻帽?:

表1
情形2:當P=50 時,分別取n=100、200、500。可得表2:

表2
由情形1 和情形2 可知,隨著維數增加,誤差會增大,但數值普遍較小,可知估計量有良好的性能。
從大量數據中選擇出重要變量對于模擬研究及探尋事物變化的本質有著重要的意義,因此變量選擇方法在高維數據中就顯得尤為重要。在本文中,考慮加性Cox 模型在高維數據中的情況,通過B 樣條曲線擬合模型,將函數中的未知函數用樣條基函數展開,結合具有Oracle 性質的組Lasso 懲罰方法,建立了更完善的加性Cox 模型的變量選擇過程。后續可考慮在更高維度下的變量選擇問題。