王福友, 白 冰, 徐平峰
(長春工業大學 基礎科學學院, 吉林 長春 130012)
基于SIS的基因表達數據分析
王福友, 白 冰, 徐平峰*
(長春工業大學 基礎科學學院, 吉林 長春 130012)
用SIS方法對36位白血病患者中7 126個基因的高維數據進行降維,結合Lasso變量選擇方法選出可能的致病基因。根據響應變量的數據類型建立了廣義線性模型(Logistic模型)。通過比較AIC & BIC準則以及CV交叉驗證方法下的擬合概率圖得出最優模型。
高維數據; 變量選擇; SIS方法; Lasso
現代技術不斷發展,很多領域都產生海量復雜的數據,尤其是在醫學和生物信息學等方面,尋找癌癥的致病基因或影響因素一直是一個非常重要的問題,因為基因的數目非常多,而醫學實驗的觀測樣本卻非常少,這種典型的高維數據導致計算量迅速上升;高維數據導致空間的樣本數變少,使得某些統計上的漸近性難以實現;傳統的數據處理方法在處理這類數據時不能滿足穩健性要求[1],確定致病基因比較困難。這些新現象產生了許多挑戰性的工作。
事實上,許多高維統計學習問題都可以抽象為如下問題:從實際中可以得到一個或多個輸出變量y,以及與它們有關的特征或協變量x1,x2,…,xp的n次觀測,我們需要基于這些觀測建立y與x1,x2,…,xp的數學模型。與傳統統計方法不同的是,此處一般情況協變量的維數p大于n,有時甚至是遠大于n(p>>n)。這種情況下通常認為真實模型位于一個低維空間(至少協變量維數p要比樣本容量n低),也就是常說的稀疏性(sparsity)假定[2],否則,建立的模型根據所觀測的樣本是不可識別的。因此,在維數較高時采取的方法一般是變量降維,即變量選擇。
那么,如何在大量的基因中對變量進行選擇,SIS方法就是處理高維情況下降維問題的,這是一種截斷式的選擇方法,在某些約束條件下,SIS可以把高維線性模型從p維降到[nγ] Fan和Lv[4]提出了一種新的較簡單降維方法----安全獨立篩選(SIS)方法。 令Y=(y1,y2,…,yn)T是n維獨立響應變量,n是樣本容量。考慮線性回歸模型 Y=Xβ+ε 其中β=(β1,β2,…,βp)T是一個p維參數ε=(ε1,ε2,…,εn)T;X=(X1,X2,…,Xn)T是一個n×p的設計矩陣,為方便討論,假定X為列標準化的矩陣,Y為中心化向量。即X中每一列所代表的變量的樣本均值為0,樣本標準差為1,Y的樣本均值為0。 令M*={1≤i≤p;βi≠0}為我們感興趣的真實稀疏模型的指標集,s=|M*|代表M*中元素的個數,也就是真實模型中回歸系數不為0的個數。令ω=(ω1,ω2,…,ωp)T對于任何給定的γ∈(0,1),定義子模型MY={1≤i≤p;|ωi|為前最大的[γn]個},其中[nγ]表示nγ整數部分。 這樣就可以把全模型指標集{1,2,…,p}降到一個子模型指標集MY,其中,元素的個數nγ 1)σ=10-3(初定),m=n/logn; 3)把|ωi|按照從大到小排序,并選取其中m個最大的|ωi|, 不妨記為|ω|(1),|ω|(2),…,|ω|(m); 5)選取|ω|(1),|ω|(2),…,|ω|(m1)所對應的自變量,不妨記其對應的觀測分量為z1,z2,…,zm1,注意z1,z2,…,zm1為x1,x2,…,xp的一個子集,其變量個數為m1。 文中引用數據為白血病基因表達數據集[5]中的部分數據,包含20個急性淋巴細胞白血病(y=0)和14個急性骨髓性白血病(y=1)患者的p=7 126個基因表達數據。其中y表示分類因變量(y=0或1)。{x1,x2,…,xp}表示白血病基因自變量。 利用SIS結合Tibshirani提出的Lasso懲罰似然方法[6]討論數據中34名觀測樣本的基因篩選問題,并給出相應結果。 首先在R軟件中,應用SIS程序包中懲罰似然函數把7 126個治病基因經過自變量篩選,將維度降低,然后再結合傳統的模型選擇方法如AIC準則、BIC準則[7]、10折交叉驗證法[8](CV)等給出最終模型的解釋變量及相應參數向量。 經研究表明,在R軟件的SIS程序包中,SIS過程選擇的最終模型類型為cv.ncvreg、cv.glmnet的擬合模型。對于懲罰函數的選項,如果懲罰函數為SCAD、MCP,則返回的擬合對象的類型為ncvreg(適用于建立普通線性回歸模型);否則,當懲罰函數為Lasso時,返回的擬合對象的類型為glmnet(適用于建立廣義線性模型或Cox比例風險模型[9])。在本研究實例中,因變量是分類的離散變量,建立的是Logistic回歸模型。所以只給出了Lasso懲罰函數下的結果,見表1。 在表1中,SIS過程從試驗組7 126個基因中通過Lasso篩選出自變量,以此達到降維的目的,當然也給出了相應的參數向量: 1)結合CV(10折交叉驗證)得到最終模型的參數估計值為x2020,x3252,x3320,x4847,x5817,x6041,x6373,分別對應模型中x1,x2,…,x7。 2)結合AIC準則得到最終模型的參數估計值為x1779,x2020,x3252,x3320,x4847,x5817,分別對應模型中x1,x2,…,x6。 3)結合BIC準則得到最終模型的參數估計值為x1779,x2020,x3320,x4847,x5817,分別對應模型中x1,x2,…,x5。 類似于通常的預測方法,不同方法下預測的擬合概率圖分別如圖1~圖3所示。 圖1 CV法下預測的擬合概率圖 圖2 AIC準則下預測的擬合概率圖 圖3 BIC準則下預測的擬合概率圖 理論上,Logistic[10]模型最佳的預測擬合圖應是一條S曲線,在3種最終模型的參數估計都通過檢驗的情況下,顯然CV(10折交叉驗證)下的擬合概率圖更加趨近于一條S曲線,也就得到了符合本例數據的最佳模型,即應用懲罰函數Lasso+CV方法給出的廣義線性模型: 對醫學上高維數據基于SIS方法進行了分析。變量選擇是一種特殊的模型選擇方法,文中給出了SIS方法與經驗似然有機結合SIS+CV方法以及SIS+AIC等方法。這個算法既保留了原有方法的漸近性質,又降低了實際中對誤差項的分布要求,取長補短、計算簡單、想法直觀。研究結果表明,文中方法在對高維線性模型作變量選擇時,其結果整體上可信度很高。 總之,近年來,對于各種研究領域中有關高維數據的研究一直在進行,尤其是在醫學方面,在大量的基因組中尋找治病基因,并逐步走向成熟,對理論的探討以及對實例的處理也都有很多成果。而且關于對高維數據處理和變量選擇的問題應用面也越來越廣泛。隨著對高維數據問題的研究發現,現今對高維數據的處理方法越來越多元化。文中所考慮的高維數據變量選擇方法只是處理高維數據方法中的一部分,隨著科學技術的迅猛發展和理論研究的進一步探究,更多新的方法逐漸被提出,高維數據的變量選擇研究領域也將得到更進一步發展。 [1] 劉卓.高維數據分析中的降維方法研究[D].長沙:中國人民解放軍國防科學技術大學,2002. [2] 李玲玲.高維線性模型的變量選擇[D].南寧:廣西師范大學,2007. [3] 喬治·H.鄧特曼.廣義線性模型[M].上海:上海人民出版社,2011. [4] Fan J, Lv J. Sure independence screening for ultrahigh dimensional feature space [J]. J. R. Stat. Soc. Ser. B,2008,70:849-911. [5] Golub T R, Slonim D K, Tamayo P, et al. Molecular classification of cancer: class discovery and class prediction by gene expression monitoring [J]. Science,1999,5439(286):531-537. [6] Tibshirani R. Regression shrinkage and selection via the Lasso [J]. Journal of the Royal Statistical Society,2011,73(3):267-288. [7] 崔靜.廣義線性模型下罰估計量的性質[D].西安:西北大學,2011. [8] Feng Y, Yu Y. Consistent cross-validation for tuning parameter selection in high-dimensional variable selection [EB/OL].[2017-06-11].http://www.statslab.cam.ac.uk/~yy366/index_files/1308.5390v1.pdf. [9] Saldana D, Feng Y. SIS: An R rackage for sure independence screening in ultrahigh dimensional statistical models[EB/OL].[2017-06-11].http://www.stat.columbia.edu/~yangfeng/pubs/jss1375.pdf. [10] 陳勝利,覃家君.基于logistic增長模型的企業集團生存關系分析[J].長春工業大學學報:自然科學版,2005,26(1):54-58. AnalysisofgeneexpressiondatabasedonSISmethod WANG Fuyou, BAI Bing, XU Pingfeng* (School of Basic Sciences, Changchun University of Technology, Changchun 130012, China) With SIS method, the dimension of 7 126 genes data from 36 leukemiapatients is decreased, and then the possible pathogenic genes are selected by means of Lasso variables. Based on data type of the variables, a generalized linear model (Logistic model) is established. The optimal model for fitting probability graph is obtained, by comparing the AIC & BIC criterion with Cross Validation (CV) verfification. high dimensional data; variable selection; SIS method; Lasso. 2017-06-11 國家自然科學基金資助項目(11401047,11571050); 吉林省科技廳發展計劃基金資助項目(20140520059JH) 王福友(1992-),男,河北石家莊人,長春工業大學碩士研究生,主要從事圖模型方向研究,E-mail:994742613@qq.com. *通訊作者:徐平峰(1979-),男,漢族,吉林長春人,長春工業大學副教授,博士,主要從事圖模型方向研究,E-mail:xupingfeng@ccut.edu.cn. 10.15923/j.cnki.cn22-1382/t.2017.5.01 O 212.4 A 1674-1374(2017)05-0417-041 高維線性模型的變量選擇
1.1 SIS方法介紹
1.2 SIS方法過程


2 基因表達數據實例分析
2.1 數據描述
2.2 方法應用及分析



3 結 語