逐步判別分析法在基因表達數據分類中的應用

2011-02-10 01:56:44鄒楊,陳忠

長江大學學報(自科版) 2011年1期

鄒楊,陳忠

(長江大學信息與數學學院,湖北荊州434023)

謝俊宇

(洪湖賀龍高級中學,湖北洪湖433200)

利用基因芯片技術測定的基因表達值是一組多變量的高維數據。這些數據可以用于對組織細胞進行分類,也可以用于挖掘對疾病有鑒別意義的特征基因,進而為醫學診斷和治療提供參考。目前,對于此類基因表達數據分類問題有很多研究方法,如線性判別分析法和支持向量機等,線性判別分析比復雜的預測方法效果要好[1]。

在進行判別分類時,不同基因的表達值對于分類結果影響不同。因此,變量 (基因表達值)的選擇是一個決定判別效果的關鍵問題。下面,筆者利用多元統計分析中的逐步判別分析法對基因表達水平數據進行分析。首先,用逐步判別法篩選出了能夠區分2個總體的特征基因。然后,基于這些特征基因的表達值數據,利用Bayes判別法建立判別函數,對未知類型的基因表達值數據進行分類。

1 逐步判別分析原理

1.1 判別函數的建立

逐步判別是一種篩選變量的方法。篩選的過程其實就是作假設檢驗的過程,通過檢驗找出顯著性變量,剔除不顯著變量[2,3]。所建立的判別函數中僅保留了對分類判別能力顯著的變量。

1.2 判別結果的檢驗

1)總體均值的檢驗假設2總體Gi～N(μi,∑i)(i=1,2),為檢驗2總體的均值是否有顯著性差異(H 0:μ(1)=μ(2)),可以構造F 統計量[4]:

式中,d2(1,2)=(ˉX(1)-ˉX(2))′S-1(ˉX(1)-ˉX(2));ni是第i個總體的樣品個數(i=1,2)。

計算F統計量的值f,得p=P{F≥f}。若p小于給定的顯著性水平a(常取a=0.05),則否定2總體均值相等的假設,即對這2個總體討論判別問題是有意義的。

2)錯判率的估計利用舍一法 (或稱交叉確認法)對錯判率進行估計。

2 實例分析

以2001年北京大學校內數學建模競賽試題 (B題)為實例進行分析。原始數據共60行114列,分別代表60個人和114條基因。其中,有4條基因的表達值完全相同 (分別為原始數據的第37、38、39和40列),這里僅保留其中的一列,故有效檢測基因應為111條(記為向量x1～x111)。

數據中,前20行是20個癌癥病人的基因表達水平的樣本 (記為第0～19組),為分析需要,記其為第1類樣本;其后的20行是20個正常人的基因表達信息樣本,對應于第20～39組,記為第2類樣本;剩余的第40～59組表達值為20個待檢測的樣本 (未知它們是否正常)。假設原問題所提供的2類樣本均來自于正態分布的總體。

2.1 依據特征基因的判別分類

1)特征基因的選取利用SAS中逐步判別法的命令 “proc stepdisc”完成變量篩選的工作[5]。設定引入變量到判別式的顯著性水平為0.10,剔除變量的顯著性水平為0.15。通過逐步篩選,最終選出了 32 個變量, 其序號為:x1、x5、x8、x12、x18、x20、x24、x25、x27、x36、x37、x39、x57、x58、x60、x67、x69、x71、x72、

x75、x76、x79、x 92、x93、x95、x97、x99、x102、x104、x105、x109和 x111。它們就是能夠區分 2 類樣本的特征基因。

2)判別過程的實現在建立判別函數之前,要先對2總體協方差矩陣是否相等進行檢驗(H0:∑1=∑2)。其中,∑i表示第i個總體Gi～N(μi,∑i)(i=1,2)的協方差矩陣。

利用SAS中的命令 “pool=test”實現對2總體協方差矩陣是否相等進行檢驗。結果表明,在顯著性水平α=0.10時接受了原假設?？梢岳煤喜f方差陣建立判別函數。

依據篩選出的特征基因構成2個新的總體 (其中每一組表達值僅有32個變量)。利用Bayes判別法建立判別函數,對未分類的表達值 (第40～59組)進行判別分類。利用SAS中判別分析的命令 “proc discrim”實現這一過程。該程序輸出了Bayes判別函數的系數,則隸屬第1(2)類總體的判別函數y1(y 2)分別為:

依據上述判別函數,計算后驗概率,對未知類別的基因表達值數據分類。經計算可知,在未知類別的第40～59組基因表達值中,屬于第1類總體 (癌癥病人)的共有13個,其序號為 {40,42,45,46,47,48,49,51,52,53,54,57,58};屬于第2類總體 (正常人)的共有7個,其序號為 {41,43,44,50,55,56,59}。

2.2 判別結果的檢驗

2個新總體之間的平方距離為385783,其F統計量為22208,相應的p小于0.0001(＜0.01)。這說明利用特征基因構造的2個新的總體,其基因的表達值有顯著性差異,討論判別分類問題是有意義的。利用SAS程序中的 “crosslist”命令對判別分類的結果進行交叉驗證 (舍一法),用以估計錯判造成的損失。輸出結果顯示,其錯判率為0。

作為對比,利用所有基因的表達值數據構造判別函數,觀察其對原訓練樣本交叉驗證的錯誤率。結果顯示,其錯誤率為20%。

[1]Dodoit S,Fridlyand J,Speed T P.Comparison of discrimination methods for the classification of tumor susing gene expression data[J].Am Stat Assoc,2002,457(97):77-87.

[2]高惠璇.應用多元統計分析[M].北京:北京大學出版社,2005:205-211.

[3]賈云青,侯木舟.Bayes判別分析在醫療數據處理中的應用[J].數學理論與實踐,2009,29(2):117-119.

[4]高惠璇.實用統計方法與SAS系統 [M].北京:北京大學出版社,2001:176-178.

[5]何寧,吳黎兵.統計分析系統SAS[M].武漢:武漢大學出版社,2005:261-271.