999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

逐步判別分析法在基因表達數據分類中的應用

2011-02-10 01:56:44楊,陳
長江大學學報(自科版) 2011年1期
關鍵詞:分類利用

鄒 楊,陳 忠

(長江大學信息與數學學院,湖北荊州434023)

謝俊宇

(洪湖賀龍高級中學,湖北洪湖433200)

利用基因芯片技術測定的基因表達值是一組多變量的高維數據。這些數據可以用于對組織細胞進行分類,也可以用于挖掘對疾病有鑒別意義的特征基因,進而為醫學診斷和治療提供參考。目前,對于此類基因表達數據分類問題有很多研究方法,如線性判別分析法和支持向量機等,線性判別分析比復雜的預測方法效果要好[1]。

在進行判別分類時,不同基因的表達值對于分類結果影響不同。因此,變量 (基因表達值)的選擇是一個決定判別效果的關鍵問題。下面,筆者利用多元統計分析中的逐步判別分析法對基因表達水平數據進行分析。首先,用逐步判別法篩選出了能夠區分2個總體的特征基因。然后,基于這些特征基因的表達值數據,利用Bayes判別法建立判別函數,對未知類型的基因表達值數據進行分類。

1 逐步判別分析原理

1.1 判別函數的建立

逐步判別是一種篩選變量的方法。篩選的過程其實就是作假設檢驗的過程,通過檢驗找出顯著性變量,剔除不顯著變量[2,3]。所建立的判別函數中僅保留了對分類判別能力顯著的變量。

1.2 判別結果的檢驗

1)總體均值的檢驗 假設2總體Gi~N(μi,∑i)(i=1,2),為檢驗2總體的均值是否有顯著性差異(H 0:μ(1)=μ(2)),可以構造F 統計量[4]:

式中,d2(1,2)=(ˉX(1)-ˉX(2))′S-1(ˉX(1)-ˉX(2));ni是第i個總體的樣品個數(i=1,2)。

計算F統計量的值f,得p=P{F≥f}。若p小于給定的顯著性水平a(常取a=0.05),則否定2總體均值相等的假設,即對這2個總體討論判別問題是有意義的。

2)錯判率的估計 利用舍一法 (或稱交叉確認法)對錯判率進行估計。

2 實例分析

以2001年北京大學校內數學建模競賽試題 (B題)為實例進行分析。原始數據共60行114列,分別代表60個人和114條基因。其中,有4條基因的表達值完全相同 (分別為原始數據的第37、38、39和40列),這里僅保留其中的一列,故有效檢測基因應為111條(記為向量x1~x111)。

數據中,前20行是20個癌癥病人的基因表達水平的樣本 (記為第0~19組),為分析需要,記其為第1類樣本;其后的20行是20個正常人的基因表達信息樣本,對應于第20~39組,記為第2類樣本;剩余的第40~59組表達值為20個待檢測的樣本 (未知它們是否正常)。假設原問題所提供的2類樣本均來自于正態分布的總體。

2.1 依據特征基因的判別分類

1)特征基因的選取 利用SAS中逐步判別法的命令 “proc stepdisc”完成變量篩選的工作[5]。設定引入變量到判別式的顯著性水平為0.10,剔除變量的顯著性水平為0.15。通過逐步篩選,最終選出了 32 個 變量, 其序號 為:x1、x5、x8、x12、x18、x20、x24、x25、x27、x36、x37、x39、x57、x58、x60、x67、x69、x71、x72、

x75、x76、x79、x 92、x93、x95、x97、x99、x102、x104、x105、x109和 x111。它們就是能夠區分 2 類樣本的特征基因。

2)判別過程的實現 在建立判別函數之前,要先對2總體協方差矩陣是否相等進行檢驗(H0:∑1=∑2)。其中,∑i表示第i個總體Gi~N(μi,∑i)(i=1,2)的協方差矩陣。

利用SAS中的命令 “pool=test”實現對2總體協方差矩陣是否相等進行檢驗。結果表明,在顯著性水平α=0.10時接受了原假設??梢岳煤喜f方差陣建立判別函數。

依據篩選出的特征基因構成2個新的總體 (其中每一組表達值僅有32個變量)。利用Bayes判別法建立判別函數,對未分類的表達值 (第40~59組)進行判別分類。利用SAS中判別分析的命令 “proc discrim”實現這一過程。該程序輸出了Bayes判別函數的系數,則隸屬第1(2)類總體的判別函數y1(y 2)分別為:

依據上述判別函數,計算后驗概率,對未知類別的基因表達值數據分類。經計算可知,在未知類別的第40~59組基因表達值中,屬于第1類總體 (癌癥病人)的共有13個,其序號為 {40,42,45,46,47,48,49,51,52,53,54,57,58};屬于第2類總體 (正常人)的共有7個,其序號為 {41,43,44,50,55,56,59}。

2.2 判別結果的檢驗

2個新總體之間的平方距離為385783,其F統計量為22208,相應的p小于0.0001(<0.01)。這說明利用特征基因構造的2個新的總體,其基因的表達值有顯著性差異,討論判別分類問題是有意義的。利用SAS程序中的 “crosslist”命令對判別分類的結果進行交叉驗證 (舍一法),用以估計錯判造成的損失。輸出結果顯示,其錯判率為0。

作為對比,利用所有基因的表達值數據構造判別函數,觀察其對原訓練樣本交叉驗證的錯誤率。結果顯示,其錯誤率為20%。

[1]Dodoit S,Fridlyand J,Speed T P.Comparison of discrimination methods for the classification of tumor susing gene expression data[J].Am Stat Assoc,2002,457(97):77-87.

[2]高惠璇.應用多元統計分析[M].北京:北京大學出版社,2005:205-211.

[3]賈云青,侯木舟.Bayes判別分析在醫療數據處理中的應用[J].數學理論與實踐,2009,29(2):117-119.

[4]高惠璇.實用統計方法與SAS系統 [M].北京:北京大學出版社,2001:176-178.

[5]何寧,吳黎兵.統計分析系統SAS[M].武漢:武漢大學出版社,2005:261-271.

猜你喜歡
分類利用
利用min{a,b}的積分表示解決一類絕對值不等式
中等數學(2022年2期)2022-06-05 07:10:50
利用倒推破難點
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
利用一半進行移多補少
分類討論求坐標
利用數的分解來思考
Roommate is necessary when far away from home
數據分析中的分類討論
教你一招:數的分類
主站蜘蛛池模板: 欧美国产成人在线| 亚洲三级成人| 国产综合亚洲欧洲区精品无码| 不卡视频国产| 99精品高清在线播放| 日本一区二区三区精品国产| 激情综合五月网| 97国产在线观看| 2024av在线无码中文最新| a色毛片免费视频| 国产成人精品高清不卡在线 | 亚洲欧美另类中文字幕| 欧洲免费精品视频在线| 麻豆精品在线视频| 免费精品一区二区h| 日本91在线| 18禁高潮出水呻吟娇喘蜜芽| 亚洲人成网站18禁动漫无码 | 日韩 欧美 小说 综合网 另类| 国产成年无码AⅤ片在线 | a毛片在线免费观看| 成人福利在线视频| 麻豆精品视频在线原创| 色视频国产| 永久免费AⅤ无码网站在线观看| 欧美精品不卡| 2022精品国偷自产免费观看| 亚洲成人网在线播放| 无码免费视频| 五月婷婷伊人网| 2020最新国产精品视频| 91免费精品国偷自产在线在线| 国产手机在线ΑⅤ片无码观看| a级毛片网| 孕妇高潮太爽了在线观看免费| 亚洲最大福利网站| 找国产毛片看| 亚洲AⅤ无码日韩AV无码网站| 国产九九精品视频| 在线观看av永久| 国产精品yjizz视频网一二区| 伊人色天堂| 在线视频精品一区| 久久久久免费精品国产| 狠狠色婷婷丁香综合久久韩国| 亚洲一区波多野结衣二区三区| 在线国产综合一区二区三区 | 国产亚洲美日韩AV中文字幕无码成人 | 国产精品尤物在线| 91无码国产视频| 日韩高清一区 | 日韩欧美成人高清在线观看| 午夜福利网址| 一级做a爰片久久免费| 欧洲亚洲欧美国产日本高清| 亚洲欧洲日产国码无码av喷潮| 五月综合色婷婷| 欧美三级日韩三级| 手机成人午夜在线视频| 亚洲无码免费黄色网址| 国产成人一区| 国产高清自拍视频| 欧美日韩91| 婷婷六月综合网| 91在线日韩在线播放| 久久综合婷婷| 婷婷五月在线| 欧美啪啪网| 亚洲精品午夜天堂网页| 欧洲极品无码一区二区三区| 波多野结衣久久高清免费| 亚洲视频一区| 精品久久国产综合精麻豆| 国产一级裸网站| 国产亚洲精品97在线观看| 欧美综合中文字幕久久| 小说 亚洲 无码 精品| 国产经典免费播放视频| 毛片基地美国正在播放亚洲 | 国产xx在线观看| 亚洲国产成人久久精品软件| 久久免费观看视频|