999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Fisher準則和多類相關矩陣分析的腫瘤基因特征選擇方法

2016-08-05 08:03:34
計算機應用與軟件 2016年7期
關鍵詞:特征實驗方法

胡 洋 李 波

(武漢科技大學計算機科學與技術學院 湖北 武漢 430065) (智能信息處理與實時工業系統湖北省重點實驗室 湖北 武漢 430065)

?

基于Fisher準則和多類相關矩陣分析的腫瘤基因特征選擇方法

胡洋李波

(武漢科技大學計算機科學與技術學院湖北 武漢 430065) (智能信息處理與實時工業系統湖北省重點實驗室湖北 武漢 430065)

摘要腫瘤特征基因的選擇是腫瘤基因表達數據分類的研究熱點之一。針對傳統的腫瘤特征基因選擇方法無法很好地剔除冗余基因,提出一種混合型的特征選擇方法。在所提出的方法中,首先將標簽相同的樣本劃分到同一個矩陣,在所有矩陣中,當且僅當特征間的相關系數均大于特定閾值時,即判定這幾個特征是相關特征,并對這些相關的特征進行聚類。然后在每個聚類中選擇Fisher比最大的特征,對這些特征根據評價函數篩選得到最優特征子集。最后采用SVM分類器對這些最優特征子集進行類別預測。在四個標準的腫瘤DNA微陣列數據集的測試結果證明所提出的腫瘤基因特征選擇方法的穩定性和高效性。

關鍵詞特征選擇Fisher準則多類相關矩陣分析SVM

0引言

隨著生物信息技術的飛速發展,生物數據——如DNA微陣列數據被廣泛地應用于腫瘤基因的鑒別,有效地分析和處理這些高維數據能為腫瘤疾病的診斷提供輔助。

對于DNA微陣列數據集,考慮到采集腫瘤樣本的成本很高,所以采集的樣本數量相對較少,因此樣本的基因數遠遠大于樣本的個數,造成的高維小樣本問題對基于機器學習的方法來預測腫瘤亞型帶來了挑戰。常用的腫瘤基因表達數據的降維方法主要包括特征提取和特征選擇,特征提取與選擇方法的優劣極大地影響著分類效果[1]。

為了提高分類效率,各種各樣的特征選擇方法被提出。按照特征子集的形成方式,特征選擇的方法分為窮舉法、啟發法和隨機法三類[2]。窮舉法指遍歷特征空間的所有特征組合,選取最優特征組合的方法,其優點是一定能尋找到最優特征子集,但是計算復雜度巨大。啟發式方法為一種近似算法,具有很強的主觀傾向,方法簡單快速,應用廣泛,如向前(向后)選擇、 決策樹法[3]、Relief方法[4]及其變體[5,6]等,但是不一定能得到最優解。隨機方法是一種很新的方法,有完全隨機和概率隨機兩種,這類方法的參數設置是一個值得研究的問題。但是,這些傳統的特征選擇方法在剔除冗余基因時,僅僅依據特征間的相關性,并沒有考慮到特征在不同類別間的差異性,造成有一些與腫瘤高度相關的基因被剔除掉,影響了最終腫瘤亞型的預測效果。

因此,本文提出一種混合型的特征選擇方法,綜合考慮多類相關矩陣。首先按照樣本所屬的類別對基因矩陣進行劃分,計算劃分矩陣的相關矩陣,然后對冗余基因聚類,從每個聚類中選擇類間方差和類內方差之比最大的特征,將得到的特征組合成新的基因矩陣,最后對剔除冗余基因后的矩陣篩選得到最優特征子集。

1方法

本文目的是在高維的基因集合中選擇最有利于分類結果的基因子集,然后對選擇的基因子集用支持向量機(SVM)方法分類測試。對于腫瘤DNA微陣列數據矩陣,它的每一行代表一個樣本,每一列代表一個基因的表達數據,受實驗環境和實驗成本等因素的限制,DNA微陣列數據普遍含有噪聲數據和冗余基因,而且具有高維、小樣本等特點,如神經膠質瘤(Gliomas)[7]數據的DNA微陣列數據由50個樣本組成,每個樣本含有12 625個基因。

一般地,鑒別能力較強的特征的類間離差與類內離差的比值較大,本文采用Fisher比作為度量準則。

1.1Fisher準則

(1)

(2)

用式(1)計算基因矩陣每列的Fisher比,然后將基因矩陣的列按照Fisher比值從大到小重新排列,得到新的基因矩陣。

相關矩陣是統計學中用來度量向量間相關性的一種方法,下面用相關矩陣度量特征間的冗余度。

1.2相關矩陣

設A=(x1,x2,…,xn)是一個m×n的矩陣,xi與xj的相關系數為ρij,則以ρij為元素的n階方陣稱為矩陣A的相關矩陣[9],即:

(3)

其中:

(4)

1.3結合樣本標簽的相關性度量準則

本文方法主要用來處理腫瘤基因分類中的二分類問題,在剔除冗余特征這一步,假設特征間的相關系數越大,則冗余度越大。在度量特征間的冗余度時根據樣本的類別標簽,將原樣本矩陣劃分為兩個矩陣,依次求出得到的兩個矩陣的相關矩陣,同時分析這些相關矩陣,當且僅當特征間的相關系數在這兩個相關矩陣中均大于0.8時,才認為這些特征是相關的。通過對相關矩陣分析剔除數據集的冗余特征,對剔除冗余后的新樣本矩陣,根據設計的評價函數選擇最優特征,最終得到最優特征子集。現將具體算法描述如下:

算法1最優子集生成算法

輸入:基因矩陣G,規模為m×n,由m個樣本組成,每個樣本含n個基因;樣本的標簽L=[L1,L2,…,Lm],Li=±1(i=1,2,…,m)。

輸出: 特征子集F。

算法:

第1步:特征重排

1.1 根據公式(1)計算矩陣G的每一列的Fisher比值;

1.2 將矩陣G的列按照Fisher比值從大到小的順序重新排列;

第2步:樣本分割

2.1 根據樣本標簽L將矩陣G劃分為兩類,記為A和B,分別表示腫瘤樣本矩陣和正常樣本矩陣。

第3步:剔除冗余

3.1 根據公式(3)計算矩陣A,B的相關矩陣,記為R1,R2;

3.2 將R1,R2的下三角陣及對角線元素設為0,對其他元素取絕對值;

3.3 從矩陣R1,R2的第1行開始,依次找出該行中元素的值同時超過0.8的元素,并將R1,R2中與這些元素在同一列的所有元素更新為0;

3.4 將矩陣R1的對角線元素改為1,找出矩陣R1中列和為0的所有列的索引,在矩陣G中將這些列刪除;

第4步:特征選擇

4.1 將G的第1列加入F,用SVM分類器對F中的m個樣本留一法交叉驗證實驗m次取平均精度記為acc;

4.2 循環將G的下一列加入F,同樣用4.1的方法得到精度acc′,若acc′>acc,令acc=acc′,否則從F中刪除新加入的這一列,循環直到acc=1或遍歷至G的最后一列;

第5步:最優子集

5.1 輸出最優特征子集F。

2實驗結果與分析

在這一節,我們將用原特征分類方法,啟發法(Wrapper方法)[2]和本文方法分別對四個公開發表的腫瘤DNA微陣列數據集做測試,實驗工具為matlab 2012a,分類器選用matlab自帶的SVM分類器,分類器的核函數選擇線性核。

這四個數據集分別是急性白血病(Leukemia)數據集[10],神經膠質瘤數據集[7],彌漫性大B細胞淋巴瘤(DLBCL)數據集[11]和結腸癌(Colon)數據集[12]。這幾個數據集均具有高維和小樣本的特征,樣本均僅含兩類,具體介紹如表1所示。

表1 實驗數據集

表2給出了用這三種方法對這四個數據集進行留一法交叉驗證(LOO-CV)的實驗表現。

表2 不同數據留一交叉驗證(LOO-CV)結果(%)

將樣本按根據表3的方法劃分為訓練集和測試集,在所有樣本中選擇1/3做測試集,余下2/3做訓練集,保證訓練集和測試集中兩類樣本數量的比例大致相同。

表3 樣本訓練集和測試集劃分方法

將表1中的四個數據集的樣本按照表3的方法劃分訓練集和測試集,然后分別用這三種方法測試,實驗得到的準確率(Accuracy)和F指標(F1-Score)[13]見表4所示。

表4 樣本按表3劃分訓練集和測試集的實驗結果(%)

從表2可以看出,用三種方法分別對這四個數據集進行留一法交叉驗證,本文方法的表現優于Wrapper方法和原始特征分類方法,并且該實驗結果不存在隨機性,證明了本文方法實驗表現效果較好。

從表4可以看出,對于數據集Leukemia,DLBCL和Colon,本文方法的分類準確率和F指標較高,對于數據集Gliomas,本文方法的分類準確率和F指標略低于Wrapper方法。因此,綜合考慮表2和表4的實驗結果可以看出,本文方法在不同的數據集上表現都同樣穩定,而且分類的準確率也比較高,從而證明該方法的有效性。

3結語

DNA微陣列數據為腫瘤疾病的診斷開辟了新的思路,受實驗環境和實驗成本等因素的限制,DNA微陣列數據普遍含有噪聲數據和冗余基因,而且具有高維、小樣本等特點,這些特點使得傳統的機器學習算法無法在微陣列數據上發揮高效的作用。本文提出了一種混合型的特征選擇的方法,并將該方法應用于高維腫瘤DNA微陣列數據的分類,對于高維的腫瘤基因數據,基因之間必然存在冗余性和不相關性,剔除冗余基因能大大降低矩陣的維數。本文方法在剔除冗余基因的時候獨創性地考慮了樣本的標簽,綜合分析多類相關矩陣以剔除冗余特征,最終通過評價函數篩選得到最優特征子集。通過實驗結果可以看出,本文提出的方法是有價值的。

參考文獻

[1] 李波.基于流形學習的特征提取方法及其應用研究[D].安徽:中國科學技術大學,2008.

[2] 王娟,慈林林,姚康澤.特征選擇方法綜述[J].計算機工程與科學,2005,27(12):68-71.

[3] 張琳,陳燕,李桃迎.決策樹分類算法研究[J].計算機工程,2011,37(13):66-70.

[4] 張翔,鄧趙紅,王士同.極大熵Relief特征加權[J].計算機研究與發展,2011,48(6):1038-1048.

[5] Zhang F P,Qiu Z G,Feng X T.Non-complete Relief Method for Measuring Surface Stresses in Surrounding Rocks[J].J.Cent.South Univ,2014,21(9):3665-3673.

[6] 范文兵,王全全,雷天友.基于Q-relief的圖像特征選擇算法[J].計算機應用,2011,31(3):724-728.

[7] Nutt C L,Mani D R,Betensky R A.Gene Expression-Based Classification of Malignant Gliomas Correlates Better with Survival than Histological Classification[J].Cancer Res,2003,63(7):1602-1607.

[8] 鮮曉東,樊宇星.基于Fisher比的梅爾倒譜系數混合特征提取方法[J].計算機應用,2014,34(2):558-561.

[9] 章舜仲,王樹梅.相關系數矩陣與多元線性相關分析[J].大學數學,2011,27(2):195-198.

[10] Golub T R,Slonim D K,Tamayo P.Molecular Classification of Cancer:Class Discovery and Class Prediction by Gene Expression Monitoring[J].Science,1999,286(15):531-537.

[11] Alizadeh A A,Eisen M B,Davis R E.Distinct types of diffuse large B-cell lymphoma identified by gene expression pmrdillg[J].Nature,2000,403(6769):503-511.

[12] Alon U,Barkai N,Notterman D A.Broad Patterns of Gene Expression Revealed by Clustering Analysis of Tumor and Normal Colon Tissues Probed by Oligonucleotide Arrays[J].Proc Natl Acad Sci USA,1999,96(12):6745-6750.

[13] 劉誠.蛋白質相互作用界面中熱點殘基預測方法的研究[D].湖北:武漢科技大學計算機科學與技術學院,2012.

收稿日期:2014-11-25。國家自然科學基金項目(61273303,6127 3225,61373109);中國博士后科學基金項目(20100470613,201104173);湖北省自然科學基金項目(2010CDB03302);湖北省教育廳科研基金項目(Q20121115);模式識別國家重點實驗室開放課題(201104212)。胡洋,碩士生,主研領域:生物信息學,機器學習。李波,副教授。

中圖分類號TP181

文獻標識碼A

DOI:10.3969/j.issn.1000-386x.2016.07.018

A FEATURE SELECTION METHOD FOR TUMOUR GENE BASED ON FISHER CRITERION AND MULTICLASS CORRELATION MATRIX ANALYSIS

Hu YangLi Bo

(SchoolofComputerScienceandTechnology,WuhanUniversityofScienceandTechnology,Wuhan430065,Hubei,China) (HubeiKeyLaboratoryofIntelligentInformationProcessingandReal-timeIndustrialSystem,Wuhan430065,Hubei,China)

AbstractThe selection of tumour feature gene is one of the hot research topics in classification of gene expression data. In this paper, we propose a hybrid feature selection method aiming at that traditional tumour feature gene selection method cannot well remove the redundant genes. In the method, first we divide the samples with same labels into same matrix, and in all the matrixes, if and only if the correlation coefficients between the features are all greater than the specific threshold, then these features are regarded as the relevant features and will be clustered afterwards. Secondly, we select the features with maximum Fisher ratio from every cluster and sift these features according to evaluation function to obtain the optimal feature subsets. Finally, we use SVM classifier to do class prediction on these optimal feature subsets. The results of tests on four standard tumour DNA microarray datasets prove the stability and efficiency of the proposed method.

KeywordsFeature selectionFisher criterionMulticlass correlation matrix analysisSVM

猜你喜歡
特征實驗方法
記一次有趣的實驗
如何表達“特征”
做個怪怪長實驗
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 奇米精品一区二区三区在线观看| 成人小视频在线观看免费| 成人福利在线观看| 亚洲清纯自偷自拍另类专区| 乱码国产乱码精品精在线播放| 国产大全韩国亚洲一区二区三区| 欧美第一页在线| 色亚洲成人| 国产极品嫩模在线观看91| 欧美亚洲国产视频| 亚洲二区视频| 手机精品视频在线观看免费| 国产麻豆福利av在线播放| 国产一级在线播放| 日本午夜精品一本在线观看| 精品福利视频网| 久久久噜噜噜| 99视频精品全国免费品| 亚洲日本在线免费观看| 女人毛片a级大学毛片免费| 国产成人喷潮在线观看| 欧美va亚洲va香蕉在线| 91精品专区| 久久久久免费看成人影片| 91美女视频在线| 久久久久人妻精品一区三寸蜜桃| 亚洲视频无码| 国产成人精品高清不卡在线| 午夜不卡福利| 中文无码精品a∨在线观看| 四虎永久在线精品国产免费| 亚洲精品欧美日韩在线| 亚洲国产精品日韩专区AV| 久久亚洲天堂| 国产夜色视频| 精品一区国产精品| 国产午夜福利片在线观看| 美臀人妻中出中文字幕在线| 午夜精品福利影院| 国产精品永久不卡免费视频| 亚洲国产欧美国产综合久久| 成人精品亚洲| 国产精品久久久久久久久| 欧美精品亚洲精品日韩专区| 波多野结衣中文字幕一区二区 | 亚洲无码熟妇人妻AV在线| 国内精品91| 色悠久久久| 久久亚洲国产一区二区| 国产一区二区三区夜色| 亚洲无码精彩视频在线观看| 亚洲一道AV无码午夜福利| 久久性视频| 亚洲永久视频| 精品国产美女福到在线直播| 无码久看视频| 曰韩人妻一区二区三区| 中文字幕无码电影| 国产一区二区福利| 国产91在线|中文| 91成人在线免费视频| 国产国语一级毛片在线视频| 夜夜拍夜夜爽| 亚洲中文无码av永久伊人| 五月婷婷欧美| 欧美性猛交一区二区三区| 国产探花在线视频| 国产一区二区三区精品欧美日韩| 国产人人射| 欧美第二区| 美臀人妻中出中文字幕在线| 欧美成人第一页| 国产午夜无码专区喷水| 国产成年无码AⅤ片在线| 亚洲精品中文字幕无乱码| 亚洲日韩高清在线亚洲专区| 2021天堂在线亚洲精品专区| 日韩精品一区二区三区视频免费看| 日韩美毛片| 亚洲网综合| 久久午夜夜伦鲁鲁片不卡| 国产成人高清精品免费5388|