999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于點的代數連通強度與PCA的腫瘤分類研究

2015-11-17 10:23:22李安慶方國濤高振楠丁業兵
赤峰學院學報·自然科學版 2015年21期
關鍵詞:分類實驗方法

李安慶,方國濤,高振楠,丁業兵

(安徽郵電職業學院,安徽 合肥 230031)

基于點的代數連通強度與PCA的腫瘤分類研究

李安慶,方國濤,高振楠,丁業兵

(安徽郵電職業學院,安徽合肥230031)

通過基因的表達水平來判別腫瘤的類別已成為后基因組時代的一個研究熱點.針對腫瘤分類進行了相關研究,提出了一種新的分類方法.首先利用點的代數連通強度(the Algebraic Connectivity Strength of Point,ACSP)剔除受外界因素影響過大的基因數據并用修正的特征記分準則(Revised Feature Score Criterion,RFSC)判別進行計分排序,選取高計分的作為基因子集;接著運用主成分分析(the principal component analysis,PCA)提取主成分以消除基因間存在的相關性冗余信息,同時將基因子集映射到極低維的特征空間;最后利用支持向量機(the support vector machines,SVM)分類器進行分類.本文通過多個典型腫瘤基因數據集的實驗,其結果驗證了本文方法是有效的、可行的.

點的代數連通強度;特征記分準則;主成分分析;支持向量機

隨著基因數據獲取技術的進步,人類認識與分析腫瘤及其類型又有了新的途徑和方法.針對傳統腫瘤診斷與治療的不足,如發現時間晚、治療效果差等,于是人類不斷探索新的途徑.基于微陣列技術[1],使得同時大規模觀察基因表達水平成為可能.如果能夠從這些基因表達譜數據中挖掘出有用的信息,則對腫瘤醫學起到巨大的推動作用.

至從1999年,文獻[2]成功提出了以“信噪比”作為衡量基因類別信息量的一種手段進行區分急性白血病的2個亞型一來,面對“人類基因組”項目以后的產生的海量基因數據,如何挖掘出其中蘊含的有用信息是已經擺在廣大學者面前的一道難題,針對基因表達譜數據樣本少、維數高以及冗余信息多的特點,已有研究做了大量工作.Alizadeh等人在2000年利用聚類分析的方法發現了淋巴瘤的兩種亞類型;在同時期,典型方法有人工神經網絡法、貝葉斯法、SVM[2].由于理論知識的不斷發展與計算能力的快速增強,挖掘基因表達譜數據的方法也得到了巨大進步.像Sigh D等人[3]基于前列腺癌數據集,結合了“Signal—Noise Ratio”和K近鄰算法對其進行了識別分析;而文獻[4]將稀疏非負矩陣分解方法引入到腫瘤領域中,對乳腺癌數據進行了雙向聚類分析;阮曉鋼等人提出了組合方法——CLUSTER_S2N的方法來分析腫瘤信息基因,并對急性白血病的類型進行了預測實驗.然而,基于融合多種理論方法的腫瘤基因表達譜數據處理技術變得越來越流行,像信息熵概念與SVM結合的方法[6]對前列腺癌基因表達數據進行了有效識別.文獻[7]融合了PCA與ICA方法去識別胃癌表達譜差異基因以促進結果的最終判別的準確度;文獻[8]利用鄰接矩陣分解基因表達譜數據,再運用PCA分析獲取主分量的方法尋找結腸癌信息基因等.這些方法有效促進了基因數據挖掘研究的發展.

前期研究主要運用某種計分準則對每個基因含有的類別信息量進行衡量,選取排列靠前的、計分高的部分特征基因子作為后續處理的數據子集,但這些方法是基于類方差和類平均值的,因此易受污染的異常值影響,使之不能客觀反映選取的基因的重要性,因此本文采用點的代數連通強度與PCA來對腫瘤基因進行識別和分類.首先利用ACSP方法剔除受外界因素影響過大的基因數據并用RFSC方法對剩下基因進行重要性計分,選取高計分的作為基因子集;接著運用PCA提取主成分以消除基因間存在的相關性冗余信息,同時將基因子集映射到極低維的特征空間;最后在SVM分類器上對三組典型數據集進行了分類實驗.

1 點的代數連通強度

設有一完全圖F,共有N個頂點,記V={v1,v2,…vN}為頂點集,其邊集為E={eij|i,j∈{i,j∈1,2,…,N}},邊eij被賦予相應權重wi,j,對其任意節點vi,計算與其相鄰K個鄰接節點的邊權重之和,記Sum(vi)=則Sum(vi)記為vi點的代數連通強度(the Algebraic Connectivity Strength of Point,ACSP)[9].圖中點的代數連通強度可以很好的反映圖中某點與其他點的關聯程度,所得到的信息可以反映圖的基本特征信息.對于每一個基因gi,構建一個完全圖,將該基因在同一類樣本中的表達值作為圖中的點,則gi對應一個點集:Valuei={value1i,value2i,…,valueNumi},其邊權重定義如下:

其中Num表示某一類的樣本個數,當鄰近點的數目K≈T×Num,這里T是一個參數且T∈[0,1].計算:

首先,確定最大值Sum(valueji)

然后將與Summax對應的valueji看做中心點.基因gi在同種類別中表達水平的均值和方差可以通過分析T×Num個相鄰的valueji來獲得(包括valueji).同樣原理,基因在不同類別中表達水平的均值和方差也可以用相同方法得到.最后,基因gi利用修訂的特征記分準則[14]進行計分.

其中,RSFC(gi)值的大小反應了基因gi對樣本數據集中“+”類和“-”類的辨別能力,μc+、μc-和δc+、δc-分別是“+”類和“-”類樣本均值和方差.

2PCA

主成分分析(PCA),作為一種有效的線性數據壓縮和降維的工具,其應用越來越廣泛.其實質是確定原變量xj(j=1,2,…,p)在諸主成分zi(i=1,2,…,m)上的荷載lij,把原來多個變量劃分為少數幾個綜合指標的一種統計分析方法.假定腫瘤樣本經過上述ACSP和RFSC處理后維數降為p,即p個基因,則以樣本為行,基因為列,構成一個n×p階的數據矩陣X.現就PCA給出如下簡要描述:

設g1,g2,…,gp為原變量指標,z1,z2,…,zm(m≤p)為新變量指標,滿足式(6).

其中系數lij的確定原則為:1)zi與zj(i≠j;i,j=1,2,…,m)相互無關;2)z1是g1,g2,…,gp的一切線性組合中方差最大者;z2是與z1不相關的g1,g2,…,gp的所有線性組合中方差最大者;…;zm是與z1,z2,…,zm-1都不相關的g1,g2,…,gp的所有線性組合中方差最大者.則lij的計算為:

新變量指標z1,z2,…,zm分別稱為原變量指標g1,g2,…,gp的第1,第2,…,第m主成分.一般取累計貢獻率達80%以上的特征值為λ1,λ2,…,λm所對應的第1、第2、…、第m(m≤p)個主成分.

3 實驗

3.1實驗流程

實驗數據為白血病、結腸癌和前列腺癌三組典型基因表達譜數據集,其中白血病數據包含52個樣本——急性淋巴性白血?。ˋLL):24和急性粒性白血?。ˋML):28,每個樣本含基因12564個;而結腸癌數據的正常樣本數和癌癥樣本數分別為22個和40個,含2000個基因;前列腺癌數據共102個樣本,其中有50個正常樣本和52個癌癥樣本,含12600個基因(URL:http://www.broad.mit.edu/cgibin/caner/datasets.cgi).由于基因表達譜數據普遍為小樣本數據,故本文基于留一法進行實驗,即循環抽取所有樣本的每一個作為測試樣本,剩下樣本作為訓練樣本進行實驗.

綜上所述,實驗具體步驟如下:

1)利用ACSP(經多次試驗,選取T=0.8),獲取更加客觀的基因表達水平;

2)在第1步的基礎上,運用RFSC對所有基因進行重要性記分并按降序排列;

3)通過RFSC記分準則選取特征基因子集,基于PCA降維,對該子集進行主成分提取;

4)最后在三組公開的數據集上,利用SVM分類器對其進行了腫瘤類型與分析.

3.2實驗結果與分析

首先以結腸癌為例進行了實驗分析,通過ACSP使得結腸癌數據集中的正常樣本類和癌癥樣本類中客觀的基因表達值得到保留.圖中顯示了通過ACSP方法后利用RFSC算法獲取最高分值的基因在所有樣本中的表達水平(No.1168,即基因表達譜數據中列號,行表示樣本,列表示基因),與之對比的沒有經過ACSP處理的.

ACSP+RFSC獲取的最高分基因(a)與RFSC選取的基因(b)

通過ACSP+RFSC算法獲取的最高分基因No.1168,除了正常樣本類和結腸癌樣本類中幾個異常表達之外,基本能夠體現該基因在不同類中具有不同的表達值,且類間表達水平間距較大;而僅用RFSC獲取的最高基因No.1439,其表達水平圍繞歸一化后的0值波動,類間表達值接近,表明該基因區別不同類的能力較差.因此本文方法能夠更加客觀地、有效地獲取具有分類能力的基因.

4 結論

本文提出了結合點的代數連通強度和PCA的基因腫瘤識別方法,通過三組具有代表性數據集的實驗本文方法能夠有效識別不同腫瘤類型.由于PCA對噪聲數據敏感,而ACSP方法能夠獲取更加客觀的表達值并對噪聲進行抑制,從而使得PCA降維更加有效,所以本文方法在識別過程中能夠得到較高的識別率.

PCA降維屬于線性降維,然而基因表達譜數據的高維性使之具有非線性特征,因此基于非線性降維與ACSP方法的結合也將值得進一步研究.

〔1〕楊春梅,萬柏坤,梁慧嬡,等.DNA微陣列技術及其在生物醫學中的應用[J].國外醫學.生物醫學工程分冊,2002,25(5):203-206.

〔2〕王晶,周曠.基于支持向量機的腫瘤基因識別[J].計算機與數字工程,2011,9(39):3-6.

〔3〕Singh D,Febbo P G,Ross K,et al.Gene expression correlates of clinical prostate cancer behavior[J].Cancer Cell,2002,1(2):203-209.

〔4〕孔薇,王娟,牟曉陽.基于改進稀疏非負矩陣分解方法的乳腺癌微陣列表達數據分析[J].安徽醫科大學學報,2013,48(7):725-729.

〔5〕阮曉鋼,晁浩.腫瘤識別過程中特征基因的選?。跩].控制工程,2007,14(4):373-380.

〔6〕莊振華,王年,李學俊,等.癌癥基因表達數據的熵度量分類方法 [J].安徽大學學報,2010,34(2):73-76.

〔7〕陳戰雷,李博宇,李益,等.結合主成分與獨立成分分析識別胃癌相關差異表達基因的方法研究[J].生物醫學工程學雜志,2013,30(5):915-918.

〔8〕陳樂,王年,蘇亮亮,等.基于鄰接譜主分量分析的腫瘤分類方法[J].安徽大學學報(自然科學版),2011,35(4):86-91.

〔9〕Wang N,Su L L,Tang J,et al.Informative gene selection using the Algebraic Connectivity Strength of Point and Scoring Criteria[J].Chinese Science Bulletin,2013,58(6):657-661.

〔10〕李穎新,阮曉鋼,基于支持向量機的腫瘤分類特征基因選?。跩].計算機研究與發展,2005,42(10):1796-1801.

TP18

A

1673-260X(2015)11-0032-03

安徽省高校優秀青年人才基金重點項目(2013SQRL121ZD)

猜你喜歡
分類實驗方法
記一次有趣的實驗
分類算一算
做個怪怪長實驗
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 欧美色视频日本| 香蕉eeww99国产精选播放| 久久这里只有精品66| 呦女亚洲一区精品| 高h视频在线| 国产丝袜丝视频在线观看| 亚洲AV成人一区国产精品| 亚洲午夜天堂| 欧美日韩综合网| 福利国产微拍广场一区视频在线| 国产成人精品日本亚洲77美色| 91精品国产综合久久不国产大片| 亚洲日韩日本中文在线| 毛片大全免费观看| 婷婷丁香色| 成人国产精品网站在线看| 久久人人97超碰人人澡爱香蕉| 亚洲欧美一区在线| 亚洲免费黄色网| 亚洲一区二区约美女探花| 久久一日本道色综合久久| 久久先锋资源| 久久国产亚洲欧美日韩精品| 手机在线国产精品| 国产熟女一级毛片| 色九九视频| 欧美性猛交xxxx乱大交极品| 9啪在线视频| 亚洲欧美不卡视频| 国产99热| 国产91小视频| 日韩不卡高清视频| 国产激爽大片高清在线观看| 亚洲大学生视频在线播放| 国产三区二区| 国产在线观看一区精品| 久久国产精品影院| 精品少妇三级亚洲| 日韩在线播放中文字幕| 亚洲无码高清一区二区| 亚洲性色永久网址| 这里只有精品在线播放| 日韩AV无码免费一二三区| 亚洲欧洲日韩久久狠狠爱| 色综合天天操| 婷婷六月激情综合一区| 岛国精品一区免费视频在线观看| 久久精品人人做人人爽电影蜜月| 国产精品无码AV片在线观看播放| 亚洲精品不卡午夜精品| 国产综合欧美| 欧美啪啪视频免码| 欧美在线黄| 精品久久久久久成人AV| 真实国产乱子伦视频| 91久久国产成人免费观看| 国产精品久线在线观看| 亚洲婷婷丁香| 久久久精品国产SM调教网站| 毛片久久久| 男女性色大片免费网站| 久久久久久国产精品mv| 亚洲综合日韩精品| 欧美区国产区| 成人免费一级片| 久久夜夜视频| 在线观看国产精品第一区免费| 午夜三级在线| 中文字幕欧美日韩高清| 中文字幕 日韩 欧美| 亚洲aⅴ天堂| 国产国模一区二区三区四区| 日韩天堂视频| 欧美在线国产| 久久久亚洲色| 欧美国产日韩在线观看| 国产精品伦视频观看免费| 2021国产乱人伦在线播放| 亚洲国产无码有码| 男女男精品视频| 亚洲愉拍一区二区精品| 婷婷久久综合九色综合88|