999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

應(yīng)用阿茲海默癥基因表達(dá)數(shù)據(jù)對(duì)比2種層次聚類方法

2015-05-04 00:59:09付如意胡本瓊龐朝陽(yáng)四川師范大學(xué)數(shù)學(xué)與軟件科學(xué)學(xué)院四川成都60066成都理工大學(xué)管理科學(xué)學(xué)院四川成都60059四川師范大學(xué)計(jì)算機(jī)科學(xué)學(xué)院四川成都60066四川師范大學(xué)可視化計(jì)算與虛擬現(xiàn)實(shí)省重點(diǎn)實(shí)驗(yàn)室四川成都60066
關(guān)鍵詞:特征方法

付如意, 黃 靜, 胡本瓊, 龐朝陽(yáng)(. 四川師范大學(xué) 數(shù)學(xué)與軟件科學(xué)學(xué)院, 四川 成都 60066; . 成都理工大學(xué) 管理科學(xué)學(xué)院, 四川 成都 60059;3. 四川師范大學(xué) 計(jì)算機(jī)科學(xué)學(xué)院, 四川 成都 60066; 4. 四川師范大學(xué) 可視化計(jì)算與虛擬現(xiàn)實(shí)省重點(diǎn)實(shí)驗(yàn)室, 四川 成都 60066)

?

應(yīng)用阿茲海默癥基因表達(dá)數(shù)據(jù)對(duì)比2種層次聚類方法

付如意1, 黃 靜1, 胡本瓊2, 龐朝陽(yáng)3,4*
(1. 四川師范大學(xué) 數(shù)學(xué)與軟件科學(xué)學(xué)院, 四川 成都 610066; 2. 成都理工大學(xué) 管理科學(xué)學(xué)院, 四川 成都 610059;3. 四川師范大學(xué) 計(jì)算機(jī)科學(xué)學(xué)院, 四川 成都 610066; 4. 四川師范大學(xué) 可視化計(jì)算與虛擬現(xiàn)實(shí)省重點(diǎn)實(shí)驗(yàn)室, 四川 成都 610066)

隨著基因芯片技術(shù)的發(fā)展,雙聚類分析方法首先被應(yīng)用到高維基因表達(dá)數(shù)據(jù)的研究中.由于多數(shù)高維數(shù)據(jù)的稀疏性,應(yīng)用主成分分析方法將高維數(shù)據(jù)轉(zhuǎn)化到低維數(shù)據(jù)空間,從而在低維空間中應(yīng)用聚類分析方法.不同的聚類分析方法會(huì)得到不同的聚類效果,并且同一種聚類方法處理不同的高維數(shù)據(jù)也會(huì)得到不同的聚類效果.因此,首先評(píng)估了阿爾茨海默基因表達(dá)數(shù)據(jù)的特征集的聚類趨勢(shì),接下來(lái)給出了改進(jìn)地δ閾值層次聚類算法的算法描述.由于已有工作分別給出了不同的δ閾值的計(jì)算規(guī)則,于是比較了它們?chǔ)拈撝迪碌膶哟尉垲愃惴ǎ⑶医o出了相應(yīng)的聚類評(píng)價(jià).

層次聚類; 閾值; 基因表達(dá)數(shù)據(jù)

阿茲海默癥是一類神經(jīng)退行性疾病,已成為繼心血管疾病、惡性腫瘤、腦卒中之后老年人的第4大“健康殺手”[1].目前,世界上并沒(méi)有治療老年癡呆癥的有效辦法.隨著基因芯片技術(shù)[2]的迅速發(fā)展,2003年起科學(xué)家將聚類分析方法[3-5]應(yīng)用到阿茲海默癥相關(guān)的基因表達(dá)數(shù)據(jù)上.2009年W. Kong等[6]將獨(dú)立主成分分析(ICA)方法應(yīng)用于阿茲海默癥的候選基因的識(shí)別中.2010年C. Y. Pang等[7]將聚類分析方法應(yīng)用到阿茲海默癥的致病基因的識(shí)別中.2012年C. Y. Pang等[8]應(yīng)用層次聚類分析方法挖掘與阿茲海默癥相關(guān)的基因表達(dá)數(shù)據(jù).文獻(xiàn)[9]也給出了一種簡(jiǎn)捷地?zé)o監(jiān)督一維聚類方法并且應(yīng)用阿茲海默癥的數(shù)據(jù)對(duì)其作了數(shù)據(jù)建模.但是上述文獻(xiàn)均沒(méi)有從統(tǒng)計(jì)學(xué)上去評(píng)估數(shù)據(jù)的聚類趨勢(shì)以及比較應(yīng)用不同的聚類方法后的實(shí)驗(yàn)結(jié)果.因此,本文將對(duì)其阿茲海默癥的基因表達(dá)數(shù)據(jù)做聚類趨勢(shì)的評(píng)估.傳統(tǒng)的層次聚類算法需要事先主觀地確定出分類個(gè)數(shù),從而接下來(lái)本文結(jié)合文獻(xiàn)[8-9]給出了改進(jìn)地δ閾值層次聚類算法的算法描述.由于文獻(xiàn)[8]和[9]分別給出了不同的δ閾值的計(jì)算規(guī)則,于是本文通過(guò)輪廓系數(shù)指標(biāo)比較分析了它們的實(shí)驗(yàn)結(jié)果.最后,從客觀數(shù)據(jù)的角度對(duì)改進(jìn)地δ閾值層次聚類算法做出評(píng)價(jià).

1 預(yù)備知識(shí)

1.1 主成分分析方法[8]主成分分析(PCA)是一種對(duì)數(shù)據(jù)進(jìn)行簡(jiǎn)化的技術(shù).這種方法實(shí)質(zhì)上是找出數(shù)據(jù)中最“主要”的元素和結(jié)構(gòu),去除噪音和冗余,將原有數(shù)據(jù)降維,揭示隱藏在復(fù)雜數(shù)據(jù)背后的簡(jiǎn)單結(jié)構(gòu).接下來(lái)將給出主成分分析方法的算法描述:

步驟二:計(jì)算相關(guān)系數(shù)矩陣R=(rxy)p×p,

步驟五:計(jì)算主成分的載荷矩陣L=(lij)p×p和得分矩陣F.原始數(shù)據(jù)前的加權(quán)系數(shù)決定了新的綜合變量主成分的大小和性質(zhì),通常稱為主成分軸或者載荷向量:

原始變量在新的坐標(biāo)系下投影求得在新坐標(biāo)系下的變量值即為得分:

Fi=e1iX1+e2iX2+…+epiXp,i=1,2,3,…,p.

1.2 霍普金斯統(tǒng)計(jì)量[12]霍普金斯統(tǒng)計(jì)量是一種空間統(tǒng)計(jì)量,檢驗(yàn)空間分布的變量的空間隨機(jī)性,即確定數(shù)據(jù)空間中的數(shù)據(jù)點(diǎn)在多大程度上不同于均勻分布.給定數(shù)據(jù)集D,按以下步驟計(jì)算霍普金斯統(tǒng)計(jì)量:

1) 均勻地從D的空間中抽取n個(gè)點(diǎn)p1,p2,…,pn.找出pi(1≤i≤n)在D中的最近鄰,并令xi為pi與它在D中的最近鄰之間的距離,即

2) 均勻地從D中抽取n個(gè)點(diǎn)q1,q2,…,qn.找出qi(1≤i≤n)在D-{qi}中的最近鄰,并令yi為qi與它在D-{qi}中的最近鄰之間的距離,即

3) 計(jì)算霍普金斯統(tǒng)計(jì)量H,

1.3 輪廓系數(shù)[12]對(duì)于n個(gè)對(duì)象的數(shù)據(jù)集D,假設(shè)D被劃分成k個(gè)簇C1,C2,…,Ck.對(duì)于每個(gè)對(duì)象o∈D,計(jì)算o與o所屬的簇的其他對(duì)象之間的平均距離a(o).類似地,b(o)是o到不屬于o的所有簇的最小平均距離.假設(shè)o∈Ci(1≤i≤k),則

并且

對(duì)象o的輪廓系數(shù)定義為

輪廓系數(shù)方法結(jié)合了凝聚度和分離度,可以以此來(lái)判斷聚類的優(yōu)良性,其值在-1到+1之間取值,值越大表示聚類效果越好.

2 數(shù)據(jù)的來(lái)源與特征

本文使用的基因表達(dá)數(shù)據(jù)是從美國(guó)國(guó)家生物技術(shù)信息中心(NCBI)網(wǎng)站上下載得到的[13-14].該數(shù)據(jù)為31組65~101歲年齡階段的患有不同程度的阿茲海默癥的患者的22 283個(gè)基因的表達(dá)水平值.其9組正常人的基因表達(dá)水平值數(shù)據(jù)格式如表1所示.

表 1 9組正常人體的22 283個(gè)基因表達(dá)水平數(shù)據(jù)表

由于31組患者的個(gè)體差異,使得如表1所示的列數(shù)據(jù)之間不可以相互比較.同時(shí),假設(shè)同一程度的阿茲海默癥患者的基因表達(dá)水平數(shù)據(jù)具有相同的特征,即表1所示的各列數(shù)據(jù)間包含了相同或相似的特征集合.文獻(xiàn)[15]中詳細(xì)地闡述了對(duì)基因組表達(dá)數(shù)據(jù)運(yùn)用SVD方法進(jìn)行數(shù)據(jù)建模并且處理得到了其特征集合.從而通過(guò)文獻(xiàn)[15]所述的方法可以得到正常、輕度、中度和重度4種不同程度的基因表達(dá)水平數(shù)據(jù)的特征集合.進(jìn)一步地,文獻(xiàn)[11]詳細(xì)地探討了PCA方法的理論和應(yīng)用以及其與SVD之間的關(guān)系.因此,本文通過(guò)PCA方法提取基因表達(dá)數(shù)據(jù)的特征集合,即主成分.

根據(jù)2.1節(jié)PCA方法的算法描述,于是分別對(duì)4種程度下的數(shù)據(jù)應(yīng)用PCA方法得到了對(duì)應(yīng)的特征空間.其特征值分布如圖1所示.

并且,進(jìn)一步可以分別計(jì)算出4種程度下的特征集的累計(jì)貢獻(xiàn)率CPR,如表2所示.

表 2 正常、輕度、中度和重度阿茲海默癥患者的基因表達(dá)數(shù)據(jù)的特征集的累計(jì)貢獻(xiàn)率表

特征集1特征集1~2特征集1~3特征集1~4特征集1~5特征集1~6特征集1~7特征集1~8特征集1~9正常0.910.930.950.960.970.980.980.991輕度0.910.940.960.970.980.991.00中度0.920.930.950.960.970.980.991.00重度0.870.910.940.960.970.991.00

從統(tǒng)計(jì)學(xué)意義上來(lái)說(shuō),若特征值集的累計(jì)貢獻(xiàn)率達(dá)到了85%~95%,該特征值集為數(shù)據(jù)集的主要特征.從而由表2的數(shù)據(jù)發(fā)現(xiàn),4種程度下的特征1上的累計(jì)貢獻(xiàn)率均已達(dá)到了85%.從而由特征1上的數(shù)據(jù)來(lái)反映原始數(shù)據(jù)是可行的.

接下來(lái)則需要檢驗(yàn)其特征1的數(shù)據(jù)是否具有聚類趨勢(shì)以應(yīng)用其層次聚類方法.本文采用霍普金斯統(tǒng)計(jì)量來(lái)估計(jì)其聚類趨勢(shì),使用0.5作為拒絕備擇假設(shè)閾值,即如果H>0.5,則D不大可能具有統(tǒng)計(jì)顯著的簇.根據(jù)2.2節(jié)的霍普金斯統(tǒng)計(jì)量的計(jì)算描述運(yùn)用R語(yǔ)言編制出程序分別計(jì)算出它們?cè)谔卣?上的霍普金斯統(tǒng)計(jì)量:正常組、輕度組、中度組、重度組的H值分別為0.051 1、0.037 8、0.068 4、0.097 1.可以發(fā)現(xiàn)H均遠(yuǎn)遠(yuǎn)小于0.5,即接受備擇假設(shè),也意味著4種程度下的特征1上的數(shù)據(jù)均具有統(tǒng)計(jì)顯著的簇.從而說(shuō)明特征1上的數(shù)據(jù)具有聚類效果.于是聚類分析方法能夠被應(yīng)用到特征1上去挖掘出不同程度的阿茲海默癥患者的22 283個(gè)基因所反映出的聚類模式.

3 δ閾值層次聚類算法

在文獻(xiàn)[8]的基礎(chǔ)上,對(duì)層次聚類算法的閾值做出了說(shuō)明,得到了δ閾值層次聚類算法.接下來(lái),以9組正常人的基因表達(dá)數(shù)據(jù)為例來(lái)闡述該算法,由上一節(jié)可以得到9組正常人的基因表達(dá)水平數(shù)據(jù)的特征子空間,記為C.假設(shè)人體內(nèi)所有的基因在特征子空間C內(nèi)數(shù)據(jù)表示為Y=(yij)nm,其中,n=22 283且m為特征子空間C的維數(shù).并且設(shè)δ=(δ1,δ2,…,δm),其中,δi的計(jì)算規(guī)則在文獻(xiàn)[9]中也給出了.接下來(lái)給出δ閾值層次聚類方法的算法描述:

輸入:樣本點(diǎn)集合Y,閾值δ.

算法:

第1步,初始化K=1,S1=Y,且i=1;

第2步,令Z=Yi=(yji)n,1,并且計(jì)算出閾值δi;

第3步,若‖ysi-yti‖>δi,則s,t分別屬于2類,且K=K+1,SK-1=SK-1-{yt}以及SK=SK∪{yt},否則它們屬于同一類別,即SK=SK∪{yt};

第4步,記i=i+1,若i>m,則算法停止,否則轉(zhuǎn)向第2步.

根據(jù)上述的算法描述,可以得到4種不同程度患者的基因表達(dá)數(shù)據(jù)的聚類分析結(jié)果.并且通過(guò)對(duì)文獻(xiàn)[8]和文獻(xiàn)[9]的聚類結(jié)果比較評(píng)估2種層次聚類算法的聚類質(zhì)量.

4 實(shí)驗(yàn)與結(jié)果

首先,將31組阿茲海默癥患者的基因表達(dá)數(shù)據(jù)劃分為正常、輕度、中度和重度4種程度.其次,對(duì)于每一種程度的基因表達(dá)數(shù)據(jù)分別應(yīng)用由文獻(xiàn)[8]和文獻(xiàn)[9]給出的δ閾值計(jì)算規(guī)則的層次聚類算法得到相應(yīng)的聚類模式.最后,對(duì)2組聚類模式衡量它們的聚類質(zhì)量進(jìn)行比較分析,通常是按照無(wú)基準(zhǔn)來(lái)選定方法:如果有可用的基準(zhǔn),外在方法可以比較聚類結(jié)果和基準(zhǔn),從而測(cè)定聚類質(zhì)量;如果沒(méi)有基準(zhǔn),則內(nèi)在方法通過(guò)考慮簇分離情況即簇的緊湊情況來(lái)評(píng)估聚類好壞.許多內(nèi)在方法都利用數(shù)據(jù)集的對(duì)象之間的相似性度量.這里,計(jì)算了衡量聚類質(zhì)量的指標(biāo)——輪廓系數(shù)SC,其相關(guān)的統(tǒng)計(jì)數(shù)據(jù)如表3所示.

最后,通過(guò)比較表3所示的數(shù)據(jù)發(fā)現(xiàn),文獻(xiàn)[8]對(duì)應(yīng)列的數(shù)據(jù)均大于文獻(xiàn)[9]中的數(shù)據(jù).

5 結(jié)語(yǔ)

結(jié)合文獻(xiàn)[8,9],本文給出了改進(jìn)地δ閾值層次聚類算法的算法描述.并且對(duì)阿茲海默癥基因數(shù)據(jù)應(yīng)用此層次聚類算法,通過(guò)比較聚類質(zhì)量指標(biāo)——輪廓系數(shù),可以發(fā)現(xiàn)文獻(xiàn)[8]通過(guò)特征集中的特征值確定的閾值較優(yōu)于文獻(xiàn)[9]通過(guò)曲率最大點(diǎn)確定的閾值.從而進(jìn)一步說(shuō)明由文獻(xiàn)[8]給出的δ閾值的層次聚類算法較客觀,即本文對(duì)改進(jìn)地δ閾值層次聚類算法的參數(shù)δ做出了評(píng)估.

表 3 2類層次聚類算法的聚類質(zhì)量指標(biāo):輪廓系數(shù)的比較

[1] 阿茲海默病. http://zh.wikipedia.org/wiki/阿茲海默病[EB/OL]. 維基百科,2014.

[2] 李瑤. 基因芯片技術(shù):解碼生命[M]. 北京:化學(xué)工業(yè)出版社,2004:77-156.

[3] 胡本瓊,張先迪,龐朝陽(yáng). 利用圖論設(shè)計(jì)圖像壓縮中的向量量化聚類算法[J]. 四川師范大學(xué)學(xué)報(bào):自然科學(xué)版,2005,28(3):376-378.

[4] 王開軍,李曉. 基于有效性指標(biāo)的聚類算法選擇[J]. 四川師范大學(xué)學(xué)報(bào):自然科學(xué)版,2011,34(6):915-918.

[5] 莊劉,曾艷. 基于模糊C-均值聚類的最優(yōu)量化器設(shè)計(jì)[J]. 四川師范大學(xué)學(xué)報(bào):自然科學(xué)版.2010,33(4):559-562.

[6] Kong W, Mou X Y, Yang B. Study DNA microarray gene expression data of Alzheimer’s disease by independent component analysis[J]. Bioinformatics, Systems Biology and Intelligent Computing,2009.

[7] Pang C Y, Hu W, Hu B Q, et al. A special local clustering algorithm for identifying the genes associated with Alzheimer’s disease[J]. IEEE Trans Nanobioscience,2010.

[8] Pang C Y, Liu S Q, Li Y, et al. The nonlinear correlation character of gene expression data on Alzheimer’s disease and hierarchy clustering of co-regulated gene[J]. 2011 IEEE International Conference on Granular Computing,2011.

[9] 黃靜,付如意,彭志紅,等. 基于阿爾茨海默病的基因表達(dá)數(shù)據(jù)改進(jìn)的一維聚類方法[J]. 四川師范大學(xué)學(xué)報(bào):自然科學(xué)版,2015,38(4):584-588.

[10] 茆詩(shī)松,王靜龍,濮曉龍. 高等數(shù)理統(tǒng)計(jì)[M]. 2版. 北京:高等教育出版社,2006:128-135.

[11] Jonathon S. A tutorial on principal component analysis[D]. Ithaca:Cornell University,2014.

[12] Han J W, Kamber M, Pei J. Data Mining Concepts and Techniques[M]. Beijing:China Machine Press,2012.

[13] GEO DataSet. http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE1297[EB/OL]. NCBI,2014.

[14] Blalock E M, Geddes J W, Chen K C, et al. Incipient Alzheimer’s disease:microarray correlation analyses reveal major transcriptional and tumor suppressor responses[J]. PNAS,2004,101(7):2173-2178.

[15] O Alter, P O Brown, D Botstein. Singular value decomposition for genome-wide expression data processing and modeling[J]. PNAS,2000,97(18):10101-10106.

2010 MSC:62H30; 62P10; 91C20

(編輯 周 俊)

Comparison of Two Hierarchical Clustering Methods in Gene Expression Data of Alzheimer’s Disease

FU Ruyi1, HUANG Jing1, HU Benqiong2, PANG Chaoyang3,4
(1.CollegeofMathematicsandSoftwareScience,SichuanNormalUniversity,Chengdu610066,Sichuan;2.CollegeofManagementScience,ChengduUniversityofTechnology,Chengdu610059,Sichuan;3.CollegeofComputerScience,SichuanNormalUniversity,Chengdu610066,Sichuan;4.VisualComputingandVirtualRealityKeyLaboratoryofSichuanProvince,SichuanNormalUniversity,Chengdu610066,Sichuan)

With the development of gene microarray technology, biclustering is applied to the research of high dimension of gene expression data. Due to the sparsity of most high-dimensional data, high-dimensional data are transferred into low-dimensional data by dimensionality reduction and so, it could be clustering in the low-dimensional data. Meanwhile, a variety of clustering appear different pattern and different data appears to different pattern for the established clustering. For gene expression data of Alzheimer’s disease, clustering tendency of feature sets is evaluated. Then, algorithm of improved hierarchical clustering with parameterδis described. References before establish computing method of parameterδ, respectively. Thus, two improved hierarchical clusterings with parameterδassigned different value are compared and clustering measure named silhouette coefficient is computed, respectively.

hierarchical clustering; threshold; gene expression data

2014-10-16

中國(guó)航空科學(xué)基金(2012ZD11)

O242.1

A

1001-8395(2015)06-0925-05

10.3969/j.issn.1001-8395.2015.06.025

*通信作者簡(jiǎn)介:龐朝陽(yáng)(1973—),男,教授,主要從事基因計(jì)算與量子力學(xué)的研究,E-mail:cypang402@126.com

猜你喜歡
特征方法
抓住特征巧觀察
新型冠狀病毒及其流行病學(xué)特征認(rèn)識(shí)
如何表達(dá)“特征”
不忠誠(chéng)的四個(gè)特征
學(xué)習(xí)方法
抓住特征巧觀察
用對(duì)方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 伊人91在线| 国产自视频| 99久久精品国产精品亚洲| 久久特级毛片| 波多野结衣中文字幕久久| 性欧美久久| 久久久亚洲色| 99re精彩视频| 国产黑人在线| 国产va免费精品观看| 国产在线视频欧美亚综合| 毛片免费网址| 波多野结衣久久精品| 国产亚洲欧美另类一区二区| 国产精品尤物在线| 亚洲成AV人手机在线观看网站| 日韩久久精品无码aV| 特级毛片免费视频| 亚洲成人网在线播放| 视频二区亚洲精品| 国产大片喷水在线在线视频| 国产福利一区视频| 国产原创演绎剧情有字幕的| 无码AV日韩一二三区| 亚洲国产午夜精华无码福利| 久久精品无码国产一区二区三区| 久久综合色88| 国产美女在线免费观看| 午夜精品久久久久久久99热下载 | 国产精品乱偷免费视频| 国产欧美性爱网| 国产激情无码一区二区免费| av一区二区三区在线观看| 日本高清免费一本在线观看| 成人免费午间影院在线观看| 91精品在线视频观看| 久久婷婷综合色一区二区| 亚洲欧美另类日本| 久热精品免费| 亚洲精品日产AⅤ| 成人午夜在线播放| 欧美视频在线观看第一页| 青草91视频免费观看| 亚洲精品第一页不卡| 99久久精品久久久久久婷婷| 国产亚卅精品无码| 国产99久久亚洲综合精品西瓜tv| 天堂岛国av无码免费无禁网站| 婷婷色在线视频| 久久黄色小视频| 国产精品页| www.精品国产| 国内黄色精品| 国产精品真实对白精彩久久| 亚洲永久视频| 国产午夜精品一区二区三区软件| 欧美日韩在线成人| 播五月综合| 亚洲AV无码久久精品色欲| av在线无码浏览| 免费一级毛片在线播放傲雪网| 亚洲综合色婷婷中文字幕| 亚洲性影院| 国产成人超碰无码| jizz亚洲高清在线观看| 国产精品美女免费视频大全| 国产迷奸在线看| 内射人妻无套中出无码| 无码免费的亚洲视频| 国内99精品激情视频精品| 99久久精品国产自免费| 免费视频在线2021入口| 成人小视频网| 伊人久综合| 欧美亚洲国产精品久久蜜芽| 日本久久网站| 91精品啪在线观看国产| 欧美日韩午夜| 久久91精品牛牛| 午夜少妇精品视频小电影| 欧美a级在线| 亚洲区第一页|