999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Alpha-NMF的AD樣本分類及特異性基因選擇方法

2012-07-13 03:05:54盧曉麗
電子設計工程 2012年3期
關鍵詞:分類

盧曉麗,孔 薇

(上海海事大學 信息工程學院,上海 201306)

阿爾茨海默?。ˋlzheimer disease,AD)是德國神經病學家Alois Alzheimer于1907年首次對一位51歲的病人描述的,至今對AD的認識和研究已經進行了100余年了。它是老年人中最常見的神經退行性疾病之一,其臨床特點是隱襲起病,逐漸出現記憶力減退、認知功能障礙、行為異常和社交障礙。65歲以上老年癡呆人群中超過55%的病例是阿爾茨海默病[1]。隨著全球人口的老齡化,癡呆患病人數大量增加,阿爾茨海默病已經成為人類共同面臨的嚴峻挑戰。

DNA微陣列技術[2]能夠對大量的基因進行同步、快速測量,同時提供成千上萬條基因的表達水平,使得生物學家能夠在基因組層次上研究任何種類細胞在任意給定時間、任意給定條件下的基因表達模式。由于基因表達譜數據的高噪聲、高維性、高冗余以及數據分布不均勻等特點使得在分析過程中仍然有很多挑戰性問題。

非負矩陣分解 (non-negative matrix factorization,NMF)方法[3]由Lee和Seung在一篇關于無監督學習的文章中提出的一種新的矩陣分解方法。該方法在矩陣分解過程中對矩陣元素進行非負約束,在實際應用中具有明確的物理意義。相比一些傳統的算法,NMF具有實現簡便,分解形式和分解結果可解釋性強等諸多優點。NMF算法被提出后,隨著研究的不斷深入,為了適應不同領域的需求,一些研究者設計了基于多種目標函數的算法對標準NMF算法進行改進。目前,應用比較頻繁的有稀疏非負矩陣分解 (sparse non-negative matrix factorization,SNMF)、非平滑非負矩陣分解(non-smooth non-negative matrix factorization,NSNMF)以及加權非負矩陣分解 (weighted non-negative matrix factorization,WNMF) 等。NMF已逐漸應用于語音信號處理、模式識別、圖像分析等研究領域中,并且獲得了很好的效果。相信不久的將來,NMF能夠適應于更多領域的需求。

1 非負矩陣分解算法原理

NMF理論上是利用非負約束條件來獲取數據表示的一種方法。NMF問題可以描述為:已知非負矩陣Vn×m,找到一個非負矩陣 Wn×r和 Hr×m一個非負矩陣,使得:

此時矩陣V中的列向量可以近似地看作是非負矩陣W的列向量的非負線性組合,組合系數為hj的分量。因此矩陣W=(w1,…,wr)可以看成是對V進行線性估計的一組基,而H則是V在基W上的非負投影系數。

1.1 基本NMF算法

根據NMF理論的數學模型,必須找到一個分解過程V≈WH,使得WH盡量逼近V,可以定義一個目標函數來保證逼近的效果。目標函數可以利用某些距離的測量來獲得,通常使用的目標函數是歐式距離,即:

當且僅當V=WH時取最小值為0。因此NMF問題可以轉化為優化問題用迭代方法交替求解W和H。雖然式(2)對于單獨的W和H來講均是凸函數,但是同時對于W和H卻不是凸函數,因此找到一個全局最優解是不太現實的,但可以尋找一個局部最優解。NMF算法可以定義為如下優化問題:最小化||V-WH||2,交替更新W,H。最簡單易行的更新方法就是梯度下降法,但是其收斂速度非常緩慢。更新規則如下:

定理1:在(3)迭代規則下,歐式距離||V-WH||2是單調不增的,如果當W和H的值是固定的,||V-WH||2保持不變。

1.2 Alpha-NMF算法

Alpha-NMF算法[4]是NMF算法的一種改進,它是針對信號處理所提出的一種新的算法。

Alpha-NMF算法的數學模型為:

Y=[y1… ym]T=V為m個非負的n維觀測信號,A=HT為m×r維的非負的混合矩陣,X=[x1,…,xr]T=WT為r個非負的n維源信號,E為噪音。

Alpha-NMF算法的目標函數為:

A、X迭代規則如下:

根據α取值不同,可以得到Pearson偏差、Hellinger偏差和 Neyman’s chi-square 偏差,其 α 分別為 2,0.5,-1。

2 非負矩陣分解在基因表達譜數據中的應用

2.1 數據預處理

文中所選的實驗數據為基因表達綜合數據庫[5](GEO)中23組大腦海馬區域(HIP)和23組內嗅區皮質(EC)的AD樣本,54 675個基因表達數據;其中海馬區域的基因數據集由13個control AD樣本和10個affected AD樣本組成,內鼻皮質區域的基因數據集由13個control AD樣本和10個affected AD樣本組成。由于基因表達譜數據的復雜性,在進行聚類分析前必須先進行預處理和數據轉換等過程。本文先采用小波變換[6](wavelet transform,WT)方法對數據進行降噪,然后通過微陣列顯著性分析[7](significanceanalysisofmicroarrays,SAM)工具箱篩選出顯著變化的上下調基因。

2.2 Alpha-NMF算法應用于基因表達譜數據

Alpha-NMF算法被提出后,至今還設被應用于基因表達數據中,通過大量的實驗,證明了Alpha-NMF算法能夠有效的應用到該領域中,相比傳統NMF算法,其算法穩定性和分類準確率明顯較高。

基因表達譜數據的Alpha-NMF混合模型如圖1所示。Y表示m×n維基因表達譜數據,每一行表示一個樣本集,每一列表示一個基因在不同條件下的表達水平。yij表示第j個基因在條件i下的表達水平,通常nm。

圖1 Alpha-NMF混合模型Fig.1 Mixture model of Alpha-NMF

任一樣本yi可以表示為:

也就是說每一個樣本可以近似看做是非負矩陣X的行向量的非負線性組合,組合系數是矩陣A對應行向量的分量。把分解后的矩陣X的每一行稱為一個集合基因。矩陣A的第k列為X的第k個集合基因的系數,若矩陣X能表征原始數據的局部特征,則系數矩陣A與樣本類別緊密相關,即類別c1對于特征k的貢獻大,而c2對于特征k的貢獻小。對于每一個集合基因(圖2為HIP數據經Alpha-NMF算法,α=0.5時分解后相關系數為0.97集合基因的柱狀圖),若元素的值相對較大,說明其對應的基因j與AD緊密相關。

3 實驗結果與分析

首先采用WT-SAM方法分別對HIP和EC數據進行預處理,篩選后的基因數分別為13 587個、6 567個,再對數據進行非負化處理,然后通過Alpha-NMF算法進行分解,利用分解后的A矩陣進行聚類,本文采用k均值聚類方法對A的行向量進行聚類,得到一聚類結果。對于矩陣X,設定一閾值,篩選出集合基因中大于該閾值的信息基因。

圖2 兩個集合基因的柱狀圖Fig.2 Histogram of factor1 and factor2

由于NMF算法受初值和維數r的影響,因此對每組實驗分別取r=2,3,4,5時運行NMF算法 20次。為了衡量由于r值選取不同導致的聚類的穩定性問題,定義了一個共表型相關系數[8](圖3分類穩定性比較),共表型相關系數越接近于1,分類越穩定。

觀察圖3和圖4的結果,通過比較可以發現,隨著r的增加,其相關系數和分類正確率普遍降低,當r=2時,其分類穩定性和識別正確率明顯高于 r=3,4,5時的情況。此時,Alpha-NMF算法相比標準NMF算法具有較高的分類準確性和穩定性。尤其當α=0.5時,效果最佳。因此,選擇Alpha-NMF算法α=0.5,r=2處理后的集合基因,如圖2所示,選擇某一閾值 (此處閾值為50),可以分別提煉出268個(HIP)、172(EC)個探針表達變化具有顯著差異。

4 討 論

4.1 特異性基因及其功能分類

圖3 分類穩定性Fig.3 Classification stability

圖4 識別準確率Fig.4 Identification accuracy

將上節提煉出的探針號與AD基因組進行比對,共確定有320個基因為特異性基因。這些基因主要于細胞信號傳導、物質代謝、物質傳輸等生物過程有關。

MiMI(Michigan Molecular Interactions)[9]是國家衛生研究所疾病預防控制綜合生物情報中心中的一部分。它可以提供蛋白質間的相互作用,并且利用這些數據進行融合,集合成一個復雜的網絡;還能檢索大量基因的生物功能。

使用MiMI對上上述特異性基因進行功能分類,其中有88基因在GO(Gene Ontology)[6]上沒有注釋,因此沒有對其分類,僅對其余的232個基因進行分類,根據分類結果,主要分為以下幾類:1)物質代謝過程,包括蛋白質代謝、細胞氮化合物代謝、核苷酸代謝;2)細胞周期過程,包括細胞形態發生和發展、細胞自動調節機能、生殖細胞形成;3)定位過程,包括蛋白質定位、細胞定位、大分子定位;4)細胞成分組織,包括細胞內大分子聚集、細胞膜組織以及細胞內各器官組織;5)生物合成過程,包括核苷酸合成、小分子合成;6)基因表達、轉錄、翻譯;7)神經系統調節,包括神經元的形成、神經突觸傳導、神經元變異、神經傳導素生成及傳輸;8)細胞凋亡;9)物質運輸,包括ATP水解耦合質子運輸、陽離子運輸、胞內蛋白質運輸、離子跨膜運輸。上述基因功能分類如表1所示。

表1 特異性基因功能分類Tab.1 Functional classification of specific genes

4.2 利用Cytoscape工具構建基因功能結構圖

BiNGO[10]是Cytoscape里的一個插件,它讓Cytoscape鏈接到Gene Ontology,使每個基因賦予注釋,構建基于目的的基因功能的結構圖。

將232個特異性基因提交給BiNGO,輸出一幅包含123個節點和165條邊的結構圖,基因功能結構圖中每個節點表示一個生物過程,每一條邊表示生物功能間的關系。其中節點的大小表示與該過程相關的基因占232個信息基因的比例,點的顏色與p-value相關,顏色越深表示p-value越大,也就是說該節點顯著過表達。如圖5所示,可以發現,提取的232個基因主要在細胞周期過程、定位過程及傳輸過程等生物過程上顯著過表達;在生物合成、代謝過程和一些與神經系統相關的生物過程也有一定程度的顯著過表達。這些特異性基因有的與Aβ的聚集有關,有的與神經遞質的傳輸有關或與神經元的形成發展有關,還有的與金屬的代謝相關,它們都能伴隨著細胞的炎癥反應,導致神經元損害,引起記憶減退和認知障礙,產生癡呆癥狀。來的特異性基因具有顯著差異表達,并且它能提煉出目前確定與AD致病相關的基因(APP)。通過構建基因功能結構圖,加深了對生物過程的理解,從而為生物學實驗的驗證提供的明確的方向。

圖5 特異性基因功能結構圖Fig.5 Functional structure map of metagenes

5 結 論

通過以上的實驗和闡述可以看出,Alpha-NMF算法較傳統NMF算法具有較高的分類準確性和穩定性,算法的運算速度也有較大的提高。由Alpha-NMF算法處理后所提煉出

[1]Strobel G.A virtual toast to thal,nitsch,and stanley on their awards[J].Alzheimer Research Forum,2004.

[2]Schachtner R,Lutter D,Theis F J,et al.How to extract marker genes from microarray data sets[J].IEEE Engineering in Medicine and Biology Society,2007(1):4215-4218.

[3]Lee D,Seung H S.Unsupervised learning by convex and conic coding[J].Advances in Neural Information Processing Systems,1997(9):515-522.

[4]Cichocki A,Amari S,Zdunek R,et al.Extended SMART algorithms for non-negative matrix factorization [C]//8th International Conference on Artificial Intelligence and Soft Computing,Poland,2006,25-29.

[5]Barret T,Troup D B,Wilhite S E,et al.NCBI GEO: archive for high-throughput functional genomic data [J].Nucleic Acids Res,2008(37):885-890.

[6]Abramovich F,Baukey T,Sapatinas T.Wavelet analysis and its statistical application[J].JRSSD,2000(48):1-30.

[7]Efron B,Tibshirani R.Microarrays, empirical bayes methods,and false discovery rates[J].Gen.Epi,2002(1):70-86.

[8]Brunet J P,Tamayo P.Mesirov metagenes and molecular pattern discovery using matrix factorization[J].Proc Natl Acad Sci U S A,2004,101(12):4164-4169.

[9]Tarcea V G, Weymouth T,Ade A,et al.Michigan molecular interactions:from interacting proteins to pathways[J].Nucleic Acids Research,2008:D642-D646.

[10]Maere S,Heymans K,Kuiper M.BiNGO: a cytoscape plugin to assess overrepresentation of Gene Ontology categories in biological networks[J].Bioinformatics,2005:3448-3449.

猜你喜歡
分類
2021年本刊分類總目錄
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
星星的分類
我給資源分分類
垃圾分類,你準備好了嗎
學生天地(2019年32期)2019-08-25 08:55:22
分類討論求坐標
數據分析中的分類討論
按需分類
教你一招:數的分類
主站蜘蛛池模板: 中国丰满人妻无码束缚啪啪| 亚洲最大情网站在线观看| 青青草欧美| 久热中文字幕在线观看| 91国内在线视频| 欧美影院久久| 成年看免费观看视频拍拍| 国产爽歪歪免费视频在线观看 | 国产福利在线观看精品| 亚洲成人高清无码| 无码免费视频| 久久免费视频播放| 亚洲av无码牛牛影视在线二区| 激情乱人伦| 日韩av电影一区二区三区四区| 99热这里只有精品国产99| 高清色本在线www| jizz国产在线| 永久天堂网Av| 综合亚洲网| 色偷偷男人的天堂亚洲av| 99999久久久久久亚洲| 亚洲国产精品日韩av专区| 国产精品浪潮Av| 香蕉在线视频网站| 日本精品中文字幕在线不卡| 又大又硬又爽免费视频| 99热这里都是国产精品| 婷婷六月激情综合一区| 国产精品99一区不卡| 亚洲天堂网在线播放| 日本三级欧美三级| 亚洲国产成人久久精品软件| 精品偷拍一区二区| 日韩在线观看网站| 亚洲欧洲日韩综合色天使| 国产成人高清精品免费软件| 青青草国产一区二区三区| 宅男噜噜噜66国产在线观看| 激情综合婷婷丁香五月尤物| 五月天综合网亚洲综合天堂网| 亚洲色精品国产一区二区三区| 国产精品午夜电影| 亚洲午夜18| 欧美成人A视频| 久久精品国产精品一区二区| 国产网站一区二区三区| 国产乱子伦手机在线| 国产成人精品日本亚洲77美色| 欧美三级自拍| 亚洲伊人久久精品影院| 久久9966精品国产免费| 伊人色天堂| 亚洲伊人电影| 亚洲人成影视在线观看| 国产区精品高清在线观看| 伊人久久久久久久| 国产欧美日韩视频怡春院| 免费观看精品视频999| 一级毛片免费的| 尤物成AV人片在线观看| 国产精品自在在线午夜区app| 人妻无码AⅤ中文字| 精品视频91| 欧美日韩另类国产| 潮喷在线无码白浆| 日本免费新一区视频| 成人精品在线观看| 99福利视频导航| V一区无码内射国产| 亚洲欧美人成人让影院| 国产精品第一区在线观看| 亚洲国产精品久久久久秋霞影院| 一边摸一边做爽的视频17国产| 国产成人AV综合久久| 色婷婷亚洲综合五月| 久久99国产综合精品女同| 一级毛片视频免费| 亚洲精品国产首次亮相| 天天躁日日躁狠狠躁中文字幕| 色综合热无码热国产| 亚洲欧美另类日本|