999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于小波包-FastICA在阿爾茨海默癥中的應用及其生物學分析

2012-01-15 06:02:28宮曉娜
電子設計工程 2012年14期
關鍵詞:特征分析

宮曉娜,孔 薇

(上海海事大學 信息工程學院,上海 201306)

阿爾茨海默病(Alzheimer disease,AD)是由巴伐利亞的神經病理學家阿爾茨海默[1](Alois Alzheimer)于1907年首先發現,并以其名字而命名,這是一種漸進性的神經變性疾病,這種疾病表現為全面的認知障礙,包括:記憶、定位、判斷和推理。約60%-70%老年癡呆患者為AD型[2]:AD患病率隨著年齡增加而明顯上升,60-64歲人群患病率為1%,而85歲以上老年人中則高達40%。AD給社會帶來沉重的經濟及社會負擔。

近些年來隨著生物芯片技術的快速發展,研究人員可以同時測定不同樣本中成千上萬的基因表達水平,為我們進行相關研究提供數據基礎,但是每個樣本都包含成千上萬個基因,而我們采集的樣本只有有限多個(最多幾百個,對我們的研究造成很大的困難),即維數災難(少量的樣本對應著巨大數量的特征)。

針對基因表達數據的這個特點,采取了以下兩種相應的解決方法[3]:

1)進行特異性基因選擇,在分類的時候只使用那些與分類緊密相關的基因,這樣可以篩除與分類無關的基因,減小維數、噪聲和冗余,從而降低計算復雜度并提高分類的準確度和可靠度,從而減少用于實際臨床的診斷費用。

2)構造分類器時采用交叉檢驗法。由于樣本數量太少,把樣本分為訓練集和測試集幾乎是不可能的,從而使用交叉檢驗法對樣本進行重復利用。

1 特異性基因提取

目前,針對差異表達基因的基因排序選擇算法有很多方法[4-5],包括傳統的倍數法、t檢驗和方差分析、Wilcoxon非參數發,Bonferroni修正法等,還有專門針對芯片數據特點的SAM[6](significance analysis of microarray)方法等,這些方法或多或少存在某些缺陷[7]。常用的特征選取的方法包括主成分分析方法、因子分析方法、獨立成分分析方法、小波變換方法和離散余弦變換方法等。相比t檢驗的方法,小波包變換-SAM對基因表達譜可以更有效的將不相關的冗余基因剔除。目前的聚類方法用于特征基因選取只能把一個基因歸類到一類中,這不符合生物學特性,即一個基因可以參與多個信號傳導過程;而ICA方法是一種雙向聚類方法,能夠把基因歸入到不同類別中,從而較好的反應基因在不同信號傳導通路中的作用[8]。本文提出的先小波包變換-SAM-FastICA算法可以充分利用每種算法的優點,克服它們的不足。實驗表明這種方法比單純的對基因表達譜數據進行ICA分析具有更高的準確度。

1.1 小波-SAM原理

由于微陣列數據自身含有很大的噪聲,如何有效的消除基因表達譜數據的各種噪聲,對于特異性表達基因的篩選和后續的生物學分析等有著重要的影響。

小波變換具有良好的時頻局部化特性,因而能有效的從信號中提取資訊,通過伸縮和平移等運算功能對函數或信號進行多尺度細化分析(Multiscale Analysis)。小波去噪是將信號映射到小波域,根據噪聲和噪聲的小波系數在不同尺度上具有不同的性質和機理,對含噪信號的小波系數進行處理。實質是減少剔除噪聲產生的小波系數,最大限度的保留真實信號的系數。

由美國斯坦福大學開發的SAM軟件作為插件被安裝到Excel軟件中使用,該軟件專門用于篩選差異表達基因,其算法是基于傳統的t檢驗和方差分析,用統計量衡量基因表達與反應變量之間關系的強弱。通過數據的重復排列或抽樣來計算FDR,調節FDR篩選特異性表達基因。這種分析方法允許一定的假陽性率,適用于發現性的實驗方法,有利于發現低拷貝或差異小的基因[9]。

1.2 ICA(Independent Component Analysis)算法原理

ICA算法的實質是在假設源信號統計獨立的基礎上,在不知道源信號及混合矩陣任何信息的情況下,試圖將一組隨機變量表示成統計獨立的變量的線性組合。

設 X=(x1,…,xn)T為 n 維隨機觀測向量,由 n 個未知源信號 S=(s1,s2,…,sn)T線性組合而成。用矩陣形式來定義 ICA 線性模型

其中 si稱為獨立成分 (Independent Component,IC),A=(a1,a2,…,an)∈Rn×n為一滿秩矩陣,稱為混合矩陣。 由此可以看出,觀測數據X是由獨立信號源S經A線性加權得到的。進行ICA處理的目的就是找到混合信號X的一個線性變換矩陣W,使得輸出盡可能的獨立,即

ICA實際上是一種尋優過程,即如何使分離出的獨立成分最大限度地逼近各源信號。可以通過改變P中的系數來觀察Y=PS的分布如何變化。因此,ICA包括兩個主要方面:目標函數和尋優算法。

1)極大化非高斯性的ICA目標函數

由ICA的估計原理2:極大非高斯性:在y的方差為常數的約束下,求線性組合非高斯的局部極大值。每個局部極大值給出一個獨立成分。

在實際應用中,可以使用峭度來度量非高斯性。y的峭度kurt(y)可以定義為:

2)采用峭度的梯度算法

對混合量進行白化預處理,意味著將X線性變換成一個隨機變量:

在實踐中為了極大化峭度的絕對值,可以從某個向量W開始,依據可用的樣本值 Z(1),…,Z(T),計算出使 Y=WTZ 的峭度絕對值增大的最快的方向,然后將向量W轉到該方向。利用梯度的原理,WTZ的峭度的絕對值的梯度可以用下式計算得到:

對于白化過的數據,有E{(WTZ)2}=‖W‖2。因此,可以得到下面的梯度算法:

1.3 FastICA算法原理

上一節介紹了以峭度絕對值作為非高斯度量,導出了極大化非高斯的一種梯度優化方法。該梯度的算法收斂慢,且依賴于合理的學習速度序列的選擇,如果學習速度選擇不當,收斂性可能會被破壞。針對這個問題,1997年芬蘭赫爾辛基大學的 A.Hyv?rinen和 E.Oja等人提出的快速固定點算法(FastICA)[10]。

在梯度算法的一個穩定(收斂)點出,梯度必須指向W的方向,也就是說梯度必須等于一個常數標量與W的乘積。只有在這種情況下,將梯度與W相加才不改變其方向,且算法在此處收斂。令公式(5)中峭度的梯度與W相等,可以得到:

由該公式直接隱含著一個不動點算法,可以首先計算右邊的項,然后將其賦給W作為新值:

最后收斂的W以WTZ的線性組合形式可以給其中一個獨立成分。

該算法能夠快速且可靠地收斂。與ICA相比,該算法沒有學習速度或其它可調節的參數,因此,FastICA更易用且更可靠。

1.4 小波-SAM-FastICA在基因表達譜中的應用

本次實驗選用的是GEO數據庫Series GSE5281中海馬區(HIP)的23組AD樣本數據集(13組control無病樣本,10組affected AD樣本,54 675個基因表達數據)。由于基因表達譜數據具有高噪聲、高維性及數據分布不均衡等特點,因此,在對數據集進行FastICA特征提取之前,首先要對數據集進行預處理,即將大量的無關基因通過一定的算法篩選掉。這里采用小波包變換-SAM(Significance Analysis of Microarrays)的預處理機制,預處理后基因表達數據中的噪聲大大地降低,并且能夠更好地描述樣本特征,有利于后期特異性基因的提取。

1.4.1 對HIP數據集預處理

首先對HIP數據集進行小波-SAM預處理,圖1為不同預處理的數據聚類效果。

圖1 不同預處理的數據聚類效果Fig.1 Data clustering effect of different pretreatment

(a),(b)分別為不同預處理后的數據聚類效果。從圖1可以看出經過小波包-SAM篩選后的基因,經過聚類后,可以準確地將control無病樣本和affected AD樣本分開,證實了小波包-SAM預處理的有效性。

1.4.2 對基因表達譜提取特征基因

由于混合矩陣A可以反映特征樣本在樣本基因表達譜中的活躍情況,文中主要研究混合矩陣A的權重來分析基因表達譜。

圖中白色和黑色分別代表正值和負值,而每個正方形的大小則對應于每個樣本中成分的數量。原始數據集由13個無病樣本(前 13行)和 10個AD患病 樣本(最后 10行)組成。 根據正負值,從圖 2(a)、2(b)中可以看出,圖 2(b)第 8、9、10、11、12、13、18、21、23 列可以將無病樣本和患病樣本區分開,而圖2(a)基本沒有將無病樣本和患病樣本區分開。

圖2 未經預處理和經小波變換的對比圖Fig.2 Camparison chart of without pretrea tment and after the wavelet packet transform

根據混合矩陣A的權重圖,提取FastICA分析后的相對應的第 8、9、10、11、12、13、18、21、23 個特征樣本。

圖3 Histogram of the characteristic sampleFig.3 特征樣本的柱狀圖

由于過高表達和過低表達的基因很有可能是阿爾茨海默癥致病基因或者相關基因。這里特征樣本的柱狀圖,將基因表達值大于5或者基因表達值小于-5的基因提取出來,得到172個特征基因。

2 基于學習向量量化(LVQ)神經網絡的分類

學習向量量化(LVQ)神經網絡[10]是一種有監督的訓練競爭層的方法。學習向量量化網絡能夠對任意輸入向量進行分類,不管它們是不是線性可分,這點比感知器神經網絡要優越得多。

實驗分析:

將FastICA提取的23個樣本(訓練樣本6個,測試樣本17個)的172個基因進行LVQ神經網絡分類,在MATLAB里多次運行,得到以下結果:

從表格中可以看出,經過小波包變換-SAM-FastICA提取的特征基因比小波包-SAM-ICA提取的特征基因更能高精確地將樣本分類,從而驗證了算法的有效性。

表1 對提取的基因進行LVQ神經網絡分類準確率結果Tab.1 LVQ neural network classification accuracy results of the extracted gene

3 基因集合富集分析

基因功能富集分析[11](Gene Set Enrichment Analysis,GSEA)又稱功能聚類分析,利用超幾何分布型統計原理來檢驗一組基因(共表達或差異表達)中某個功能類的顯著性,通過離散分布的顯著性分析、富集度分析和假陽性分析,得出與實驗目的有顯著關聯的、低假陽性率的及靶向性的基因功能類別,該功能類別即是導致樣本性狀差異的最重要的功能差別,而其所屬基因是需進一步驗證的重要目標基因,其功能特征將闡明樣本性狀變化的內在生物學意義。

利用基因功能富集分析的功能特點,本文對提取的特征基因進行基因功能富集分析從而分析提取的特征基因在阿爾茨海默癥數據集中的效果。

將之前進行FastICA分析篩選后的172個特征基因,經過基因富集性分析(172個基因里有139個基因匹配)分析得到它們在阿爾茨海默癥數據集中的聚類情況及其它們的基因表達情況。

圖4 ALZHEIMERS_DISEASE_DNBlue-Pink O'Gram in the Space of the Analyzed GeneSetFig.4 阿爾茨海默癥下調基因集的藍-粉聚集圖

從圖中可以發現提取的特征基因RTN3、ENC1等45個基因在阿爾茨海默癥數據集的無病樣本和有病樣本中明顯的聚類,在生物學方面驗證了文中提出的算法提取特征基因的有效性。

4 結束語

通過以上實驗和結果可以看出,小波包變換-SAM對基因表達譜數據具有明顯的降噪作用,通過FastICA算法提取的特異性基因具有較高的分類準確性。提取的特異性基因通過基因富集性分析能夠在沒有先驗知識的情況下也能在表達譜整體層次上對數條基因進行分析,從而從數理統計上把阿爾茨海默癥的基因表達譜數據與生物學意義很好地銜接起來,這將會為疾病的診斷、治療等方面提供重要參考。

[1]樂奕勤.阿爾茨海默氏病的發現者[J].Digest of科技文摘,2000(7):132.LE Yi-qin.The discover of Alzheimer’s disease[J].Digest of Science and Technology,2000(7):132.

[2]Atlas S W.Magnetic Resonance Imaging of the brain and spine[M].3rd ed.Philadelphia:Lippincott Williams and wilkins,2002.

[3]劉如云,蔡立君,易葉青.基于G-ICA的組織樣本分類算法[J].計算機工程與應用,2010,46(31):124-126,156.LIU Ru-yun,CAI Li-jun,YI Ye-qing.Classification algorithm of the tissue samples based on G-ICA [J]. Computer Engineering and Applications,2010,46(31):124-126,156.

[4]Chen Y,Kamat V,Doughertyer R, et al.Ratio statistics of gene expression levels and applications to microarray data analysis[J].Bioinformatics,2002,18(9):1207-1215.

[5]Krajweski P,Bocianowski J.Statistical methods for microarray assays[J].J Appl Genet,2002,43(3):269-278.

[6]Tusher V G,Tibshirani R,Chu G,Significance analysis of microarrays applied to the ionizing radiation response[J].PNAS, 2001,98(9):5116-5121.

[7]賀憲民,武建虎,賀佳,等.小樣本情況下差異表達基因鑒別的參數統計分析[J].中國衛生統計,2005,22(3):141-145.HE Xian-min,WU Jian-hu,HE Jia,et al.Parametric statistical analysis of differentially expressed genes identified in the case of small sample[J].China’s Health Statistics,2005,22(3):141-145.

[8]WEI Kong.Study DNA microarray gene expression data of Alzheimer’s disease by independent component analysis[C]//International Joint Conference on Bioinformatics,Systems Biology and Intelligent Computing,Shanghai:August,2009.[9]黃得雙.基因表達譜數據挖掘方法研究[M].北京:科學出版社,2009.

[10]羅亮,史曉紅,徐進.LVQ神經網絡方法預測蛋白質結構的二硫鍵[J].系統仿真學報,2007,19(9):2077-2079.LUO Liang, SHIXiao-hong, XU Jin.Predictprotein structure of the disulfide bond based on LVQ neural network method[J].System Simulation Journal,2007,19(9):2077-2079.

[11]Subramanian A,Tamayo P,Mootha V K.Gene set enrichiment analysis:A knowledge-based approach for interpreting genome wide expression profiles[J].PNAS,2005(102):15545-15550.

猜你喜歡
特征分析
抓住特征巧觀察
隱蔽失效適航要求符合性驗證分析
新型冠狀病毒及其流行病學特征認識
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
抓住特征巧觀察
電力系統及其自動化發展趨勢分析
中西醫結合治療抑郁癥100例分析
在線教育與MOOC的比較分析
主站蜘蛛池模板: 亚洲天堂久久久| 国产99精品久久| 日韩小视频在线播放| 日本欧美成人免费| 波多野结衣无码AV在线| 激情综合网址| 日本成人在线不卡视频| 99国产精品一区二区| 欧美国产日韩另类| 一级爱做片免费观看久久| 欧美精品三级在线| 伊人91在线| 国产成人你懂的在线观看| 小13箩利洗澡无码视频免费网站| 日韩无码黄色网站| 色综合狠狠操| 亚洲综合天堂网| 99在线视频精品| 91精品啪在线观看国产91九色| 激情在线网| 日本午夜影院| 欧美亚洲一区二区三区在线| 国产中文一区a级毛片视频| 亚洲资源在线视频| 免费一级毛片| 国产精品55夜色66夜色| 欧美视频免费一区二区三区 | 综合天天色| 国产欧美自拍视频| 欧美激情伊人| 国产美女一级毛片| 在线免费看黄的网站| 亚洲天堂视频在线观看免费| 在线精品自拍| 日韩欧美国产三级| 欧美高清国产| 免费毛片在线| 久热re国产手机在线观看| 欧美日韩第二页| 91精品亚洲| a级毛片毛片免费观看久潮| 91www在线观看| 亚洲a级在线观看| 国产一级二级在线观看| 女高中生自慰污污网站| 激情综合图区| 91丝袜美腿高跟国产极品老师| 亚洲伦理一区二区| 免费国产福利| 日韩精品免费在线视频| 亚洲伊人久久精品影院| 精品三级网站| 9久久伊人精品综合| 中文字幕首页系列人妻| 国产成人av一区二区三区| 亚洲欧洲自拍拍偷午夜色| 亚洲V日韩V无码一区二区| 日韩免费毛片| 国产精品视频系列专区| 无码一区18禁| 无码 在线 在线| 久久久受www免费人成| 三上悠亚精品二区在线观看| 久草中文网| 五月婷婷导航| 亚洲免费黄色网| 欧美人人干| 国产亚洲日韩av在线| 成人综合久久综合| 午夜视频www| 久久性妇女精品免费| 五月婷婷亚洲综合| 亚洲二三区| 日韩精品无码免费一区二区三区 | 青青青视频蜜桃一区二区| 91娇喘视频| 国产福利免费在线观看| 999精品色在线观看| 久久精品国产一区二区小说| 韩国v欧美v亚洲v日本v| 91av国产在线| 国产欧美另类|