999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

加權關聯(lián)共表達網絡在篩選致病候選基因上的優(yōu)勢分析

2013-10-27 02:30:57汪偉平汪曉銀華中農業(yè)大學理學院湖北武漢430070
長江大學學報(自科版) 2013年4期
關鍵詞:關聯(lián)方法

王 駿,汪偉平,汪曉銀 (華中農業(yè)大學理學院,湖北 武漢 430070)

周 磊 (華中農業(yè)大學生命科學技術學院,湖北 武漢 430070)

加權關聯(lián)共表達網絡在篩選致病候選基因上的優(yōu)勢分析

王 駿,汪偉平,汪曉銀 (華中農業(yè)大學理學院,湖北 武漢 430070)

周 磊 (華中農業(yè)大學生命科學技術學院,湖北 武漢 430070)

面對多基因疾病的致病基因篩選的難題,加權關聯(lián)共表達網絡模型作為一種新的基于圖論和統(tǒng)計學的生物信息挖掘方法,較其他傳統(tǒng)方法以其較好的預測精確度,完備的生物學理論以及實現的簡潔可行,有著較好應用前景。重點將加權關聯(lián)共表達網絡與基于網絡距離和基于疾病表性相似性這2大主流方法進行實例對比分析,以體現加權關聯(lián)共表達網絡在致病候選基因篩選上的優(yōu)勢性。

加權關聯(lián)共表達網絡;基于網絡距離法;基于疾病表性相似性;致病候選基因

人類疾病的基因組學研究已進入到多基因疾病這一難點。由于多基因疾病既是最常見的又是人們了解最少的人類遺傳疾病,它們是多個基因相互作用所致,往往又不遵循孟德爾遺傳規(guī)律。這方面的研究需要在人群和遺傳標記的選擇、數學模型的建立、統(tǒng)計方法的改進等方面進行艱苦的努力[1]。

多基因疾病的遺傳異質性,基因上位顯性,低外顯率,表達多變性和基因多效性,以及環(huán)境因素的影響,這些因素使得尋找復雜疾病基因異常困難[2]。同時傳統(tǒng)疾病基因識別方法存在諸多局限性。一方面需要耗費大量人力物力搜集樣本并獲取數據,而另一方面在實際中其定位精度往往難以滿足要求。

以真實生物系統(tǒng)為對象,通過建立一個能夠很好地反映生物系統(tǒng),具有有限參數的數學模型,并提供有效的計算方法,對限定關聯(lián)基因組區(qū)域的基因進行排序,篩選出與給定疾病最相關的基因,是目前解決這一問題的有效途徑。

1 基于網絡的疾病基因預測方法

由于基因與疾病關系在生物學上的復雜性,基于網絡的疾病基因預測模型被越來越多的學者所認可和接受。基于網絡的疾病基因預測方法大體分為2類:基于網絡距離的方法和基于疾病表性相似性的網絡方法。這些方法的不同之處在于其基本假設和具體實現。

致病基因預測的一般框架如下:對給定的n個候選基因,其中包含一個或多個致病基因,預測的目標是通過某種模型賦予每個候選基因一個得分,使得致病基因得分盡量高。

1.1基于網絡距離的方法

基于網絡距離的方法的基本假設如下:同種疾病的致病基因在網絡中相互靠近。如果已知部分致病基因,則可根據其他基因到致病基因的距離對其他基因進行排序。如果沒有已知疾病基因,則需要依賴更多的數據[3]。

1)依賴已知致病基因 由于大約一半的人類疾病有至少一個已知的致病基因,對于這類疾病,對候選基因的打分可以看作一個信號在網絡中傳播的過程:已知致病基因作為信號源發(fā)出信號,信號沿著網絡中的路徑從一個節(jié)點傳播到相鄰節(jié)點,并且隨著傳播的進行即距離的增加,信號逐漸減弱。網絡中其他節(jié)點接收到的信號強弱則可以作為基因與疾病關系強度的一個估計。于是問題轉化為如何定義和使用網絡中的距離,方法有最近鄰近法和最短路徑法2種。

最近鄰近法僅考慮直接相互作用的基因,即一階鄰居之間距離為 1,而其余為無窮,實質是一種“數鄰居”的策略:如果一個基因周圍有很多致病基因,則該基因也很有可能是致病基因。該策略的性能依賴于相互作用數據(基因網絡)的選取,不同基因網絡數據之間的差別很大,但都大大優(yōu)于隨機挑選的結果。

最短路徑法更適用與不同基因在同一個蛋白復合體中,而不是同一個通路中。以最短路徑長度作為距離可以考慮到所有聯(lián)通的節(jié)點之間的影響。修正了最近鄰方法中的一些局限性,2個能相關的基因并不一定直接相互作用。這2個可能在同一個生物過程的不同時刻起作用,但仍然導致相同的疾病。

2)不依賴已知致病基因 基于網絡距離的方法在沒有'先驗基因'情況下雖然可依據同樣的假設,即疾病的致病基因相互之間存在緊密關聯(lián),來預測其致病基因。前提是至少有2個存在致病基因的連鎖區(qū)間,同時需要依賴更多的數據,在預測的精確度上可能效果不如已知致病基因的情形。

1.2基于疾病表性相似性的網絡方法

基于疾病表性相似性的網絡方法的基本假設如下:功能相關的基因導致表型相似的疾病。即不僅同一種疾病的致病基因傾向于緊密相關,相似疾病的致病基因之間也存在一定程度的關聯(lián)[4]。

一個疾病可以用一組描述其臨床癥狀的詞匯來表示。基于這點,可以通過量化2個疾病之間癥狀的重合來量化其相似性,稱之為疾病的表型相似性。van Driel[5]等通過文本挖掘的方式計算了5080 種人類疾病之間兩兩的表型相似性。Lage[6]等提出了一種加權的最近鄰法,將表型相似性與最近鄰法相結合,即待研究基因致病的可能性由最近鄰所包含的致病基因決定,每個致病基因的權重為該基因導致的疾病與所研究的疾病之間的表型相似性。

2 加權關聯(lián)共表達網絡

使用網絡模型分析的思想雖已達到共識,但傳統(tǒng)方法中也存在著很多不完善的地方,致病基因預測的一般輸入數據:疾病表型即疾病臨床表現、蛋白質相互作用關系以及疾病與基因的關聯(lián)信息數據。而以上研究中使用的網絡基本為基因網絡和疾病網絡,還有它們的關聯(lián)網絡。在基因網絡中,節(jié)點代表基因,而邊代表基因或其編碼的蛋白質之間的相互作用。在疾病網絡中,節(jié)點代表疾病,邊代表疾病之間的表型重疊[7]。

但在實際中,蛋白質相互作用關系數據并不算完備,疾病與基因的關聯(lián)信息只是部分目前已知的有顯著關系的基因與疾病。即其方法最終的精確度一定程度上取決于作為輸入的已知信息量的大小。也正如基于網絡距離的方法,必須依賴至少一個已知的致病基因才有較好的應用。基于疾病表性相似性的網絡方法,其預先輸入的表型相似性矩陣也是較主觀的,雖然給最近鄰法加了權重,但仍避免不了最近鄰法的局限性。

新的已知信息的補充和完善有一定的客觀性,對于科學研究來說,用已知或先驗來預測未知,其實現過程方法不論如何改進,已知或先驗的信息量大小及其客觀性對預測精度有較大影響的事實是不會變的。那么不需要過多的已知或先驗信息,僅提高樣本量就能提高精度,并且理論完備符合生物學原理的方法是有待探討的。加權關聯(lián)共表達網絡正是這樣一種方法[8-9],以下結合實例說明。

3 實例分析

3.1數據預處理

所需數據為目標疾病的所有n個致病候選基因在不同個體樣本上的基因表達譜,近年來隨著DNA微陣列技術的發(fā)展,在基因表達譜的提取上帶來了便利。由此得到矩陣X=(xij)n×m,n表示致病候選基因數目,m為樣本數,每個基因即為網絡結點。另外樣本特征T=(tk)1×m,tk可取一定范圍內的實數,表示疾病狀態(tài)。

由于相似性變換與通過實驗得到的基因表達譜具有一致性,即能在盡量小的信息損失下生成基因間的相似性矩陣,具體可以使用Pearson或Jacknife的相關性檢驗系數,最后得到相似性矩陣(Sij)n×n。

3.2鄰接陣轉換

加權網絡的實質從圖論的觀點來說為賦權圖,即表現為基因的鄰接矩陣,將(Sij)n×n向鄰接陣轉換,轉化函數一般采用Sigmoid和Power,得到鄰接矩陣(aij)n×n。

值得說明的是,上述轉化函數的參數的選取是依據構建出的網絡,符合最佳貼近無尺度拓撲網絡的原則,即選參中使用了回歸的方法,這也是該方法的創(chuàng)新之一。

近年來很多復雜網絡被發(fā)現有無尺度拓的特性,表現為在其結點度分布沒有一個特定的平均值指標,即大多數節(jié)點的度在此附近,度分布時,其遵守冪律分布。在視圖中表現為大部分節(jié)點只有少數幾個連結,而某些節(jié)點卻擁有與其他節(jié)點的大量連結。目前已證實生物代謝網絡也具有上述性質。即該基因共表達網絡建立時應以滿足生物網絡具有的無尺度拓撲的標準,否則建立的網絡是違背生物學原理。在此假設下采用冪律分布的表征特點經行回歸的方法選取構建網絡時的參數。

3.3拓撲重疊差異性量度矩陣

3.4網絡聚類和模塊識別

對差異性度量矩陣采用系統(tǒng)聚類或層次聚類的方法,進行模塊識別。模塊是指具有高度拓撲重疊性質的集群。生物學解釋為導致外部病癥急劇變化的基因會聚集在一起。

圖1 基因的聚類分析及模塊顏色標注

圖2 模塊與致病特性的相關性

圖1是以糖尿病致病基因篩選為例,依據基因的差異性量度矩陣進行層次聚類的樹狀圖,圖1的顏色標注表示不同樹狀分支所屬的模塊。實例所選基因數為7023個,最終得到13個模塊,說明基因的聚類效果好,很好的構建出了符合生物代謝網絡無尺度的特性。即模型既符合生物學假設,并且對原始數據經行變換后,使其變成了易于反映數據內部本質特征的形式,對后續(xù)的數據分析工作帶來了便利。

3.5關聯(lián)外部信息

模塊核心基因E定義為該模塊內的基因的表達矩陣的第一主成份基因。

模塊關系指數MMblue(i):

MMbiue(i)=cor(xi,Eblue)

描述基因i與blue模塊的模塊核心基因Eblue的相關性。模塊重要性度量即為該模塊的核心基因與樣本特征T的相關性,即不同基因的致病可能性的得分。

為了區(qū)分方便,分別為模塊命名并計算其樣本特征T的相關性(見圖2),找到與外部病癥相關最高的模塊,同時可以得出該模塊中各基因的致病得分,得到數目比其他方法少的致病基因,為后續(xù)進一步的生物實驗設計提供了依據。

4 結 語

綜上所述,加權關聯(lián)共表達網絡與傳統(tǒng)基因網絡方法相比,不需要過多的已知或先驗信息,僅提高樣本量就能提高精度,并且采用最新生物網絡的無尺度特性的假設建立簡單可行模型,通過事實證明了其在致病候選基因篩選上的優(yōu)勢。

[1]龐樂君.基因組學和蛋白質組學對新藥研發(fā)的影響[D].中國人民解放軍軍事醫(yī)學科學院,2005.

[2]范巍.基因分型錯誤對病例對照方法估計疾病外顯率的影響研究[D]. 楊凌:西北農林科技大學,2011.

[3]彭佳揚.代謝網絡中功能模塊挖掘和進化分析研究[D].長沙:中南大學,2011.

[4]王宗堯.基于蛋白質網絡的人類遺傳致病基因預測算法研究[D].哈爾濱:哈爾濱工業(yè)大學,2011.

[5]van Driel M A. A new web-based data miningtool for the identification of candidate genes for human genetic disorders[J].EurJ Hum Genet,2003,11: 57-63.

[6]Lage K, Karlberg E O, Storling Z M, et al. A human phenome-interactome network of protein complexes implicated in genetic disorders[J].Nature Biotechnology,2007, 25: 309-316.

[7]Zhang B, Horvath S.A general framework for weighted gene co-expression network analysis[J]. Statistical Applications in Genetics and Molecular Biology,2005,4(1):1128-1128.

[8]Langfelder P,Horvath S.WGCNA: an R package for weighted correlation network analysis[J].BMC Bioinformatics,2008,9(1):559-559.

[9]Li A, Horvath S.Network neighborhood analysis with the multi-node topological overlap measure[J]. Bioinformatics,2007, 23(2): 222-231.

2012-11-26

湖北省自然科學基金項目(2011CDB152);國家大學生創(chuàng)新性實驗計劃項目(1210504024)。

王駿(1990-),男,碩士生,現主要從事數學建模方面的研究工作。

汪曉銀(1971-),男,博士,教授,現主要從事數學建模方面的教學與研究工作;E-mail:wxywxq@163.com。

O29

A

1673-1409(2013)04-0036-04

[編輯] 洪云飛

猜你喜歡
關聯(lián)方法
不懼于新,不困于形——一道函數“關聯(lián)”題的剖析與拓展
“苦”的關聯(lián)
當代陜西(2021年17期)2021-11-06 03:21:36
“一帶一路”遞進,關聯(lián)民生更緊
當代陜西(2019年15期)2019-09-02 01:52:00
學習方法
奇趣搭配
智趣
讀者(2017年5期)2017-02-15 18:04:18
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 亚洲AV一二三区无码AV蜜桃| 国产黄色爱视频| 免费A级毛片无码免费视频| 欧美69视频在线| 久久久久免费看成人影片| 男女精品视频| 国产精品亚洲一区二区三区在线观看| 亚洲成在线观看| 久久精品无码国产一区二区三区| 午夜免费小视频| 国产va欧美va在线观看| 中日韩一区二区三区中文免费视频| 久久永久精品免费视频| 97av视频在线观看| 六月婷婷激情综合| 色婷婷亚洲综合五月| 中文字幕无码中文字幕有码在线 | 99久久国产综合精品女同| 欧美第二区| 日韩欧美国产综合| 国产在线观看精品| 免费一级毛片在线观看| 香蕉久久国产超碰青草| 青青青视频91在线 | 中文字幕免费在线视频| 综合网久久| 免费人成视网站在线不卡| 在线观看网站国产| 亚洲一级毛片在线观| 丝袜亚洲综合| 亚洲第一成网站| 亚洲一区二区三区香蕉| 免费视频在线2021入口| 国产在线一二三区| 欧美.成人.综合在线| 色妞永久免费视频| 日本成人精品视频| 欧美日本在线观看| 亚洲人妖在线| 精品91视频| 免费毛片网站在线观看| 亚洲欧美自拍中文| 久久性视频| 2022国产91精品久久久久久| 日韩av无码精品专区| 九色综合视频网| 呦女亚洲一区精品| 狠狠色狠狠色综合久久第一次| 免费一级毛片完整版在线看| 婷婷午夜天| 国产办公室秘书无码精品| 国产十八禁在线观看免费| 国产女人综合久久精品视| 久久77777| 国产三级成人| 永久免费无码成人网站| 亚洲国产中文精品va在线播放| 99er这里只有精品| 青草视频久久| 国产超薄肉色丝袜网站| 中文字幕 日韩 欧美| 久久久亚洲色| 国产二级毛片| 亚洲欧洲自拍拍偷午夜色| a在线亚洲男人的天堂试看| 免费a级毛片视频| 久久久久久久久亚洲精品| 3344在线观看无码| 国产乱子伦视频三区| 欧美特黄一级大黄录像| 婷婷在线网站| 国产成人超碰无码| 国产一级特黄aa级特黄裸毛片| 国产精品女主播| 欧美精品v欧洲精品| 18禁黄无遮挡免费动漫网站 | 国产精品网址在线观看你懂的| 欧美激情第一欧美在线| 国产精品尹人在线观看| 亚洲大尺码专区影院| 91网站国产| 久久久精品国产SM调教网站|