999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于互信息的顯著基因提取及轉錄調控網絡構建

2016-07-19 02:15:21牟曉陽
計算機應用與軟件 2016年6期

孔 薇 支 星 牟曉陽

1(上海海事大學信息工程學院 上海 201306)2(羅文大學生物化學系 新澤西 08028 美國)

?

基于互信息的顯著基因提取及轉錄調控網絡構建

孔薇1支星1牟曉陽2

1(上海海事大學信息工程學院上海 201306)2(羅文大學生物化學系新澤西 08028 美國)

摘要傳統特征基因提取方法往往只注重單個基因在不同樣本中的表達差異,忽視了基因之間的關聯性以及多個致病基因作為一個基因模塊與復雜疾病的聯系。針對這種情況,提出基于互信息MI(Mutual Information)的特征基因提取算法,提取在健康對照和阿爾茨海默癥AD(Alzheimer’s disease)患病樣本中關聯度具有明顯差異變化的基因作為特征基因。在此基礎上,結合轉錄因子TF(Transcription factor)對靶基因TG(Target gene)調控的生物學先驗信息,利用網絡成分分析NCA(Network Component Analysis)算法分析轉錄因子的表達活性及其對靶基因的調控強度,構建AD特征基因的轉錄調控網絡。分子生物學分析表明,它們在有絲分裂、細胞周期、免疫反應以及炎癥反應過程中的變化對AD的退化過程具有重要作用。

關鍵詞阿爾茨海默癥(AD)互信息(MI)轉錄因子(TF)網絡成分分析(NCA)

0引言

阿爾茨海默癥[1]AD是以進行性認知障礙和記憶力損害為主的中樞神經系統退行性病變。在過去的幾十年中,雖然已經提出了多種假說和許多公認的AD易感基因,但是AD的遺傳學機制和發病機制仍不清楚。對于探尋基因表達水平,轉錄因子TF活性以及轉錄調控機制變化,表現出的轉錄因子和靶基因TG的協調動態響應,將對于研究AD的致病機理具有重大意義。

近年來,隨著高通量技術的飛速發展,如DNA微陣列技術和統計學計算工具[2]使得生物信號大規模的測量,發現了AD有關的許多重要基因、共調控基因群以及轉錄調控網絡。此外,為了克服微陣列技術的基本缺點,如小樣本、基因數量大、測量誤差以及信息不全。一些其他的高通量技術,如蛋白質相互作用數據PPI(protein-proteininteraction)、轉錄因子和microRNA信息數據也相繼被整合,使得對于AD致病機理的研究有了更加充分的信息數據量。傳統的基因網絡分析模型如獨立成分分析[3]ICA(independentcomponentanalysis)并不能運用一些轉錄調控信息,并且只是純粹的基于調控信號的數學和統計特性,因此它們并不能準確地構建轉錄調控網絡。網絡成分分析[4]NCA是一種用來確定轉錄因子對靶基因調控影響和其活性強度的方法,算法思想是通過預先輸入基因表達數據和先驗給定的轉錄因子和其靶基因的連接信息,將基因表達數據轉化成TF活性水平和轉錄因子對其靶基因的調控影響。NCA已被用于許多研究,例如,應用于酵母細胞周期過程中,識別此前被忽視的振蕩活性模式[4]。

傳統的差異基因提取方法,往往是基于單條基因在健康對照和患病樣本中的表達水平差異,表達差異的大小表明了該基因與疾病的相關性大小。但是卻忽視了基因之間的關聯性以及多個致病基因作為一個基因模塊與復雜疾病的相關性。張煥萍等人基于互信息(MI)和最大團(clique)相結合的方法,挖掘出有關結腸癌(Colon)的差異共表達致病基因模塊[5]。本文從基因之間的關聯性角度出發,基于互信息方法,提取出在健康組樣本中關聯度低甚至沒有關聯性,而在患病樣本中關聯度高的基因,并將它們作為特征基因。該算法旨在通過計算任意兩條基因表達譜在兩類不同樣本中的互信息值,得出對應的互信息矩陣,然后圍繞這兩個互信息矩陣去構建一個圖的鄰接矩陣,最終通過這個鄰接矩陣挖掘出有關特征基因。該算法避免了傳統特征基因提取方法的單一性和片面性,從基因之間的關聯性出發,使結果具有生物學意義。在此基礎上,考慮到基因表達數據無法體現基因調控轉錄信息,所以將以上特征基因表達數據和轉錄因子調控靶基因信息數據進行整合,運用到NCA中得出了轉錄因子的表達活性及其對靶基因的調控強度,最終本文構建了在健康對照樣本和AD患病樣本中的轉錄調控網絡。分子生物學分析表明,TF活性的變化及其對TG的調控影響在AD的發病和惡化過程里起著重要作用,可通過這些成果為探索AD的發病機制增加新的思路和依據。

1算法

1.1基于互信息的特征基因提取

對于復雜的基因關系,熵和互信息的方法能有效抓住基因與基因之間的關聯性,能有效提取出復雜疾病的致病基因[6]。在信息論中,熵是用來衡量一個隨機變量出現的期望值。設基因變量X=[x1,x2,…,xs]是一個基因表達模式,S代表基因表達數據中的樣本的數量,則該基因表達模式的熵就是該模式所包含的信息量的度量。基因變量X的熵為:

(1)

聯合熵是指一對基因變量X和Y的不確定的度量,即:

(2)

對于兩個隨機變量X和Y,其互信息I(X,Y)就是其中一個變量能提供給另一個變量的信息量,即:

(3)

根據上述公式得出互信息最終公式為:

I(X,Y)=H(X)+H(Y)-H(X,Y)

(4)

根據互信息值分析2個基因變量間的關聯性,若互信息值較大,表明2個基因變量之間相關性較大,可認為這2條基因在生物學上存在著較強的關聯性;反之,若互信息值為0或者較小,則表明這兩條基因變量不相互包含任何信息,即在生物學上不存在關聯性。對于基因變量間的互信息計算,本文借助直方圖的思想[7],首先將基因表達數據全部離散化,分別求出基因的熵和基因之間的聯合熵,再根據式(4)就能得出基因變量間的互信息。

說起幫襯二字,那當然是寶玉爹首先幫了寶剛爹的。沒有寶玉爹的李代桃僵,就不會有寶剛爹一輩子的美滿婚姻。真的,盡管在鄉黨們的眼里,寶剛爹是個怕老婆的標兵,在香娭毑面前,從沒挺起胸抬起頭做過人,可俗話說得好,鞋合不合腳,只有自己知道,寶剛爹對香娭毑,是打自心眼里敬畏和滿意的。唯獨不滿意的一次,就是那次賽詩會,也就是香娭毑朗誦了愛毛主席的詩遭到寶剛爹的當場嗆白之后,香娭毑賭氣回南縣老家侄兒那里住了好些日子,還是寶剛爹親自去接才回到白家灣來。至于二狗伢說香娭毑與寶玉爹有那么一腿之事,鄉黨們似乎抱的是一種無所謂的態度,真也罷,假也罷,都有可能,都有道理,在鄉下,是沒有誰去認真追究的。

對于基因表達數據的微陣列矩陣E=(eij)N×S,其中N和S分別表示的基因的數量和數據樣本數,eij代表的是第i條基因在第j個樣本下的表達水平值。對于只包含兩類狀態的樣本,可將E分為Econtrol和Eaffected兩部分,即健康組和患病組樣本下的基因表達數據。通過計算Econtrol和Eaffected中的每對基因間的互信息,最終分別得到形狀為N×N的互信息矩陣Icontrol和Iaffected。基于互信息的性質,本文認為在健康組樣本里和其它基因相關性較小,即互信息值較小的基因稱為與其他基因失聯,而在患病樣本下該基因又與其他基因產生較大的相關性,即互信息值較高稱之為與其他基因密切關聯,則可以認為此類基因在疾病產生過程中從失聯狀態變化為表達異常且發揮著關聯作用勢必對疾病的產生具有重要作用,因此將此類基因作為特征基因。另外在疾病產生過程中,有些基因和其他基因的關系是從關聯狀態變化到失聯狀態,也將這些基因作為是特征基因,本文只考慮前者。提取此類特征基因的具體方法為:選擇2個閾值Tcontrol和Taffected(Tcontrol>Taffected),并對Icontrol和Iaffected進行如下算法操作:

ifi==j,thenIcontrol(i,j)=0else ifIcontrol(i,j)≥Tcontrol,thenIcontrol(i,j)=1elseIcontrol(i,j)=0

(5)

ifi==j,thenIaffected(i,j)=0else ifIaffected(i,j)≤Taffected,thenIaffected(i,j)=1elseIaffected(i,j)=0

(6)

I(i,j)=Icontrol(i,j)&Iaffected(i,j)

(7)

式(5)和式(6)的目的是將互信息矩陣Icontrol和Iaffected進行二值化運算。為了剔除基因的自相關干擾,可以發現兩式首先都對矩陣中的對角線元素進行了歸0。為了更好地看出兩類樣本中基因之間的關聯性變化,利用式(7)對兩類互信息矩陣進行元素之間的邏輯“與”運算構建出了矩陣I,借助這個矩陣去挖掘特征基因。為了更形象化的分析,將矩陣I類比為圖的鄰接矩陣,顯然每條基因就對應于圖的一個頂點。若元素I(i,j)=1,即Icontrol(i,j)=1且Iaffected(i,j)=1也就是Icontrol(i,j)≥Tcontrol且Iaffected(i,j)≤Taffected,表明第i條基因和第j基因在健康對照樣本中關聯性較大,而在患病樣本中關聯性較小,即認為在圖中表示這兩點有線段連接。反之,若元素I(i,j)=0,則認為在圖中表示這兩點無線段連接,互相孤立。本文為了提取出在健康組樣本中和其他基因關聯度較小,而在患病樣本中關聯度較大的基因作為特征基因,很顯然是挑出圖中的這些孤立點。因為這些孤立點即基因,絕大部分是屬于先在健康組樣本中和其他基因關聯度低甚至失聯,而在患病樣本關聯度高的基因。通過對這些基因的研究,對探尋AD致病基因、信號傳導通路及其轉錄調控過程具有重要意義。

1.2網絡成分分析算法原理

由于提取的特征基因表達數據無法體現出基因調控轉錄信息,本文結合轉錄因子對靶基因調控的生物學先驗知識,基于網絡成分分析算法,構建基因轉錄調控網絡。網絡成分分析NCA是一種用來分析轉錄網絡基因表達數據的算法,算法實質是根據基因表達數據和轉錄因子-靶基因調控關系的連通性網絡,推導出轉錄因子活性TFAs(transcriptionfactoractivities)和轉錄因子對其靶基因的調控強度CS(controlstrengths)。轉錄調控模型如下:

(8)

式中Ei(t)代表基因表達水平,TFAi(t)(j=1,2,…,L)表示的是轉錄因子活性,CSij表示的是轉錄因子j對基因i的調控強度,(t)和(0)分別表示的是指定條件t和參考條件0。將對數-線性變換作為標準化方法來近似此非線性系統,通過對數轉換后,式(8)的矩陣形式表示為:

[E]=[C][P]+Γ

(9)

式中矩陣[E](N×M)代表N個基因在M個樣本下的基因表達矩陣,矩陣[C](N×L)表示的是轉錄因子對靶基因的調控強度矩陣以及矩陣[P](L×M)表示的是L個轉錄因子在M個樣本下的表達活性矩陣,N表示基因數量,M表示實驗樣本個數以及L表示的是轉錄因子個數,此外Γ該模型的殘差矩陣。若基因i不被轉錄因子j所調控,那么就將調控矩陣[C]中的元素Cij初始值設置為零;反之,則將元素Cij初始值設置為非零值。

由于基因表達矩陣[E]分解成因子矩陣并不具有唯一性,文獻[4]已證明,若矩陣[C]和[P]滿足唯一性條件,NCA算法能確保得到唯一解,來達到對任何給定的殘差矩陣Γ的比例因子。此條件很明確地將NCA結果銜接到生物系統上,使解釋簡單明了。為了找出式(9)的最優解,最小二乘法約束被運用:

min‖[E]-[C][P]‖2s.tC∈Z0

(10)

式中矩陣Z0是連接模式矩陣,[C]和[P]的實際估計是通過兩步交替最小二乘算法實現,該算法利用的是線性分解的雙凸性。最小二乘約束法等價于具有獨立同分布成分的高斯噪聲存在下的最大似然方法。對于NCA算法,詳見文獻[4]。

2仿真結果與分析

2.1基于互信息算法的特征提取結果分析

本文選用的實驗數據是來自美國國立生物技術信息中心NCBI(nationalcenterforbiotechnologyinformation)網站的基因表達綜合數據庫GEO(geneexpressionomnibus,http://www.ncbi.nlm.nih.gov/gds/)中的數據集GSE5281。該AD數據集是由LiangWS等人提供的,包含了161組不同大腦皮層組織樣本的基因表達數據[8],本文選用的是海馬區HIP(Hippocampus)基因表達數據,它擁有13個健康對照樣本和10個患病樣本及每組樣本包括54 675個基因探針所對應基因表達數據。

對于數據的預處理,本文首先將數據進行歸一化,目的是將所有基因表達數據值都映射到[-1,1]區間中,然后通過公式(1)計算每條基因的信息熵,挑出信息熵值大的基因。將信息熵應用于基因表達數據,如某基因信息熵越大,表明該基因在樣本中含有的信息量越大,分類貢獻率也就越大;反之,信息熵越小,該基因信息量越小,分類貢獻率越低。最終通過計算,選擇了5000條基因。分別計算這5000條基因在健康對照樣本和患病樣本中的互信息值,得到了兩個互信息矩陣,既Icontrol和Iaffected。對于閾值Tcontrol和Taffected的選取是本文基于互信息方法提取特征基因的關鍵。若Tcontrol值選取過大同時Taffected值選取過小,會造成得到的特征基因數量過多;若Tcontrol值選取過小同時Taffected值選取過大,會造成得到的特征基因數量過少,甚至提取不到AD易感基因。這些問題都將直接影響本文后面基于NCA算法調控網絡的構建。對得到的這兩個互信息矩陣進行式(5)-式(7)處理,經過多次驗證,最終設定Tcontrol=2.3,Taffected=1.7得到實對稱矩陣I,通過對該鄰接矩陣的每行或每列進行求和運算。和值越大,表明這條基因在健康組樣本中和許多基因關聯,反之和值為0的基因,則說明它們在健康組樣本中并不和其它基因關聯,且它們絕大部分是在患病樣本中和許多基因關聯的。通過剔除和值非0的點,本文挖掘出了493個基因作為特征基因。這些基因中絕大部分是在健康對照樣本里與其它基因失聯,而在AD患病樣本中卻和其他基因強關聯。

2.2NCA結果分析

通過NCA算法推斷轉錄因子的活性和轉錄因子對靶基因的調控強度,目的是為了挖掘出在健康對照和AD患病樣本中的轉錄調控網絡。本文選用網站BIOBASE(http://www.gene-regulation.com)中的TRANSFAC公共數據庫,該數據庫擁有許多現有的轉錄因子調控靶基因的信息。為了找尋AD有關的關鍵轉錄因子,本文將前面互信息提取方法所得到的重要特征基因和該TF-TG調控關系數據庫進行匹配,選擇了調控特征基因數量最多的前17個轉錄因子。表1給出了這17個轉錄因子及其所對應調控的靶基因。對健康對照和AD患病樣本數據,分別運行NCA之前,需要建立兩個輸入:一個是矩陣[E],它表示的是原始AD基因表達數據所提供的在健康對照或患病樣本中的靶基因基因表達譜;另一個是預定義的初始連接矩陣[C0],它表示的是轉錄因子對靶基因的調控關系,若TF調控TG,則令其對應的連接矩陣[C0]中的元素值為1,反之值為0。通過NCA算法,最終篩選出了17個轉錄因子和46個靶基因,并且由此得出了轉錄因子分別在健康組樣本和患病樣本下的表達活性和其對靶基因的調控強度。

基因的轉錄是通過一小部分轉錄因子控制的,通過翻譯后修飾或配體結合過程,它們的表達活性對于基因的表達水平來說是決定性的因素。一般而言,轉錄因子活性水平(TFAs)并不總是和它們的基因表達譜TFEV(geneexpressionvaluesofTF)呈現出正相關。圖1給出了所有轉錄因子的表達活性和它們在AD原始微陣列數據中的基因表達譜的變化對比,其中端點帶有圓形標注的線段表示的是轉錄因子在不同樣本中的表達活性變化;而帶有上三角形標注的線段表示的是轉錄因子在不同樣本中的基因表達水平變化。另外圖1,X軸中點“1”對應健康對照樣本,點“2”對應患病樣本及Y軸對應轉錄因子活性或基因表達水平值。圖1每個子圖都顯示了轉錄因子在不同病程樣本里的活性和基因表達強度,可以明顯發現從健康樣本到患病樣本過程中,表達活性明顯下降的轉錄因子有:ANAPC5,BUB3,DRAP1,MCM4,NAT13,THOC4,ZNF317;表達活性明顯上升的轉錄因子有:G3BP1,HNRPD,MRPL44,MRPS12,NLRP1,RFC5,ZBTB20。另外從轉錄因子的活性和基因表達強度的相關性分析,呈現正相關性的有:ANAPC5,BUB3,DRAP1,G3BP1,MCM4,MRPL44,MRPS12,NAT13,NLRP1,ZNF317,THOC4,ZBTB20;呈現負相關性的有:HNRPD,RFC5。

表1 選取的轉錄因子與其對應的靶基因

續表1

2.3AD動態調控網絡分析

基于NCA算法所得到的轉錄因子活性矩陣[P],調控矩陣[C]以及原始微陣列靶基因表達數據,本文構建了在健康對照樣本和AD患病樣本下的轉錄調控網絡圖,如圖2和圖3所示。為了更加形象地看出所有轉錄因子及靶基因的動態變化趨勢,對構建調控網絡所用到的數據首先都進行了歸一化,其中靶基因的表達值由矩陣[E]中基因在對應樣本中取均值所得,轉錄因子的表達活性由矩陣[P]中轉錄因子在對應樣本中取均值所得,而轉錄因子對靶基因的正負調控作用由矩陣[C]中轉錄因子對靶基因的調控值的正負來定性表示。圖2和圖3中圓形節點表示轉錄因子,方形節點表示靶基因,三角形節點表示AD易感基因;節點顏色越深表示其表達水平越高或越低;連線則表示轉錄因子對靶基因有正負調控作用。

圖2 健康對照樣本轉錄調控網絡圖

圖3 AD患病樣本轉錄調控網絡圖

從構建的轉錄調控網絡圖以及表1可見,多個轉錄因子可以共同調控一個靶基因,多個靶基因也可以被一個轉錄因子共同調控,即靶基因的表達受到一個或多個轉錄因子的表達活性的綜合影響。如圖中轉錄因子DRAP1,G3BP1,MRPL44,NAT13,RNGTT共同調控靶基因IDE,與健康組樣本對照,可以看出IDE的表達水平下降(顏色從深色到淺色),而轉錄因子G3BP1在患病樣本中被極大的激活(顏色深度加重),其中IDE是目前已知的AD易感基因[9],G3BP1對肺癌和乳腺癌擴散具有中介效應[10,11],并且文獻[11]指出RAS-GAPSH3結構域結合蛋白(G3BP)是基因USP10的調制器,巧合的是網絡中G3BP1調控的多個靶基因中就包括基因USP10,與健康組樣本對照,可以看出USP10的表達水平升高。從中可以推斷,G3BP1與AD的發生密切相關。轉錄調控圖中如靶基因TFAM被轉錄因子THOC4,BUB3,MCM4,RNGTT共同調控,與健康組樣本對照,可以看出TFAM的表達水平升高(顏色從深色到淺色),BUB3在AD患病樣本中活性明顯降低;其中線粒體轉錄因子(TFAM)多態性與AD有關[12],BUB3是構成有絲分裂紡錘體配置復合物的關鍵組成部分,能生成其他重要蛋白復合物[13]。在健康對照和AD患病網絡圖中特定的轉錄因子對于同一個靶基因的調控影響作用不一定相同,如轉錄因子NLRP1對于靶基因GPR12的調控一直都是促進作用;然而轉錄因子ANAPC5對于靶基因ACTR2的調控作用,在健康組樣本中對其是抑制的,而在患病樣本中對其表達起促進作用。其中基因GPR12涉及到細胞增殖和存活的調控[14],ACTR2又名ARP2,文獻[15]指出ARP2/3的丟失會導致趨化信號傳導中的NF-κB依賴性,是非自治的影響。炎性體(Inflammasomes)是專門的信令平臺,對于先天免疫和炎癥反應的調節至關重要,各種NLR家族成員(如NLRP1,NLRP3和IPAF等)以及PYHIN家族成員AIM2可形成炎性體復合物。ChoiAJ等人發現了激活NLRP3炎性信號通路的調控機制,并討論了在代謝和認知性疾病,包括肥胖癥、2型糖尿病、阿爾茨海默癥(AD)和抑郁癥中NLRP3的潛在作用[16]。對于轉錄因子ANAPC5,與健康組樣本對照發現,其在患病樣本中活性被抑制,它是APC的一個亞基,并且APC對于細胞在分裂后期退出有絲分裂過程以及防止其過早進入DNA合成期(S期)有著重要作用[17]。通過在線基因分析網站DAVID(http://david.abcc.ncifcrf.gov/)對涉及到的所有靶基因和轉錄因子進行定性分析,該網站包括許多基因分析數據庫,如常見的KEGG[18](KyotoEncyclopediaofGenesandGenomes)和GO[19](geneontology)數據庫。針對KEGG通路發現,ANAPC5不僅和BUB3,MCM4,E2F3形成了細胞周期通路,也和其它基因參與了泛素介導的蛋白水解過程通路,這也進一步證明了ANAPC5對于AD的發病機理可能起著重要作用。

此外,對于轉錄調控網絡的定性分析,也發現了許多與常見癌癥密切相關的靶基因和轉錄因子。如轉錄因子HNRPD又名AUF1,它的表達與肝癌的惡化過程有著密切關系、對于在淋巴結陽性乳腺癌患者中EIF4E的高表達可能是全身擴散的標志和抑制素(PHB)表現為細胞增殖的負調節劑以及是一種腫瘤抑制劑以及SIRT3是作為乳腺癌腫瘤抑制蛋白等。針對以上這些分析結果可知,AD與癌癥或者其它疾病之間其實并不是彼此孤立的,它們的致病機理可能是有內在聯系的。本文通過對AD調控網絡的全面生物學分析,發現了一些AD致病原因,其中發現它們中有一些都與有絲分裂、細胞生長、免疫反應和炎癥反應有著密切關系。在以后的研究里,將集中圍繞與AD有關的有絲分裂、細胞生長、免疫反應和炎癥反應過程,為的是去發現真正的AD致病機理。

3結語

微陣列高通量技術的運用,使得所有mRNA轉錄產物可以同時測量,從而讓構建基因調控網絡成為可能。傳統的基因網絡分析模型如ICA并不能運用轉錄調控信息,并且只是純粹的基于調控信號的數學和統計特性,因此它們并不能準確地構建調控網絡。本文從基因之間的關聯性出發,首先利用互信息(MI)提取特征基因,探尋AD發病過程中明顯發生關聯作用的基因組;然后將所得的特征基因與轉錄調控信息進行融合挖掘出AD關鍵轉錄因子;最后通過NCA算法推斷出轉錄因子在不同樣本下的活性和其對靶基因的調控強度,并成功構建出轉錄調控網絡。通過對AD調控網絡的分子生物學分析,發現了與AD密切相關的基因IDE和TFAM;與細胞周期有關的基因ANAPC5,BUB3 等;與炎癥反應有關的基因NLRP1等。這些基因以及生物過程都與AD的致病機理有著緊密的聯系。另外,通過AD調控網絡分析,本文也發現了許多與癌癥有關的基因。這些發現可能有助于為AD致病機理的研究提供新的依據和方法。

參考文獻

[1]BrookmeyerR,JohnsonE,Ziegler-GrahamK,etal.ForecastingtheglobalburdenofAlzheimer’sdisease[J].Alzheimer’s&dementia,2007,3(3):186-191.

[2]KaissiO,NimpayeE,SinghTR,etal.GenesSelectionComparativeStudyinMicroarrayDataAnalysis[J].Bioinformation,2013,9(20):1019.

[3]Hyv?rinenA,OjaE.Independentcomponentanalysis:algorithmsandapplications[J].Neuralnetworks,2000,13(4):411-430.

[4]LiaoJC,BoscoloR,YangYL,etal.Networkcomponentanalysis:reconstructionofregulatorysignalsinbiologicalsystems[J].ProceedingsoftheNationalAcademyofSciences,2003,100(26):15522-15527.

[5] 張煥萍,王惠南,盧光明,等.基于互信息的差異共表達致病基因挖掘方法[J].東南大學學報:自然科學版,2009,39(1):151-155.

[6] 孫嘯,陸祖宏,謝建明.生物信息學基礎[M].清華大學出版社有限公司,2005.

[7]SteuerR,KurthsJ,DaubCO,etal.Themutualinformation:detectingandevaluatingdependenciesbetweenvariables[J].Bioinformatics,2002,18(suppl2):S231-S240.

[8]LiangWS,ReimanEM,VallaJ,etal.Alzheimer’sdiseaseisassociatedwithreducedexpressionofenergymetabolismgenesinposteriorcingulateneurons[J].ProceedingsoftheNationalAcademyofSciences,2008,105(11):4441-4446.

[9]CuiPJ,CaoL,WangY,etal.Theassociationbetweentwosinglenucleotidepolymorphismswithintheinsulin-degradingenzymegeneandAlzheimer’sdiseaseinaChineseHanpopulation[J].JournalofClinicalNeuroscience,2012,19(5):745-749.

[10]WinslowS,LeanderssonK,LarssonC.RegulationofPMP22mRNAbyG3BP1affectscellproliferationinbreastcancercells[J].Molecularcancer,2013,12(1):156.

[11]SonciniC,BerdoI,DraettaG.Ras-GAPSH3domainbindingprotein(G3BP)isamodulatorofUSP10,anovelhumanubiquitinspecificprotease[J].Oncogene,2001,20(29):3869-3879.

[12]ZhangQ,YuJT,WangP,etal.MitochondrialtranscriptionfactorA(TFAM)polymorphismsandriskoflate-onsetAlzheimer’sdiseaseinHanChinese[J].Brainresearch,2011,1368:355-360.

[13]KumarA,RajendranV,SethumadhavanR,etal.CEPproteins:theknightsofcentrosomedynasty[J].Protoplasma,2013,250(5):965-983.

[14]LuX,ZhangN,MengB,etal.InvolvementofGPR12intheregulationofcellproliferationandsurvival[J].Molecularandcellularbiochemistry,2012,366(1-2):101-110.

[15]WuC,HaynesEM,AsokanSB,etal.LossofArp2/3inducesanNF-κB-dependent,nonautonomouseffectonchemotacticsignaling[J].TheJournalofcellbiology,2013,203(6):907-916.

[16]ChoiJS,RyterSW.Inflammasomes:MolecularRegulationandImplicationsforMetabolicandCognitiveDiseases[J].Moleculesandcells,2014,37(6):441-448.

[17]LatchmanDS.Transcriptionfactors:anoverview[J].Internationaljournalofexperimentalpathology,1993,74(5):417.

[18]KanehisaM,GotoS,KawashimaS,etal.TheKEGGresourcefordecipheringthegenome[J].Nucleicacidsresearch,2004,32(suppl1):D277-D280.

[19]YangAC,HsuHH,LuMD.Applyinggeneontologytomicroarraygeneexpressiondataanalysis[C]//SystemScienceandEngineering(ICSSE),2010InternationalConferenceon.IEEE,2010:421-426.

SIGNIFICANT GENES EXTRACTION BASED ON MUTUAL INFORMATION ANDTRANSCRIPTIONALREGULATORYNETWORKRECONSTRUCTION

Kong Wei1Zhi Xing1Mou Xiaoyang2

1(Information Engineering College,Shanghai Maritime University,Shanghai 201306,China)2(Department of Chemistry and Biochemistry,Rowan University,NJ 08028,USA)

AbstractTraditional feature genes extraction methods tend to focus only on the expression difference of a single gene in different samples, but ignore the correlation among genes as well as the links between multiple pathogenic genes as one gene module and complex diseases. In view of this, we proposed a mutual information-based feature genes extraction algorithm, it is used to extract those genes that have the most significant differences and changes in correlation between the healthy controls and Alzheimer’s disease (AD) samples. On this basis, in combination with the biological priori information about the regulatory of transcription factors (TF) on target gene (TG), we applied network component analysis algorithm (NCA) in analysing TF’s expression activities and their regulatory strengths on TGs, and constructed the transcriptional regulatory networks of AD feature genes. Molecular biology analysis showed that the changes of them in mitosis, cell cycle, immune response and inflammation play an important role in deterioration of AD.

KeywordsAlzheimer’s disease (AD)Mutual information (MI)Transcription factor (TF)Network component analysis (NCA)

收稿日期:2014-12-31。國家自然科學基金項目(61271446)。孔薇,教授,主研領域:生物信息處理,模式識別。支星,碩士生。牟曉陽,教授。

中圖分類號TP391.9Q343.1

文獻標識碼A

DOI:10.3969/j.issn.1000-386x.2016.06.057

主站蜘蛛池模板: 青青热久免费精品视频6| 久久福利网| 少妇精品在线| 国产黄色爱视频| 一本久道热中字伊人| 国产国产人成免费视频77777| 午夜国产不卡在线观看视频| 福利在线免费视频| 欧美国产菊爆免费观看| 成年av福利永久免费观看| 免费在线不卡视频| 成人日韩精品| 福利姬国产精品一区在线| 中文无码精品a∨在线观看| 亚洲精品少妇熟女| 成人午夜天| 91精品国产麻豆国产自产在线| 色婷婷亚洲综合五月| 婷婷六月综合网| 天堂av高清一区二区三区| 亚洲三级片在线看| 亚洲一区精品视频在线| 一本一道波多野结衣一区二区| 97影院午夜在线观看视频| 国产精品污视频| 91精品在线视频观看| 国产噜噜噜视频在线观看| 色天天综合久久久久综合片| 国产69囗曝护士吞精在线视频| 91人人妻人人做人人爽男同| 日韩福利视频导航| 国产精品99一区不卡| 成人在线第一页| 九九热精品视频在线| 蜜桃臀无码内射一区二区三区 | 精品乱码久久久久久久| 992tv国产人成在线观看| 99久久精品美女高潮喷水| 国产特级毛片aaaaaaa高清| 精品国产一区二区三区在线观看| 精品视频91| 久久久久久午夜精品| 国产又色又刺激高潮免费看| 精品一區二區久久久久久久網站| 亚洲精品国产成人7777| 日本亚洲欧美在线| 视频在线观看一区二区| 久草热视频在线| 9啪在线视频| 国产成人毛片| 久久综合五月| 国产极品美女在线观看| 9966国产精品视频| 国产亚洲精品无码专| 最新国语自产精品视频在| 91麻豆精品国产高清在线| 91蜜芽尤物福利在线观看| 丰满人妻久久中文字幕| 激情爆乳一区二区| 久久人午夜亚洲精品无码区| 亚洲一区精品视频在线| 一区二区午夜| 国产69囗曝护士吞精在线视频| 国产专区综合另类日韩一区 | 成人福利在线视频免费观看| 国产精女同一区二区三区久| 人妻中文字幕无码久久一区| 91欧美在线| 538国产视频| 国产人在线成免费视频| 国产精品成人啪精品视频| 国产精品久久久久久久久kt| 国产在线视频二区| 丁香婷婷综合激情| 国产精品白浆无码流出在线看| 亚洲中文精品人人永久免费| 狠狠色综合网| 亚洲欧美一区二区三区蜜芽| 国产成人亚洲毛片| 久久精品国产999大香线焦| 久久香蕉国产线看观| 欧美不卡在线视频|