999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基因組學(xué)數(shù)據(jù)的網(wǎng)絡(luò)構(gòu)建與分析方法*

2017-03-09 08:35:23哈爾濱醫(yī)科大學(xué)衛(wèi)生統(tǒng)計學(xué)教研室150081王文杰
中國衛(wèi)生統(tǒng)計 2017年1期
關(guān)鍵詞:方法

哈爾濱醫(yī)科大學(xué)衛(wèi)生統(tǒng)計學(xué)教研室(150081) 王文杰 侯 艷 李 康

·綜述·

基因組學(xué)數(shù)據(jù)的網(wǎng)絡(luò)構(gòu)建與分析方法*

哈爾濱醫(yī)科大學(xué)衛(wèi)生統(tǒng)計學(xué)教研室(150081) 王文杰 侯 艷 李 康△

基因組學(xué)數(shù)據(jù)具有超高維數(shù)、變量間作用關(guān)系復(fù)雜的特點(diǎn),對其進(jìn)行數(shù)據(jù)分析的方法研究面臨巨大的挑戰(zhàn)[1]。網(wǎng)絡(luò)研究能夠直觀地反映出基因之間的相互作用關(guān)系,這不僅有助于特征標(biāo)志物的篩選,增加篩選結(jié)果的可解釋性,而且還能從分子水平闡述復(fù)雜的生物過程及各疾病的發(fā)病機(jī)制[1-2]。基因調(diào)控網(wǎng)絡(luò)推斷的本質(zhì)是在不同影響因素條件下,通過測序得到各基因表達(dá)水平,利用各種方法和統(tǒng)計學(xué)指標(biāo),對不同基因表達(dá)的依賴關(guān)系進(jìn)行衡量并排序,從而構(gòu)建出潛在的基因調(diào)控網(wǎng)絡(luò),還原出網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)[3]。本文對近年新提出和發(fā)展的幾種主要的網(wǎng)絡(luò)分析方法做一綜述。

網(wǎng)絡(luò)推斷方法

1.基于互信息的網(wǎng)絡(luò)分析

兩個變量關(guān)系的分析可以使用Pearson相關(guān)系數(shù)和Spearman相關(guān)系數(shù)的計算方法。然而,由于基于相關(guān)系數(shù)的方法無法識別表達(dá)模式之間更復(fù)雜的統(tǒng)計依賴關(guān)系(如非線性關(guān)系),因此提出了基于互信息(mutual information,MI)的網(wǎng)絡(luò)構(gòu)建方法[4]。互信息可以看成是一個隨機(jī)變量包含另一個隨機(jī)變量信息量大小的統(tǒng)計量。兩個基因間的互信息值可用于描述兩基因間的統(tǒng)計相關(guān)性的大小,MI值大于給定閾值則認(rèn)為相應(yīng)的兩個基因有調(diào)控連接[4-6]。采用MI衡量變量間的關(guān)聯(lián)性時,要求數(shù)據(jù)為離散型數(shù)據(jù),如果檢測結(jié)果為連續(xù)型變量(如基因的表達(dá)水平),則需要用光滑的樣條函數(shù)來計算互信息[7]。一些研究者在互信息理論的基礎(chǔ)上提出了用來區(qū)分網(wǎng)絡(luò)中直接和間接相互作用邊的改進(jìn)方法,主要有環(huán)境相關(guān)似然度算法(context likelihood of relatedness,CLR)和準(zhǔn)確胞狀網(wǎng)絡(luò)重建算法(algorithm for the reconstruction of accurate cellular networks,ARACNE)。其中,CLR算法是根據(jù)所計算出的MI值的經(jīng)驗分布修改MI得分,ARACNE算法則是利用互信息理論中的數(shù)據(jù)處理不等式(data processing inequality)這一性質(zhì),以每三個基因為搜索單元,將三個基因中的間接邊過濾掉,具體算法如下:

(1)基礎(chǔ)的互信息算法 兩個隨機(jī)的基因變量(x,y)的互信息值為

(1)

其中,I(x;y)代表基因x和基因y間的互信息,p(x)和p(y)分別為基因x和基因y的邊際概率分布,p(x,y)為兩基因的聯(lián)合概率分布[5]。由于互信息統(tǒng)計量的計算要求數(shù)據(jù)為離散型,而微陣列得到的基因表達(dá)數(shù)據(jù)為連續(xù)型,因此需要先使用B樣條平滑函數(shù)(B-spline smoothing)和數(shù)據(jù)離散化方法將數(shù)據(jù)離散化[7]。最后按照轉(zhuǎn)錄因子與目標(biāo)基因間的互信息值大小排序,構(gòu)造出網(wǎng)絡(luò)結(jié)構(gòu)。

(3)準(zhǔn)確胞狀網(wǎng)絡(luò)重建算法(ARACNE) 不同于CLR算法,ARACNE算法是在兩隨機(jī)變量的互信息值基礎(chǔ)上,通過修剪作用濾除互信息值較小的間接邊[6]。其基本思想:首先使用高斯核估計量來估計互信息值[9],與公式(1)不同的是,兩個基因(x,y)間的互信息值通過使用二元標(biāo)準(zhǔn)正態(tài)密度函數(shù),將概率的計算轉(zhuǎn)變?yōu)楹瘮?shù)的計算,公式如下:

(2)

其中,N為樣本量,f(xi)和f(yi)分別表示隨機(jī)變量基因x和y的邊際概率轉(zhuǎn)化成的高斯核函數(shù),f(xi,yi)表示隨機(jī)基因變量x和y的聯(lián)合概率轉(zhuǎn)化成的高斯核函數(shù)。根據(jù)上述公式,在計算出一個由任意兩個輸入基因x,y的互信息值MIxy組成的矩陣后,根據(jù)大偏差理論(large deviation theory)[10],計算出所求的互信息值MIxy大于設(shè)定的閾值的概率,將大于閾值且顯著的邊保留,移除不顯著的邊,從而構(gòu)建出網(wǎng)絡(luò)結(jié)構(gòu)。

以往基于互信息的網(wǎng)絡(luò)構(gòu)建方法存在一定的局限性,即當(dāng)兩基因間存在一個或多個中介基因時,這兩個基因間便存在間接調(diào)控關(guān)系,導(dǎo)致網(wǎng)絡(luò)推斷性能評價中的假陽性率的上升。為此ARACNE算法基于數(shù)據(jù)處理不等式的理論,對選入的邊進(jìn)行修剪[10],即在一個已知的基因調(diào)控網(wǎng)絡(luò)中,數(shù)據(jù)處理不等式會刪除那些間接邊作用。例如對于一個簡單的網(wǎng)絡(luò)(gi?gj,gj?gk,gi?gk),如果I(gi;gj)≤min[I(gi;gk),I(gj;gk)],則gi和gj之間的邊將視為間接邊被修剪移除。ARACNE算法對選入的調(diào)控關(guān)系中所連接的間接邊結(jié)構(gòu)的三個基因進(jìn)行搜索識別,并移除三條邊中互信息值最小的邊,經(jīng)過修剪后的調(diào)控邊再根據(jù)其互信息值進(jìn)行排序。

對于結(jié)構(gòu)較為簡單的網(wǎng)絡(luò),只要高斯核估計計算的互信息值MIij準(zhǔn)確,則由ARACNE算法構(gòu)建出來的網(wǎng)絡(luò)將能準(zhǔn)確地移除間接邊,對于所連接的兩基因(i,j)間的互信息值和任意一個中間基因k,都能保證Iij≥min(Ijk,Iik)。因此,在互信息基礎(chǔ)上通過數(shù)據(jù)處理不等式修剪后的ARACNE算法,能夠更準(zhǔn)確地推斷基因調(diào)控網(wǎng)絡(luò)。Chávez等人在研究擬南芥根的轉(zhuǎn)錄調(diào)控關(guān)系時,使用了ARACNE算法構(gòu)建其調(diào)控網(wǎng)絡(luò)結(jié)構(gòu),成功驗證了之前相關(guān)研究提出的根轉(zhuǎn)錄模型,并基于此網(wǎng)絡(luò)結(jié)構(gòu)提出了SHORT ROOT/SCARECROW和PLETHORA通路上的新轉(zhuǎn)錄因子[11]。

當(dāng)網(wǎng)絡(luò)結(jié)構(gòu)較為復(fù)雜時,如基因i和j間可能存在不止一個中介基因,或者當(dāng)基因i和基因j在三個基因?qū)?i,j,k)中為直接作用,而在另外的三個基因?qū)?i,j,p)中為間接作用的情況下,ARACNE算法將無法識別基因i和基因j的相互作用關(guān)系。在此基礎(chǔ)上,Jang提出了高階ARACNE算法,其不僅考慮了兩基因間的一階間接作用,還通過高階數(shù)據(jù)處理不等式來處理更高階的間接作用,因此能夠識別兩基因間更多的中介基因,顯著提高了復(fù)雜調(diào)控網(wǎng)絡(luò)推斷的準(zhǔn)確性[12]。

2.動態(tài)貝葉斯網(wǎng)絡(luò)構(gòu)建方法

貝葉斯網(wǎng)絡(luò)是一種概率圖形模型,它以有向無環(huán)圖的形式反映了一組變量之間潛在的依賴和獨(dú)立關(guān)系[13]。有向無環(huán)圖中,如存在一條從節(jié)點(diǎn)A指向節(jié)點(diǎn)B的有向邊,那么有向邊所指向的B節(jié)點(diǎn)稱為子節(jié)點(diǎn),A節(jié)點(diǎn)稱為父節(jié)點(diǎn)。若兩節(jié)點(diǎn)之間沒有直接相連的邊則表示這兩個節(jié)點(diǎn)相互獨(dú)立,這就是貝葉斯網(wǎng)絡(luò)的主要原理,稱為馬爾科夫條件。根據(jù)馬爾科夫條件,每個節(jié)點(diǎn)的條件分布概率只與其父節(jié)點(diǎn)有關(guān),這樣能夠大大地簡化整個網(wǎng)絡(luò)的聯(lián)合概率分布,使得其計算上可行。對于一個貝葉斯網(wǎng)絡(luò)圖,記隨機(jī)變量集為X={X1,X2,…,Xn},Xi代表網(wǎng)絡(luò)圖中對應(yīng)的節(jié)點(diǎn),Pa(Xi)代表Xi節(jié)點(diǎn)處的父節(jié)點(diǎn)集,則貝葉斯網(wǎng)絡(luò)為指定集合X的唯一聯(lián)合概率分布

(3)

為確定以上的聯(lián)合概率,需要確定所有上訴式中出現(xiàn)的條件概率,所有的這些條件概率組成了參數(shù)向量集合P,貝葉斯網(wǎng)絡(luò)的構(gòu)建就是找出一個最優(yōu)的網(wǎng)絡(luò)B=(G,P),能夠真實地反映現(xiàn)有數(shù)據(jù)集中各個變量之間的依賴關(guān)系[14]。

但是傳統(tǒng)的靜態(tài)貝葉斯網(wǎng)絡(luò)的主要缺點(diǎn)是:①在樣本量小時,很難從一個極為復(fù)雜的數(shù)據(jù)中得出最好的模型;②模型不允許循環(huán)(反饋環(huán))結(jié)構(gòu)的存在,因此無法描述X1→X2→X3→X1這樣的環(huán)狀反饋結(jié)構(gòu),但是在生物學(xué)過程中包含了很多這樣循環(huán)調(diào)控過程,因而靜態(tài)貝葉斯在構(gòu)建網(wǎng)絡(luò)結(jié)構(gòu)上有著很大的限制[13]。為解決這一問題,提出了動態(tài)貝葉斯網(wǎng)絡(luò),動態(tài)貝葉斯網(wǎng)絡(luò)是一般靜態(tài)貝葉斯網(wǎng)絡(luò)擴(kuò)展時間維度的版本,即在原來網(wǎng)絡(luò)結(jié)構(gòu)上加上時間屬性,并且很多靜態(tài)貝葉斯算法的思想都可以沿用到動態(tài)貝葉斯網(wǎng)絡(luò)的構(gòu)建上[13,15]。構(gòu)建動態(tài)貝葉斯網(wǎng)絡(luò)一般分為三個步驟:

(1)確定需要分析的變量及其取值范圍 由于貝葉斯網(wǎng)絡(luò)方法需要計算整個網(wǎng)絡(luò)的聯(lián)合概率分布,在實際問題中變量數(shù)目往往較大,直接將所有變量納入網(wǎng)絡(luò)的構(gòu)建,不僅會增加運(yùn)算的復(fù)雜度,而且構(gòu)建出來的網(wǎng)絡(luò)模型過于復(fù)雜,變量間的相互作用無法解釋,甚至由于混雜因素得出無法合理解釋的生物學(xué)結(jié)構(gòu)。因此在構(gòu)建網(wǎng)絡(luò)前,需要對變量進(jìn)行變量篩選,根據(jù)研究目的選擇有價值的變量構(gòu)建網(wǎng)絡(luò)模型,并確定這些變量的取值范圍。

(2)確定網(wǎng)絡(luò)結(jié)構(gòu) 又稱為結(jié)構(gòu)學(xué)習(xí)(structure learning),即通過給定的樣本數(shù)據(jù)集進(jìn)行學(xué)習(xí),從中選出最能代表各變量關(guān)系的網(wǎng)絡(luò)結(jié)構(gòu)。貝葉斯網(wǎng)絡(luò)的結(jié)構(gòu)學(xué)習(xí)方法可分為基于約束算法和基于搜索得分算法,以及這兩種算法的混合算法。基于約束算法通過條件獨(dú)立性檢驗(conditional independence test)來判斷變量間的依賴和獨(dú)立關(guān)系。基于搜索得分算法則通過定義一個得分方程,用以評價不同網(wǎng)絡(luò)結(jié)構(gòu)對數(shù)據(jù)的擬合程度,得分越高,表示網(wǎng)絡(luò)結(jié)構(gòu)對數(shù)據(jù)擬合越好,選擇得分最高的網(wǎng)絡(luò)結(jié)構(gòu)作為最佳網(wǎng)絡(luò)結(jié)構(gòu)。混合算法,即首先通過基于約束算法學(xué)習(xí)得出無方向的網(wǎng)絡(luò)框架,然后利用搜索得分算法為網(wǎng)絡(luò)中的邊確定方向。

(3)確定局部概率分布 又稱為參數(shù)學(xué)習(xí)(parameter learning),指基于第二步確定的網(wǎng)絡(luò)結(jié)構(gòu),對給定的樣本數(shù)據(jù)進(jìn)行學(xué)習(xí),確定各節(jié)點(diǎn)處的局部條件概率。由于各節(jié)點(diǎn)加入了時間因素,在動態(tài)貝葉斯網(wǎng)絡(luò)中節(jié)點(diǎn)的集合是包含時間因素的隨機(jī)過程,需要得知每個隨機(jī)變量Xi在各個時間點(diǎn)Xi,1,Xi,2,…,Xi,t上的概率分布。動態(tài)貝葉斯網(wǎng)絡(luò)模型需要滿足以下假設(shè)條件:

① 在一個有限時間內(nèi),所有時間點(diǎn)上的條件概率的變化過程一致。

② 動態(tài)概率過程依然滿足馬爾科夫條件,P(Xt+1|X1,X2,…,Xt)=P(Xt+1|Xt),即未來時刻的概率只與當(dāng)前時刻有關(guān),而與過去時刻無關(guān)。

③ 相鄰時間的條件概率過程是穩(wěn)定的,即P(Xt+1|Xt)與時間t無關(guān),因此可以得到不同時間的轉(zhuǎn)移概率。

基于以上的假設(shè),時間序列的動態(tài)貝葉斯網(wǎng)絡(luò)可由兩部分組成:①先驗網(wǎng)絡(luò)B0,用于定義初始時間(t=1)狀態(tài)下X的聯(lián)合概率分布;②轉(zhuǎn)移網(wǎng)絡(luò)B→,用于定義變量Xt與Xt+1上的轉(zhuǎn)移概率P(Xt+1|Xt)。上述問題可以用圖1表示。

圖1 動態(tài)貝葉斯網(wǎng)絡(luò)示意圖

動態(tài)貝葉斯網(wǎng)絡(luò)模型的聯(lián)合分布概率為

(4)

由于時間因素的引入,可將上述反饋調(diào)控機(jī)制做成圖2中X1,t→X2,t+1→X3,t+2→X1,t+3形式的網(wǎng)絡(luò),從而解決靜態(tài)貝葉斯網(wǎng)絡(luò)無法處理的環(huán)路問題。同時,動態(tài)貝葉斯能夠依據(jù)時間的先后順序,揭示因果間關(guān)系,構(gòu)建出的網(wǎng)絡(luò)結(jié)構(gòu)有更高的準(zhǔn)確度。因此對于生物反饋調(diào)控網(wǎng)絡(luò),動態(tài)貝葉斯的還原能力優(yōu)于靜態(tài)貝葉斯。由于貝葉斯網(wǎng)絡(luò)在網(wǎng)絡(luò)的結(jié)構(gòu)學(xué)習(xí)過程中,可以有效地結(jié)合先驗知識,從而能夠提高網(wǎng)絡(luò)構(gòu)建的準(zhǔn)確性和運(yùn)算速度,Whrhil和Husmeier等人利用生物學(xué)先驗知識的基因表達(dá)數(shù)據(jù),推斷出了更為準(zhǔn)確的基因調(diào)控網(wǎng)絡(luò)[16]。Akutekwe 等人在構(gòu)建出動態(tài)貝葉斯網(wǎng)絡(luò)的結(jié)構(gòu)基礎(chǔ)上,結(jié)合支持向量回歸方法中的非線性核函數(shù)來推斷基因間的時序關(guān)系,在大腸桿菌和果蠅的基因調(diào)控網(wǎng)絡(luò)中進(jìn)行驗證,并構(gòu)建出與卵巢癌化療敏感性相關(guān)的基因調(diào)控網(wǎng)絡(luò)結(jié)構(gòu),識別出4個與卵巢癌化療有關(guān)的中心調(diào)控基因[17]。

圖2 動態(tài)貝葉斯網(wǎng)絡(luò)對反饋調(diào)控

3.隨機(jī)森林回歸的網(wǎng)絡(luò)構(gòu)建方法

[3]王磊,姚駿.基于HTML5的移動病房WebApp的設(shè)計與實現(xiàn)[J].工業(yè)控制計算機(jī),2017,30(05):143-144+148.

基于回歸的網(wǎng)絡(luò)構(gòu)建方法,可以將p個基因的調(diào)控網(wǎng)絡(luò)轉(zhuǎn)化為建立p個回歸模型的問題。線性回歸模型不適合描述非線性調(diào)控關(guān)系,而且需要對變量的數(shù)目進(jìn)行限制,而隨機(jī)森林(random forest,RF)回歸則更適合一般性的網(wǎng)絡(luò)構(gòu)建問題[18]。對于每個基因g,首先可以構(gòu)建所有除去基因g本身以外的其他基因?qū)騡影響的回歸模型,則第j個目標(biāo)基因的回歸模型可表示如下型式:

xj=fj(x-j)+εj

(5)

其中x-j=(x1,K,xj-1,xj+1,K,xp),fj(x-j)為基于樹給出的RF預(yù)測函數(shù),εj表示誤差項。隨機(jī)森林回歸算法中內(nèi)嵌變量重要性排序機(jī)制,可得到目標(biāo)基因與其轉(zhuǎn)錄因子間調(diào)控關(guān)系的大小,再把所有的調(diào)控關(guān)系合在一起進(jìn)行排序,從而重建整個網(wǎng)絡(luò)。

基于樹集成的回歸方法通過平均多棵樹同時預(yù)測,極大地提高單棵樹的預(yù)測性能。在隨機(jī)森林中,每棵樹的構(gòu)建通過從原始訓(xùn)練集中抽取一個bootstrap樣本得到,在每棵樹的節(jié)點(diǎn),從輸入基因中選擇k(k∈x-j)個基因作為此節(jié)點(diǎn)的備選分枝變量,然后根據(jù)分枝優(yōu)度準(zhǔn)則選取最優(yōu)分枝。

基于樹方法的隨機(jī)森林回歸,可以給出變量的重要性評分(variable importance measure,VIM),其值可用方差改變量法計算,即對回歸樹的每個節(jié)點(diǎn)N,計算由于樣本分裂導(dǎo)致的輸出變量方差的總減小量,即

I(N)=#SVar(S)-#StVar(St)-#SfVar(Sf)

(6)

其中,S代表到達(dá)節(jié)點(diǎn)N的樣本含量,St和Sf代表這些樣本在節(jié)點(diǎn)N上分為兩類的樣本含量,即S=St+Sf,Var(·)表示不同數(shù)據(jù)中某變量的方差,#代表一組樣本的數(shù)量。此方法計算的VIM值為某個變量在所有樹中I值的平均值,即

(7)

由于不同基因表達(dá)值的數(shù)量級可能不同,在計算基因間VIM值前需要對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,以消除不同數(shù)量級的基因表達(dá)值對結(jié)果的影響。最后可以根據(jù)p個RF回歸模型中的VIM值大小,確定其網(wǎng)絡(luò)結(jié)構(gòu)。

4.基于解卷積的網(wǎng)絡(luò)優(yōu)化算法

在構(gòu)建網(wǎng)絡(luò)的過程中,由于變量間關(guān)聯(lián)的傳遞效應(yīng),現(xiàn)有的網(wǎng)絡(luò)構(gòu)建方法有時無法很好地識別出真正的調(diào)控關(guān)系,如在一個真實的網(wǎng)絡(luò)中,節(jié)點(diǎn)1和節(jié)點(diǎn)2間存在強(qiáng)相關(guān),節(jié)點(diǎn)2和節(jié)點(diǎn)3也存在強(qiáng)相關(guān),那么節(jié)點(diǎn)1和節(jié)點(diǎn)3間也會存在較高的相關(guān)關(guān)系。即使節(jié)點(diǎn)1和節(jié)點(diǎn)3間并沒有直接的調(diào)控關(guān)系,但是在網(wǎng)絡(luò)結(jié)構(gòu)推斷過程中,節(jié)點(diǎn)1和節(jié)點(diǎn)3也容易被推斷出一條邊來。由于間接邊的存在,兩節(jié)點(diǎn)間的相關(guān)性也可能會被高估。隨著網(wǎng)絡(luò)規(guī)模的擴(kuò)大,這種效應(yīng)會被進(jìn)一步放大,造成推斷出來的網(wǎng)絡(luò)結(jié)構(gòu)既包含直接邊,也包含了大量假陽性的間接邊。網(wǎng)絡(luò)解卷積算法可用來解決這一問題。

(8)

由實際數(shù)據(jù)獲得的網(wǎng)絡(luò)關(guān)聯(lián)矩陣Gobs可做如下分解:

(9)

其中U代表特征向量,∑dir代表相應(yīng)網(wǎng)絡(luò)的特征值的對角矩陣。等式(a)利用網(wǎng)絡(luò)鄰接矩陣的特征值和特征向量分解原理;等式(b)利用泰勒級數(shù)得到。

同樣,對于觀察到的網(wǎng)絡(luò),可對其直接進(jìn)行特征值和特征向量分解,即

(10)

將上述公式與等式(b)聯(lián)立,可得到關(guān)于特征值的一個等式,即

(11)

(12)

因此,由公式(12),根據(jù)所求出的觀察到的網(wǎng)絡(luò)矩陣的特征值,可以求出直接相關(guān)網(wǎng)絡(luò)的特征值,從而還原出直接網(wǎng)絡(luò)結(jié)構(gòu)Gdir。

網(wǎng)絡(luò)解卷積算法假定網(wǎng)絡(luò)的邊權(quán)重滿足2條線性關(guān)系假設(shè):①間接邊權(quán)重等于直接邊權(quán)重的乘積;②觀察到的邊權(quán)重等于直接邊和間接邊權(quán)重之和。Feizi的研究表明[20],該算法對于目前的一些網(wǎng)絡(luò)構(gòu)建方法都具有不同程度的優(yōu)化作用,在DREAM5數(shù)據(jù)測驗中進(jìn)一步優(yōu)化了由互信息算法,隨機(jī)森林回歸算法所構(gòu)建的網(wǎng)絡(luò)結(jié)構(gòu),使其準(zhǔn)確度更高,挖掘到了更多有用的調(diào)控基因。

結(jié) 語

本文主要介紹了近年新發(fā)展的四種基因調(diào)控網(wǎng)絡(luò)的構(gòu)建方法。其中基于互信息的方法不需對變量間的關(guān)系做任何假設(shè),因此能識別各種線性和非線性關(guān)系,但在計算互信息值時需要將數(shù)據(jù)離散化。動態(tài)貝葉斯網(wǎng)絡(luò),能夠處理時間序列的基因表達(dá)數(shù)據(jù),依據(jù)時間的先后順序,揭示因果關(guān)系,使得還原的網(wǎng)絡(luò)結(jié)構(gòu)更容易解釋。基于隨機(jī)森林回歸的算法,對網(wǎng)絡(luò)的變量個數(shù)不需要限制,通過回歸樹對每個目標(biāo)基因擬合回歸模型,并通過集成樹的多變量分析方法,計算出任意兩個變量的關(guān)聯(lián)性,結(jié)果相對穩(wěn)健可靠。基于解卷積的網(wǎng)絡(luò)優(yōu)化算法則能夠在滿足假定條件下,對網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行優(yōu)化,移除由傳遞效應(yīng)引起的間接邊,準(zhǔn)確地推斷出直接邊的網(wǎng)絡(luò)結(jié)構(gòu)。

實際上,基因調(diào)控網(wǎng)絡(luò)的推斷方法很多,僅用于DREAM5數(shù)據(jù)驗證平臺上的各種網(wǎng)絡(luò)推斷方法就有30余種。從基因表達(dá)水平的層面上,由于各基因間存在多種非線性調(diào)控關(guān)系,實際中可能需要結(jié)合多種網(wǎng)絡(luò)構(gòu)建方法進(jìn)行分析。另外,如何利用適合的方法對不同層次(如基因和蛋白)的多組學(xué)數(shù)據(jù)構(gòu)建網(wǎng)絡(luò),也極具挑戰(zhàn)性。

[1]Smet DR,Marchal K.Advantages and limitations of current network inference methods.Nat Rev Microbiol,2010,8(10):717-729.

[2]劉萬霖,李棟,朱云平,等.基于微陣列數(shù)據(jù)構(gòu)建基因調(diào)控網(wǎng)絡(luò).遺傳,2007,29(12):1434-1442.

[3]Marbach D,Costello JC,Kuffner R,et al.Wisdom of crowds for robust gene network inference.Nat Methods,2012,9(8):796-804.

[4]Faith JJ,Hayete B,Thaden JT,et al.Large-scale mapping and validation of Escherichia coli transcriptional regulation from a compendium of expression profiles.PLoS Biol,2007,5(1):54-66.

[5]Butte AJ,Kohane IS.Mutual information relevance networks:functional genomic clustering using pairwise entropy measuerments.Pac Symp Biocomput,2000,5:418-429.

[6]Margolin AA,Nemenman I,Basso K,et al.ARACNE:an algorithm for the reconstruction of gene regulatory networks in a mammalian cellular context.BMC Bioinformatics,2006,7(Suppl 1):S7.

[7]Daub CO,Steuer R,Selbig J,et al.Estimating mutual information using B-spline functions--an improved similarity measure for analysing gene expression data.BMC Bioinformatics,2004,5:118.

[8]Wang J,Chen C,Li HL,et al.Investigating key genes associated with ovarian cancer by integrating affinity propagation clustering and mutual information network analysis.European Review for Medical and Pharmacological Sciences,2016,20:2532-2540.

[9]Beirlant J,Dudewicz EJ,Gyorfi L,et al.Nonparametric entropy estimation:an overview.Intern J Math Stat Sci,1997,6(1):17-39.

[10]Mordelet F,Vert JP.SIRENE:supervised inference of regulatory networks.Bioinformatics,2008,24(16):i76-82.

[11]Ricardo A,Gerardo C,Karla L,et al.ARACNe-based inference,using curated microarray data of Arabidopsis thaliana root transcriptional regulatory networks.BMC Plant Biology,2014,14(97):1471-2229.

[12]Jang IS,Margolin A,Califano A.hARACNe:improving the accuracy of regulatory model reverse engineering via higher-order data processing inequality tests.Interface Focus,2013,3(4):20130011.

[13]強(qiáng)波,王正志.基于動態(tài)貝葉斯網(wǎng)構(gòu)建基因調(diào)控網(wǎng)絡(luò).生物醫(yī)學(xué)工程研究,2008,27(3):145-149.

[14]Schafer J,Strimmer K.An empirical Bayes approach to inferring large-scale gene association networks.Bioinformatics,2005,21(6):754-764.

[15]趙紅.利用動態(tài)貝葉斯網(wǎng)構(gòu)建基因調(diào)控網(wǎng)絡(luò)的研究進(jìn)展.數(shù)學(xué)建模及其應(yīng)用,2012,1(4):5-11.

[16]Werhli AV,Husmeier D.Reconstructing gene regulatory networks with bayesian networks by combining expression data with multiple sources of prior knowledge.Statistical Applications in Genetics and Molecular Biology,2007,6(1):Art.15.

[17]Akutekwe A,Seker H.Inference of nonlinear gene regulatory networks through optimized ensemble of support vector regression and dynamic Bayesian networks.Conf Proc IEEE Eng Med Biol Soc,2015:8177-8180.

[18]Huynh-Thu VA,Irrthum A,Wehenkel L,et al.Inferring regulatory networks from expression data using tree-based methods.Plos one,2010,5(9):e12776.

[19]侯艷,楊凱,李康.基于隨機(jī)森林回歸的網(wǎng)絡(luò)構(gòu)建方法及應(yīng)用.中國衛(wèi)生統(tǒng)計,2015,32(4):558-561.

[20]Feizi S,Marbach D,Medard M,et al.Network deconvolution as a general method to distinguish direct dependencies in networks.Nat Biotechnol,2013,31(8):726-33.

(責(zé)任編輯:郭海強(qiáng))

*國家自然科學(xué)基金資助(81473072,81573256);黑龍江省青年基金資助(QC2015098)

△通信作者:李康,E-mail:likang@ems.hrbmu.edu.cn

猜你喜歡
方法
中醫(yī)特有的急救方法
中老年保健(2021年9期)2021-08-24 03:52:04
高中數(shù)學(xué)教學(xué)改革的方法
河北畫報(2021年2期)2021-05-25 02:07:46
化學(xué)反應(yīng)多變幻 “虛擬”方法幫大忙
變快的方法
兒童繪本(2020年5期)2020-04-07 17:46:30
學(xué)習(xí)方法
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
最有效的簡單方法
山東青年(2016年1期)2016-02-28 14:25:23
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 久久久久久久97| 国产手机在线小视频免费观看| hezyo加勒比一区二区三区| 一级毛片中文字幕| 久久午夜夜伦鲁鲁片无码免费| 性欧美久久| 波多野结衣中文字幕一区二区| 91区国产福利在线观看午夜| 国模沟沟一区二区三区| 欧美在线精品怡红院| 992tv国产人成在线观看| 高清无码不卡视频| 成人伊人色一区二区三区| 无码aaa视频| 天天躁夜夜躁狠狠躁图片| 亚洲视频一区在线| 国产精品美女自慰喷水| 女人18一级毛片免费观看| 天天综合网色中文字幕| 国产精品亚洲精品爽爽| 免费毛片网站在线观看| 成人精品在线观看| 亚洲第一中文字幕| 永久在线精品免费视频观看| 免费在线不卡视频| 人妻精品久久无码区| AV天堂资源福利在线观看| 亚洲大学生视频在线播放| 亚洲91精品视频| 一级香蕉视频在线观看| 日韩精品无码不卡无码| 超薄丝袜足j国产在线视频| 亚洲精品国产乱码不卡| 在线看片国产| 中文字幕无线码一区| 欧美激情网址| 久青草免费视频| 日本高清免费一本在线观看| 亚洲永久色| 国产精品一区二区无码免费看片| 中文字幕亚洲另类天堂| 狠狠五月天中文字幕| 色综合手机在线| 亚洲综合色区在线播放2019| 毛片免费在线| 久草性视频| 久久国产精品娇妻素人| 88国产经典欧美一区二区三区| 色丁丁毛片在线观看| 久久天天躁狠狠躁夜夜躁| 五月婷婷丁香色| 国产一区三区二区中文在线| 国产污视频在线观看| 日韩精品一区二区三区大桥未久 | 精品在线免费播放| 亚洲成a人片77777在线播放 | 黄色网站不卡无码| 一本大道香蕉久中文在线播放| 亚洲爱婷婷色69堂| 日本免费福利视频| 亚洲—日韩aV在线| 欧美一级色视频| www亚洲精品| 精品一区二区三区波多野结衣| 波多野结衣无码AV在线| 日韩第一页在线| 亚洲成人网在线观看| 久久国产成人精品国产成人亚洲| 国产一区成人| 国产成人91精品| 国产人免费人成免费视频| 国产性生交xxxxx免费| 一本久道久综合久久鬼色| 国产XXXX做受性欧美88| 亚洲福利片无码最新在线播放| 天堂网亚洲综合在线| 四虎成人精品在永久免费| 欧美成人午夜在线全部免费| 亚洲午夜福利精品无码不卡 | 91精品aⅴ无码中文字字幕蜜桃| 欧美a在线看| 国产精品浪潮Av|