999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

改進(jìn)的動態(tài)PPI網(wǎng)絡(luò)構(gòu)建與蛋白質(zhì)功能預(yù)測算法

2020-12-16 02:41:08羅愛靜瞿昊宇許家祺
計(jì)算機(jī)工程 2020年12期
關(guān)鍵詞:功能實(shí)驗(yàn)

李 鵬,閔 慧,羅愛靜,瞿昊宇,伊 娜,許家祺

(1.中南大學(xué)湘雅三醫(yī)院,長沙 410006; 2.湖南中醫(yī)藥大學(xué) 信息科學(xué)與工程學(xué)院,長沙 410208; 3.醫(yī)學(xué)信息研究湖南省普通高等學(xué)校重點(diǎn)實(shí)驗(yàn)室(中南大學(xué)),長沙 410006; 4.湖南信息職業(yè)技術(shù)學(xué)院 軟件學(xué)院,長沙 410200)

0 概述

隨著人類基因組計(jì)劃以及多個(gè)物種全基因組測序工作的完成,目前生命科學(xué)研究的重點(diǎn)已經(jīng)轉(zhuǎn)變?yōu)榈鞍捉M學(xué)[1]。蛋白質(zhì)是指由多種氨基酸按照某一規(guī)律采用多肽鍵所構(gòu)成的一種多分子化合物,其是生物體中細(xì)胞的重要成分,也是生物體完成生命活動最重要的物質(zhì)基礎(chǔ)[2]。一個(gè)生物體內(nèi)所有蛋白質(zhì)的相互作用構(gòu)成了蛋白質(zhì)相互作用網(wǎng)絡(luò)(Protein-Protein Interaction Network,PPIN),簡稱蛋白質(zhì)網(wǎng)絡(luò)[3]。值得注意的是,蛋白質(zhì)之間的相互作用是動態(tài)的,它會隨著時(shí)間環(huán)境、蛋白質(zhì)的存在和降解、細(xì)胞的不同生理狀態(tài)等因素的變化而變化。但由于PPIN本身的復(fù)雜性、可利用蛋白質(zhì)相互作用數(shù)據(jù)的不完全性和噪聲等諸多因素,準(zhǔn)確且高效地衡量蛋白質(zhì)相互作用的動態(tài)性還存在很多挑戰(zhàn)[4],這也直接限制了PPIN領(lǐng)域內(nèi)其他問題(如復(fù)合物挖掘[5]、關(guān)鍵蛋白識別[6]、網(wǎng)絡(luò)比對[7]等)的研究進(jìn)展。

文獻(xiàn)[8]從表達(dá)動態(tài)性、多狀態(tài)下表達(dá)及相關(guān)性變化和時(shí)空動態(tài)變化3個(gè)角度討論了動態(tài)蛋白質(zhì)網(wǎng)絡(luò)的構(gòu)建問題,在此基礎(chǔ)上介紹動態(tài)蛋白質(zhì)網(wǎng)絡(luò)在復(fù)合物識別、疾病基因檢測等方面的應(yīng)用,并指出未來動態(tài)蛋白質(zhì)網(wǎng)絡(luò)所面臨的挑戰(zhàn)。文獻(xiàn)[9]考慮到酵母物種中蛋白質(zhì)的基因表達(dá)具有時(shí)間周期性這一特性,將PPI網(wǎng)絡(luò)數(shù)據(jù)和時(shí)間序列基因表達(dá)數(shù)據(jù)相結(jié)合構(gòu)建動態(tài)蛋白質(zhì)交互網(wǎng)絡(luò)(Dynamic Protein Interaction Network,D-PIN),并提出一種蛋白質(zhì)功能預(yù)測方法。該文主要通過基于時(shí)間的采樣來構(gòu)建D-PIN,但對不同物種而言,如何合理地選擇一個(gè)合適的時(shí)機(jī)進(jìn)行采樣仍缺乏理論指導(dǎo)。文獻(xiàn)[10]針對蛋白質(zhì)功能標(biāo)簽數(shù)量龐大且標(biāo)簽關(guān)聯(lián)性較高的特點(diǎn),提出一種基于布爾矩陣分解的蛋白質(zhì)功能預(yù)測框架PFP-BMD,然而該框架在降低數(shù)據(jù)噪聲影響方面的效果欠佳。文獻(xiàn)[11]提出一種基于多關(guān)系網(wǎng)絡(luò)中關(guān)鍵功能模塊挖掘的蛋白質(zhì)功能預(yù)測算法PEFM。該算法以高內(nèi)聚低耦合的原則尋找關(guān)鍵功能模塊,并利用這些功能模塊中的鄰居蛋白質(zhì)信息來注釋未知蛋白質(zhì)的功能。然而由于需要在多個(gè)關(guān)系網(wǎng)絡(luò)中進(jìn)行查找,一旦蛋白質(zhì)之間的相互作用發(fā)生改變(如蛋白質(zhì)降解),則預(yù)測效果直線下降,不適用于動態(tài)蛋白質(zhì)網(wǎng)絡(luò)。文獻(xiàn)[12]針對現(xiàn)有蛋白質(zhì)功能預(yù)測方法預(yù)測精度不高、易受數(shù)據(jù)噪聲影響等問題,提出一種基于機(jī)器學(xué)習(xí)的蛋白質(zhì)功能預(yù)測方法HPMM,主要采用層次聚類、主成分分析和多層感知器等技術(shù)來實(shí)現(xiàn)功能預(yù)測。然而該方法在訓(xùn)練多層感知器過程中需要估計(jì)的參數(shù)較多,時(shí)間復(fù)雜度較高,且僅適用于靜態(tài)蛋白質(zhì)網(wǎng)絡(luò)。

針對以上方法的不足,本文對動態(tài)蛋白質(zhì)網(wǎng)絡(luò)的構(gòu)建問題進(jìn)行研究,基于進(jìn)化圖提出一種改進(jìn)的動態(tài)蛋白質(zhì)網(wǎng)絡(luò)構(gòu)建算法,在此基礎(chǔ)上設(shè)計(jì)蛋白質(zhì)功能預(yù)測算法IPA-PF,并通過仿真實(shí)驗(yàn)驗(yàn)證算法的有效性。

1 動態(tài)蛋白質(zhì)網(wǎng)絡(luò)構(gòu)建算法

由于蛋白質(zhì)之間的相互作用并不是一成不變的,因此本文采用進(jìn)化圖[13]對動態(tài)蛋白質(zhì)網(wǎng)絡(luò)進(jìn)行建模。為便于描述,給出建模過程中用到的定義:

定義2(蛋白質(zhì)的活性周期) 對于任意給定的一個(gè)蛋白質(zhì)P,如果在一個(gè)給定的時(shí)間周期T內(nèi)P的基因表達(dá)平均值u(P)都不低于閾值ε,則稱T(P)為P的活性周期。

1.1 動態(tài)蛋白質(zhì)網(wǎng)絡(luò)的構(gòu)建

根據(jù)上述定義,動態(tài)蛋白質(zhì)網(wǎng)絡(luò)的構(gòu)建主要包含以下3個(gè)步驟:

步驟1根據(jù)蛋白質(zhì)基因表達(dá)數(shù)據(jù)的平均值計(jì)算所有蛋白質(zhì)的活性周期。

步驟2根據(jù)所有蛋白質(zhì)的不同活性周期劃分出多個(gè)時(shí)間片,擁有相同活性周期的蛋白質(zhì)屬于同一個(gè)時(shí)間片。對于處于同一時(shí)間片的所有蛋白質(zhì),根據(jù)它們之間的連接強(qiáng)度構(gòu)成一個(gè)蛋白質(zhì)子網(wǎng)。

步驟3對步驟2得到的各個(gè)時(shí)間片的子網(wǎng),采用進(jìn)化圖進(jìn)行建模,最終得到一個(gè)全局的動態(tài)蛋白質(zhì)網(wǎng)絡(luò)。

1.1.1 活性周期計(jì)算

(1)

(2)

進(jìn)一步地,本文采用F(P)反映蛋白質(zhì)P基因表達(dá)曲線的波動性:

(3)

可以看出,標(biāo)準(zhǔn)差越大,F越小,F的范圍為[0,1]?;钚蚤撝郸诺倪x取參考文獻(xiàn)[14]中提出的3-sigma準(zhǔn)則,如下所示:

ε=u(P)×F(P)+(u(P)+3σ(P))×(1-F(P))

(4)

如果在某一時(shí)間片Tx內(nèi)有u(Pi)≥ε,i=1,2,…,k,則認(rèn)為這k個(gè)蛋白質(zhì)具有相同的活性周期,可用于構(gòu)建同一個(gè)蛋白質(zhì)子網(wǎng)。通過活性周期的計(jì)算可以得到一個(gè)關(guān)于所有蛋白質(zhì)活性周期的集合S_T={T1,T2,…,Tk}。本文根據(jù)S_T中元素的個(gè)數(shù)決定劃分出時(shí)間片的個(gè)數(shù),即構(gòu)建子網(wǎng)的個(gè)數(shù)。

1.1.2 蛋白質(zhì)子網(wǎng)構(gòu)建

以某一個(gè)子網(wǎng)為例來闡述其構(gòu)建過程,其余子網(wǎng)的構(gòu)建與此類似。設(shè)P_S={P1,P2,…,Pn}表示具有相同活性周期(同一時(shí)間片)的所有蛋白質(zhì)集合,要在這n個(gè)蛋白質(zhì)之間構(gòu)造一個(gè)子網(wǎng),即要找到n個(gè)蛋白質(zhì)之間的相互作用關(guān)系。本文通過考查這些蛋白質(zhì)之間的連接強(qiáng)度來判斷它們之間是否具有相互作用,如果認(rèn)為它們之間有相互作用,則在這兩個(gè)蛋白質(zhì)之間添加一條邊。

連接強(qiáng)度主要從兩方面衡量,即直接連接數(shù)和間接連接數(shù)。直接連接數(shù)主要是指兩個(gè)蛋白質(zhì)之間擁有的共同鄰居節(jié)點(diǎn)數(shù),如果兩個(gè)蛋白質(zhì)有更多共同鄰居,則表明這兩個(gè)節(jié)點(diǎn)之間的關(guān)系更為緊密,更有可能發(fā)生相互作用;間接連接數(shù)指兩個(gè)蛋白質(zhì)之間直接相連的邊數(shù)和節(jié)點(diǎn)的度最小值的比值,它也可以用來衡量蛋白質(zhì)之間相互作用的強(qiáng)弱。因此,連接強(qiáng)度的定義如下所示:

定義3(連接強(qiáng)度) 蛋白質(zhì)Pi和蛋白質(zhì)Pj之間的連接強(qiáng)度JS(Pi,Pj)計(jì)算公式如下:

(5)

1.2 動態(tài)蛋白質(zhì)網(wǎng)絡(luò)模型

動態(tài)蛋白質(zhì)網(wǎng)絡(luò)與靜態(tài)蛋白質(zhì)網(wǎng)絡(luò)的本質(zhì)區(qū)別在于網(wǎng)絡(luò)拓?fù)湟驎r(shí)間、外界環(huán)境等因素的動態(tài)變化而導(dǎo)致連通性動態(tài)變化。如何利用合適的模型來刻畫這種動態(tài)性是對蛋白質(zhì)網(wǎng)絡(luò)準(zhǔn)確建模的關(guān)鍵。考慮到蛋白質(zhì)的基因表達(dá)值具有時(shí)間周期性,本文首先將整個(gè)蛋白質(zhì)網(wǎng)絡(luò)的運(yùn)行時(shí)間劃分為多個(gè)時(shí)間片,刻畫出每個(gè)時(shí)間片內(nèi)的連通情況,然后利用進(jìn)化圖的時(shí)間演化特性將連續(xù)時(shí)間片內(nèi)的多個(gè)子圖構(gòu)建為運(yùn)行時(shí)間內(nèi)的進(jìn)化圖模型。

圖1給出了蛋白質(zhì)網(wǎng)絡(luò)工作過程中不同時(shí)刻節(jié)點(diǎn)相互作用的動態(tài)變化情況。其中,頂點(diǎn)是蛋白質(zhì),邊表示蛋白質(zhì)之間的相互作用。假設(shè)T1~T4為整個(gè)網(wǎng)絡(luò)生命周期內(nèi)任意4個(gè)連續(xù)的時(shí)間片,分別可以構(gòu)建得到這4個(gè)連續(xù)時(shí)間片內(nèi)的網(wǎng)絡(luò)快照。

圖1 動態(tài)蛋白質(zhì)網(wǎng)絡(luò)連續(xù)時(shí)間片快照Fig.1 Snapshots of continuous time slices ofdynamic protein network

根據(jù)定義1,將圖1所示的連續(xù)時(shí)間片快照建模為進(jìn)化圖模型。圖1所示時(shí)間片快照中的蛋白質(zhì)(A,B,C,D,E,F,G,H,I,J,K,L)對應(yīng)于定義1中的頂點(diǎn)集合V,邊集合對應(yīng)于定義1中的邊集合E,時(shí)間序列集合(T1,T2,T3,T4)對應(yīng)于定義1中的有序時(shí)間序列TS。建模過程如下:

1)構(gòu)造T1時(shí)間片內(nèi)蛋白質(zhì)網(wǎng)絡(luò)連通情況所對應(yīng)的進(jìn)化圖子圖G1,并在新出現(xiàn)的每條邊上增加時(shí)間序列元素T1。

2)在G1的基礎(chǔ)上累加構(gòu)造T2時(shí)間片內(nèi)蛋白質(zhì)網(wǎng)絡(luò)連通情況所對應(yīng)的進(jìn)化圖子圖G2,并在T2時(shí)間片內(nèi)出現(xiàn)的邊上增加時(shí)間序列元素T2。

3)以此類推,直到全部的時(shí)間片所對應(yīng)的進(jìn)化圖子圖構(gòu)造完成,得到的進(jìn)化圖模型如圖2所示。其中,每條邊上的數(shù)字序列代表該相互作用存在對應(yīng)的時(shí)間序列,標(biāo)識該相互作用在第幾個(gè)時(shí)間片中出現(xiàn),例如蛋白質(zhì)A和蛋白質(zhì)D只在第1個(gè)、第2個(gè)和第4個(gè)時(shí)間片內(nèi)存在相互作用。

圖2 基于進(jìn)化圖的動態(tài)蛋白質(zhì)網(wǎng)絡(luò)模型Fig.2 Dynamic protein network model based onevolutionary graph

本文提出的動態(tài)蛋白質(zhì)網(wǎng)絡(luò)構(gòu)建算法描述如下:

算法1動態(tài)蛋白質(zhì)網(wǎng)絡(luò)構(gòu)建算法

輸入蛋白質(zhì)相互作用數(shù)據(jù),閾值th,基因表達(dá)數(shù)據(jù)

步驟1根據(jù)所有蛋白質(zhì)的基因表達(dá)數(shù)據(jù),結(jié)合式(1)~式(3)計(jì)算所有蛋白質(zhì)的活性周期T(P),然后對計(jì)算結(jié)果進(jìn)行降序排列并采用列表存儲,記為:T(P)=[T1(P),T2(P),…,Tk(P)]。

步驟2根據(jù)蛋白質(zhì)的活性周期構(gòu)造子網(wǎng):

ForTi(P),i=1,2,…,kinT(P):

在Ti(P)中計(jì)算JS(Pi,Pj);

步驟3重復(fù)執(zhí)行步驟2,直到列表T(P)為空,算法結(jié)束。

2 蛋白質(zhì)功能預(yù)測算法

在上文構(gòu)建得到的動態(tài)蛋白質(zhì)網(wǎng)絡(luò)基礎(chǔ)上,提出一種改進(jìn)的蛋白質(zhì)未知功能預(yù)測算法IPA-PF。首先對待預(yù)測功能的蛋白質(zhì)在T個(gè)蛋白質(zhì)子網(wǎng)中出現(xiàn)的鄰居節(jié)點(diǎn)進(jìn)行統(tǒng)計(jì),然后根據(jù)其鄰居蛋白質(zhì)的功能已知與否,分情況進(jìn)行處理。

1)如果待預(yù)測功能的蛋白質(zhì)其所有鄰居節(jié)點(diǎn)的全部功能或部分功能已知,則根據(jù)待預(yù)測功能的蛋白質(zhì)與鄰居蛋白質(zhì)之間的連接強(qiáng)度來篩選參與功能預(yù)測的鄰居蛋白質(zhì)數(shù)目,然后通過計(jì)算候選功能得分和排序等操作實(shí)現(xiàn)蛋白質(zhì)的未知功能預(yù)測。相關(guān)定義及具體過程如下:

定義4(功能關(guān)聯(lián)得分) 設(shè)SG={G1,G2,…,GT}是基于進(jìn)化圖構(gòu)建得到的T個(gè)蛋白質(zhì)子網(wǎng),Gi=(Vi,Ei,ti)。α是一個(gè)待預(yù)測的功能未知的蛋白質(zhì),β是一個(gè)功能已知的蛋白質(zhì),則β在預(yù)測α功能時(shí)的功能關(guān)聯(lián)得分為:

(6)

設(shè)NS={P1,P2,…,Pn}是根據(jù)式(6)預(yù)測α的功能時(shí)形成的鄰居蛋白質(zhì)集合,F={f1,f2,…,fm}是NS集合中所有蛋白質(zhì)的已知功能集合。設(shè)fi是F中某一蛋白質(zhì)的候選功能,fi的得分為:

(7)

其中,j=1,2,…,m。對NS中所有蛋白質(zhì)的候選功能根據(jù)式(7)的得分進(jìn)行降序排列,并從中選取前R項(xiàng)功能作為蛋白質(zhì)α的未知功能列表。本文算法統(tǒng)計(jì)NS中每一個(gè)蛋白質(zhì)擁有的功能注釋數(shù)量,取其中所有蛋白質(zhì)的功能注釋數(shù)量的最小值作為R的取值。最后,將各個(gè)鄰居蛋白質(zhì)的已知功能注釋的交集作為待預(yù)測蛋白質(zhì)α的功能。例如,對于α的鄰居蛋白質(zhì){P1,P2,P3,P4}而言,蛋白質(zhì)P1擁有功能{f2,f3,f7,f8},蛋白質(zhì)P2擁有功能{f1,f2,f3,f6},蛋白質(zhì)P3擁有功能{f2,f3,f5,f9},蛋白質(zhì)P4擁有功能{f2,f3,f11,f13},因此,可以預(yù)測α擁有的功能為{f2,f3}。

2)如果待預(yù)測功能的蛋白質(zhì)其所有鄰居蛋白質(zhì)節(jié)點(diǎn)的全部功能未知,則通過構(gòu)建一個(gè)三層神經(jīng)網(wǎng)絡(luò)[16](包含輸入層、隱藏層和輸出層)模型來進(jìn)行功能預(yù)測,如圖3所示。

圖3 基于三層神經(jīng)網(wǎng)絡(luò)的蛋白質(zhì)功能預(yù)測過程Fig.3 Process of protein function prediction based onthree-layer neural network

本文提出的動態(tài)蛋白質(zhì)網(wǎng)絡(luò)蛋白質(zhì)未知功能預(yù)測算法描述如下:

算法2蛋白質(zhì)未知功能預(yù)測算法IPA-PF

輸出未知蛋白的功能注釋

步驟1對于每一個(gè)待預(yù)測功能的蛋白質(zhì)α,統(tǒng)計(jì)其在SG中出現(xiàn)的鄰居蛋白質(zhì)節(jié)點(diǎn),記為集合NS={P1,P2,…,Pk}。

步驟2如果NS中蛋白質(zhì)的全部功能或部分功能已知,則:

1)根據(jù)式(6)和式(7)計(jì)算NS中所有蛋白質(zhì)的候選功能得分,并對得分進(jìn)行降序排列,取前R項(xiàng)。

2)計(jì)算NS中所有蛋白質(zhì)前R項(xiàng)功能的交集,然后轉(zhuǎn)步驟4。

步驟3如果NS中蛋白質(zhì)的全部功能未知,則訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò)進(jìn)行蛋白質(zhì)功能預(yù)測:

1)數(shù)據(jù)預(yù)處理:采用丟棄、填充、替換或去重等操作對蛋白質(zhì)的特征做歸一化處理。

2)在(0,1)區(qū)間內(nèi)隨機(jī)初始化網(wǎng)絡(luò)中的所有連接權(quán)值和閾值。

3)根據(jù)蛋白質(zhì)的特征,采用累積誤差逆?zhèn)鞑ニ惴╗18]進(jìn)行訓(xùn)練,得到一個(gè)連接權(quán)值與閾值確定的三層前饋神經(jīng)網(wǎng)絡(luò)(3-FNN)。

4)采用3-FNN進(jìn)行蛋白質(zhì)功能預(yù)測。

步驟4輸出未知蛋白質(zhì)的功能注釋。

3 實(shí)驗(yàn)

實(shí)驗(yàn)利用Python語言實(shí)現(xiàn)本文提出的動態(tài)蛋白質(zhì)網(wǎng)絡(luò)構(gòu)建算法和蛋白質(zhì)未知功能預(yù)測算法IPA-PF。為驗(yàn)證動態(tài)蛋白質(zhì)網(wǎng)絡(luò)構(gòu)建算法的合理性和IPA-PF的有效性,在多個(gè)數(shù)據(jù)集上將IPA-PF算法與目前較為典型的蛋白質(zhì)功能預(yù)測算法D-PIN[9]、PFP-BMD[10]、PEFM[11]和HPMM[12]進(jìn)行性能比較。在一臺8核16線程的計(jì)算機(jī)上進(jìn)行實(shí)驗(yàn)。其中,CPU型號為Intel Core i9-9960X@3.10 GHz,內(nèi)存為16 GB,操作系統(tǒng)為Ubuntu 16.04 LTS 64位系統(tǒng),采用GPU加速技術(shù)和TensorFlow框架來訓(xùn)練文中用到的神經(jīng)網(wǎng)絡(luò),GPU型號為GeForce RTX 2070。

3.1 實(shí)驗(yàn)數(shù)據(jù)集

本文采用DIP數(shù)據(jù)集、MIPS數(shù)據(jù)集、GO數(shù)據(jù)庫[19]和CYC數(shù)據(jù)集[20]作為測試數(shù)據(jù)集。其中,DIP數(shù)據(jù)集記錄了通過生物實(shí)驗(yàn)測定的蛋白質(zhì)之間的相互作用,它將來自各種來源的信息相互結(jié)合,形成一組單一、一致的蛋白質(zhì)-蛋白質(zhì)相互作用。本文使用的DIP數(shù)據(jù)是DIP20170205版本,選取其中的酵母蛋白質(zhì)網(wǎng)絡(luò)來進(jìn)行實(shí)驗(yàn)。用UniProtKB/Swiss-Prot[21]對PPI網(wǎng)絡(luò)中的蛋白質(zhì)進(jìn)行ID轉(zhuǎn)換,然后去除網(wǎng)絡(luò)中自相互作用、重復(fù)相互作用及無法轉(zhuǎn)換的蛋白質(zhì)后,該網(wǎng)絡(luò)中還有4 995個(gè)蛋白質(zhì)和21 554條邊。MIPS數(shù)據(jù)集源自慕尼黑蛋白質(zhì)序列信息中心,本文采用和上述相同的方法進(jìn)行數(shù)據(jù)預(yù)處理,最終得到的相互作用網(wǎng)絡(luò)包括4 546個(gè)酵母蛋白質(zhì)和12 319對可靠的相互作用。下載基因本體(Gene Ontology,GO)數(shù)據(jù)庫的最新版本來測試不同算法在蛋白質(zhì)功能預(yù)測方面的性能。其中包含細(xì)胞組件、分子功能和生物過程3個(gè)獨(dú)立的子本體。為保證功能預(yù)測的全面性和高效性,本文保留未被GO術(shù)語注釋的蛋白質(zhì),并且保留功能注釋數(shù)目不超過200個(gè)蛋白質(zhì)的GO Term來進(jìn)行算法驗(yàn)證。此外,將CYC2008作為基準(zhǔn)數(shù)據(jù)集來評估蛋白質(zhì)復(fù)合物的識別結(jié)果。該數(shù)據(jù)集中包含408個(gè)通過生物方法預(yù)測到的蛋白質(zhì)復(fù)合物,每個(gè)復(fù)合物包含兩個(gè)或兩個(gè)以上蛋白質(zhì)。

3.2 評價(jià)指標(biāo)

本文采用以下指標(biāo)來評價(jià)不同算法的性能:

1)查全率、查準(zhǔn)率和F-measure值。查全率(Recall)為預(yù)測的蛋白質(zhì)功能與實(shí)驗(yàn)數(shù)據(jù)集中真實(shí)存在的蛋白質(zhì)功能注釋的最大匹配數(shù)目與實(shí)驗(yàn)數(shù)據(jù)集中真實(shí)存在的蛋白質(zhì)功能注釋總數(shù)的比值,查準(zhǔn)率(Precision)為預(yù)測的蛋白質(zhì)功能與實(shí)驗(yàn)數(shù)據(jù)集中真實(shí)存在的蛋白質(zhì)功能注釋的最大匹配數(shù)目與實(shí)驗(yàn)測得的蛋白質(zhì)功能注釋總數(shù)的比值,這兩個(gè)指標(biāo)的計(jì)算公式如下:

(8)

(9)

其中:ER表示本文算法預(yù)測的蛋白質(zhì)功能;RR表示實(shí)驗(yàn)數(shù)據(jù)集中真實(shí)存在的蛋白質(zhì)功能注釋;MNM(ER,RR)表示ER和RR之間的最大匹配數(shù)目。綜合考慮查全率和查準(zhǔn)率兩方面,可得F-measure的計(jì)算公式為:

(10)

2)魯棒性。目前能夠獲得的蛋白質(zhì)相互作用數(shù)據(jù)都在一定程度上存在假陽性和假陰性的問題。因此,一個(gè)優(yōu)秀的蛋白質(zhì)構(gòu)建算法和功能預(yù)測算法應(yīng)對數(shù)據(jù)中存在的假陽性和假陰性具有很好的魯棒性。

3)時(shí)間開銷。在多個(gè)數(shù)據(jù)集上衡量動態(tài)蛋白質(zhì)網(wǎng)絡(luò)構(gòu)建算法和蛋白質(zhì)功能預(yù)測算法運(yùn)行所耗費(fèi)的時(shí)間,比較不同算法的運(yùn)行效率。

3.3 實(shí)驗(yàn)結(jié)果與分析

3.3.1 IPA-PF算法與其他算法的比較

為全面分析本文提出的動態(tài)蛋白質(zhì)網(wǎng)絡(luò)構(gòu)建算法和IPA-PF算法的性能,將IPA-PF算法與D-PIN[9]、PFP-BMD[10]、PEFM[11]和HPMM[12]在DIP數(shù)據(jù)集和MIPS數(shù)據(jù)集上進(jìn)行比較。采用十折交叉驗(yàn)證法進(jìn)行實(shí)驗(yàn)評估,即將DIP數(shù)據(jù)集和MIPS數(shù)據(jù)集分別分成10份,輪流將其中9份作為訓(xùn)練數(shù)據(jù),將1份作為測試數(shù)據(jù)。為進(jìn)一步降低實(shí)驗(yàn)誤差,重復(fù)進(jìn)行100次實(shí)驗(yàn),取其平均值作為最終的結(jié)果。表1和表2分別列出了不同算法在DIP數(shù)據(jù)集和MIPS數(shù)據(jù)集上的性能比較。

表1 不同算法在DIP數(shù)據(jù)集上的性能比較Table 1 Performance comparison of different algorithmson DIP dataset

表2 不同算法在MIPS數(shù)據(jù)集上的性能比較Table 2 Performance comparison of different algorithmson MIPS dataset

從表1和表2的結(jié)果可以看出,本文算法在兩種數(shù)據(jù)集上的查全率和查準(zhǔn)率都要優(yōu)于其他4種算法,并且在DIP數(shù)據(jù)集上,本文算法的F-measure值較HPMM、D-PIN、PEFM和PFP-BMD分別提高約40%、30%、26%和16%,在MIPS數(shù)據(jù)集上,本文算法的F-measure值較HPMM、D-PIN、PEFM和PFP-BMD分別提高約39%、26%、25%和11%,主要原因如下:

1)本文算法在構(gòu)建動態(tài)蛋白質(zhì)網(wǎng)絡(luò)的過程中考慮了蛋白質(zhì)基因表達(dá)的活性周期,能夠更好地模擬蛋白質(zhì)“合成-降解-凋亡”這一個(gè)生物過程,避免了網(wǎng)絡(luò)構(gòu)建的片面性。

2)通過引入連接強(qiáng)度這一概念,從物理位置上對蛋白質(zhì)節(jié)點(diǎn)之間的相互作用進(jìn)行評價(jià),從而有效過濾了蛋白質(zhì)相互作用數(shù)據(jù)中所隱含的假陽性和假陰性。

3)在未知蛋白的功能預(yù)測方面,本文對D-PIN算法的不足之處進(jìn)行了改進(jìn),對待預(yù)測蛋白質(zhì)節(jié)點(diǎn)的鄰居蛋白質(zhì)節(jié)點(diǎn)分情況(有功能注釋/無功能注釋)進(jìn)行處理,并考慮蛋白質(zhì)的多種特征來訓(xùn)練神經(jīng)網(wǎng)絡(luò)進(jìn)行功能預(yù)測,解決了當(dāng)鄰居蛋白質(zhì)節(jié)點(diǎn)的功能集合全部未知時(shí)無法進(jìn)行預(yù)測這一難題,因此,本文算法能夠更全面地預(yù)測蛋白質(zhì)的未知功能。

3.3.2 參數(shù)th對蛋白質(zhì)復(fù)合物識別性能的影響分析

在動態(tài)蛋白質(zhì)網(wǎng)絡(luò)構(gòu)建過程中,參數(shù)th對于衡量兩個(gè)蛋白質(zhì)之間是否具有相互作用起到關(guān)鍵作用,下面以CYC2008數(shù)據(jù)集為實(shí)驗(yàn)對象,測試th取不同數(shù)值時(shí)構(gòu)建出的網(wǎng)絡(luò)在蛋白質(zhì)復(fù)合物上的識別性能,選取兩種典型的蛋白質(zhì)復(fù)合物識別算法(MPC-TPW[22]和DPC-NADPIN[23])來分析本文構(gòu)建網(wǎng)絡(luò)算法的可靠性,實(shí)驗(yàn)結(jié)果如圖4所示。可以看出:隨著th取值增大,MPC-TP算法和DPC-NADPIN算法的F-measure值呈現(xiàn)不斷增加的趨勢,這表明兩種算法能夠準(zhǔn)確識別的蛋白質(zhì)復(fù)合物數(shù)量越來越多;但在th取值達(dá)到0.7之后,MPC-TP算法和DPC-NADPIN算法的性能趨于穩(wěn)定,這表明本文提出的動態(tài)蛋白質(zhì)網(wǎng)絡(luò)構(gòu)建算法對于輸入?yún)?shù)不敏感,能夠應(yīng)用到不同的蛋白質(zhì)復(fù)合物識別算法中。

圖4 不同蛋白質(zhì)復(fù)合物識別算法的參數(shù)敏感性比較Fig.4 Parameter sensitivity comparison of differentprotein complex recognition algorithms

3.3.3 魯棒性分析

測試IPA-PF算法對于包含假陰性和假陽性的蛋白質(zhì)相互作用數(shù)據(jù)的魯棒性。以DIP數(shù)據(jù)集為測試用例,在實(shí)驗(yàn)中通過隨機(jī)增加和刪除一定比例的邊來模擬蛋白質(zhì)網(wǎng)絡(luò)的假陽性和假陰性。其中:假陽性是指能夠被實(shí)驗(yàn)技術(shù)檢測到但在細(xì)胞中并不存在的蛋白質(zhì)相互作用;假陰性是指不能被實(shí)驗(yàn)技術(shù)檢測到但在細(xì)胞中確實(shí)存在的蛋白質(zhì)相互作用。以每20個(gè)百分點(diǎn)為一個(gè)間隔,隨機(jī)地增加邊的比例從20%到100%,共得到5組數(shù)據(jù),從這些具有較高假陽性的數(shù)據(jù)中識別蛋白質(zhì)復(fù)合物,得到IPA-PF算法的查全率和查準(zhǔn)率,如圖5所示??梢钥闯?隨著假陽性的增強(qiáng),IPA-PF算法預(yù)測蛋白質(zhì)功能的查全率基本保持不變,而查準(zhǔn)率有輕微下降,這表明IPA-PF算法具有較強(qiáng)的抗噪能力,能夠應(yīng)對那些被算法檢測得到但在數(shù)據(jù)集中并不存在的蛋白質(zhì)相互作用。

圖5 數(shù)據(jù)包含假陽性時(shí)IPA-PF算法的性能指標(biāo)Fig.5 Performance indexes of IPA-PF algorithmwith false positive data

以每20個(gè)百分點(diǎn)為一個(gè)間隔,隨機(jī)地刪除邊的比例從15%到90%,共得到6組數(shù)據(jù),重復(fù)上述工作,得到IPA-PF算法的查全率和查準(zhǔn)率,如圖6所示??梢钥闯?當(dāng)刪除邊的比例小于45%時(shí),IPA-PF算法預(yù)測蛋白質(zhì)功能的查全率和查準(zhǔn)率基本保持不變;在刪除邊的比例超過40%后,IPA-PF算法的性能開始呈現(xiàn)直線下降趨勢,這是因?yàn)殡S著假陰性的增強(qiáng),數(shù)據(jù)集中那些未被IPA-PF算法檢測到但又真實(shí)存在的相互作用會被大量刪除,理論上會使算法能夠預(yù)測的蛋白質(zhì)功能數(shù)量急劇減少,而IPA-PF算法反映在查全率和查準(zhǔn)率上的變化就是這兩種指標(biāo)直接降低,這也恰好驗(yàn)證了IPA-PF算法對于假陰性具有較好的魯棒性。

圖6 數(shù)據(jù)包含假陰性時(shí)IPA-PF算法的性能指標(biāo)Fig.6 Performance indexes of IPA-PF algorithm withfalse negative data

3.3.4 不同算法的效率分析

為進(jìn)一步衡量本文算法的優(yōu)越性,在上述實(shí)驗(yàn)環(huán)境下對不同蛋白質(zhì)功能預(yù)測算法的時(shí)間開銷進(jìn)行測試。以DIP數(shù)據(jù)集和MIPS數(shù)據(jù)集作為測試用例,表3給出了不同算法在進(jìn)行蛋白質(zhì)未知功能預(yù)測時(shí)的運(yùn)行時(shí)間。可以看出,IPA-PF算法在兩種數(shù)據(jù)集上的運(yùn)行時(shí)間均不超過11 s,低于D-PIN、PEFM和HPMM算法,略高于PFP-BMD算法。但通過上文的實(shí)驗(yàn)分析結(jié)果可知,IPA-PF算法的預(yù)測質(zhì)量遠(yuǎn)超其他預(yù)測算法。從性能折中的角度來看,以目前計(jì)算機(jī)的算力而言,在保證蛋白質(zhì)功能預(yù)測準(zhǔn)確性的前提下,犧牲算法的部分效率完全是可以接受的??傮w而言,本文提出的IPA-PF算法具有較高的運(yùn)行效率,可適用于大規(guī)模的蛋白質(zhì)網(wǎng)絡(luò)。

表3 不同算法的運(yùn)行時(shí)間比較Table 3 Running time comparison ofdifferent algorithms s

4 結(jié)束語

蛋白質(zhì)相互作用網(wǎng)絡(luò)是目前蛋白組學(xué)的研究熱點(diǎn)。針對現(xiàn)有蛋白質(zhì)網(wǎng)絡(luò)構(gòu)建和功能預(yù)測方法存在的不足,本文提出一種基于進(jìn)化圖的動態(tài)蛋白質(zhì)網(wǎng)絡(luò)構(gòu)建算法,在此基礎(chǔ)上設(shè)計(jì)一種新的蛋白質(zhì)功能預(yù)測算法,并在多個(gè)公開的生物數(shù)據(jù)庫上驗(yàn)證算法的有效性。本文研究有利于從微觀層面解釋細(xì)胞內(nèi)蛋白質(zhì)之間的復(fù)雜關(guān)系,為生物學(xué)和醫(yī)學(xué)領(lǐng)域研究者理解生命復(fù)雜網(wǎng)絡(luò)的內(nèi)在組織和生物過程提供了新的途徑,并可用于藥物標(biāo)靶設(shè)計(jì)、疾病診治和預(yù)測等多個(gè)方面。下一步將分析影響動態(tài)蛋白質(zhì)網(wǎng)絡(luò)構(gòu)建的諸多因素,并采用深度學(xué)習(xí)技術(shù)對關(guān)鍵蛋白質(zhì)的識別進(jìn)行建模,設(shè)計(jì)基于圖卷積神經(jīng)網(wǎng)絡(luò)的關(guān)鍵蛋白質(zhì)識別算法。

猜你喜歡
功能實(shí)驗(yàn)
也談詩的“功能”
中華詩詞(2022年6期)2022-12-31 06:41:24
記一次有趣的實(shí)驗(yàn)
微型實(shí)驗(yàn)里看“燃燒”
做個(gè)怪怪長實(shí)驗(yàn)
關(guān)于非首都功能疏解的幾點(diǎn)思考
懷孕了,凝血功能怎么變?
媽媽寶寶(2017年2期)2017-02-21 01:21:24
“簡直”和“幾乎”的表達(dá)功能
NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
實(shí)踐十號上的19項(xiàng)實(shí)驗(yàn)
太空探索(2016年5期)2016-07-12 15:17:55
中西醫(yī)結(jié)合治療甲狀腺功能亢進(jìn)癥31例
主站蜘蛛池模板: 黄片一区二区三区| 亚洲另类国产欧美一区二区| 日韩在线观看网站| 久久99热这里只有精品免费看| 黄色国产在线| 中文字幕在线永久在线视频2020| 精品91自产拍在线| 国产日韩欧美中文| 国产精品成人第一区| 都市激情亚洲综合久久| 亚洲日本中文综合在线| 欧美另类图片视频无弹跳第一页| 久久久国产精品无码专区| 国产精品毛片一区视频播| 久久精品国产精品一区二区| 久久综合丝袜日本网| 成人福利在线免费观看| 国产成人高清亚洲一区久久| 波多野结衣亚洲一区| 国产精品成人不卡在线观看| 国产精品私拍99pans大尺度| 午夜精品久久久久久久2023| 亚洲精品免费网站| 欧美福利在线播放| 亚洲第一成年人网站| 国产福利一区在线| 国产精品久久久久久久久| 国产精品视频猛进猛出| 亚洲欧美精品一中文字幕| 亚洲天堂视频网站| 99这里只有精品6| 99色亚洲国产精品11p| 日本a∨在线观看| 国产成人综合久久精品尤物| 亚洲精品视频网| www精品久久| 亚洲精品无码成人片在线观看 | 黄色一级视频欧美| 91在线一9|永久视频在线| 亚洲成人播放| 国产屁屁影院| 国产麻豆va精品视频| 日韩毛片在线视频| 国产精品无码制服丝袜| 激情综合婷婷丁香五月尤物| 欧洲高清无码在线| 国产剧情一区二区| 国产欧美专区在线观看| 国产美女视频黄a视频全免费网站| 国产一级精品毛片基地| 四虎综合网| 中文字幕有乳无码| 久久久久亚洲Av片无码观看| 国产大片黄在线观看| 国产精品性| 亚洲综合狠狠| 91色在线观看| 国产高清在线观看91精品| 午夜视频免费一区二区在线看| 四虎国产精品永久一区| 国产69精品久久| 色天天综合久久久久综合片| 亚洲全网成人资源在线观看| 四虎亚洲精品| h视频在线播放| 欧美色视频在线| 亚洲第一成年人网站| 东京热一区二区三区无码视频| 99青青青精品视频在线| 亚洲伊人电影| 久久久久亚洲精品成人网| 亚洲精品欧美重口| 亚洲综合色吧| 一级全黄毛片| 国产免费久久精品99re丫丫一 | 国产一区二区三区免费观看| 91系列在线观看| 美女一级免费毛片| 国产又色又刺激高潮免费看| www中文字幕在线观看| 日韩专区欧美| 国产精品永久久久久|