摘 要: 現(xiàn)有關(guān)鍵蛋白質(zhì)識(shí)別算法對(duì)生物信息考慮不全面、識(shí)別準(zhǔn)確率亦有待提高,針對(duì)此問題,提出一種高效關(guān)鍵蛋白質(zhì)識(shí)別算法PDWS。首先,結(jié)合由亞細(xì)胞定位信息獲取到的蛋白質(zhì)位置和蛋白質(zhì)相互作用網(wǎng)絡(luò)邊聚類系數(shù)構(gòu)建加權(quán)網(wǎng)絡(luò);其次,依據(jù)蛋白質(zhì)所處亞細(xì)胞位置,提出亞細(xì)胞定位區(qū)室子網(wǎng)參與度指標(biāo);最后,融合亞細(xì)胞定位區(qū)室子網(wǎng)參與度和蛋白質(zhì)復(fù)合物子網(wǎng)參與度指標(biāo),多維度度量蛋白質(zhì)關(guān)鍵性。在DIP和Krogan兩個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,PDWS算法性能優(yōu)于PeC、PCSD等已有算法,可識(shí)別出更多特定結(jié)構(gòu)的關(guān)鍵蛋白質(zhì),且識(shí)別精度分別達(dá)到0.76與0.73。
關(guān)鍵詞: 關(guān)鍵蛋白質(zhì); 蛋白質(zhì)相互作用網(wǎng)絡(luò); 亞細(xì)胞定位; 蛋白質(zhì)復(fù)合物
中圖分類號(hào): TP301.6 ""文獻(xiàn)標(biāo)志碼: A
文章編號(hào): 1001-3695(2022)01-029-0163-07
doi:10.19734/j.issn.1001-3695.2021.04.0161
Essential protein identification algorithm based on weighted subnetwork participation degree and multi-source information fusion
Fei Zhaojie1a,2, Liu Peiqiang1a,2, Guo Junhong1b, Yang Zhuang1a,2, Liu Chang1a,2
(1.a.School of Computer Science amp; Technology, b.School of Statistics, Shandong Technology amp; Business University, Yantai Shandong 264005, China; 2.Future Intelligent Computing Co-Innovation Center of Shandong Colleges amp; Universities, Yantai Shandong 264005, China)
Abstract: Existing essential protein recognition algorithms don’t consider biological information comprehensively,and the recognition accuracy rate needs to be improved.To solve this problem,this paper proposed an efficient essential protein identification algorithm named PDWS.First,it combined the protein position obtained from the subcellular localization information and the edge clustering coefficient of the protein interaction network to construct a weighted network.Second,based on the analysis of the subcellular location of the protein,it proposed a subcellular location compartment subnetwork participation index.Finally,integrating subcellular localization compartment subnetwork participation index and protein complex subnetwork participation index,it multi-dimensionally measured the criticality of protein.The experimental results on the two standard datasets of DIP and Krogan show that PDWS can identify more specific structured essential proteins with recognition accuracies reaching 0.76 and 0.73 respectively,which shows PDWS outperforms PeC,PCSD and other existing algorithms.
Key words: essential proteins; protein-protein interaction network; subcellular localization; protein complexes
0 引言
蛋白質(zhì)作為基因表達(dá)的產(chǎn)物,在生物體細(xì)胞生命活動(dòng)中扮演重要角色。根據(jù)蛋白質(zhì)對(duì)生命活動(dòng)重要性差異,將其分為關(guān)鍵蛋白質(zhì)和非關(guān)鍵蛋白質(zhì)。關(guān)鍵蛋白質(zhì)是指將其通過基因剔除式突變移除后會(huì)造成有關(guān)蛋白質(zhì)復(fù)合體功能喪失,并導(dǎo)致生物體無法生存的蛋白質(zhì)。此外,相關(guān)研究表明,關(guān)鍵蛋白質(zhì)通常是致病基因[1],準(zhǔn)確識(shí)別關(guān)鍵蛋白質(zhì),對(duì)于了解疾病發(fā)生及作用機(jī)制、藥物設(shè)計(jì)和疾病治療具有重要意義[2]。
隨著生物信息學(xué)的發(fā)展,已經(jīng)存在大量關(guān)鍵蛋白質(zhì)識(shí)別算法。早期識(shí)別關(guān)鍵蛋白質(zhì)主要通過生物實(shí)驗(yàn)方法,如基因敲除[3]、RNA干擾[4]、條件性基因剔除[5]。生物實(shí)驗(yàn)方法識(shí)別關(guān)鍵蛋白質(zhì)準(zhǔn)確率高,但存在對(duì)實(shí)驗(yàn)環(huán)境要求嚴(yán)格且費(fèi)時(shí)費(fèi)力等不足。隨著高通量技術(shù)迅速發(fā)展,蛋白質(zhì)相互作用(protein-protein interaction,PPI)數(shù)據(jù)日趨完善,使得基于蛋白質(zhì)相互作用網(wǎng)絡(luò)(protein interaction network,PIN)的計(jì)算方法來識(shí)別關(guān)鍵蛋白質(zhì)成為可能。因此,從大量生物實(shí)驗(yàn)數(shù)據(jù)中準(zhǔn)確高效識(shí)別關(guān)鍵蛋白質(zhì)成為當(dāng)前研究熱點(diǎn)。
在計(jì)算方法上,研究表明關(guān)鍵蛋白質(zhì)與PIN拓?fù)浣Y(jié)構(gòu)聯(lián)系密切。Jeong等人[6]在2001年提出了中心—致死法則(centrality-lethality rule),該法則指出在PIN中,高度連接的蛋白質(zhì)更傾向于成為關(guān)鍵蛋白質(zhì),例如在DIP(database of interacting proteins)數(shù)據(jù)庫中酵母PPI網(wǎng)絡(luò),度大于等于10的關(guān)鍵蛋白質(zhì)有518個(gè),占總體關(guān)鍵蛋白質(zhì)的44.3%。已提出一些基于PIN拓?fù)涮匦缘年P(guān)鍵蛋白質(zhì)識(shí)別算法,其中經(jīng)典算法有度中心性(degree centrality,DC)[6]、介數(shù)中心性(betweenness centrality,BC)[7]、子圖中心性(subgraph centrality,SC)[8]、特征向量中心性(eigenvector centrality,EC)[9]、信息中心性(information centrality,IC)[10]。此外,還有基于邊與網(wǎng)絡(luò)模塊的中心性度量算法,包括鄰域中心性(neighbor centrality,NC)[11]、鄰居相互作用密度中心性算法(local interaction density,LID)[12]等。
基于PIN拓?fù)涮匦缘乃惴m然取得了很大的效果,但是由于部分關(guān)鍵蛋白質(zhì)度值較小,僅從PIN拓?fù)浣Y(jié)構(gòu)單一角度無法進(jìn)行識(shí)別,使得僅基于拓?fù)渲行男缘乃惴ú荒芨咝ёR(shí)別出關(guān)鍵蛋白質(zhì)。近年來,研究發(fā)現(xiàn)生物信息可以幫助識(shí)別關(guān)鍵蛋白質(zhì),因此研究人員嘗試將蛋白質(zhì)復(fù)合物、基因表達(dá)譜等生物信息融合到PIN中,從多維度出發(fā)提出關(guān)鍵蛋白質(zhì)識(shí)別算法。雖然融合生物信息的算法考慮到關(guān)鍵蛋白質(zhì)固有屬性特征,但是對(duì)生物信息分析不夠全面,識(shí)別率仍有提高空間。融合生物信息的算法大致分為兩類:
a)將亞細(xì)胞定位信息、基因表達(dá)譜等生物信息與PIN拓?fù)涮匦韵嘟Y(jié)合,通過計(jì)算中心性指標(biāo)識(shí)別蛋白質(zhì),例如,UCM[13]算法融合PIN拓?fù)涮匦?、基因表達(dá)譜和GO注釋數(shù)據(jù)挖掘稠密且高度共表達(dá)的關(guān)鍵模塊算法,從多維角度強(qiáng)化關(guān)鍵蛋白質(zhì)在模塊中的重要程度。UDoNC(united the domain features and the normalized ECC)算法[14]結(jié)合PIN拓?fù)涮匦耘c蛋白質(zhì)域特征,通過計(jì)算蛋白質(zhì)域特征數(shù)量和頻率評(píng)價(jià)蛋白質(zhì)重要性;SPP(sub-network partition and prioritization)算法[15]結(jié)合亞細(xì)胞定位信息對(duì)原始PIN進(jìn)行子網(wǎng)劃分,在子網(wǎng)中計(jì)算節(jié)點(diǎn)拓?fù)涮匦?,衡量蛋白質(zhì)重要性;SON算法[16]融合亞細(xì)胞定位信息與同源信息,提高了關(guān)鍵蛋白質(zhì)識(shí)別準(zhǔn)確率;RSG[17]算法融合RNA-Seq、亞細(xì)胞定位和GO注釋數(shù)據(jù)識(shí)別關(guān)鍵蛋白質(zhì)。此外,還有一些結(jié)合蛋白質(zhì)復(fù)合物識(shí)別關(guān)鍵蛋白質(zhì)的算法,如UCC(united complex centrality)算法[18]結(jié)合邊聚類系數(shù)(edge clustering coefficient,ECC)與蛋白質(zhì)復(fù)合物信息;LIDC(local interaction density combined with protein complex)算法[19]結(jié)合PIN與蛋白質(zhì)復(fù)合物信息;PCSD(participation degree of a protein in protein complexes and subgraph density)算法[20]對(duì)PIN重定義,在此基礎(chǔ)上通過融合蛋白質(zhì)復(fù)合物信息與所提出的局部子圖密度拓?fù)涮卣髯R(shí)別關(guān)鍵蛋白質(zhì),該方法提高了識(shí)別率,說明構(gòu)建重定義網(wǎng)絡(luò)有效過濾了部分假陽性以及假陰性數(shù)據(jù);LBCC(local density,betweenness centrality and in-degree centrality of complex)算法[21]結(jié)合局部密度、BC算法和復(fù)合物度中心性IDC(in-degree centrality of complex)。其中蛋白質(zhì)復(fù)合物是指在相同的空間和時(shí)間通過相互作用組成一個(gè)多分子機(jī)制的一組蛋白質(zhì),而關(guān)鍵蛋白質(zhì)和蛋白質(zhì)復(fù)合物之間存在密切關(guān)系[22]。這三種算法利用關(guān)鍵蛋白質(zhì)大量存在于某些特定功能蛋白質(zhì)復(fù)合物中的特性,將蛋白質(zhì)復(fù)合物數(shù)據(jù)與PIN拓?fù)浣Y(jié)構(gòu)特性相結(jié)合,極大提高了關(guān)鍵蛋白質(zhì)識(shí)別精度。
b)利用基因表達(dá)譜、GO注釋數(shù)據(jù)等生物信息構(gòu)建加權(quán)網(wǎng)絡(luò),在此基礎(chǔ)上識(shí)別關(guān)鍵蛋白質(zhì),例如PeC(integration person correlation and ECC)算法[23]和WDC(weighted degree centrality)[24]算法融合邊聚類系數(shù)與基因表達(dá)譜,通過計(jì)算邊聚類系數(shù)與皮爾森系數(shù)構(gòu)造加權(quán)PIN,在此基礎(chǔ)上識(shí)別關(guān)鍵蛋白質(zhì)。DWE[25]算法融合GO注釋數(shù)據(jù)對(duì)網(wǎng)絡(luò)加權(quán),利用基因表達(dá)獲取動(dòng)態(tài)網(wǎng)絡(luò),基于動(dòng)態(tài)加權(quán)PIN識(shí)別關(guān)鍵蛋白質(zhì)。RWEP[26]算法融合拓?fù)涮卣髋c生物信息構(gòu)建加權(quán)網(wǎng)絡(luò),采用隨機(jī)游走算法識(shí)別關(guān)鍵蛋白質(zhì),該算法與其他算法相比,能識(shí)別出更多關(guān)鍵蛋白質(zhì)。這幾種算法證實(shí),基于帶權(quán)重PIN的算法識(shí)別率得到了很大提高。
綜上所述,現(xiàn)有關(guān)鍵蛋白質(zhì)識(shí)別算法旨在通過結(jié)合PIN與一種或者多種生物信息彌補(bǔ)PPI數(shù)據(jù)不可靠的缺陷,從而提高識(shí)別率。對(duì)于使用蛋白質(zhì)復(fù)合物、亞細(xì)胞定位信息等單一生物信息的關(guān)鍵蛋白質(zhì)識(shí)別算法,雖然比僅基于拓?fù)涮卣鞯乃惴ㄗR(shí)別率有一定提高,但仍對(duì)PIN拓?fù)涮匦院偷鞍踪|(zhì)生物信息考慮不夠全面,例如,基于亞細(xì)胞定位信息的識(shí)別算法只考慮蛋白質(zhì)所在一個(gè)位置信息對(duì)蛋白質(zhì)產(chǎn)生影響還不夠全面,由于蛋白質(zhì)可能存在于多個(gè)亞細(xì)胞位置,導(dǎo)致不能全面衡量蛋白質(zhì)重要性。對(duì)于融合多種生物信息的識(shí)別算法,由于不同生物信息并不是孤立存在的,只通過多個(gè)數(shù)據(jù)源加權(quán)匯總不能反映生物信息之間的關(guān)系,所以需要更多研究挖掘生物數(shù)據(jù)與PPI拓?fù)浣Y(jié)構(gòu)的聯(lián)系,以便能識(shí)別更多關(guān)鍵蛋白質(zhì)。
針對(duì)以上問題,本文融合亞細(xì)胞定位信息與邊聚類系數(shù)構(gòu)建可靠加權(quán)PIN,提出新的關(guān)鍵蛋白質(zhì)識(shí)別算法。PIN中蛋白質(zhì)間相互作用的重要性并不相同,其重要性可以通過生物數(shù)據(jù)及拓?fù)涮匦院饬?。邊聚類系?shù)[27]作為PIN中一個(gè)重要特性,其通過PIN鄰域信息描述蛋白質(zhì)間親疏程度。亞細(xì)胞定位信息作為蛋白質(zhì)重要特征,代表細(xì)胞中蛋白質(zhì)出現(xiàn)的具體位置。Peng等人[28]指出,一個(gè)亞細(xì)胞區(qū)室的重要性與該區(qū)室中發(fā)生相互作用的蛋白質(zhì)數(shù)量成正比?;诘鞍踪|(zhì)亞細(xì)胞定位的特點(diǎn),設(shè)計(jì)公式計(jì)算權(quán)重衡量蛋白質(zhì)間相互作用是否發(fā)生在特定亞細(xì)胞結(jié)構(gòu),相互作用權(quán)重越高,表明其在進(jìn)行關(guān)鍵生命活動(dòng)的可能越高。通過從生物信息與PIN拓?fù)涮卣鲀蓚€(gè)角度更全面地衡量蛋白質(zhì)相互作用的重要程度,構(gòu)建加權(quán)PIN?;谒鶚?gòu)建的加權(quán)PIN,提出一種基于加權(quán)子網(wǎng)參與度和多源信息融合的關(guān)鍵蛋白質(zhì)識(shí)別算法PDWS(essential protein identification algorithm based on weighted subnetwork participation degree),該算法能夠反映節(jié)點(diǎn)間可信度,從多數(shù)據(jù)角度分別構(gòu)建子網(wǎng),綜合評(píng)價(jià)蛋白質(zhì)節(jié)點(diǎn)的關(guān)鍵性。實(shí)驗(yàn)結(jié)果表明,該算法可以識(shí)別更多關(guān)鍵蛋白質(zhì)。本文主要貢獻(xiàn)如下:a)基于亞細(xì)胞定位信息與邊聚類系數(shù)構(gòu)建加權(quán)PIN,其中亞細(xì)胞定位信息用來計(jì)算蛋白質(zhì)之間的置信度,邊聚類系數(shù)用來計(jì)算蛋白質(zhì)之間的拓?fù)淇尚哦?;b)提出亞細(xì)胞定位區(qū)室子網(wǎng)參與度與蛋白質(zhì)復(fù)合物子網(wǎng)參與度指標(biāo)來評(píng)價(jià)蛋白質(zhì)關(guān)鍵性;c)實(shí)現(xiàn)PIN拓?fù)涮匦耘c生物信息的多數(shù)據(jù)融合,設(shè)計(jì)蛋白質(zhì)關(guān)鍵性得分計(jì)算公式提高了識(shí)別準(zhǔn)確率。
1 相關(guān)概念
PIN可以表示為無向簡單圖G(V,E),V表示蛋白質(zhì)集合,對(duì)應(yīng)簡單圖中節(jié)點(diǎn)集合,E表示蛋白質(zhì)之間相互作用關(guān)系集合,對(duì)應(yīng)簡單圖中邊集合。vi∈V代表PIN中第i個(gè)蛋白質(zhì),Nv表示包含節(jié)點(diǎn)v所有鄰居的節(jié)點(diǎn)集。
邊聚類系數(shù)作為PIN重要的拓?fù)涮卣?,不僅可以描述蛋白質(zhì)相互作用的可信度,還可以評(píng)估蛋白質(zhì)之間屬于同一簇的概率。關(guān)鍵蛋白質(zhì)通常是成簇出現(xiàn),本文使用邊聚類系數(shù)衡量蛋白質(zhì)間相互作用的概率。邊聚類系數(shù)計(jì)算如式(1)所示。
ECC(v,u)=tan(v,u)min(d(v)-1,d(u)-1)(1)
其中:tan(v,u)表示v和u共同參與構(gòu)成的三角形個(gè)數(shù);d(v)和d(u)分別表示u和v鄰居個(gè)數(shù)。
2 PDWS算法
基于PIN、亞細(xì)胞定位信息及蛋白質(zhì)復(fù)合物信息,提出基于加權(quán)子網(wǎng)參與度和多源信息融合的關(guān)鍵蛋白質(zhì)識(shí)別算法。該算法具體流程如下:a)以原始PIN作為框架,利用亞細(xì)胞定位信息與邊聚類系數(shù)從生物和拓?fù)浣Y(jié)構(gòu)兩個(gè)角度考慮構(gòu)建加權(quán)PIN;b)根據(jù)PIN拓?fù)湫畔ⅰ⒌鞍踪|(zhì)復(fù)合物和亞細(xì)胞定位信息,計(jì)算節(jié)點(diǎn)蛋白質(zhì)復(fù)合物子網(wǎng)參與度與亞細(xì)胞定位子網(wǎng)參與度指標(biāo),衡量蛋白質(zhì)在對(duì)應(yīng)子網(wǎng)中重要程度;c)計(jì)算蛋白質(zhì)得分衡量蛋白質(zhì)重要程度。PDWS算法框架如圖1所示。
2.1 構(gòu)建加權(quán)PPI網(wǎng)絡(luò)
通過對(duì)關(guān)鍵蛋白質(zhì)分析發(fā)現(xiàn),蛋白質(zhì)的重要程度與其相互作用可靠程度密切相關(guān)。綜合考慮蛋白質(zhì)拓?fù)浣Y(jié)構(gòu)特征與生物信息,通過亞細(xì)胞定位信息與邊聚類系數(shù)對(duì)PIN加權(quán)構(gòu)建PPI加權(quán)網(wǎng)絡(luò)。相互作用權(quán)重由蛋白質(zhì)之間置信度和蛋白質(zhì)之間拓?fù)淇尚哦葍煞矫鏇Q定。
蛋白質(zhì)如果與其鄰居在適當(dāng)?shù)膩喖?xì)胞位置共同完成生命活動(dòng),則它們之間的相互作用表現(xiàn)得更為緊密。通過對(duì)11種亞細(xì)胞定位信息分析發(fā)現(xiàn),亞細(xì)胞區(qū)室之間重要程度有明顯差異。通過亞細(xì)胞加權(quán)后的PIN如圖2所示,從圖中可以看出,YMR001C與YDL017W為關(guān)鍵蛋白質(zhì),且處在同一重要亞細(xì)胞定位區(qū)室,權(quán)重較高,而YPL256C與YLR386W為非關(guān)鍵蛋白質(zhì),其相互作用權(quán)重較低。為評(píng)價(jià)亞細(xì)胞區(qū)室之間的重要性,本文對(duì)每一個(gè)區(qū)室中蛋白質(zhì)數(shù)量以及相互作用進(jìn)行計(jì)數(shù),對(duì)每一個(gè)區(qū)室其重要程度得分計(jì)算如下所示:
LS(i)=PI(i)PN(i),i∈{1,2,…,11}(2)
其中:PI(i)表示某個(gè)亞細(xì)胞區(qū)室中PPI數(shù)量;PN(i)表示亞細(xì)胞區(qū)室中蛋白質(zhì)數(shù)量。
根據(jù)計(jì)算出的亞細(xì)胞定位區(qū)室得分,可以對(duì)PIN中相互作用進(jìn)行加權(quán)。考慮到蛋白質(zhì)u可能存在于多個(gè)亞細(xì)胞中,本文使用Loc(u)表示u節(jié)點(diǎn)所在亞細(xì)胞位置。發(fā)生相互作用的兩個(gè)蛋白質(zhì)處于同一區(qū)室表明這兩個(gè)蛋白質(zhì)之間更緊密,對(duì)于處在同一區(qū)室的相互作用(u,v),使用二者共享區(qū)室得分最大值對(duì)權(quán)重進(jìn)行標(biāo)注,共享區(qū)室為SLoc(u,v)=Loc(u)∩Loc(v),考慮到并不是每一個(gè)蛋白質(zhì)都有亞細(xì)胞定位信息,將這樣的相互作用標(biāo)注為發(fā)生相互作用的兩個(gè)蛋白質(zhì)所有定位區(qū)室最小值,如果發(fā)生相互作用的兩個(gè)蛋白質(zhì)都沒有亞細(xì)胞定位信息,則將其相互作用權(quán)重設(shè)為0。具體權(quán)重計(jì)算如下所示:
WSC(u,v)=max(LS(i)if SLoc≠min(LS(MLoc))otherwise(3)
其中:MLoc為產(chǎn)生相互作用的兩個(gè)蛋白質(zhì)所有亞細(xì)胞定位區(qū)室集合。綜合考慮邊聚類系數(shù)與亞細(xì)胞定位信息,蛋白質(zhì)u和v間權(quán)重計(jì)算公式為
W(u,v)=WSC(u,v)+ECC(u,v)(4)
2.2 亞細(xì)胞定位區(qū)室子網(wǎng)參與度
在不同的亞細(xì)胞結(jié)構(gòu)中,蛋白質(zhì)發(fā)揮不同功能,位于同一個(gè)亞細(xì)胞區(qū)室中的蛋白質(zhì)通過相互作用才能共同完成生命活動(dòng),因此結(jié)合PPI信息與亞細(xì)胞定位信息進(jìn)行子網(wǎng)劃分。將蛋白質(zhì)與其鄰居在同一區(qū)室所有蛋白質(zhì)劃分為一個(gè)子網(wǎng),通過對(duì)PIN拓?fù)浣Y(jié)構(gòu)與亞細(xì)胞定位信息的分析,蛋白質(zhì)在每一子網(wǎng)重要性各不相同,所以評(píng)價(jià)蛋白質(zhì)在不同子網(wǎng)重要程度時(shí)會(huì)在加權(quán)網(wǎng)絡(luò)上計(jì)算。亞細(xì)胞定位區(qū)室子網(wǎng)參與度為各個(gè)子網(wǎng)中該蛋白質(zhì)與其鄰居節(jié)點(diǎn)之間權(quán)重和與其所在子網(wǎng)個(gè)數(shù)之比。蛋白質(zhì)亞細(xì)胞定位區(qū)室子網(wǎng)參與度計(jì)算公式為
SCD(u)=∑11i=1 ∑v∈Ni(u)W(u,v)num(u)(5)
其中:Ni(u)表示第i個(gè)亞細(xì)胞區(qū)室節(jié)點(diǎn)u的鄰居集合;W(u,v)表示節(jié)點(diǎn)u和v間的相互作用權(quán)重;num(u)表示節(jié)點(diǎn)u處在亞細(xì)胞定位區(qū)室個(gè)數(shù)。
2.3 蛋白質(zhì)復(fù)合物子網(wǎng)參與度
蛋白質(zhì)在進(jìn)行生命活動(dòng)時(shí)并不是單獨(dú)行動(dòng),而是位于同一個(gè)亞細(xì)胞結(jié)構(gòu)中蛋白質(zhì)相互作用形成蛋白質(zhì)復(fù)合物共同完成生命活動(dòng)。出現(xiàn)在復(fù)合物中的蛋白質(zhì)更傾向于是關(guān)鍵蛋白質(zhì),而出現(xiàn)在多個(gè)復(fù)合物中的蛋白質(zhì)比出現(xiàn)在單一復(fù)合物中更加重要,因此設(shè)計(jì)蛋白質(zhì)在加權(quán)網(wǎng)絡(luò)中蛋白質(zhì)復(fù)合物子網(wǎng)參與程度,作為評(píng)價(jià)蛋白質(zhì)關(guān)鍵性的一項(xiàng)指標(biāo),計(jì)算如式(6)所示。
PCD(u)=∑v∈ComplexSet(u)W(u,v)(6)
其中:ComplexSet(u)表示含有蛋白質(zhì)u的一組復(fù)合物集合。
2.4 關(guān)鍵蛋白質(zhì)識(shí)別算法
在總結(jié)分析了一些關(guān)鍵蛋白質(zhì)算法實(shí)驗(yàn)結(jié)果后,發(fā)現(xiàn)只依靠單一拓?fù)湫畔⒒蛏镄畔⒑茈y準(zhǔn)確識(shí)別大量關(guān)鍵蛋白質(zhì)。為提高識(shí)別性能,融合PIN拓?fù)湫畔?、亞?xì)胞定位信息和蛋白質(zhì)復(fù)合物信息,評(píng)價(jià)蛋白質(zhì)在PIN中的重要程度。蛋白質(zhì)u的重要性計(jì)算公式為
PDWS(u)=SCD(u)+PCD(u)(7)
根據(jù)每個(gè)蛋白質(zhì)的PDWS值將所有蛋白質(zhì)按值降序排列,PDWS值越大,蛋白質(zhì)越可能是關(guān)鍵蛋白質(zhì)?;谑剑?),算法PDWS描述如下:
算法1 PDWS
輸入:PPI網(wǎng)絡(luò)G=(V,E);亞細(xì)胞定位數(shù)據(jù);蛋白質(zhì)復(fù)合物數(shù)據(jù);蛋白質(zhì)數(shù)量K。
輸出:按PDWS值降序排序得到的蛋白質(zhì)列表。
//根據(jù)式(1)~(4)構(gòu)建加權(quán)PPI網(wǎng)絡(luò)
for each(u,v)∈E do
根據(jù)式(1)計(jì)算ECC(u,v);
根據(jù)式(2)(3)計(jì)算蛋白質(zhì)之間的置信度;
根據(jù)式(4)計(jì)算W(u,v);
end for
//計(jì)算多源信息子網(wǎng)參與度和蛋白質(zhì)得分
for each v∈|V| do
根據(jù)式(5)計(jì)算SCD(v);
根據(jù)式(6)計(jì)算PCD(u);
根據(jù)式(7)計(jì)算PDWS(u);
end for
//根據(jù)PDWS(u)值,取前K的蛋白質(zhì)作為候選關(guān)鍵蛋白質(zhì)集合
3 實(shí)驗(yàn)結(jié)果與分析
3.1 實(shí)驗(yàn)數(shù)據(jù)集
由于酵母PIN和關(guān)鍵蛋白質(zhì)具有較高的可靠性與完整性,所以選擇酵母PPI數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù)并展開實(shí)驗(yàn),評(píng)價(jià)所提出算法PDWS的性能。實(shí)驗(yàn)所需數(shù)據(jù)如下:a)來源于DIP數(shù)據(jù)庫的DIP[29],來源于BioGRID數(shù)據(jù)庫的Krogan[30];b)標(biāo)準(zhǔn)關(guān)鍵蛋白質(zhì)集合通過整合MIPS[31]、SGD[32]、DEG[33]和SGDP[34]四個(gè)數(shù)據(jù)庫,共有1 285個(gè)關(guān)鍵蛋白質(zhì),其中出現(xiàn)在酵母DIP網(wǎng)絡(luò)中有1 167個(gè),Krogan網(wǎng)絡(luò)中有784個(gè);c)酵母亞細(xì)胞定位數(shù)據(jù)集從COMPARTMENTS數(shù)據(jù)庫獲取,其中包括5 095個(gè)酵母蛋白質(zhì)的206 831個(gè)亞細(xì)胞定位記錄;d)蛋白質(zhì)復(fù)合物數(shù)據(jù)從文獻(xiàn)[20]中獲得,是由CM270、CM425、CYC408和CYC428四個(gè)蛋白質(zhì)復(fù)合物數(shù)據(jù)集中收集,包括蛋白質(zhì)復(fù)合物745個(gè),共包含2 167個(gè)蛋白質(zhì)。
兩種PPI數(shù)據(jù)集詳細(xì)信息如表1所示。PPI數(shù)據(jù)構(gòu)建的PIN具有稀疏性、節(jié)點(diǎn)平均度比較小且具有功能模塊結(jié)構(gòu)等特點(diǎn)。
3.2 與其他算法進(jìn)行比較
為評(píng)價(jià)PDWS算法性能,在兩個(gè)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。在DIP數(shù)據(jù)集上與DC、SC、EC、IC、LAC、NC、WDC、PeC、UDoNc、LBCC和PCSD算法進(jìn)行比較,由于沒有獲取到UDoNc與LBCC算法,在Krogan數(shù)據(jù)集上不與這兩種算法進(jìn)行比較。分別計(jì)算網(wǎng)絡(luò)中蛋白質(zhì)重要性評(píng)分,降序排序后選取前1%、5%、10%、15%、20%、25%的蛋白質(zhì)作為識(shí)別出的關(guān)鍵蛋白質(zhì)候選集,對(duì)比標(biāo)準(zhǔn)關(guān)鍵蛋白質(zhì)數(shù)據(jù)集,確定候選集中關(guān)鍵蛋白質(zhì)數(shù)目。
對(duì)于DIP數(shù)據(jù)集,比較結(jié)果如圖3所示,從圖3可以看出,在選取前1%與前5%的蛋白質(zhì)作為關(guān)鍵蛋白質(zhì)候選集時(shí),PCSD算法表現(xiàn)較好,隨著候選蛋白質(zhì)數(shù)量增加,PDWS算法能識(shí)別更多關(guān)鍵蛋白質(zhì);當(dāng)選擇前25%蛋白質(zhì)作為關(guān)鍵蛋白質(zhì)候選集時(shí),識(shí)別準(zhǔn)確率為47.9%。在六種僅考慮單一拓?fù)涮匦缘闹行男运惴ㄖ?,NC算法識(shí)別率最高,與NC算法相比,PDWS算法識(shí)別率提高了21.6%、13.3%、8.8%、9.3%、6.9%、5.1%。融合生物信息的識(shí)別算法中,PCSD算法識(shí)別準(zhǔn)確率最高,與該方法相比,PDWS算法在選擇候選集為前10%、15%、20%、25%的蛋白質(zhì)時(shí)識(shí)別準(zhǔn)確率分別提高了0.7%、1.8%、1.9%、2.4%。
對(duì)于Krogan數(shù)據(jù)集,比較結(jié)果如圖4所示。與其他九種算法相比,PDWS算法在選擇候選集為前20%和25%時(shí)能識(shí)別更多關(guān)鍵蛋白質(zhì),與表現(xiàn)最好的PCSD算法相比,識(shí)別率在選取前20%與25%的蛋白質(zhì)為候選集時(shí)分別提高了2.8%與2.4%。在該數(shù)據(jù)集上,隨著候選集規(guī)模增加,PDWS算法優(yōu)勢逐漸增大,相比其他算法能識(shí)別出更多關(guān)鍵蛋白質(zhì),說明從多維度構(gòu)建的加權(quán)子網(wǎng)指標(biāo)能夠提高算法識(shí)別性能。
因此,在兩個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,PDWS算法可以有效識(shí)別出更多蛋白質(zhì)。
3.3 算法識(shí)別實(shí)例分析
本文PDWS算法在DIP數(shù)據(jù)集上準(zhǔn)確率高于現(xiàn)有算法,其主要原因是可以利用兩種模塊生物信息過濾噪聲數(shù)據(jù)。由于所測試各項(xiàng)數(shù)據(jù)由生物方法測試得出,其中存在噪聲數(shù)據(jù),PDWS算法通過融合兩種模塊化生物信息,互補(bǔ)缺失數(shù)據(jù),減少噪聲數(shù)據(jù)對(duì)實(shí)驗(yàn)結(jié)果的影響。所提算法能識(shí)別出不在復(fù)合物中但在重要亞細(xì)胞位置上以及不在重要亞細(xì)胞位置上但在復(fù)合物中的一類關(guān)鍵蛋白質(zhì)。圖5中,(a)與(b)表示以蛋白質(zhì)節(jié)點(diǎn)YNL306W和YCR096C為中心節(jié)點(diǎn),選取其鄰居及相互作用構(gòu)成的子圖。在這兩個(gè)子網(wǎng)中,各邊權(quán)重按照本文提供的加權(quán)計(jì)算方法進(jìn)行計(jì)算。
通過對(duì)所識(shí)別關(guān)鍵蛋白質(zhì)實(shí)例分析,PDWS算法能識(shí)別出圖5所示的結(jié)構(gòu),但其他算法無法識(shí)別出來。從圖5(a)可以看出,中心蛋白質(zhì)節(jié)點(diǎn)YNL306W度為3,且與鄰居的相互作用權(quán)重較小,但該節(jié)點(diǎn)為關(guān)鍵蛋白質(zhì)。在圖5(a)中,中心節(jié)點(diǎn)度較小且蛋白質(zhì)所處亞細(xì)胞位置重要程度較低,導(dǎo)致與鄰居的相互作用權(quán)重不高,但中心節(jié)點(diǎn)YNL306W處于九個(gè)蛋白質(zhì)復(fù)合物中,PDWS算法中蛋白質(zhì)復(fù)合物子網(wǎng)參與度指標(biāo)可以降低邊聚類系數(shù)較小帶來的影響,識(shí)別出具有該特征的關(guān)鍵蛋白質(zhì)。
在圖5(b)中,中心蛋白質(zhì)節(jié)點(diǎn)YCR096C沒有處在任何蛋白質(zhì)復(fù)合物中,但該節(jié)點(diǎn)為關(guān)鍵蛋白質(zhì)。通過分析發(fā)現(xiàn),蛋白質(zhì)YCR096C度為7,且與鄰居的邊聚類系數(shù)值較小,但該節(jié)點(diǎn)與鄰居節(jié)點(diǎn)處于同一重要亞細(xì)胞結(jié)構(gòu),PDWS算法通過計(jì)算亞細(xì)胞定位區(qū)室子網(wǎng)參與度正確識(shí)別為關(guān)鍵蛋白質(zhì)。PDWS算法能夠從蛋白質(zhì)復(fù)合物與亞細(xì)胞定位兩個(gè)角度衡量蛋白質(zhì)關(guān)鍵性,準(zhǔn)確識(shí)別以上兩種結(jié)構(gòu)的關(guān)鍵蛋白質(zhì),這是如其他算法所忽略或誤判的。
3.4 基于ROC曲線方法比較實(shí)驗(yàn)結(jié)果
釀酒酵母的蛋白質(zhì)可分為關(guān)鍵蛋白質(zhì)和非關(guān)鍵蛋白質(zhì),對(duì)關(guān)鍵蛋白質(zhì)的識(shí)別實(shí)際上是一個(gè)二類分類問題。因此ROC曲線是評(píng)價(jià)分類器性能的合適指標(biāo)。在ROC曲線中,橫軸為假陽性率(FPR),縱軸為真陽性率(TPR)。假陽性率又稱做特異性,真陽性率又稱做敏感性或召回率,計(jì)算公式如下:
FPR=FPFP+FN(8)
TPR=TPTP+FN (9)
其中:TP(true positives)為真陽性,代表正確識(shí)別為關(guān)鍵蛋白質(zhì)的數(shù)量;TN(true negatives)為真陰性,代表正確識(shí)別為非關(guān)鍵蛋白質(zhì)的數(shù)量;FP(1 positives)為假陽性,代表自身是非關(guān)鍵蛋白質(zhì)被識(shí)別為關(guān)鍵蛋白質(zhì)的數(shù)目;FN(1 negatives)為假陰性,代表自身是關(guān)鍵蛋白質(zhì)被識(shí)別為非關(guān)鍵蛋白質(zhì)的數(shù)目。此外,曲線下的面積即AUC,用來評(píng)價(jià)二類分類器性能,AUC值越高,分類器越好。PDWS算法與其他算法對(duì)比結(jié)果如圖6所示。圖6中,(a)與(b)分別為DIP數(shù)據(jù)集和Krogan數(shù)據(jù)集上不同算法的ROC曲線和AUC值。在DIP數(shù)據(jù)集上,PDWS算法的AUC為0.746 1;在Krogan數(shù)據(jù)集上,PDWS算法的AUC值為0.725 8。在兩個(gè)數(shù)據(jù)集上,AUC值均大于其他算法。結(jié)果表明該算法性能更好。
3.5 基于precision-recall曲線方法比較實(shí)驗(yàn)結(jié)果
本節(jié)使用精度—召回(precision-recall,P-R)曲線對(duì)PDWS算法以及其他算法的實(shí)驗(yàn)結(jié)果進(jìn)行性能評(píng)估。P-R曲線是驗(yàn)證該算法性能的另一種常用方法。精度定義為TP/(TP+FP),召回率定義為TP/(TP+FN)。準(zhǔn)確度是識(shí)別出的關(guān)鍵蛋白質(zhì)與標(biāo)準(zhǔn)數(shù)據(jù)集中蛋白質(zhì)相匹配的數(shù)目比上預(yù)測結(jié)果的總數(shù)目;召回率是標(biāo)準(zhǔn)關(guān)鍵蛋白質(zhì)數(shù)量與識(shí)別集合中相匹配數(shù)目比上標(biāo)準(zhǔn)數(shù)據(jù)集關(guān)鍵蛋白質(zhì)數(shù)量。a)根據(jù)排序分?jǐn)?shù)對(duì)蛋白質(zhì)進(jìn)行降序排序;b)選擇前百分之K蛋白質(zhì)作為關(guān)鍵蛋白質(zhì)候選集合;c)根據(jù)K值計(jì)算精度和召回率,繪制P-R曲線。圖7(a)(b)分別為PDWS算法與其他算法在DIP和Krogan數(shù)據(jù)集上繪制的P-R曲線。已知DIP數(shù)據(jù)集中有1 137個(gè)關(guān)鍵蛋白質(zhì),Krogan數(shù)據(jù)集中有784個(gè)關(guān)鍵蛋白質(zhì),選擇前1 137和784個(gè)蛋白作為候選集繪制P-R曲線。在兩個(gè)數(shù)據(jù)集上,PDWS算法都具有較好性能。
3.6 統(tǒng)計(jì)指標(biāo)對(duì)比分析
為進(jìn)一步分析PDWS算法性能,采用敏感度(sensitivity,SN)、特異性(specificity,SP)、F測度(F-measure)、正確率(accuracy,ACC)、陽性預(yù)測值(positive predictive value,PPV)和陰性預(yù)測值(negative predictive value,NPV)六項(xiàng)統(tǒng)計(jì)指標(biāo)分析各算法性能。其中,SN表示正確識(shí)別關(guān)鍵蛋白質(zhì)比例;SP為正確識(shí)別的非關(guān)鍵蛋白質(zhì)比例;PPV表示候選集中被正確識(shí)別關(guān)鍵蛋白質(zhì)比例;NPV表示非候選集中被正確識(shí)別為非關(guān)鍵蛋白質(zhì)比例;F表示SN和NPV值的調(diào)和平均值;ACC表示所有識(shí)別中正確結(jié)果比例。各統(tǒng)計(jì)指標(biāo)計(jì)算公式如下:
SN=TPTP+FN(10)
SP=TNTN+FP(11)
PPV=TPTP+FP(12)
NPV=TNTN+FN(13)
F=2×SN×PPVSN+PPV(14)
ACC=TP+TNTP+TN+FP+FN(15)
根據(jù)不同算法計(jì)算出得分對(duì)蛋白質(zhì)降序排序,在DIP和Krogan兩個(gè)數(shù)據(jù)集中選取排序集合中前25%的蛋白質(zhì)作為候選關(guān)鍵蛋白質(zhì)集合,其余為非關(guān)鍵蛋白質(zhì)。根據(jù)已知標(biāo)準(zhǔn)關(guān)鍵蛋白質(zhì)數(shù)量計(jì)算六項(xiàng)統(tǒng)計(jì)指標(biāo)值,以分析PDWS算法識(shí)別性能。由于現(xiàn)有融合生物信息的算法識(shí)別性能相近,為更清晰地表現(xiàn)各指標(biāo)精度,對(duì)各指標(biāo)數(shù)據(jù)保留小數(shù)點(diǎn)后4位。PDWS算法與其他算法在兩種數(shù)據(jù)集的比較結(jié)果如表2所示。
從表2可以看出,在DIP數(shù)據(jù)集上,僅基于網(wǎng)絡(luò)拓?fù)渥R(shí)別的算法中,LAC算法表現(xiàn)最好,PDWS算法與LAC算法相比,六項(xiàng)統(tǒng)計(jì)指標(biāo)分別高出4.97%、1.47%、4.93%、1.49%、4.95%、2.26%。與融合生物信息算法中表現(xiàn)最好的PCSD相比,各項(xiàng)指標(biāo)仍具有優(yōu)勢。在Krogan數(shù)據(jù)集上,PDWS六項(xiàng)統(tǒng)計(jì)指標(biāo)值均高于其他九種算法,表明PDWS算法可以有效識(shí)別關(guān)鍵蛋白質(zhì)。
3.7 PDWS與其他算法差異性
為進(jìn)一步分析PDWS算法在識(shí)別關(guān)鍵蛋白質(zhì)方面表現(xiàn)良好的原因,通過對(duì)比所提出算法與12種關(guān)鍵蛋白質(zhì)識(shí)別算法(DC、BC、CC、SC、EC、IC、NC、LAC、DMNC、SoECC、PeC、LBCC)在DIP數(shù)據(jù)集上識(shí)別出前100個(gè)關(guān)鍵蛋白質(zhì),分析不同算法識(shí)別出共有與不同關(guān)鍵蛋白質(zhì)的差異。表3顯示了PDWS算法與其他算法識(shí)別出前100個(gè)關(guān)鍵蛋白質(zhì)重疊和差異的數(shù)量。|PDWS∩Mi|表示PDWS算法與現(xiàn)有算法識(shí)別到重疊蛋白質(zhì)的數(shù)量;{Mi-PDWS}代表中心性算法Mi識(shí)別出的蛋白質(zhì)卻被PDWS算法所忽略的數(shù)量;|Mi-PDWS|表示{Mi-PDWS}集合中的數(shù)量。在排名前100的蛋白質(zhì)中,DC、BC、CC、SC、EC、IC、NC、DMNC八種算法與PDWS算法共同識(shí)別的蛋白質(zhì)數(shù)量均小于20%,與LAC、PeC、SoECC和LBCC算法相比,識(shí)別的重疊蛋白質(zhì)數(shù)量均小于52%。PDWS算法與其他12種算法在識(shí)別的蛋白質(zhì)上只有很小重疊,說明PDWS與其他算法相比具有特殊性。為了進(jìn)一步分析這些中心性算法,選取DIP數(shù)據(jù)集中1 167個(gè)標(biāo)準(zhǔn)關(guān)鍵蛋白質(zhì)作為分界線,排名在1 167后的蛋白質(zhì)認(rèn)為是具有低PDWS分?jǐn)?shù)的蛋白質(zhì),從表3中可以看出,各算法排名在前100的非關(guān)鍵蛋白質(zhì)使用PDWS算法計(jì)算分?jǐn)?shù)后,一部分蛋白質(zhì)排名在1 167之后,可以看出PDWS算法可以有效篩除被其他算法識(shí)別為關(guān)鍵蛋白質(zhì)的非關(guān)鍵蛋白質(zhì)。
4 結(jié)束語
關(guān)鍵蛋白質(zhì)在生物體生存和繁殖中起著重要作用,而且對(duì)疾病診斷和藥物設(shè)計(jì)有著深遠(yuǎn)影響。目前,已經(jīng)提出了許多基于PIN的算法識(shí)別關(guān)鍵蛋白質(zhì),然而,如何提高精度仍是一個(gè)挑戰(zhàn)。為提高關(guān)鍵蛋白質(zhì)識(shí)別準(zhǔn)確率,本文基于PIN拓?fù)湫畔⑴c蛋白質(zhì)亞細(xì)胞定位信息構(gòu)建加權(quán)網(wǎng)絡(luò),提出一種基于加權(quán)子網(wǎng)參與度和多源信息融合的關(guān)鍵蛋白質(zhì)識(shí)別算法PDWS。該算法從多維度衡量蛋白質(zhì)重要性,提高了關(guān)鍵蛋白質(zhì)識(shí)別準(zhǔn)確率。在DIP與Krogan數(shù)據(jù)集上與其他關(guān)鍵蛋白質(zhì)識(shí)別算法進(jìn)行比較,PDWS算法能準(zhǔn)確識(shí)別出更多關(guān)鍵蛋白質(zhì)。
對(duì)實(shí)驗(yàn)結(jié)果的分析發(fā)現(xiàn),PDWS算法還存在一些不足,例如在Krogan數(shù)據(jù)集上,選擇前1%、5%以及15%時(shí),識(shí)別出的蛋白質(zhì)數(shù)量略小于PCSD算法。通過分析發(fā)現(xiàn),許多關(guān)鍵蛋白質(zhì)度較小,本文算法是基于子網(wǎng)參與度,從多個(gè)子網(wǎng)角度衡量蛋白質(zhì)重要性,沒有考慮到度較小的關(guān)鍵蛋白質(zhì),導(dǎo)致選擇候選集數(shù)目較少時(shí),識(shí)別率略有不足。在下一步研究中,將考慮如何更有效利用生物信息識(shí)別更多度值較低的關(guān)鍵蛋白質(zhì)。
參考文獻(xiàn):
[1]Tang Xiwei,Yang Xuejun,Li Yongfan,et al.Identification of essential proteins via the network topology feature and subcellular localisation[J].International Journal of Data Mining amp; Bioinformatics,2016,16(4):328-344.
[2]Jeong H,Oltvai Z N,Barabasi A L.Prediction of protein essentiality based on genomic data[J].ComPlexUs,2003,1(1):19-28.
[3]Wang Jianxin,Peng Wei,Wu Fangxiang.Computational approaches to predicting essential proteins:a survey[J].Proteomics: Clinical Applications,2013,7(1-2):181-192.
[4]Cullen L M,Arndt G M.Genome-wide screening for gene function using RNAi in mammalian cells[J].Immunology and Cell Biology,2005,83(3):217-223.
[5]Roemer T,Jiang B,Davison J,et al.Large-scale essential gene identification in Candida albicans and applications to antifungal drug discovery[J].Molecular Microbiology,2003,50(1):167-181.
[6]Jeong H,Mason S P,Barabási A L, et al.Lethality and centrality in protein networks[J].Nature,2001,411(6833):41-42.
[7]Joy M P,Brock A,Ingber D E,et al.High-betweenness proteins in the yeast protein interaction network[J].BioMed Research International,2005,2005(2):96-103.
[8]Estrada E,Rodriguez-Velazquez J A.Subgraph centrality in complex networks[J].Physical Review E,2005,71(5):056103.
[9]Bonacich P.Power and centrality:a family of measures[J].American Journal of Sociology,1987,92(5):1170-1182.
[10]Stephenson K,Zelen M.Rethinking centrality:methods and examples[J].Social Networks,1989,11(1):1-37.
[11]Wang Jianxin,Li Min,Wang Huan,et al.Identification of essential proteins based on edge clustering coefficient[J].IEEE/ACM Trans on Computational Biology and Bioinformatics,2011,9(4):1070-1080.
[12]Qi Yi,Luo Jiawei.Prediction of essential proteins based on local interaction density[J].IEEE/ACM Trans on Computational Biology and Bioinformatics,2015,13(6):1170-1182.
[13]毛伊敏,章宇盟,胡健.基于中心性和模塊特性的關(guān)鍵蛋白質(zhì)識(shí)別[J].計(jì)算機(jī)應(yīng)用研究,2020,37(7):1983-1988. (Mao Yimin,Zhang Yumeng,Hu Jian.Identification of essential proteins based on centrality and modularity[J].Application Research of Computers,2020,37(7):1983-1988.)
[14]Peng Wei,Wang Jianxin,Cheng Yingjiao, et al.UDoNC:an algorithm for identifying essential proteins based on protein domains and protein-protein interaction networks[J].IEEE/ACM Trans on Computational Biology and Bioinformatics,2015,12(2):276-288.
[15]Li Min,Li Wenkai,Wu Fangxiang,et al.Identifying essential proteins based on sub-network partition and prioritization by integrating subcellular localization information[J].Journal of Theoretical Biology,2018,447(6):65-73.
[16]Li Gaoshi,Li Min,Wang Jianxin,et al.Predicting essential proteins based on subcellular localization,orthology and PPI networks[J].BMC Bioinformatics,2016,17(Suppl 8):279.
[17]Lei Xiujuan,Zhao Jie,F(xiàn)ujita H,et al.Predicting essential proteins based on RNA-Seq,subcellular localization and GO annotation datasets[J].Knowledge-Based Systems,2018,151(7):136-148.
[18]Li Min,Lu Yu,Niu Zhibei,et al.United complex centrality for identification of essential proteins from PPI networks[J].IEEE/ACM Trans on Computational Biology and Bioinformatics,2015,14(2):370-380.
[19]Luo Jiawei,Qi Yi.Identification of essential proteins based on a new combination of local interaction density and protein complexes[J].PLoS ONE,2015,10(6):e0131418.
[20]Lei Xiujuan,Yang Xiaoqin,Schreiber G.A new method for predicting essential proteins based on participation degree in protein complex and subgraph density[J].PLoS ONE,2018,13(6):e0198998.
[21]Qin Chao,Sun Yongqi,Dong Yadong.A new method for identifying essential proteins based on network topology properties and protein complexes[J].PLoS ONE,2016,11(8):e0161042.
[22]趙學(xué)武,程新黨,呂嘉偉,等.融合時(shí)序保持特征和蟻群聚類的動(dòng)態(tài)PPI網(wǎng)絡(luò)復(fù)合物識(shí)別[J].小型微型計(jì)算機(jī)系統(tǒng),2017,38(6):1311-1316. (Zhao Xuewu,Cheng Xindang,Lyu Jiawei,et al.Identify protein complexes by integrating temporal function continue feature and ant colony clustering on dynamic PPI networks[J].Journal of Chinese Computer Systems,2017,38(6):1311-1316.)
[23]Li Min,Zhang Hanhui,Wang Jiaxin,et al.A new essential protein discovery method based on the integration of protein-protein interaction and gene expression data[J].BMC Systems Biology,2012,6(1):article No.15.
[24]Tang Xiwei,Wang Jianxin,Zhong Jiancheng,et al.Predicting essential proteins based on weighted degree centrality[J].IEEE/ACM Trans on Computational Biology and Bioinformatics,2013,11(2):407-418.
[25]楊書新,魯紀(jì)華,湯達(dá)榮.基于動(dòng)態(tài)加權(quán)PPI網(wǎng)絡(luò)的關(guān)鍵蛋白質(zhì)識(shí)別算法[J].計(jì)算機(jī)應(yīng)用研究,2019,36(2):367-370,379. (Yang Shuxin,Lu Jihua,Tang Darong.Novel algorithm prediction of essential proteins based on dynamic weighted PPI network[J].Application Research of Computers,2019,36(2):367-370,379.)
[26]Lei Xiujuan,Yang Xiaoqin,F(xiàn)ujita H.Random walk based method to identify essential proteins by integrating network topology and biological characteristics[J].Knowledge-Based Systems,2019,167(3):53-67.
[27]Zhong Jiancheng,Wang Jianxin,Peng Wei,et al.A feature selection method for prediction essential protein[J].Tsinghua Science and Technology,2015,20(5):491-499.
[28]Peng Xiaoqing,Wang Jianxin,Zhong Jiancheng,et al.An efficient method to identify essential proteins for different species by integrating protein subcellular localization information[C]//Proc of IEEE International Conference on Bioinformatics and Biomedicine.Washington DC:IEEE Computer Society,2015:277-280.
[29]Xenarios I,Salwinski L,Duan X J,et al.DIP,the database of interacting proteins:a research tool for studying cellular networks of protein interactions[J].Nucleic Acids Research,2002,30(1):303-305.
[30]Krogan N J,Cagney G,Yu Haiyuan,et al.Global landscape of protein complexes in the yeast Saccharomyces cerevisiae[J].Nature,2006,440(7084):637-643.
[31]Mewes H W,F(xiàn)rishman D,Mayer K F X,et al.MIPS:analysis and annotation of proteins from whole genomes in 2005[J].Nucleic Acids Research,2006,34(1):169-172.
[32]Cherry J M,Adler C,Ball C,et al.SGD:saccharomyces genome database[J].Nucleic Acids Research,1998,26(1):73-79.
[33]Zhang Ren,Lin Yan.DEG 5.0,a database of essential genes in both prokaryotes and eukaryotes[J].Nucleic Acids Research,2009,37(1):455-458.
[34]Winzeler E A,Shoemaker D D,Astromoff A,et al.Functional characterization of the S.cerevisiae genome by gene deletion and parallel analysis[J].Science,1999,285(5429):901-906.