(中南大學(xué) 信息科學(xué)與工程學(xué)院,湖南 長沙,410083)
關(guān)鍵蛋白質(zhì)是細(xì)胞生命活動中所必需的蛋白質(zhì),利用基因剔除式突變將其移除會造成有關(guān)蛋白質(zhì)復(fù)合體功能喪失,甚至導(dǎo)致生物體無法生存[1],因此,識別關(guān)鍵蛋白質(zhì)對于研究細(xì)胞的生長調(diào)控過程具有重要意義。同時(shí),研究表明:致病基因往往表現(xiàn)為關(guān)鍵蛋白質(zhì)[2],關(guān)鍵蛋白質(zhì)的識別對于病原生物學(xué)的研究以及藥物設(shè)計(jì)也具有重要的意義。在生物學(xué)領(lǐng)域,一般利用基因敲除、RNA干擾等實(shí)驗(yàn)方法,通過觀察生物體生存情況來辨別蛋白質(zhì)的關(guān)鍵性。依靠生物實(shí)驗(yàn)識別關(guān)鍵蛋白質(zhì)的方法雖然準(zhǔn)確有效,但是代價(jià)高且效率低。近年來,隨著酵母雙雜交、串聯(lián)親和純化、質(zhì)譜分析等高通量的蛋白質(zhì)組技術(shù)的發(fā)展[3],可獲得的蛋白質(zhì)相互作用數(shù)據(jù)越來越多,使得在網(wǎng)絡(luò)水平上預(yù)測關(guān)鍵蛋白質(zhì)成為可能。已有研究表明,蛋白質(zhì)的關(guān)鍵性與它在生物網(wǎng)絡(luò)中所對應(yīng)節(jié)點(diǎn)的拓?fù)涮匦悦芮邢嚓P(guān)[4],因此,出現(xiàn)了一系列利用節(jié)點(diǎn)的中心性測度參數(shù)識別關(guān)鍵蛋白質(zhì)的方法。最常用的一個(gè)中心性測度是度中心性(degree centrality)[5],網(wǎng)絡(luò)中某個(gè)給定節(jié)點(diǎn)的度中心性表示為與其直接相連的鄰居節(jié)點(diǎn)的個(gè)數(shù)。Jeong等[5]提出“中心性?致死性”法則(centralitylethality rule),該法則顯示一個(gè)蛋白質(zhì)參與的相互作用越多,這個(gè)蛋白質(zhì)對細(xì)胞的生存也就越重要。除了最常用的度中心性以外,還有介數(shù)中心性[6]、接近度中心性[7]、子圖中心性[8]、特征向量中心性[9]、信息中心性[10]、局部平均聯(lián)通性[11]和邊聚集系數(shù)之和[12]。其中:節(jié)點(diǎn)的介數(shù)中心性(betweenness centrality, BC)表示網(wǎng)絡(luò)中所有最短路徑中經(jīng)過該節(jié)點(diǎn)的數(shù)目占所有最短路徑數(shù)的比例;節(jié)點(diǎn)的接近度中心性(closeness centrality,CC)為反比于該節(jié)點(diǎn)到網(wǎng)絡(luò)中其他所有節(jié)點(diǎn)的最短路徑之和;節(jié)點(diǎn)的子圖中心性(subgraph centrality, SC)是該節(jié)點(diǎn)參與網(wǎng)絡(luò)閉合回路的總數(shù);節(jié)點(diǎn)的特征向量中心性(eigenvector centrality, EC)被定義為網(wǎng)絡(luò)鄰接矩陣的主特征向量該節(jié)點(diǎn)的分量;節(jié)點(diǎn)的信息中心性(information centrality, IC)是測量以該節(jié)點(diǎn)為端點(diǎn)的路徑的調(diào)和平均長度;節(jié)點(diǎn)的局部平均聯(lián)通性(local average connectivity,LAC)是指該節(jié)點(diǎn)的鄰居節(jié)點(diǎn)彼此之間公共鄰居節(jié)點(diǎn)的個(gè)數(shù)之和除以該節(jié)點(diǎn)的鄰居節(jié)點(diǎn)的個(gè)數(shù);節(jié)點(diǎn)的邊聚集系數(shù)之和(sum of edge clustering coefficient,SoECC)是指該節(jié)點(diǎn)所有連接邊的聚集系數(shù)之和。這8種中心性測度都已被用于生物網(wǎng)絡(luò)中關(guān)鍵蛋白質(zhì)的預(yù)測,且被證實(shí)比較有效。然而,中心性測度如果僅僅依靠PPI數(shù)據(jù)識別關(guān)鍵蛋白質(zhì),預(yù)測的準(zhǔn)確度比較依賴網(wǎng)絡(luò)本身的可靠性。因此,本文作者提出一種新的中心性測度參數(shù)PeC,在PPI網(wǎng)絡(luò)的基礎(chǔ)上融合基因共表達(dá)數(shù)據(jù)信息,降低預(yù)測方法對蛋白質(zhì)相互作用網(wǎng)絡(luò)本身可靠性的依賴程度,并將提出的關(guān)鍵蛋白質(zhì)預(yù)測方法PeC應(yīng)用于酵母蛋白質(zhì)相互作用網(wǎng)絡(luò)。
考慮到高度的節(jié)點(diǎn)傾向于成為關(guān)鍵蛋白質(zhì),而關(guān)鍵蛋白質(zhì)節(jié)點(diǎn)往往又成簇出現(xiàn),并且具有較高的共表達(dá)特性[13],所以,提出一種融合基因表達(dá)信息的新的中心性測度PeC。PPI網(wǎng)絡(luò)可以表示成為1個(gè)無向圖G(V,E),每個(gè)節(jié)點(diǎn)表示1個(gè)蛋白質(zhì),每條邊表示1種相互作用,其中V表示節(jié)點(diǎn)的集合,E表示邊的集合。基因表達(dá)數(shù)據(jù)是生物學(xué)家通過生物實(shí)驗(yàn)得到,它表達(dá)了蛋白質(zhì)生命運(yùn)動的過程,在不同的時(shí)刻蛋白質(zhì)X的基因表達(dá)值不同,可以表示為X(g1,g2, …,gk),其中,gk表示蛋白質(zhì)節(jié)點(diǎn)X在時(shí)刻k的基因表達(dá)值。為了清楚地描述中心性測度PeC,本文首先給出相關(guān)定義。
聚集系數(shù)最早由Watts和Strogatz提出,用于刻畫網(wǎng)絡(luò)中某個(gè)節(jié)點(diǎn)與其鄰居之間的親疏程度,是復(fù)雜網(wǎng)絡(luò)中最重要的拓?fù)涮卣髦唬驯粡V泛應(yīng)用于蛋白質(zhì)相互作用網(wǎng)絡(luò)等較復(fù)雜網(wǎng)絡(luò)的拓?fù)浞治鯷14]。近年來,聚集系數(shù)的定義已由節(jié)點(diǎn)擴(kuò)展到邊,本文選用文獻(xiàn)[15]中給出的邊聚集系數(shù)(edge clustering coefficient,ECC)的定義。給定 PPI網(wǎng)絡(luò)中的 1條邊E(X,Y),用N(X)和N(Y)分別表示節(jié)點(diǎn)X和節(jié)點(diǎn)Y的鄰居節(jié)點(diǎn)的集合,則邊E(X,Y)的邊聚集系數(shù)被定義為

邊聚集系數(shù)ECC(X,Y)是一個(gè)局部變量,刻畫了邊E(X,Y)的2個(gè)節(jié)點(diǎn)X和Y的親疏程度。E(X,Y)的取值范圍為[0,1],其取值越大,表明節(jié)點(diǎn)X和節(jié)點(diǎn)Y屬于同一個(gè)簇的可能性越大。
基因表達(dá)數(shù)據(jù)是用來表示蛋白質(zhì)生命運(yùn)動的過程的一組數(shù)據(jù),將其進(jìn)行建模,并引入皮爾遜相關(guān)系數(shù)(pearson correlation coefficient, PCC)來度量相互作用蛋白質(zhì)的基因共表達(dá)強(qiáng)弱程度,蛋白質(zhì)X和Y的PCC定義為

其中:k為樣本數(shù),表示基因表達(dá)數(shù)據(jù)中的時(shí)刻數(shù);Exp(X,i)和Exp(Y,i)分別為蛋白質(zhì)X和Y的在i時(shí)刻的表達(dá)值;Exp(X)和Exp(Y)為蛋白質(zhì)X和Y在所有時(shí)刻下的平均表達(dá)值;σ(X)和σ(Y)表示蛋白質(zhì)X和Y在所有時(shí)刻表達(dá)值的標(biāo)準(zhǔn)方差。PCC(X,Y)的取值范圍為[?1,1],PCC(X,Y)<0說明基因X和Y表現(xiàn)出負(fù)相關(guān),PCC(X,Y)>0說明基因X和Y表現(xiàn)出正相關(guān),PCC(X,Y)=0說明基因X和Y不存在相關(guān)性。
雖然“中心性?致死性”法則顯示 1個(gè)蛋白質(zhì)參與的相互作用越多,這個(gè)蛋白質(zhì)越傾向于成為關(guān)鍵蛋白質(zhì),但研究表明,仍然存在一部分蛋白質(zhì)具有較高的度,但不是關(guān)鍵蛋白質(zhì)。通過實(shí)驗(yàn)發(fā)現(xiàn),這類蛋白質(zhì)參與的相互作用往往具有較低的邊聚集系數(shù),且基因共表達(dá)程度較低。例如,如圖1所示非關(guān)鍵蛋白質(zhì)YGR254W有67個(gè)鄰居節(jié)點(diǎn),但是它與鄰居節(jié)點(diǎn)的邊聚集系數(shù)的平均值僅為0.054,與鄰居節(jié)點(diǎn)的共表達(dá)的皮爾遜系數(shù)PCC的平均值僅為0.003。

圖1 非關(guān)鍵蛋白質(zhì)YGR254W與鄰居節(jié)點(diǎn)的關(guān)系圖Fig.1 Relationship figure for non-essential protein YGR254W and its neighbors
基于對高度的非關(guān)鍵蛋白質(zhì)的分析,以及關(guān)鍵蛋白質(zhì)節(jié)點(diǎn)往往成簇出現(xiàn)且傾向于共表達(dá)的事實(shí),利用邊聚集系數(shù)(ECC)和皮爾遜相關(guān)系數(shù)(PCC)計(jì)算出邊E(X,Y)屬于同一簇的概率PC(X,Y),定義如下:

PC(X,Y)不但考慮了邊E(X,Y)的節(jié)點(diǎn)X和Y在網(wǎng)絡(luò)的拓?fù)涮匦缘木奂潭龋以黾恿斯?jié)點(diǎn)X和Y基因共表達(dá)程度對于關(guān)鍵性的影響。考慮到高度的節(jié)點(diǎn)傾向于成為關(guān)鍵蛋白質(zhì),將PC(X,Y)看作邊E(X,Y)的權(quán)值,則節(jié)點(diǎn)X的中心性測度PeC(X)即是X的連接邊得權(quán)值之和:

PeC綜合考慮了邊聚集系數(shù)和基因表達(dá)數(shù)據(jù),構(gòu)造邊E(X,Y)加權(quán)度,可以將一部分度中心性較高但并不是關(guān)鍵蛋白質(zhì)的節(jié)點(diǎn)排除,因此,具有較高的準(zhǔn)確度。
在所有物種中,酵母的蛋白質(zhì)相互作用數(shù)據(jù)最為完備。因此,選擇酵母蛋白質(zhì)相互作用網(wǎng)絡(luò)作為研究對象。實(shí)驗(yàn)所用的數(shù)據(jù)集來源于 MIPS[16]數(shù)據(jù)集,包含4 546個(gè)節(jié)點(diǎn)和12 319條相互作用。關(guān)鍵蛋白質(zhì)數(shù)據(jù)是通過整合 MIPS[16],SGD[17],DEG[18],SGDP[19]4個(gè)數(shù)據(jù)庫中的數(shù)據(jù)得來,包含1 285個(gè)關(guān)鍵蛋白質(zhì)。實(shí)驗(yàn)所用的基因表達(dá)數(shù)據(jù)來自于文獻(xiàn)[20],其中包含了6 777個(gè)基因在36個(gè)樣本時(shí)刻下的基因表達(dá)值,有4 858個(gè)基因與酵母蛋白質(zhì)相互作用網(wǎng)絡(luò)相關(guān)聯(lián)。通過比對整合的關(guān)鍵蛋白質(zhì)集合,MIPS數(shù)據(jù)集包含1 016個(gè)關(guān)鍵蛋白質(zhì),3 195個(gè)非關(guān)鍵蛋白質(zhì)和335個(gè)關(guān)鍵性未知的蛋白質(zhì)。
根據(jù)“排序?篩選”原則對PeC和8種中心性測度的預(yù)測結(jié)果進(jìn)行比較。具體做法是:對于PeC和8種中心性測度參數(shù)按照從大到小的順序排序,選出序列中前1%,5%,10%,15%,20%和25%的蛋白質(zhì)作為候選關(guān)鍵蛋白質(zhì),通過與已知關(guān)鍵蛋白質(zhì)數(shù)據(jù)集匹配,得到每種測度識別正確的關(guān)鍵蛋白質(zhì)的數(shù)量并相互比較。除此之外,還引入敏感度(SN),特異性(SP),F(xiàn)-測度(F-measure),正確率(ACC)這幾個(gè)醫(yī)學(xué)檢驗(yàn)中的指標(biāo)對PeC進(jìn)行評估并與其他8種中心性測度結(jié)果比較。這幾個(gè)評價(jià)指標(biāo)的定義如下:
敏感度SN為關(guān)鍵蛋白質(zhì)被正確地預(yù)測的比例。

特異性SP為非關(guān)鍵蛋白質(zhì)被正確地排除的比例。

式中:PT表示測度參數(shù)識別的關(guān)鍵蛋白質(zhì)與已知關(guān)鍵蛋白質(zhì)匹配的數(shù)量;PF表示被算法誤識別為關(guān)鍵蛋白質(zhì)的非關(guān)鍵蛋白質(zhì)的數(shù)量;NT表示非關(guān)鍵蛋白質(zhì)被識別為非關(guān)鍵蛋白質(zhì)的個(gè)數(shù);NF表示測度參數(shù)沒有識別出的關(guān)鍵蛋白質(zhì)的數(shù)量。
F-測度Fmeasure為敏感度和特異性的調(diào)和平均值。

正確率ACC為

陽性預(yù)測值(PPV)VPP為選出的蛋白質(zhì)中被正確地預(yù)測為關(guān)鍵蛋白質(zhì)的比例。

陰性預(yù)測值(NPV)VNP為排除的蛋白質(zhì)中被正確預(yù)測為非關(guān)鍵蛋白質(zhì)的比例。

每種測度參數(shù)識別正確的關(guān)鍵蛋白質(zhì)數(shù)如圖 2所示。

圖2 根據(jù)PeC和其他8種中心性測度預(yù)測正確的關(guān)鍵蛋白質(zhì)數(shù)Fig.2 Number of essential proteins by Pec and eight other centrality measures
從圖2可以看出:根據(jù)PeC預(yù)測正確的關(guān)鍵蛋白質(zhì)數(shù)量普遍高于8種中心性測度預(yù)測正確的關(guān)鍵蛋白質(zhì)數(shù)。在任一樣本水平,PeC比CC,SC和EC這3個(gè)測度參數(shù)的預(yù)測命中率高13%以上;在前1%,5%,10%樣本水平,PeC比CC,SC和EC這3個(gè)測度參數(shù)的預(yù)測命中率高20%以上。
同時(shí),為了更細(xì)致地比較PeC和其他8種中心性測度在預(yù)測不同數(shù)量的關(guān)鍵蛋白質(zhì)時(shí)的準(zhǔn)確性,比較了它們的Jackknife,實(shí)驗(yàn)結(jié)果如圖3所示。從圖3可以看出:PeC中心性測度在任一累積數(shù)量的蛋白質(zhì)中識別的關(guān)鍵蛋白質(zhì)都比其他8種中心性測度識別的多。

圖3 PeC和其他8種中心性測度的JackknifeFig.3 Jackknife of PeC and eight other centrality measures
另外,引入敏感度(SN)、特異性(SP)、F測度(F-measure)、正確率(ACC)、陽性預(yù)測值(PPV)和陰性預(yù)測值(NPV)這幾個(gè)評估指標(biāo)對PeC和其他8種中心性測度結(jié)果進(jìn)行評估比較,實(shí)驗(yàn)結(jié)果如表1所示。從表1可以看出:在任一指標(biāo)(SN,SP,F(xiàn)-measure,ACC,PPV,NPV)下,PeC都具有最好的結(jié)果。

表1 PeC和其他8種中心性測度的各個(gè)評價(jià)指標(biāo)的比較Table 1 Comparison of Evaluation Indicator by PeC and other eight centrality measures
(1) 提出了一種新的融合了 PPI和基因表達(dá)數(shù)據(jù)的中心性測度(PeC)。
(2) 該中心性測度PeC在蛋白質(zhì)相互作用網(wǎng)絡(luò)拓?fù)涮匦缘幕A(chǔ)上融合了基因表達(dá)數(shù)據(jù),降低了對蛋白質(zhì)相互作用網(wǎng)絡(luò)本身可靠性的依賴,提高了預(yù)測的準(zhǔn)確性。與8種節(jié)點(diǎn)中心性測度參數(shù)對比,PeC能夠預(yù)測出更多的關(guān)鍵蛋白質(zhì),且預(yù)測準(zhǔn)確度更高。其中,在 MIPS數(shù)據(jù)集前 1%,5%,10%的樣本水平,PeC比CC,SC和EC的預(yù)測準(zhǔn)確度均提高了20%以上。
[1] Winzeler E A, Shoemaker D D, Astromoff A, et al.Functional characterization of the S.cerevisiae genome by gene deletion and parallel analysis[J].Science, 1999, 285: 901?906.
[2] Jeong H, Oltvai Z, Barabási A L.Prediction of protein essentiality based on genomic data [J].ComPlexUs, 2003, 1(1):19?28.
[3] Mering C, Krause R, Sne B, et al.Comparative assessment of large-scale data sets of protein–protein interactions[J].Nature,2002, 417: 399?403.
[4] Barabási AL., Oltvai ZN.Network biology: Understanding the cell’s functional organization[J].Nat Rev Genet, 2004, 5(2):101?113.
[5] Jeong H, Mason S, Barabási A L, et al.Lethality and centrality in protein networks[J].Nature, 2001, 411: 41?42.
[6] Joy M P, Brock A, Ingber D E, et al.High-betweenness proteins in the yeast protein interaction network[J].Journal of Biomedicine and Biotechnology, 2005(2): 96?103.
[7] Wuchty S, Stadler P F.Centers of complex networks[J].Journal of Theoretical Biology, 2003, 223(1): 45?53.
[8] Estrada E, Rodríguez-Velázquez J A.Subgraph centrality in complex networks[J].Phys Rev E, 2005, 71(5): 056103.
[9] Bonacich P F.Power and centrality: A family of measures[J].American Journal of Sociology, 1987, 92(5): 1170?1182.
[10] Stevenson K, Zelen M.Rethinking centrality: Methods and examples[J].Social Networks, 1989, 11(1): 1?37.
[11] LI Min, WANG Jianxin, CHEN Xiang, et al.A local average connectivity-based method for identifying essential proteins from the network level[J].Computational Biology and Chemistry,2011, 35: 143?150.
[12] WANG Huan, Li Min, Wang Jinxin, et al.New method for identifying essential proteins based on edge clustering coefficient[C]//7th International Symposium on Bioinformatics Research and Applications.Heidelberg: Springer-Verlag, 2011,6674: 87?98.
[13] PANG Kaifang, SHENG Huanye, MA Xiaotu.Understanding gene essentiality by finely characterizing hubs in the yeast protein interaction network[J].Biochemical and Biophysical Research Communications.2010, 401(1): 112?116.
[14] 李敏.蛋白質(zhì)相互作用網(wǎng)絡(luò)中復(fù)合物和功能模塊挖掘算法研究[D].長沙: 中南大學(xué)信息科學(xué)與工程學(xué)院, 2008: 72?73.LI Min.Identifying protein complexes and functional modules in protein interaction networks[D].Changsha: Central South University.School of Information Science and Engineering,2008: 72?73.
[15] Watts D J, Strogatz S H.Collective dynamics of “small-world”networks[J].Nature, 1998, 393: 440?442
[16] Mewes H W, Frishman D, Mayer K F, et al.MIPS: analysis and annotation of proteins from whole genomes in 2005[J].Nucleic Acid Research, 2006, 34(1): 169?172.
[17] Cherry J M, Adler C, Ball C, et al.SGD: Saccharomyces genome database[J].Nucleic Acid Research, 1998, 26(1): 73?79.
[18] ZHANG Ren, LIN Yan.DEG 5.0: A database of essential genes in both prokaryotes and eukaryotes[J].Nucleic Acid Research,2009, 37(1): 455?458.
[19] Bruno A, Jef B, Carla C, et al.SGDP: Saccharomyces Genome Deletion Project [EB/OL].[2007?12?30] http://www-sequence.stanford.edu/group/yeast_deletion_project/deletions3.html.
[20] Tu B P, Kudlicki A, Rowicka M, et al.Logicof the yeast metabolic cycle: Temporal compartmentalization of cellular processes[J].Science, 2005, 310: 1152?1158.