999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于關鍵功能模塊挖掘的蛋白質功能預測

2018-03-10 02:52:17趙碧海李學勇田清龍楊品紅
自動化學報 2018年1期
關鍵詞:功能模塊功能方法

趙碧海 李學勇 胡 賽 張 帆 田清龍 楊品紅 劉 臻

由于蛋白質在不同生物過程中扮演重要角色,注釋功能未知的蛋白質是后基因時代的重要任務之一.生物實驗確定蛋白質功能存在耗時多和費用高的問題[1].因此,基于計算的功能預測成為非常重要的替代方法.然而,這種方法需要準確而可靠的自動功能預測器.現有的基于計算的功能預測方法都是建立在數據庫中已經注釋的蛋白質的功能之上.雖然相互作用數據、序列數據和蛋白質結構數據等都已用于蛋白質功能預測算法,但是設計一種有效的方法充分利用各種不同的生物信息依然是一個巨大的挑戰,源于這些生物數據的異構性、復雜性和多樣性.根據整合這些不同數據源的方式不同,這些基于計算的預測方法可以分為四類:基于多特征向量方法、基于多分類器方法、基于核的方法和基于網絡的方法.網絡是一種很好的描述蛋白質之間關系的途徑,而且大量基于網絡的方法為我們提供了有效的工具從網絡中挖掘信息,這也有助于我們理解細胞生命活性物的復雜機制.

大部分基于網絡的蛋白質功能預測方法都是從蛋白質相互作用(Protein-protein interaction,PPI)網絡提取信息.這些方法都建立在一個發現的基礎上:大約70%~80%的蛋白質與它們在PPI網絡的相互作用伙伴至少共享一項功能[2].一些方法通過PPI網絡中的直接或間接鄰居節點預測未注釋的蛋白質功能.上述的這些方法獨立地為每一個蛋白質預測功能.還有一些方法將PPI網絡中的蛋白質分成多個功能模塊,并為相同的模塊注釋相同的功能[3].這類方法聚類形成模塊或復合物的方式存在差異.由于相互作用數據中存在假陽性和假陰性,一些研究者結合相互作用網絡和異構生物數據,提高功能預測的準確率,例如基因表達數據[4]、同源數據[5]、蛋白質復合物數據[6]、結構域數據[7]等.

另一種流行的基于網絡并利用生物信息資源的方法是基于GO term的功能相似性建立功能關聯網絡.蛋白質功能描述為結構化的標準詞匯,并存儲在基因本體數據庫.GO term之間的父親–孩子關系可以表達為有向無環圖.考慮到兩個相似的功能共同注釋一個共同的蛋白質以及兩個相互作用的蛋白質傾向于共享同一功能,一些研究者結合PPI網絡和功能相似性,從而提高功能預測的準確率.由于PPI網絡的不完整性,其他的異構數據也被整合進來.Peng等[8]結合PPI網絡和Domain信息,利用蛋白質的功能相似性,提出名為DCS的蛋白質功能預測方法.進一步,加入蛋白質復合物信息,提出了改進的DSCP方法.大部分整合異構數據的方法基本采取如下思路:1)生成各種功能相關網絡(每一個數據源對應一個或多個網絡);2)這些單獨的網絡通過加權匯總的方式形成一個復合網絡.這些方法的區別在于單個網絡形成復合網絡時,不同方法權值比例和優化方式存在差異.

綜上所述,整合多元生物數據能夠有效彌補相互作用網絡不完整性和噪聲的問題,提高基于網絡的蛋白質功能預測方法的準確率.但是,引入其他生物信息后,使得蛋白質之間的聯系更加復雜,更加多元化.現有的方法基本都采取合并多種類型的相互作用的處理方式,這雖然能夠一定程度增加正確匹配的功能數量,但也會同時引入更多的噪聲功能,最終使得整體預測性能提升不大.上述提及的某些方法先構建多種功能關聯網絡,然后再采取加權匯總的方式將多個單獨網絡構成一個復合網絡.不同網絡在加權匯總時的比重各不相同,而每個網絡的比重參數成為影響功能預測方法的重要因素.參數的設置一般會根據經驗值設置.即便是通過優化的方式獲取,也存在不同數據集有不同設置的問題.從這些問題出發,本文在原有研究基礎之上,結合PPI網絡、蛋白質復合物數據和蛋白質結構域數據建立多關系網絡.考慮到蛋白質功能與模塊之間的緊密聯系,提出一種基于多關系網絡中關鍵功能模塊挖掘的蛋白質功能預測方法(Prediction of functions based on essential functional modules mining from a multi-relational network,PEFM).蛋白質的功能不是由單個蛋白質獨立完成,而是與其他蛋白質相互作用共同執行機體功能,蛋白質功能與功能模塊之間存在緊密聯系.關鍵功能模塊是指相互間緊密聯系的蛋白質組成的功能模塊或復合物.移除關鍵功能模塊會使得生物體喪失許多重要分子功能.因此,通過挖掘關鍵功能模塊有助于提高蛋白質功能預測算法的準確率.PEFM方法依次遍歷多關系網絡分解得到的每一個簡單網絡,挖掘高內聚、低耦合的稠密子圖形成不同網絡層次的關鍵功能模塊集合.模塊中節點的全部功能用于注釋測試蛋白質.多個數據集的實驗結果驗證了PEFM算法的有效性.

1 PEFM算法

細胞功能不是由單個蛋白質完成,而是通過多個緊密聯系的蛋白質構成模塊,共同執行.蛋白質功能與模塊之間存在緊密聯系,模塊劃分為蛋白質功能預測提供了途徑.本文通過聚類,形成高內聚、低耦合的功能模塊,進而實現蛋白質功能預測.

1.1 多關系網絡構建

受實驗條件限制,高通量方法獲得的蛋白質相互作用數據具有不完整性,限制了蛋白質功能預測算法的性能.結合多元的生物信息和蛋白質相互作用網絡,降低相互作用數據的實驗錯誤帶來的負面影響,是當今基于相互作用網絡的功能預測算法的發展趨勢.多元異構數據包括基于時間序列的基因表達信息、蛋白質結構域信息、復合物信息、亞細胞定位信息等.在原有研究基礎之上,本文結合蛋白質相互作用網絡的拓撲特性、蛋白質結構域信息和蛋白質復合物信息構建適合功能預測的多關系網絡[7].相比之前構建的研究基礎,本文在建立多關系網絡時,增加了蛋白質復合物數據.由于實驗方法獲得的蛋白質相互作用數據和結構域數據存在假陰性,存在某些蛋白質執行共同功能,卻沒有在前期構建的網絡中體現的情況.通過融入復合物數據,能夠為更多的蛋白質預測功能.

蛋白質結構域是分子的一個特別區域,具有獨立的功能.有的蛋白質僅僅包含一個結構域,有的蛋白質可能包含多個不同類型的結構域.一個結構域也可能出現在多個不同的蛋白質當中.蛋白質的新功能常常利用結構域重組完成.蛋白質執行生物功能離不開結構域,由此可見,蛋白質功能與結構域之間存在緊密的聯系.學者們開始嘗試利用結構域信息,提高功能預測算法的準確率.

本文首先針對蛋白質結構域信息與蛋白質功能之間的關聯開展統計分析.本次實驗選定的蛋白質相互作用網絡包含5093個蛋白質,其中具有功能注釋的蛋白質數量是2894,至少包含1個結構域的蛋白質數量是3056,既有功能注釋又有包含結構域的蛋白質數量為1887個,如圖1所示.從圖1不難看出,具有結構域的蛋白質中,61.75%的蛋白質至少具有1項功能;2894個被注釋的蛋白質中,有65.2%的蛋白質包含結構域.

圖1 結構域與蛋白質功能關系綜合統計Fig.1 Statistics of relationship between domains and protein functions

進一步地,本文統計分析2894個功能已知的蛋白質之間共享功能和共享結構域的情況,其中42%的蛋白質與其他蛋白質共享功能的同時還共享相同的結構域.表1詳細列出了蛋白質功能數量分布與共享結構域之間的關系.

表1 蛋白質功能數量統計Table 1 Quantity statistics of protein functions

從表1不難看出,1512個蛋白質僅有1項功能,其中34.59%的蛋白質與其他蛋白質共享功能的同時還共享結構域.而當功能數量增多時,共享結構域的蛋白質比例明顯增高.由此可見,蛋白質間共享結構域的特性有助于提升蛋白質功能預測性能,尤其適用于功能數量較多的蛋白質.

本文構建的多關系網絡中,蛋白質之間相互作用的第一種類型為共享結構域.為提高預測的性能,我們依據上述的統計分析結論對該種類型的相互作用加權.統計表明,兩個蛋白質包含相同結構域的比例越高,它們之間存在聯系的可能性越大.本文提出的PEFM算法中,若兩個蛋白質包含共同類型的結構域,則它們之間存在相互作用.相互作用的權值通過共同結構域的數量所占比重刻畫,加權計算方式如下:

其中,W(vi,vj)表示蛋白質vi和vj共享結構域的可能性.Di和Dj分別表示蛋白質vi和vj的不同類型結構域構成的集合,Di∩Dj是兩個蛋白質相同結構域類型構成的集合.若Di或Dj為空集,則權值簡單地設置為0.

蛋白質復合物由多個緊密聯系的蛋白質組成,并共同執行某些生物功能.很多蛋白質只有聚合成復合物,并與其他蛋白質相互作用才能體現出某種功能,由此可見,蛋白質復合物與功能之間存在緊密聯系.圖2顯示了蛋白質功能數量與共享蛋白質復合物之間的關系.

圖2 蛋白質功能與共享復合物統計分析Fig.2 Statistics of relationship between proteincomplexes and functions

從圖2可以看出,對于僅包含1項功能的蛋白質,30%左右的蛋白質與其他有功能注釋的蛋白質包含在相同的復合物中.隨著功能數量的增多,這個比例明顯增高.包含12項功能的蛋白質僅1個,此時比例為0,可以認為是偶然事件.兩個蛋白質共享相同的復合物是本文構建的多關系網絡中的第二種類型.這種類型的相互作用加權類似于第一種類型.

對于網絡中的兩個蛋白質vi和vj,Ci和Cj分別表示包含vi和vj的復合物組成的集合,共享復合物的相互作用加權計算方式如下所示:

其中,Ci∩Cj表示同時包含vi和vj的復合物形成的集合.若vi或vj沒有出現在任何復合物中,則W(vi,vj)=0.

多關系網絡中的最后一種類型來源于相互作用網絡拓撲特性的分析.眾所周知,蛋白質相互作用網絡具有小世界特性和稀疏性,且存在假陽性.如果兩個蛋白質都同時與第三個蛋白質發生相互作用,則這兩個蛋白質間相互作用假陽性的可能性比較小,共同參與模塊執行相同功能的可能性比較大.因此,一對蛋白質之間相互作用的概率可以通過他們共有的鄰居節點數量確定.本文采用ECC計算蛋白質之間連接的權值.計算公式如下:

其中,Ni和Nj分別表示vi和vj的鄰居集合.圖3是本文結合PPI網絡拓撲特性、蛋白質結構域信息和復合物信息構建的多關系網絡的可視化展示.

圖3中,第一層表示蛋白質間因為隸屬同一復合物而發生相互作用,第二層表示蛋白質間因為包含共同的結構域而相互作用,第三層則是在相互作用網絡的基礎上,通過拓撲特征分析建立.圖中虛線將各層相同的蛋白質相連,也就是說三層包含相同的蛋白質集合,不同的是蛋白質間的相互作用.

1.2 關鍵功能模塊挖掘

細胞的功能是由多個緊密聯系的蛋白質通過形成功能模塊執行.Zotenko等提出關鍵復合物生物模塊(Essential complex biological modules,ECOBIMs)[9],它是一組緊密聯系且共享生物功能的蛋白質組成.Nepusz等[10]指出,子圖能夠表示為復合物應該滿足兩點:1)子圖內包含許多可靠的相互作用;2)子圖能夠與網絡的剩余部分很好地區分.受此啟發,考慮到蛋白質功能與模塊之間的緊密聯系,本文通過從多關系網絡中挖掘關鍵功能模塊,實現蛋白質功能預測.在介紹關鍵功能模塊挖掘算法前,先簡要介紹算法所涉及的幾個定義.

圖3 多關系網絡可視化顯示Fig.3 Visualization of a multi-relationship network

定義1.加權度(Weighted degree,WD).給定加權網絡G=(V,E,W),節點u∈V,V={v1,v2,···,vn},E={e1,e2,···,em},W={w(e1),w(e2),···,w(em)},w(ei)表示邊ei的權值.WD(u,G)表示u在G內的加權度,定義如下:

加權度描述了節點與子圖之間的耦合程度.加權度越大,節點與子圖內節點之間的聯系越緊密.本文采用加權度描述子圖與網絡剩余部分的區分度.

定義2.加權稠密度(Weighted density degree,WDD).給定加權子網絡G=(V,E,W),V={v1,v2,···,vn},E={e1,e2,···,em},W={w(e1),w(e2),···,w(em)},w(ei)表示邊ei的權值.WDD(G)表示子網G內的加權稠密度,定義如下:

加權稠密度用以描述子圖內部節點之間的連接緊密程度.本文通過加權稠密度衡量子圖能否表示為高內聚的功能模塊.

在PEFM方法中,若子圖的加權稠密度超過給定閾值,且內部節點與子圖的加權度大于節點與鄰居子圖的加權度,則該子圖可以表示為一個高內聚、低耦合的關鍵功能模塊.鄰居子圖由子圖內部節點的鄰居節點組成,并且這些鄰居節點不出現在子圖內.

關鍵功能模塊挖掘的基本思路是:對于待注釋功能的蛋白質v,PEFM算法每次遍歷同種類型的相互作用,從而得到不同類型相互作用對應的關鍵功能模塊.本文中,從v出發,通過3次遍歷,最多可以得到3個關鍵生物模塊.每次遍歷時,v的鄰居節點根據與v的連接緊密程度從大到小的順序進入隊列.初始的關鍵功能模塊集合S={v},算法依次從隊列中取出一個鄰居節點并嘗試加入集合S,若加入鄰居節點后,S對應的子圖加權稠密度超過設定的閾值T,則保留該節點,否則將鄰居節點從S中移除,得到一個高內聚的稠密功能模塊.考慮到模塊中某些節點可能與外部子圖存在更加緊密的聯系,需要對子圖S做進一步的篩選.NS是由S中所有節點的鄰居節點形成的子圖,若S中某一節點u在NS中加權度超過其在S中的加權度,則從S中移除u.若S的尺寸超過2個,則形成一個高內聚、低耦合的關鍵功能模塊.我們通過一個實例描述算法在某一網絡中關鍵功能模塊的挖掘過程.如圖4所示,A節點為待注釋功能的測試蛋白質,加權稠密度閾值T=0.2.首先將A的鄰居節點根據連接緊密程度依次放入隊列Q={C,B,D,E},初始關鍵功能模塊集合S={A}.依次從隊列Q中取出節點嘗試放入S中,并計算S的加權稠密度.依次將C,B,D,E放入S中后,得到的關鍵功能模塊集合分別是{A,C},{A,C,B},{A,C,B,D}和{A,C,B,D,E},對應的加權稠密度分別是0.5,0.42,0.24,0.16.由于加入鄰居節點E后,模塊的加權稠密度低于設定的閾值,因此從模塊中移除節點E,形成高內聚的關鍵功能模塊集合S={A,C,B,D}.C,B和D的鄰居節點形成鄰居子圖NS={H,F,G,K}.由于D在NS中的加權度為0.7,大于其在S中的加權度0.2,從S中移除D.最終得到關鍵功能模塊S={A,C,B}.

以下是關鍵功能模塊挖掘偽代碼描述:

圖4 關鍵功能模塊挖掘實例Fig.4 Example of an essential functional module mining

1.3 功能預測

算法的最后一個階段是根據挖掘的關鍵功能模塊形成候選功能列表,并注釋測試蛋白質.在上一階段,已經產生每一種類型聯系對應的關鍵功能模塊.然而,不同類型的聯系對于蛋白質功能預測的重要性各不相同.為此,我們為不同類型的聯系設置不同的重要性系數.重要性系數的計算如下:

其中,P(i)表示第i種類型聯系的優先級.優先級的設置源于統計分析的結果.本文分別在每種類型聯系構成的簡單網絡上運行經典的功能預測算法–鄰居計數法(Neighbour counting,NC),預測蛋白質功能,并計算每種情形下NC法的預測性能,包括敏感性、特異性和F-measure(相關定義見第2.2節),實驗結果如圖5所示.當NC方法運行在僅包含共享復合物類型的網絡時,能獲得最高的敏感性和綜合性能指標F-measure.共享結構域類型的性能次之,PPI拓撲特征類型的性能最低.因此,共享復合物類型的優先級設置為1,共享結構域類型的優先級設置為2,而PPI拓撲特征類型的優先級為3.

對于功能未知的測試蛋白質u,假設挖掘的關鍵功能模塊集合FM={fm1,fm2,fm3},fmi={pi1,pi2,···,pin}(i∈[1,3])表示第fmi個模塊包含的蛋白質集合,WDD={wdd1,wdd2,wdd3}表示關鍵功能模塊的加權稠密度,F={f1,f2,···,fm}是三個關鍵功能模塊中所有蛋白質的全部已知功能形成的集合.對于fi中某一功能,可根據下式計算其排名得分:

其中,w(u,pij)表示蛋白質u和pij通過第i種聯系時的權值.若關鍵功能模塊fmi內的蛋白質pij包含功能fk,則tijk=1,否則tijk=0.

圖5 不同類型聯系對預測的影響Fig.5 Impact of diあerent types of connection

由于預測得到的候選功能比較多,有的功能是噪聲,不宜注釋測試蛋白質.為此,PEFM算法將所有候選功能按照得分降序排列,然后從中選取前N項功能作為u的預測功能.N是關鍵功能模塊中與測試蛋白質u聯系最為緊密的蛋白質的功能數量.聯系的緊密程度可以用相互作用的權值表示.

2 實驗結果和分析

2.1 實驗數據

本次實驗將采用酵母蛋白質相互作用網絡.因為該物種的相互作用數據和功能數據較為完整,并被用于現有的功能預測算法實驗分析.我們將詳細介紹和分析DIP[11]數據集的結果,也將簡要分析BioGrid[12]數據集、Gavin[13]數據集和Krogan[14]數據集.DIP數據包含5093個蛋白質和24743組相互作用,Krogan數據集則包括了3672個蛋白質和14317個相互作用,Gavin數據庫由1855蛋白質及7669蛋白質間相互作用組成,BioGrid包括5616個蛋白質和52833組相互作用.蛋白質功能數據為最新版本,從GO官方網站獲取[15].本次實驗去除了注釋蛋白質數量小于10個或者大于200的功能條目,旨在提高算法的公平性.處理完畢后,注釋文件包含267個不同的GO條目.下載的GO文件進行了格式轉換,原始的GO文件為UniProtKB[16]格式,轉換后的格式為Ensemble Genomes Protein.用于構建多關系網絡的Domain數據從Pfam[17]數據庫獲取.Domain文件包含1107種不同類型的結構域,覆蓋相互作用網絡的3056個蛋白質.另一種異構數據,蛋白質復合物數據采用基準集CYC2008[18].CYC2008通過高通量的生物實驗獲得,由408個Benchmark復合物組成.為了檢驗PEFM算法的有效性和預測準確率,我們選取了FPM[7],Zhang[19],D-PIN[4],DCS[8], NC[2],PON[20]作為對比算法.本文將從多方面對比PEFM算法和競爭算法的性能.

2.2 評價指標

在測試蛋白質功能預測算法性能時,通常采用交叉驗證法.蛋白質集合被劃分為測試集和訓練集.訓練集中的蛋白質用于幫助功能預測算法實現對未知功能的蛋白質注釋.測試集中蛋白質的功能被人為剝離,利用預測算法得到其預測功能.預測結束后,對比預測的功能與真實的蛋白質功能的匹配情況,從而計算功能預測算法的預測準確率.交叉驗證進一步可以劃分為留一法驗證和留部分法驗證.留一法驗證是指每一輪預測時,僅保留一個功能已知的蛋白質在測試集中,剩余的蛋白質全部進入訓練集.留部分法驗證是指隨機地選取一定比例的蛋白質放入測試集,例如10%,20%,50%.剩下的功能已知的蛋白質放入訓練集.然后根據預測算法設定的功能選取策略選取一定數量的功能.算法的預測準確率由預測的功能與實際功能之間的匹配率決定.

在計算功能預測算法的預測準確率時,一般采用Speci fi city(特異性)和Sensitivity(敏感性)兩種評價指標.Speci fi city主要針對預測功能集,指預測集合中被真實功能匹配的功能所占比例.Sensitivity主要針對標準集,指標準集中被預測的功能匹配的功能所占比例.Speci fi city和Sensitivity的形式化定義如下:

其中,TP(True positive)指預測集合中被標準集合中匹配的功能數量.FP(False positive)指預測集合中沒有被任何真實功能匹配的數量.換句話說, FP等于預測的功能數量減去TP.FN(False negative)指標準集合中沒有被任何預測功能匹配的真實功能數量.由于真實功能數量是固定的,在預測蛋白質功能時,提高候選功能數量,可以提高TP值,從而提高Sensitivity值.同時導致FP增長更快,導致Speci fi city明顯下降.F-measure是一項綜合衡量預測算法性能的指標,是Speci fi city和Sensitivity的調和平均值.

2.3 參數分析

PEFM算法中,為評估子圖加權稠密度,我們引入自定義參數T.本節將分析T對算法性能的影響,并確定T的合適取值.根據定義2可知,T的取值范圍在區間[0,1].圖6顯示了在四個數據集(DIP,Krogan,Gavin和BioGrid)上,PEFM算法的F-measure值隨著T值變化的情況.

圖6 參數T的影響Fig.6 The eあect of threshold T

從圖6可以看出,在DIP數據集上,參數T取值0.15時,PEFM算法獲得最高的F-measure值0.423.對于Krogan和Gavin數據集,T取值0.2時,綜合性能指標F-measure最大,分別是0.418和0.469.對于BioGrid數據集,T=0.25時,F-measure達到最大值0.44.

2.4 留一法驗證

本次實驗選定的PPI網絡中,共有5093個蛋白質,其中2894個蛋白質有功能注釋.我們首先分析PEFM和其他六種方法對這2894個蛋白質預測功能的整體性能.圖7顯示了各種方法的特異性、敏感性和F-measure的平均值.2894個蛋白質中被PEFM,D-PIN,FPM,Zhang,DCS,NC和PON至少正確預測一個功能的蛋白質數量分別為1546,1506,1407,801,1118,1626和566.PEFM覆蓋蛋白質數量比D-PIN,FPM,Zhang,DCS和PON分別提高2.67%,9.88%,93.01%,38.28%和173.14%.

從圖7可以看出,PEFM具有最高的特異性(Speci fi city),這意味著PEFM 算法預測的功能中錯誤(噪聲)功能所占比例最少.敏感性(Sensitivity)方面,PEFM比FPM、Zhang、DCS和PON分別提高了15.37%,95.63%,37.03%和206.7%.這說明,相比這四種功能預測算法,PEFM算法在不增加噪聲功能比例的前提下能夠注釋更多的蛋白質.PEFM算法的敏感性明顯低于NC.這是因為PEFM算法只選擇了排名靠前的部分功能用于注釋功能未知的蛋白質,而NC方法是將鄰居的所有功能全部賦予測試的蛋白質.但是這種策略導致NC方法預測的功能中包含大量的噪聲功能,使得特異性急劇下降.本次實驗中,雖然NC方法的敏感性比PEFM提高了12.93%,但是特異性卻比PEFM下降了236.3%.因此,就綜合性能而言,PEFM方法的F-measure值分別比D-PIN,FPM,Zhang, DCS,NC和PON提高1.71%,20.72%,90.43%, 35.28%,114.53%和192.33%.由此可見,PEFM方法具有最高綜合性能.

圖7 各種算法綜合性能對比Fig.7 Overall performance comparison of various algorithms

為了更加全面、客觀地對比分析各種方法的性能,我們將盡可能地為各種方法選擇相同的功能數量選取策略,對每一個蛋白質,分別選取各種方法預測的前K項功能進行預測.針對Zhang方法和DCS方法,選取前M(M≤K)個最相似的蛋白質,從這M個蛋白質的功能列表中選取前K項功能作為預測的功能.功能根據蛋白質的相似值的最大值降序排列(例如,有多個蛋白質具有某項功能Fi,則取這些蛋白質中與待預測的蛋白質最相似的蛋白質的相似值作為功能Fi的排序得分);對于D-PIN, FPM,PEFM,NC和PON方法,我們分別選取各自方法預測的前K個GO Term對功能未知的蛋白質進行功能注釋.K的取值從1~50,對于不同的K值,分別計算各種方法的平均F-measure值,對比結果如圖8所示.

圖8清晰地顯示,當K從1增長到50時, PEFM始終具有最高的平均F-measure值.隨著K值的增長,PEFM方法的F-Measure值雖然略微有所波動,但基本能維持在0.33左右,Zhang方法和DCS方法的F-Measure值則下降非常明顯,這說明K的選取對于PEFM算法的影響不大.

圖8 不同K值時各種算法的F-measure對比Fig.8 Comparison of average F measure of various algorithms under diあerent K values

2.5 留部分法驗證

我們已經采用留一法測試了PEFM算法的性能,實驗結果表明,PEFM方法確實在現有方法的基礎上提高了預測準確率.實際應用中,很多蛋白質的功能是缺失的.本節將采用留部分法測試PEFM方法是否能在部分蛋白質功能缺失的情形下依然保持較高的準確率.圖9是留部分法實驗結果.

我們隨機移除10%、20%、50%和80%蛋白質的功能信息,這部分蛋白質作為測試集,剩余蛋白質為訓練集,用于對這部分蛋白質進行功能注釋.為盡量降低隨機性對實驗結果造成的誤差,我們對每個方法運行1000次,取平均值作最終結果.

從圖9不難發現,即便是移除10%,20%,50%和80%的蛋白質后,PEFM方法依然獲得最高的F-Measure值,且優勢比較明顯.即便部分蛋白質的功能信息缺失,該方法依然能夠取得優于現有功能預測方法的性能.

2.6 其他數據集結果

為了全面對比各種功能預測算法,我們還采用留一法在其他三個不同的酵母相互作用網絡(Krogan數據集、Gavin數據集和BioGrid數據集)測試了PEFM方法和其他六種對比方法.表2列出了不同方法在三個網絡上預測功能的實驗結果.

圖9 留部分法實驗結果Fig.9 Results of leave-percent-out cross validation

從表2可以看出,采用留一法在三個網絡進行功能預測時,PEFM依然取得最高特異性和F-measure值.在不同數據集上的測試結果也證明了特異性算法的有效性.綜合上述分析,相比其他幾種功能預測算法,PEFM算法具有最高的預測準確率.

3 結論

現有的蛋白質功能預測方法整合PPI網絡和多元生物信息數據,從而提高功能預測性能.而融入多元信息后,蛋白質之間的相互作用變得多樣化.不同類型的相互作用在功能預測中的作用各不相同.將兩個蛋白質間的多種相互作用進行簡單合并,雖然能有效地降低假陰性的影響,增加預測的功能數量,但同時也增加了假陽性功能的數量,使得功能預測的整體性能提高不大.本文利用網絡拓撲特性、結構域信息和復合物信息構造多關系的蛋白質相互作用網絡.鑒于蛋白質功能與模塊之間的緊密聯系,本文從多關系網絡中挖掘關鍵功能模塊,利用關鍵功能模塊的功能對蛋白質進行功能注釋.四個酵母的PPI網絡上的實驗結果驗證了方法的有效性.

1 Zhao B H,Wang J X,Li M,Li X Y,Li Y H,Wu F X,Pan Y.A new method for predicting protein functions from dynamic weighted interactome networks.IEEE Transactions on NanoBioscience,2016,15(2):131?139

2 Schwikowski B,Uetz P,Fields S.A network of proteinprotein interactions in yeast.Nature Biotechnology,2000, 18(12):1257?1261

3 Dutkowski J,Ideker T.Protein networks as logic functions in development and cancer.PLoS Computational Biology, 2011,7(9):e1002180

4 Hu Sai,Xiong Hui-Jun,Zhao Bi-Hai,Li Xue-Yong,Wang Jing.Construction of dynamic-weighted protein interactome network and its application.Acta Automatica Sinica,2015, 41(11):1893?1900

(胡賽,熊慧軍,趙碧海,李學勇,王晶.動態加權蛋白質相互作用網絡構建及其應用研究.自動化學報,2015,41(11):1893?1900)

5 Zhao B H,Wang J X,Li X Y,Wu F X.Essential protein discovery based on a combination of modularity and conservatism.Methods,2016,110:54?63

6 Li X Y,Wang J X,Zhao B H,Wu F X,Pan Y.Identi fication of protein complexes from multi-relationship protein interaction networks.Human Genomics,2016,10(S2):17

7 Hu Sai,Xiong Hui-Jun,Li Xue-Yong,Zhao Bi-Hai,Ni Wen-Yin,Yang Pin-Hong,Liu Zhen.Construction of multirelation protein networks and its application.Acta Automatica Sinica,2015,41(12):2155?2163

(胡賽,熊慧軍,李學勇,趙碧海,倪問尹,楊品紅,劉臻.多關系蛋白質網絡構建及其應用研究.自動化學報,2015,41(12):2155?2163)

8 Peng W,Wang J X,Cai J,Chen L,Li M,Wu F X.Improving protein function prediction using domain and protein complexes in PPI networks.BMC Systems Biology,2014, 8(1):35

9 Zotenko E,Mestre J,O′Leary D P,Przytycka T M.Why do hubs in the yeast protein interaction network tend to be essential:reexamining the connection between the network topology and essentiality.PLoS Computational Biology,2008,4(8):e1000140

10 Nepusz T,Yu H Y,Paccanaro A.Detecting overlapping protein complexes in protein-protein interaction networks.Nature Methods,2012,9(5):471?472

11 Xenarios I,Rice D W,Salwinski L,Baron M K,Marcotte E M,Eisenberg D.DIP:the database of interacting proteins.Nucleic Acids Research,2000,28(1):289?291

12 Stark C,Breitkreutz B J,Chatr-Aryamontri A,Boucher L, Oughtred R,Livstone M S,Nixon J,Van Auken K,Wang X D,Shi X Q,Reguly T,Rust J M,Winter A,Dolinski K, Tyers M.The BioGRID interaction database:2011 update.Nucleic Acids Research,2011,39(S1):D698?D704

13 Gavin A C,Aloy P,Grandi P,Krause R,Boesche M, Marzioch M,Rau C,Jensen L J,Bastuck S,D¨umpelfeld B, Edelmann A,Heurtier M A,Hoあman V,Hoefert C,Klein K,Hudak M,Michon A M,Schelder M,Schirle M,Remor M,Rudi T,Hooper S,Bauer A,Bouwmeester T,Casari G, Drewes G,Neubauer G,Rick J M,Kuster B,Bork P,Russell R B,Superti-Furga G.Proteome survey reveals modularity of the yeast cell machinery.Nature,2006,440(7084):631?636

14 Krogan N J,Cagney G,Yu H Y,Zhong G Q,Guo X H, Ignatchenko A,Li J,Pu S Y,Datta N,Tikuisis A P,Punna T,Peregr′?n-Alvarez J M,Shales M,Zhang X,Davey M, Robinson M D,Paccanaro A,Bray J E,Sheung A,Beattie B,Richards D P,Canadien V,Lalev A,Mena F,Wong P,Starostine A,Canete M M,Vlasblom J,Wu S,Orsi C, Collins S R,Chandran S,Haw R,Rilstone J J,Gandi K, Thompson N J,Musso G,Onge P S,Ghanny S,Lam M H Y,Butland G,Altaf-Ul A M,Kanaya S,Shilatifard A, O′Shea E,Weissman J S,Ingles C J,Hughes T R,Parkinson J,Gerstein M,Wodak S J,Emili A,Greenblatt J F. Global landscape of protein complexes in the yeast Saccharomyces cerevisiae.Nature,2006,440(7084):637?643

15 Martin D M A,Berriman M,Barton G J.GOtcha:a new method for prediction of protein function assessed by the annotation of seven genomes.BMC Bioinformatics,2004, 5(1):178

16 Lima T,Auchincloss A H,Coudert E,Keller G,Michoud K,Rivoire C,Bulliard V,de Castro E,Lachaize C,Baratin D,Phan I,Bougueleret L,Bairoch A.HAMAP:a database of completely sequenced microbial proteome sets and manually curated microbial protein families in UniProtKB/Swiss-Prot.Nucleic Acids Research,2009,37(S1):D471?D478

17 Hawkins T,Chitale M,Luban S,Kihara D.PFP:automated prediction of gene ontology functional annotations with confidence scores using protein sequence data.Proteins:Struc-ture,Function,and Bioinformatics,2009,74(3):566?582

18 Pu S Y,Wong J,Turner B,Cho E,Wodak S J.Up-todate catalogues of yeast protein complexes.Nucleic Acids Research,2009,37(3):D825?D831

19 Zhang S,Chen H,Liu K,Sun Z R.Inferring protein function by domain context similarities in protein-protein interaction networks.BMC Bioinformatics,2009,10(1):395

20 Liang S D,Zheng D D,Standley D M,Guo H R,Zhang C. A novel function prediction approach using protein overlap networks.BMC Systems Biology,2013,7(1):61

猜你喜歡
功能模塊功能方法
也談詩的“功能”
中華詩詞(2022年6期)2022-12-31 06:41:24
關于非首都功能疏解的幾點思考
基于ASP.NET標準的采購管理系統研究
軟件導刊(2016年9期)2016-11-07 21:35:42
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
輸電線路附著物測算系統測算功能模塊的研究
M市石油裝備公服平臺網站主要功能模塊設計與實現
石油知識(2016年2期)2016-02-28 16:20:16
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
功能模塊的設計與應用研究
中西醫結合治療甲狀腺功能亢進癥31例
主站蜘蛛池模板: 亚洲国产欧美自拍| 无码'专区第一页| 亚洲不卡无码av中文字幕| 99re66精品视频在线观看 | 欧美日韩国产高清一区二区三区| a级毛片视频免费观看| 欧美视频在线观看第一页| 91亚洲免费| 欧美一级在线| 亚洲无码电影| 一本大道视频精品人妻| 国产玖玖视频| 亚洲色无码专线精品观看| 亚洲第一区在线| igao国产精品| 精品少妇人妻一区二区| 欧美国产日韩一区二区三区精品影视 | 亚洲最大看欧美片网站地址| 99尹人香蕉国产免费天天拍| 久久久久久国产精品mv| 亚洲综合日韩精品| 国产日韩欧美视频| 日本在线欧美在线| 天堂久久久久久中文字幕| 国产成人夜色91| 亚洲AV无码久久精品色欲| 亚洲二区视频| 国产亚洲精久久久久久无码AV| 精品一区二区三区无码视频无码| 亚洲码一区二区三区| 国产成人精品一区二区| 中文字幕久久精品波多野结| 日本道综合一本久久久88| 乱系列中文字幕在线视频| 国产精品自拍合集| 亚洲经典在线中文字幕| 69免费在线视频| 欧美国产日韩在线| 日韩成人免费网站| 国产精品区网红主播在线观看| 欧美不卡视频在线| 中文字幕中文字字幕码一二区| www.精品国产| V一区无码内射国产| 91美女视频在线观看| 国产综合日韩另类一区二区| 亚洲视频在线观看免费视频| 国产系列在线| 真人免费一级毛片一区二区| 欧美劲爆第一页| 国语少妇高潮| 欧美一区日韩一区中文字幕页| 亚洲成aⅴ人在线观看| WWW丫丫国产成人精品| 男人天堂伊人网| 麻豆国产精品一二三在线观看| 国产91无码福利在线| 亚洲成aⅴ人片在线影院八| 欧美日韩理论| 91麻豆国产视频| 日本人妻一区二区三区不卡影院| 国产噜噜噜视频在线观看| 91网在线| 99这里只有精品免费视频| 国产视频一二三区| 亚洲无码37.| 亚洲天堂首页| 香蕉eeww99国产在线观看| 欧美一级特黄aaaaaa在线看片| 一本久道热中字伊人| 久久久久国产精品熟女影院| 国产欧美成人不卡视频| 无码粉嫩虎白一线天在线观看| 精品国产香蕉伊思人在线| 中文字幕日韩视频欧美一区| 无码内射在线| 国产一区自拍视频| 狠狠综合久久久久综| 尤物精品视频一区二区三区| 无码一区中文字幕| 一级高清毛片免费a级高清毛片| 手机成人午夜在线视频|