基于蛋白質網絡的復合體識別研究綜述

2015-04-29 00:44:03代啟國郭茂祖

智能計算機與應用 2015年3期

代啟國　郭茂祖

摘要：蛋白質復合體由多個蛋白質通過相互作用構成，是蛋白質執行其功能的主要形式。在細胞中很多重要的生物過程都是由蛋白質復合體參與執行的。因此準確識別蛋白質復合體對于理解蛋白質活動規律具有重要意義。利用計算方法從蛋白質網絡中識別蛋白質復合體是目前生物信息學研究的主要方向之一。總結了近年來蛋白質復合體計算識別方法的研究工作，展望了需要進一步研究的方向。

關鍵詞：蛋白質相互作用；蛋白質復合體；聚類；生物網絡

中文圖書分類號：TP391 文獻標識號：A 文章編碼：2095-2163（2015）03-

Sruvey on Detecting Complexes from Protein-protein Interaction Network

DAI Qiguo， GUO Maozu

（School of Computer Science and Technology， Harbin Institute of Technology， Harbin 150001， China）

Abstract： Protein complex consists of multiple proteins through physical interaction， which is the main form of protein to perform its biological function. Most important biological processes in the cell are performed by the protein complexes. Therefore， the accurate identification of protein complex is of great significance for understanding protein activity. Using the computational method to identify protein complexes from the protein network is one of the main directions of current bioinformatics research. This paper is to summarize related research work on computational method for the identification of protein complexes， and to discuss several directions of further research in the area.

Keywords： Protein-protein Interaction， Protein Complex， Clustering， Biological Network

0研究背景

蛋白質（protein）是構成細胞最主要的生物分子之一。蛋白質很少單獨參與生命過程，而是通過不同蛋白質之間的物理相互作用形成大的分子結構——蛋白質復合體（protein complex）[1-2]。復合體是蛋白質執行其功能的主要形式，是完成細胞中重要活動的基本分子組成形式[1]。細胞中很多重要的生物過程都是由蛋白質復合體參與執行的。因此，開展蛋白質復合體相關識別等方面DE 研究，對于揭示蛋白質的活動規律十分重要。作為生物檢測技術的補充，發展準確的蛋白質復合體計算識別方法是生物信息學目前研究熱點問題之一。在過去的十幾年，從蛋白質網絡數據中識別復合體最是受到廣泛關注[3- 4]。蛋白質相互作用網絡（protein-protein interaction network，簡稱蛋白質網絡）是描述細胞中兩兩蛋白質之間相互作用的一種生物網絡[5-6]。從蛋白質網絡識別復合體的基本假設是，網絡具有模塊性并且網絡中的模塊與蛋白質復合體有密切關系。蛋白質復合體一般是在網絡中對應連接稠密的子圖結構[5-7]。

1目前主要研究工作

通過挖掘蛋白質網絡中特定模塊結構是識別蛋白質復合體的一個重要研究方向。國內外研究人員提出了很多優秀的識別算法。依據算法特點的不同，現有基于蛋白質網絡的復合體識別方法可大致分為：基于啟發式的局部搜索方法、基于層次聚類的方法和基于連續全局優化的識別方法。此外，學者們還研究了蛋白質網絡與基因表達數據的融合方法，以進一步提高復合體識別準確性。

1.1基于局部搜索的方法

基于啟發式的局部搜索算法是從網絡中蛋白質鄰接關系出發，找到局部范圍內的稠密子圖。這類方法考慮了網絡的局部拓撲關系，受到廣泛關注并得到了快速發展[8]。團（Clique）作為完全子圖，具有極高的內部連接密度。2005年，Palla等人在《Nature》發表文章，首次提出一種團過濾方法（Clique Percolation Method，CPM），該方法假設網絡模塊是由一組重疊的clique組成，通過匹配鄰接k-clique得到重疊模塊劃分[9]。并以該算法為基礎，開發的Cfinder[10]軟件用于識別蛋白質復合體對應的網絡模塊。國內中科院章祥蓀研究員等人將CPM方法用于酵母蛋白質相互作用網中模塊識別[11]。Bader和Hogue等人提出了分子復合體識別算法（MCODE）[8]。該方法主要分為三步：蛋白質加權、復合體預測以及后處理。利用核聚類系數（core clustering coefficient）為每個蛋白質加權。根據蛋白質權值選擇高權值蛋白質作為種子復合體，然后選擇高權值蛋白質擴充種子，最終得到復合體。此外，模擬隨機游走過程的聚類算法也是識別復合體的一種主要途徑。馬爾科夫聚類算法MCL（Markov Clustering，MCL）方法[12-13]基于兩種簡單的操作，擴展（expansion ）和膨脹（inflation），模擬隨機游走過程。該算法通過交叉迭代這兩種操作，把一個網絡劃分成若干稠密子圖。Nepusz等人提出了ClusterONE算法，發表在《Nature Methods》[14]。文中提出了一種連接系數（cohesivenness）的函數用以指導算法搜索。國內方面，西安電子科技大學高琳教授等基于最大頻繁模式提出了核-附件蛋白質復合體識別算法CCiMEP[15]，首先通過挖掘最大頻繁模式，找到蛋白質復合體的核；然后，利用與核鄰接節點的拓撲關系，為核添加附件。北京工業大學冀俊忠教授[16]采用蟻群算法識別蛋白質網絡中的模塊結構。基于啟發式的局部搜索方法在噪聲小、聚類明顯的網絡中，識別結果較好。但在網絡噪聲大、連接復雜的網絡中，識別性能并不理想。

1.2基于層次聚類的復合體識別方法

層級聚類（hierarchical clustering）算法在復雜網絡研究領域獲得了廣泛使用[17-18]。層次聚類方法對給定的網絡進行層次的分解，直至滿足某種條件為止，最終識別得到模塊結構[19]。在蛋白質復合體識別領域，凝聚層次聚類方法（以下簡稱為層級聚類）也獲得了大規模關注采用。目前多種層次聚類方法的區別主要在于其簇合并依據的差異。Arnau等人提出了一種UVCluster[20]的層次聚類方法識別蛋白質網絡中的模塊，以蛋白質之間最短路徑為合并蛋白質簇的依據。Jerarca方法[21]采用多個方法的聚類結果計算加權距離，并利用加權距離構建層次聚類數。局部性合并依據，沒有考慮兩個簇合并對網絡中整個簇劃分的影響，缺乏全局性。Newman等人提出了一種快速層級聚類FastCommunity方法，其中以模塊度Q函數為簇合并準則，選擇使得模塊度增加的相鄰模塊進行合并[22]。西安電子科技大學高琳教授等人提出了一種基于度分布的蛋白質網絡層次聚類算法[23]，該方法采用以節點度分布為基礎的模塊度量函數作為節點簇合并的依據。2012年Becker提出了基于層次聚類的OCG算法[24]。該算法以極大團（maximal clique）為初始復合體進行層次聚類。

綜上所述，采用全局性簇合并依據的層次聚類方法是當前分析蛋白質網絡模塊的主要手段，其中模塊度量函數是影響層級聚類識別效果的主要因素。為了使得層次聚類能夠識別重疊模塊，合理地選擇初始簇也是需要進一步深入研究的問題。

1.3基于連續最優化模型的方法

基于優化模型的方法通過擬合模型與網絡數據，從而得到網絡聚類劃分。塊模型（Blockmodel）則是利用頂點類分布情況（塊參數）描述網絡結構的一種模型。通常情況下，網絡的連接（邊）服從基于塊參數的某種隨機分布。按分布形式的不同，主要分為狄利克雷和泊松分布兩種。Airoldi等人即已提出了混合關系隨機塊模型（MMSB）[25-26]，該方法就以隱狄利克雷分布（Latent Dirichlet Allocation， LDA）為基礎，并采用了變分推理算法來實現模型近似后驗的推理。2011年，Newman等人又提出了基于泊松分布的塊模型，用于識別網絡中的重疊社團[27]。

2012年，Zhang等人將基于泊松分布的塊模型引入到蛋白質復合體識別中。考慮到蛋白質復合體與社團的區別，該方法進行了相應改進，從而提出了RSGNM模型[28]。一方面，引入基于指數分布的先驗分布，用于稀疏化，目的是為了控制復合體之間的重疊率；另一方面，引入了拉普拉斯調控子（Laplacian regularizer），通過平滑作用，提高識別性能。總地來看，作為第一種用于復合體識別的模型方法，RGNSM算法的性能較好。但由于所采用的泊松分布假定蛋白質相互作用網絡為多邊圖，與目前蛋白質網絡實際不符，因而在一定程度上影響了其實際的識別性能。

1.4基于基因表達數據融合的復合體識別

細胞中，蛋白質的豐度（相對含量）以及其相互作用關系是隨時間及環境而動態變化的。而現有蛋白質網絡卻仍不能提供蛋白質的動態信息。為了提升復合體識別的準確性，有必要融合可以闡述蛋白質動態信息的其它類型生物數據。基因表達數據（gene expression data）即是描述了在不同時刻或條件下基因表達量的一種數據，因而是分析蛋白質動態變化的重要數據。

Feng等人提出了圖碎片算法（graph fragmentation algorithm， GFA）[29]，該方法利用微陣列數據對蛋白質網絡進行加權。在加權基礎上，再利用DSA（densest sub-graph algorithm）算法，尋找最稠密子圖；最終，得到高度共表達的蛋白質復合體。Maraziotis等人則提出了DMSP（Detect module from seed protein）算法[30]。該算法首先利用模糊c均值算法對基因表達數據進行聚類，以選擇種子（seed）和稠密子圖；其后，即根據相應標準將與其緊密聯系的蛋白質加入到指定簇中。Ulitsky等人又隨即提出MATISSE算法[31]。首先，利用基因表達相關性對蛋白質相互作用進行加權，從而得到每個蛋白質的權值；而后，則對權值最高的蛋白質，將其以及與其相關的k個最高權值的鄰居蛋白質組成簇。

此外，近年來中南大學王建新教授[32]、國外的Choi等人[33]對利用基因表達數據構建時序蛋白質網絡問題展開了相關研究[34]。構建此種網絡的目的就是模擬細胞中不同時刻蛋白質的活動狀態，旨在提高復合體識別的準確性。

2下一步工作展望

綜上所述，當下取得的研究成果只是階段性的。為了更加準確地識別蛋白質復合體，進而理解復合體合成、執行功能、分解等方面的機理，筆者認為今后有必要從以下幾個方面相繼開展進一步的研究：

（1）目前，在蛋白質復合體識別領域存在多種不同類型的方法。每種類型的識別方法均是各顯優勢，同時也有一定的不足。在機器學習領域中，集成學習方法是通過某種規則整合不同分類器結果，從而獲得比單一分類器更好的預測結構。筆者認為，即可利用類似集成學習的方法，將不同類型復合體識別方法的預測結果整合在一起，以發揮單一方法的優勢、且避其不足，從而獲得更加可靠、有效的復合體識別結果。

（2）蛋白質相互作用網絡只描述了蛋白質的相互作用關系，而不能描述蛋白質之間相互作用位點的細節結構信息。如果能夠獲取這些更加直觀而詳細的信息，無疑會有助于研究人員理解蛋白質復合體形成機理，從而設計更加準確的識別方法提供重要的幫助。因此，下一步有必要設計同時考慮二值相互作用關系和三維相互作用結構信息的復合體識別算法，以降低現有蛋白質網絡中噪聲對識別結果的影響。

（3）現有在復合體計算識別的相關研究普遍將復合體視為穩定不變。而事實上復合體中所含的蛋白質及其組成結構卻是隨環境和生物過程等因素的變化而發生改變的。同時，復合體的組裝、轉運物質以及分解等關鍵過程都對細胞活動具有重要的影響。因此，研究蛋白質復合體動態變化的相關計算方法也是十分必要的。

3 結束語

蛋白質復合體在細胞中具有重要作用。利用計算方法從蛋白質網絡中識別復合體是當前生物信息學研究的熱點問題。本文歸納并總結了國內外在基于蛋白質網絡的復合體識別算法方面已有研究工作，同時也對下一步研究方向進行了簡要分析與闡述。希望通過本文的總結可以對國內研究人員開展相關工作提供有益的啟發和幫助。

參考文獻：

[1] ALBERTS B. The cell as a collection of protein machines： Preparing the next generation of molecular biologists[J]. Cell， 1998， 92（3）：291-294.

[2]王曉東，李智立. 蛋白質復合體及蛋白質相互作用研究新策略——化學交聯結合質譜分析法[J]. ACTA BIOPHYSICA SINICA， 2009， 25（3）：157-167.

[3]JI J Z， ZHANG AD， Liu CN et al. Survey： Functional Module Detection from Protein-Protein Interaction Networks[J]. Ieee Transactions on Knowledge and Data Engineering， 2014， 26（2）：261-277.

[4]NI W Y， XIONG H J， ZHAO B H et al. Predicting overlapping protein complexes in weighted interactome networks[J]. Journal of Zhejiang University-Science C-Computers & Electronics， 2013， 14（10）：756-765.

[5]TONG A H Y， DREES B， NARDELLIi G， et al. A combined experimental and computational strategy to define protein interaction networks for peptide recognition modules[J]. Science， 2002， 295（5553）：321-324.

[6]SPIRIN V， MIRNY L A. Protein complexes and functional modules in molecular networks[J]. Proceedings of the National Academy of Sciences， 2003， 100（21）：12123-12128.

[7]JANJIC V， SHARAN R， PRZULJ N. Modelling the yeast interactome[J]. Scientific Reports， 2014， 4.

[8]BADER G D， HOGUE C W. An automated method for finding molecular complexes in large protein interaction networks[J]. BMC Bioinformatics， 2003， 4：27.

[9]PALLA G， DERENYI I， FARKAS I， et al. Uncovering the overlapping community structure of complex networks in nature and society[J]. Nature， 2005， 435（7043）：814-818.

[10]ADAMCSEK B， PALLA G， FARKAS I J， et al. CFinder： locating cliques and overlapping modules in biological networks[J]. Bioinformatics， 2006， 22（8）：1021-1023.

[11]ZHANG C， LIU S， ZHOU Y. Fast and accurate method for identifying high-quality protein-interaction modules by clique merging and its application to yeast[J]. Journal of Proteome Research， 2006， 5（4）：801-807.

[12]ENRIGHT A J， VAN DONGEN S， OUZOUNIS C A. An efficient algorithm for large-scale detection of protein families[J]. Nucleic Acids Res， 2002， 30（7）：1575-1584.

[13]SATULURI V， PARTHASARATHY S， UCAR D. Markov clustering of protein interaction networks with improved balance and scalability[C]//Proceedings of the First ACM International Conference on Bioinformatics and Computational Biology， Niagara Falls， NY：ACM， 2010： 247-256.

[14]NEPUSZ T， YU H， PACCANARO A. Detecting overlapping protein complexes in protein-protein interaction networks[J]. Nat Methods， 2012， 9（5）：471-472.

[15]YU L， GAO L， KONG C. Identification of core-attachment complexes based on maximal frequent patterns in protein-protein interaction networks[J]. Proteomics， 2011， 11（19）：3826-3834.

[16]Ji JZ， Liu ZJ， Zhang AD et al. Improved Ant Colony Optimization for Detecting Functional Modules in Protein-Protein Interaction Networks[M]. Information Computing and Applications， Pt 2. Edited by Liu CF， Wang LZ， Yang AM， 2012，308： 404-413.

[17]SHEN H， CHENG X， CAI K， et al. Detect overlapping and hierarchical community structure in networks[J]. Physica A： Statistical Mechanics and its Applications， 2009， 388（8）：1706-1712.

[18]LANCICHINETTI A， FORTUNATO S， KERTESZ J. Detecting the overlapping and hierarchical community structure in complex networks[J]. New Journal of Physics， 2009， 11（3）：033015.

[19]CLAUSET A， MOORE C， NEWMAN M E. Hierarchical structure and the prediction of missing links in networks[J]. Nature， 2008， 453（7191）：98-101.

[20]ARNAU V， MARS S， MARIN I. Iterative cluster analysis of protein interaction data[J]. Bioinformatics， 2005， 21（3）：364-378.

[21]ALDECOA R， MARIN I. Jerarca： Efficient analysis of complex networks using Hierarchical Clustering[J]. Plos One， 2010， 5（7）.

[22]CLAUSET A， NEWMAN M， MOORE C. Finding community structure in very large networks[J]. Physical Review E， 2004， 70（6）.

[23]YU L， GAO L， LI K， et al. A degree-distribution based hierarchical agglomerative clustering algorithm for protein complexes identification[J]. Comput Biol Chem， 2011， 35（5）：298-307.

[24]BECKER E， ROBINSSON B， CHAPPLE C E， et al. Multifunctional proteins revealed by overlapping clustering in protein interaction network[J]. Bioinformatics， 2012， 28（1）：84-90.

[25]CHOI D S， WOLFE P J， AIROLDI E M. Stochastic blockmodels with a growing number of classes[J]. Biometrika， 2012， 99（2）：273-284.

[26]AIROLDI E M， BLEI D M， FIENBERG S E， et al. Mixed membership stochastic blockmodels[C]// Advances in Neural Information Processing Systems， [S.l.]：NIPS，2009： 33-40.

[27]BALL B， KARRER B， NEWMAN M E J. Efficient and principled method for detecting communities in networks[J]. Physical Review E， 2011， 84（3）.

[28]ZHANG X F， DAI D Q， LI X X. Protein complexes discovery based on protein-protein interaction data via a regularized sparse generative network model[J]. Ieee-Acm Transactions on Computational Biology and Bioinformatics， 2012， 9（3）：857-870.

[29]FENG J， JIANG R， JIANG T. A max-flow-based approach to the identification of protein complexes using protein interaction and microarray data[J]. Computational Biology and Bioinformatics， IEEE/ACM Transactions on， 2011， 8（3）：621-634.

[30]MARAZIOTIS I A， DIMITRAKOPOULOU K， BEZERIANOS A. Growing functional modules from a seed protein via integration of protein interaction and gene expression data[J]. BMC Bioinformatics， 2007， 8（1）：408.

[31]ULITSKY I， SHAMIR R. Identification of functional modules using network topology and high-throughput data[J]. BMC Syst Biol， 2007， 1（1）：8.

[32]WANG J X， PENG X Q， PENG W， et al. Dynamic protein interaction network construction and applications[J]. Proteomics， 2014， 14（4-5）：338-352.

[33]KIM Y， HAN S， CHOI S， et al. Inference of dynamic networks using time-course data[J]. Brief Bioinform， 2014， 15（2）：212-228.

[34]CHEN B， FAN W， LIU J， et al. Identifying protein complexes and functional modules--from static PPI networks to dynamic PPI networks[J]. Brief Bioinform， 2013：bbt039.

智能計算機與應用2015年3期

智能計算機與應用的其它文章: 基于DBSCAN算法的城市交通擁堵區域發現; 基于AS3.0的位圖置換圖圖像濾鏡應用研究; 基于免疫原理詞表示的詞相似度計算; 分布式數據不一致性檢測的實現與優化; 基于知網的中文詞語相似度計算; 基于Android手機傳感器數據識別運動狀態