崔 鑫 邵明玉
(復旦大學計算機科學技術學院 上海 200433)
?
結合主題特征和互作用網絡拓撲特性的關鍵蛋白質識別
崔鑫邵明玉
(復旦大學計算機科學技術學院上海 200433)
關鍵蛋白質是生物體內維持生存和繁殖所必須的蛋白質。關鍵蛋白質的識別和預測不僅對我們理解維持生物生存的最小需求有重要意義,也在藥物設計、藥物靶標發現等領域有重要作用。已有的關鍵蛋白質識別算法大多基于蛋白質互作用網絡中的拓撲特性,在識別算法中引入了一個新的特征,即考慮到關鍵蛋白質序列本身的主題分布特征。通過將LDA模型與基于蛋白質互作用網絡拓撲特征的CPPK算法相結合,提出了新的識別算法: 結合主題模型和蛋白質互作用網絡拓撲特性的關鍵蛋白質識別。該識別算法在酵母蛋白質數據集上測試,并與現有的若干關鍵蛋白質識別算法進行比較。實驗表明,通過引入LDA模型以及新的特征來對原有的CPPK預測算法進行改進,達到了比之前更好的識別效果。
主題模型中心性測度蛋白質互作用網絡關鍵蛋白質
蛋白質在每個有機生命體中擔當著重要的角色,其中關鍵基因及其產物關鍵蛋白質對于有機體的存活及功能調控更是必不可少的。以往研究表明[1,2],缺少一個關鍵蛋白質就可能導致生命體的死亡或不育。Winzeler[1]等將關鍵蛋白質定義為通過基因剔除式突變將其移除后造成有關蛋白質復合物功能喪失。也正是由于關鍵蛋白質的這種不可或缺性,它逐漸成為新型抗生素藥物的靶標。
研究人員在過去通過許多實驗的方式尋找關鍵蛋白質,包括單基因敲除[3]、RNA推斷[4]以及條件基因敲除[5]等。而利用生物實驗的方法對關鍵蛋白質識別往往面臨著價格昂貴及時間耗費的問題,實驗人員不同的實驗條件也影響著對關鍵蛋白質的識別。隨著高通量技術的發展,蛋白質測序技術的提升,可獲得的蛋白質相互作用數據和蛋白質序列數據日益豐富,研究者們將注意力轉向通過計算的方式發現和預測關鍵蛋白質。在預測關鍵蛋白質的算法中,最重要的是尋找能充分表示關鍵蛋白質的特征。目前,通過計算的方式預測關鍵蛋白質的方法主要基于兩類特征信息:蛋白質序列信息和蛋白質相互作用網拓撲結構[6]。蛋白質序列信息主要從進化的保守性、基因表達、蛋白質功能和調控方面描述了單個蛋白質的必要性,是個體蛋白質功能信息的最直接的描述。而細胞中每個蛋白質不是孤立存在,是通過與其他蛋白質一起相互作用組成復合物來行使其功能,所以蛋白質相互作用網絡從某種程度上反映了單個蛋白質與其他蛋白質的復雜關系,進而表明個體蛋白質在復合物中的重要作用。
LDA模型[7]是近年來在文本挖掘領域中出現的一種概率模型,因為模型的概率統計基礎可以對數據單元隱含關系進行挖掘,使其應用在生物概念標注[8]、基因表達模式識別[9]和蛋白質-蛋白質相互作用關系預測[10,11]等問題中,成為了生物數據領域中對信息挖掘和提取的有效統計方法之一。然而,目前還沒有研究工作將主題信息引入關鍵蛋白質預測算法中。這里通過引入蛋白質序列的主題分布信息提出了新的關鍵蛋白質預測算法,TMNT(Topic model and network topology based method)。TMNT算法在現有的關鍵蛋白質預測方法(基于蛋白質相互作用網絡拓撲結構的中心性測度)中引入蛋白質序列信息,利用LDA模型對蛋白質序列建模,定義了新的未知蛋白質與關鍵蛋白質間的加權相似度計算方法,從而在未知蛋白質數據中預測潛在關鍵蛋白質。預測算法在酵母蛋白質序列和相互作用網絡數據集上進行測試,并與現有的若干關鍵蛋白質序列算法進行比較。實驗表明:在ROC評測標準中,結合了蛋白質序列特征和網絡拓撲信息的預測算法優于只采用網絡拓撲結構的關鍵蛋白質預測算法,通過引入蛋白質序列的主題分布信息,新的關鍵蛋白質識別方法比原CPPK算法的識別精確度有所提高。引入主題信息的識別方法為關鍵蛋白質識別研究提供了新的途徑。
1.1主題模型
主題模型是文本挖掘中的一種概率模型。以潛在狄利克雷分配LDA[7]模型為代表,演變出一系列概率主題模型,這些模型被推廣應用于圖像處理、情感分析、生物數據挖掘等信息處理領域。在本文中,利用LDA模型對蛋白質序列進行特征提取,將原來的生物序列映射到蛋白質功能模塊空間(主題空間)。

圖1 LDA圖模型表示
LDA是一種層次貝葉斯模型,可以用概率圖表示為圖1所示。其中圓圈表示隨機變量:空心圓圈表示不可被觀測的變量,實心圓圈表示可以被觀測到的變量,箭頭表示變量之間的依賴關系,即條件概率中的變量依賴關系,矩形表示內部結構的重復,矩形右下角的角標表示重復的次數。在蛋白質序列數據中,每條序列被重新編碼分割成氨基酸片段,這些片段被預處理映射到73(343)空間維度上。這樣,每個蛋白質序列被表示為氨基酸片段,而這些片段來自于一個343維度的空間。在重新編碼后的氨基酸片段上對LDA模型變量重新定義為:M為蛋白質數據集中包含蛋白質序列的個數,N為一條蛋白質序列中氨基酸片段的個數,T為預先定義的蛋白質功能調控模塊的個數,w為某個已知(可觀測)的氨基酸片段,z為當前氨基酸片段所屬的功能調控模塊,φ為特定功能模塊下氨基酸片段的多項分布,θ為一條蛋白質序列在功能模塊中的概率分布,α和β是貝葉斯模型的先驗超參數。
基于LDA模型,我們假設一條蛋白質序列的生成過程如下:
1. 根據Dirichlet先驗分布Dir(α)得到一條蛋白質序列d的功能模塊(主題)分布θ。
2. 對于蛋白質序列d中的每個氨基酸片段w的產生:
a) 根據多項分布Mul(z|θ)采樣一個功能模塊(主題)z。
b) 根據功能模塊z和功能模塊下φ的多項分布Mul(w|z,φ)采樣一個氨基酸片段w。
其中,θ表示了蛋白質序列到功能模塊的分布,φ表示了在功能模塊下氨基酸片段的多項分布。通過引入這個概率生成模型,為我們帶來了兩個好處:1)實現了蛋白質序列的低維表示(從原來的序列空間映射到功能模塊空間);2)抽取了蛋白質序列集上以氨基酸片段為單位的功能模塊的挖掘,即主題空間。
給定超參數α和β后,θ、z和w的聯合分布為:
(1)
對連續變量θ和離散變量z分別積分求和,得到蛋白質序列向量w的邊緣分布:
(2)
在這個概率圖模型中,求解問題是一個非常復雜的最優化問題,這里我們用Gibbs采樣的方法近似迭代求解[12]。Gibbs采樣的基本思想是:給定一個多維變量的分布,相比于對于聯合分布積分,從條件分布中采樣更簡單。假設要從一個聯合分布概率p(x0,x1, …,xn)中獲得K個樣本X={x0,x1, …,xn}的兩個步驟為:
1. 隨機初始化每個變量獲得X(0);

在基于LDA模型的Gibbs采樣求解中,從公式(1)中變量的聯合分布,可以推導出適合Gibbs采樣的氨基酸片段w和功能模塊(主題)T的全條件分布:
(3)

1.2網絡拓撲結構
在蛋白質相互作用網絡(簡稱蛋白質網絡)中,結構與功能的相關性表現為蛋白質在生物功能上的重要性和其在對應節點所處拓撲位置之間的密切聯系。Jeong[13]等在酵母蛋白質網絡中發現,節點度數小于5的蛋白質集合中有21%是關鍵蛋白質,當度數大于15時,集合中包含關鍵蛋白質的比例上升為62%。這個研究結果表明,在蛋白質網絡中擁有較多相鄰節點的蛋白質的缺失更易于影響整個網絡的拓撲結構,進而對生命體產生致死或無法繁衍的效應,而這一效應也符合對關鍵蛋白質的定義。
本文采用邊聚類系數ECC(Edge Clustering Coefficient)[14]來計算蛋白質網絡中兩個節點的相關性。蛋白質網絡可以被看作一個無向圖G=(V,E),其中V表示蛋白質節點的集合,E表示蛋白質之間相互作用邊的集合。對于連接節點u和v邊E,希望知道同時與u和v鄰接的點的個數:
(4)
其中zu,v表示在網絡中包含邊E的三角形個數,du和dv分別表示節點u和v的度數。這樣min(du-1,dv-1)表示可能包含邊E的三角形的最大個數。ECC值重新定義了加入了鄰接點信息后連接一條邊上兩個節點之間的距離,即邊在網絡中的重要性。ECC值高的邊更傾向于屬于網絡中小模塊結構,因此這個衡量方法在一些大規模復雜生物網絡中起到了聚類效應[15,16]。Hart等[17]研究了蛋白質網絡小模塊結構及其對生命體的重要性,他們發現這些小模塊相比于蛋白質個體,對生命體起到更關鍵的作用。同時,關鍵蛋白質也傾向與聚集在特定的蛋白質絡合物中(蛋白質模塊)。
1.3預測算法
根據以上兩個核心算法思想,將關鍵蛋白質預測算法的流程概括為圖2所示。其中相似度計算是衡量算法模型最關鍵的步驟,這里,利用加權的蛋白質序列信息和蛋白質網絡信息量化蛋白質之間的相似程度,蛋白質u和蛋白質v的相似度sim(u,v)定義為:
sim(u,v)=λ×ECC(u,v)+(1-λ)×
(1-DKL(u,v))
(5)

圖2 關鍵蛋白質預測流程圖
其中ECC(u,v)為蛋白質u和v在蛋白質互作用網絡中的邊聚類系數;DKL(u,v)為蛋白質u和蛋白質v在序列特征上的相對熵(又稱為KL距離,Kullback-Leibler divergence),衡量了蛋白質序列主題分布的差異,這里采用了正規化后的KL距離;λ為調節蛋白質序列特征和PPI拓撲特性比重的參數,即取值在[0, 1]區間的權重系數。ECC(u,v)值越高,表示連接兩個節點的邊在網絡的小模塊結構中越傾向于中心地位。1-DKL(u,v)越大,表示蛋白質序列u和v的主題分布之間的KL距離越近,差異程度越小。因此,sim(u,v)值越大,蛋白質u和蛋白質v的重要程度越相似。每次選取與關鍵蛋白質集合p最相似的蛋白質為預測的關鍵蛋白質,并把預測的關鍵蛋白質加入到已知關鍵蛋白質集合:
(6)
p=p∪{u|max{p(u),u∈Np}}
(7)
其中Np為關鍵蛋白質集合p在蛋白質網絡中所有鄰居節點集合。算法的初始階段,關鍵蛋白質集合p用均勻分布隨機采樣的方式從已知關鍵蛋白質集合中生成。
本文利用酵母的蛋白質序列數據和蛋白質相互作用網絡來預測關鍵蛋白質,并對預測結果做出分析和評價。
2.1數據集及預處理
酵母的蛋白質數據集具有可靠性高,數據完備的特點,因此實驗以酵母蛋白質數據集作為研究對象。其中,酵母蛋白質序列數據來自于S. cerevisiae strain S288C[18]。酵母蛋白質相互作用網絡采用兩個高可信數據庫:DIP數據庫[19]和BioGRID數據庫[20]。
酵母序列數據包含6713條蛋白質序列。酵母蛋白質相互作用數據集在預處理過程中首先移除物種間相互作用,只保留物理相互作用。蛋白質相互作用數據集中,DIP數據庫下載的蛋白質網絡共包含4860個節點和22 138條相互作用邊,BioGRID數據庫下載的BIOGRID蛋白質網絡包括5877個節點和84 686條相互作用邊。關鍵蛋白質數據是通過整合以下四個數據庫:MIPS[24]、SGD[25]、DEG[26]和SGDP[27]的數據而來,包含1274個關鍵蛋白質。
對于蛋白質序列的預處理過程,首先根據氨基酸的偶極子和側鏈的體積特性,將20種基本氨基酸分成7類[10]。如表1所示,對于特殊氨基酸,例如X、B和U,分到第6類中。

表1 氨基酸分類
例如,一條蛋白質序列P的氨基酸殘基片段為:
P=MVLTIYPD…
這里,每個字母表示氨基酸殘基的字母符號。根據表1的分類規則,原始氨基酸殘基替換為類別標簽后為:
P=C3C1C2C3C2C3C2C6…
再將替換后的序列以長度為3的滑動窗口切割。這樣,我們就得到了73(73=343)的片段空間,并且原始的每條蛋白質序列被分成若干片段組合。
2.2評價方法
為了評價算法在酵母數據集中的關鍵蛋白質預測性能,引入主題信息的關鍵蛋白質預測算法與2014年Min Li[21]等人提出的利用蛋白質網絡中心性拓撲性質預測關鍵蛋白質的CPPK算法、新的中心性測度方法NC(New Centrality Measure)[14]及基于局部平均連接度的方法LAC(Local Average Connectivity based method)[22]進行橫向比較。同時,對不同數目的功能模塊(主題)以及不同的相似度權重λ的選取對預測算法結果的影響進行縱向分析比較。
本文采用文獻[21]定義的預測算法精確度:
(8)
這里,預測方法Mi對預測結果集C的精確度為:預測結果集與真實集合Ve的交集在預測結果集中所占的比例。
同時,本文使用ROC(Receive Operating Characteristic)曲線和ROC曲線下的面積AUC值(Area Under Curve)兩個指標來綜合衡量預測算法。 在ROC曲線中,縱坐標為敏感度(Sensitivity)或真陽性率TPR(True Positive Rate),橫坐標為特異性(Specificity)或真陰性率TNR(True Negative Rate):
在二分類模型中,TP表示真陽性,FP表示偽陽性,TN表示真陰性,FN表示偽陰性。ROC和AUC常被用來評價一個二值分類器的優劣,在ROC曲線中,計算不同的權重下預測結果的真陽性在假陽性中的比重。因此ROC曲線越靠近坐標系左上角,預測算法越好,同理AUC的值越大,預測算法準確率越高。
2.3實驗結果分析
在酵母蛋白質序列數據集中一共包含6713條序列,其中1256條關鍵蛋白質,5457條其他蛋白質(包括非關鍵蛋白質和未知類型蛋白質)。可以看出,真實數據集中正樣本(關鍵蛋白質)和負樣本(其他蛋白質)比例不平衡。
在蛋白質序列數據集和PPI網絡數據集上計算了主題數從20到100,步長為20,相似權重λ從0到1,步長為0.1的設定下,由100個已知的初始關鍵蛋白質從數據集中預測100個新的關鍵蛋白質的精確度,如表2所示為算法在DIP網絡上的精確度。其中,當主題數目為20,λ為0.2時,預測算法的精確度最高,達到82%。算法在λ等于0.1和0.2時,預測精確度最高,平均分別為:71.8%和72.5%。并且根據精確度曲線走向可以看出,算法在不同主題數目和權重向量λ下,精確度保持平穩的趨勢,雖然最低的精確度只有59.0%,但是由于數據集的不平衡(隨機方法預測關鍵蛋白質的準確度為18.7%),在最差的預測結果下算法仍然可以選出一半的關鍵蛋白質。表3為算法在BIOGRID網絡上的精確度。其中,當主題數目為40,λ為0.3時,預測算法的精確度最高達到73.5%。在BIOGRID網絡上的整體精確度比DIP網絡要差一些,分析原因可能是由于BIOGRID網絡規模更大。由于預測使用的100個已知關鍵蛋白質和預測出的100個潛在關鍵蛋白質較網絡5877個節點的數據規模差距很大,并且5877個蛋白質中最多只有1256條關鍵蛋白質。樣本的不平衡性及預測數據整體的不均衡性,使得預測算法受網絡規模影響,網絡規模越大,預測算法準確率可能越低。

表2 DIP網絡不同權重和主題數目下的預測精確度

表3 BIOGRID網絡不同權重和主題數目下的預測精確度
其次,由于在計算相似度時加權結合了序列信息和網絡拓撲信息,因此橫向比較了單獨使用序列信息(λ為0時,只采用主題模型信息)和單獨使用網絡拓撲信息(λ為1時,只采用CPPK網絡中心度信息)時的預測精度。如圖3所示,表示DIP網絡上主題模型與網絡拓撲的對比圖,圖4表示BIOGRID網絡上主題模型與網絡拓撲的對比圖,其中橫坐標為主題個數,縱坐標為預測精確度。不難看出,只利用蛋白質序列主題信息對關鍵蛋白質預測優于單純使用CPPK算法的關鍵蛋白質預測算法。這里,在每組對比實驗中,使用相同的初始化已知關鍵蛋白質種子集合,例如,在主題數目為10的Topic Model與CPPK算法初始化使用相同的已知關鍵蛋白質集合。對于不同組的實驗中(主題數目不同的實驗中),由于隨機產生初始化已知關鍵蛋白質,所以不同組實驗的初始化已知關鍵蛋白質集合不同。

圖3 DIP網絡主題模型信息與網絡拓撲信息預測精確度

圖4 BIOGRID網絡主題模型與網絡拓撲信息預測精確度
表4列舉總結了在DIP網絡中每個主題數目下最高的預測精確度及其對應的λ。根據表4的統計,我們發現在DIP網絡中相似權重λ在不同主題下對精確度的影響基本穩定在[0.1,0.3]。表5列舉了在BIOGRID網絡中相似權重λ在不同主題下對精確度的影響基本穩定在[0.0, 0.3]區間內。由兩個網絡的統計結果看來,蛋白質的序列結構和網絡拓撲信息的結合對關鍵蛋白質的預測精確度具有穩定比例。

表4 DIP不同主題下最高預測精確度

表5 BIOGRID網絡不同主題下最高預測精確度
本文將引入主題信息的改進的CPPK關鍵蛋白質預測算法:基于主題模型和網絡拓撲結構的關鍵蛋白質預測算TMNT與原有的CPPK預測算法進行了比較。圖5為兩種算法在DIP蛋白質網絡數據與蛋白質序列數據集上的精確度比較結果,圖6為兩個算法在BIOGRID蛋白質網絡數據與蛋白質序列數據集上的精確度比較結果,其中TMNT算法的精確度選擇每個主題下λ為0.2對應的精確度。

圖5 DIP網絡TMNP和CPPK算法預測精確度比較

圖6 BIOGRID網絡TMNP和CPPK算法預測精確度比較
為了驗證關鍵蛋白質序列在主題分布上具有一定的相似性,這里,我們只利用序列主題信息來計算兩個蛋白質之間的相似度(即式(5)中ECC的權重系數λ設為0)。我們選取了與初始關鍵蛋白質集合主題分布最相似的5個潛在關鍵蛋白質:YGR116W、YNR016C、YHR165、YLR106C、YOR116。并把這5個預測關鍵蛋白質在BIOGRID蛋白質相互作用網絡中可視化出來,如圖7所示。在BIOGRID網絡中,抽取出包含這5個節點的所有邊構成子圖。抽取的子圖中包含了273個節點和310條相互作用邊。可以看出,子圖中這5個節點的度數較其他節點高,具有明顯的中心性傾向。因此,利用主題信息預測的關鍵蛋白質在對應物種的PPI網絡中體現出了重要的生物調控意義。

圖7 利用主題信息預測關鍵蛋白質在gcc-BIOGRID網絡中的可視化
最后,如圖8所示,利用ROC曲線及其對應的AUC值綜合測量了基于主題模型和網絡拓撲結構的關鍵蛋白質預測算TMNT算法。并將其和2014年提出的CPPK[21]關鍵蛋白質預測算法,以及其他兩種常用的關鍵蛋白質預測算法:基于局部平均連接度的方法LAC和網絡中心度方法NC進行綜合比較。圖8中比較了利用隨機選取的100個初始關鍵蛋白質預測100個潛在關鍵蛋白質在酵母蛋白質數據上的預測結果。其中TMNP的AUC值為0.682,高于CPPK,NC和LAC的AUC值。TMNP的ROC曲線與其他三個識別算法的ROC曲線相比,也更加靠近坐標系左上角。由此可見,TMNP算法的綜合性能優于CPPK,NC和LAC關鍵蛋白質識別算法,達到了比之前更好的識別效果。

圖8 算法ROC曲線及AUC值
本文提出在已有的基于蛋白質相互作用網對關鍵蛋白質預測的算法上加入蛋白質序列信息,用主題模型學習出蛋白質序列的主題向量對原始蛋白質序列進行了基于氨基酸功能信息的特征提取,結合蛋白質相互作用網的拓撲結構對關鍵蛋白質進行相似度計算,從而預測出潛在關鍵蛋白質。
該方法利用現有的統計學習理論和數據挖掘方法,從生物體的蛋白質信息中預測發現關鍵蛋白質從計算角度上解決了通過生物實驗尋找關鍵蛋白質所需要的昂貴代價,并且為研究者們提供了新的生物信息探索途徑。
本文序列信息的特征向量距離利用相對熵計算,而在機器學習領域,對特征向量的相似度計算方式有多種。在以后的工作中,可以嘗試結合序列向量特征比較其他的向量距離計算方法,從而選擇最優的距離計算方式。除此之外,由于每個主題是氨基酸片段的多為分布,可以選取在每個主題下出現概率較大的部分氨基酸片段,分析它們在功能模塊調控中的關系,從而“翻譯”每個主題的生物意義,即每個主題可能對應的蛋白質功能調控模塊。
[1] Winzeler E A, Shoemaker D D, Astromoff A, et al. Functional characterization of the S. cerevisiae genome by gene deletion and parallel analysis[J]. Science, 1999, 285(5429): 901-906.
[2] Kamath R S, Fraser A G, Dong Y, et al. Systematic functional analysis of the Caenorhabditis elegans genome using RNAi[J]. Nature, 2003, 421(6920): 231-237.
[3] Giaever G, Chu A M, Ni L, et al. Functional profiling of the Saccharomyces cerevisiae genome[J]. Nature, 2002, 418(6896): 387-391.
[4] Cullen L M, Arndt G M. Genome-wide screening for gene function using RNAi in mammalian cells[J]. Immunology and Cell Biology, 2005, 83(3): 217-223.
[5] Roemer T, Jiang B, Davison J, et al. Large-scale essential gene identification in candida albicans and applications to antifungal drug discovery[J]. Molecular Microbiology, 2003, 50(1): 167-181.
[6] Wang J, Peng W, Wu F X. Computational approaches to predicting essential proteins: a survey[J]. PROTEOMICS-Clinical Applications, 2013, 7(1-2): 181-192.
[7] Blei D M, Ng A Y, Jordan M I. Latent dirichlet allocation[J]. The Journal of Machine Learning Research, 2003, 3: 993-1022.
[8] Wang H, Ding Y, Tang J, et al. Finding complex biological relationships in recent PubMed articles using Bio-LDA[J]. PLoS One, 2011, 6(3): e17243.
[9] Zhang J, Liu B, He J, et al. Inferring functional miRNA-mRNA regulatory modules in epithelial-mesenchymal transition with a probabilistic topic model[J]. Computers in Biology and Medicine, 2012, 42(4): 428-437.
[10] Pan X Y, Zhang Y N, Shen H B. Large-Scale Prediction of Human Protein—Protein Interactions from Amino Acid Sequence Based on Latent Topic Features[J]. Journal of Proteome Research, 2010, 9(10): 4992-5001.
[11] Tatsuya Asou, Koji Eguchi. Predicting protein-protein relationships from literature using latent topics[J]. Genome Inform, 2009,23(1):3-12.
[12] Griffiths T L, Steyvers M. Finding scientific topics[J]. Proceedings of the National Academy of Sciences, 2004, 101(1): 5228-5235.
[13] Jeong H, Mason S P, Barabási A L, et al. Lethality and centrality in protein networks[J]. Nature, 2001, 411(6833): 41-42.
[14] Wang J, Li M, Wang H, et al. Identification of essential proteins based on edge clustering coefficient[J]. IEEE/ACM Transactions on Computational Biology and Bioinformatics, 2012, 9(4): 1070-1080.
[15] Hao D, Ren C, Li C. Revisiting the variation of clustering coefficient of biological networks suggests new modular structure[J]. BMC Systems Biology, 2012, 6(1): 34.
[16] Li M, Zhang H, Wang J, et al. A new essential protein discovery method based on the integration of protein-protein interaction and gene expression data[J]. BMC Systems Biology, 2012, 6(1): 15.
[17] Hart G T, Lee I, Marcotte E M. A high-accuracy consensus map of yeast protein complexes reveals modular nature of gene essentiality[J]. BMC Bioinformatics, 2007, 8(1): 236.
[18] Engel S R, Dietrich F S, Fisk D G, et al. The reference genome sequence of saccharomyces cerevisiae: then and now[J]. G3: Genes, Genomes, Genetics, 2014, 4(3): 389-398.
[19] Xenarios I, Rice D W, Salwinski L, et al. DIP: the database of interacting proteins[J]. Nucleic Acids Research, 2000, 28(1): 289-291.
[20] Stark C, Breitkreutz B J, Chatr-Aryamontri A, et al. The BioGRID interaction database: 2011 update[J]. Nucleic Acids Research, 2011, 39(1): 698-704.
[21] Li M, Zheng R, Zhang H, et al. Effective identification of essential proteins based on priori knowledge, network topology and gene expressions[J]. Methods, 2014, 67(3): 325-333.
[22] Li M, Wang J, Chen X, et al. A local average connectivity-based method for identifying essential proteins from the network level[J]. Computational Biology and Chemistry, 2011, 35(3): 143-150.
[23] Deshwar A G, Morris Q. PLIDA: cross-platform gene expression normalization using perturbed topic models[J]. Bioinformatics, 2014, 30(7):956-961.
[24] Mewes H W, Frishman D, Mayer K F X, et al. MIPS: analysis and annotation of proteins from whole genomes in 2005[J]. Nucleic Acids Research, 2006, 34(1):169-172.
[25] Cherry J M, Adler C, Ball C, et al. SGD: Saccharomyces genome database[J]. Nucleic Acids Research, 1998, 26(1):73-79.
[26] Zhang R, Lin Y. DEG 5.0: a database of essential genes in both prokaryotes and eukaryotes[J]. Nucleic Acids Research, 2009, 37(1):455-458.
[27] Saccharomyces Genome Deletion Project[OL]. http://www-sequence.stanford. edu/group/.
IDENTIFYING ESSENTIAL PROTEINS BY INTEGRATING TOPIC FEATURES AND INTERACTION NETWORKS TOPOLOGICAL FEATURES
Cui XinShao Mingyu
(SchoolofComputerScience,FudanUniversity,Shanghai200433,China)
Essential proteins are those proteins that are indispensable to the viability and reproduction of an organism. Identification and prediction of essential proteins has great significance for us to understand the minimal protein sets required for organism life, besides it also plays important role in the fields of drug design and drug target discovery. Most existing essential proteins identification algorithms are based on the topological features of protein-protein interaction networks. This work introduces a new feature into the identification algorithm proposed, which considers the topic distribution feature of essential proteins’ sequences themselves. By introducing LDA model into CPPK algorithm, which is based on topological features of protein-protein interaction networks, we proposed a new essential protein identification method: the essential proteins identification integrating topic model and protein-protein interaction networks topological features. This new algorithm was tested on Saccharomyces protein dataset, and was compared with some state-of-art essential proteins identification algorithms. Experimental result showed that by introducing LDA model and new features to improve original CPPK prediction algorithm, better identification performance than previous algorithm was achieved.
Topic modelCentrality measureProtein-protein interaction networkEssential protein
2015-04-20。崔鑫,碩士生,主研領域:數據挖掘,生物信息學。邵明玉,博士生。
TP3
A
10.3969/j.issn.1000-386x.2016.08.063