余國先 王可堯 傅廣垣 王 峻 曾 安
1(西南大學計算機與信息科學學院 重慶 400715) 2(廣東工業大學計算機學院 廣州 510006)
基于多網絡數據協同矩陣分解預測蛋白質功能
余國先1王可堯1傅廣垣1王 峻1曾 安2
1(西南大學計算機與信息科學學院 重慶 400715)2(廣東工業大學計算機學院 廣州 510006)
(gxyu@swu.edu.cn)
準確預測蛋白質功能是生物信息學的核心任務之一,也是人工智能在生物數據分析中的重要應用點之一.高通量技術的廣泛應用產生了大量的生物分子功能關聯網絡,整合這些網絡可更為全面地分析理解蛋白質功能機理,提升蛋白質功能預測精度.已有多種基于數據整合的蛋白質功能預測方法,但它們通常難以應用到較大功能標簽空間,未利用標簽間關聯性和差異性整合多個網絡.提出一種基于多網絡數據協同矩陣分解的蛋白質功能預測方法(ProCMF).該方法首先利用非負矩陣分解將蛋白質-功能標簽關聯矩陣分解為2個低秩矩陣,挖掘蛋白質與標簽之間的潛在關聯.其次,為利用標簽間關聯關系和多種蛋白質特征數據,ProCMF分別基于上述2個低秩矩陣定義平滑正則性,約束指導低秩矩陣的協同分解.為了差異性地集成多個網絡,ProCMF對不同的網絡設置不同的權重.最后ProCMF將上述目標統一到一個目標方程中,并用一種交替迭代的方法分別優化求解低秩矩陣和網絡權重.在酵母菌、人類和老鼠3個模式物種的多網絡數據集上的實驗結果表明:ProCMF獲得了較其他相關算法更好的預測性能,ProCMF能有效地處理大量的功能標簽和區分性地整合多個網絡.
蛋白質功能預測;功能關聯網絡;網絡集成;非負矩陣分解;協同分解
蛋白質是細胞的主要成分之一,它是生命活動的主要物質基礎,生物體內的各種重要功能均需要蛋白質的參與才能完成.如催化代謝反應的酶,調節物質代謝和生命活動的激素和神經遞質等[1-2].各種高通量生物技術的應用產生了海量與蛋白質功能信息相關的數據,如蛋白質互作網絡、氨基酸序列、基因微陣列和RNA-Seq數據等.蛋白質的生物功能也不斷被各種生物濕實驗發現,并添加到蛋白質功能標注數據庫(如gene ontology, GO)[3]中.盡管如此,蛋白質已有的功能信息并不完整、存在缺失,且受限于生物實驗技術和生物學家的研究興趣[4-5].如Legrain等人[6]指出人類目前已知約有的20 000個蛋白質中2/3蛋白質的功能信息未知或未完整標注,亟需進一步標注.傳統的生物濕實驗方法雖能有效測定蛋白質功能,但成本高、通量低,測定的功能范圍覆蓋度有限,難以對海量的蛋白質數據進行快速功能標注.
基于人工智能技術的蛋白質功能預測方法可以利用已有的蛋白質功能標注信息和各種蛋白質數據,高效且較準確地大規模預測蛋白質的功能,為后續蛋白質功能生物濕實驗測定提供可靠參照,減少生物實驗驗證的人力和物力成本[1-2].這些方法有的利用蛋白質序列數據[7-8],它們通常基于序列相似的蛋白質更容易共享功能這一特性.還有一些方法利用蛋白質互作網絡數據[9-11],這類方法普遍基于互作的蛋白質更有可能共享功能這一觀察[9].還有一些方法通過整合多種類型的生物數據(如基因表達數據、氨基酸序列和蛋白質互作網等)進行蛋白質功能預測[12-16].大量研究表明有效地整合多種類型的生物數據通常能夠獲得更高的預測精度,原因是不同類型的數據從不同的角度刻畫蛋白質功能信息,具有互補性,整合它們能夠獲得更為全面的蛋白質功能信息,進而提高預測精度.
Pavlidis等人[12]通過3種方式研究了如何整合基因微陣列數據和基因序列數據進行蛋白質功能預測:第1種方式稱為前期集成方法,它通過將每個基因的微陣列數據和序列數據拼接為一個更長的特征向量,再基于這些長向量進行功能預測.第2種方式稱為中期集成方法,它先將每類數據通過特定的相似性度量方法轉化為對應的蛋白質功能關聯網絡,再對不同的網絡設置不同的權重并加權整合為一個復合網絡,最后在復合網絡上進行功能預測.第3種方式稱為后期集成方法,它首先在每種數據上單獨訓練一個預測器,再集成這些預測器的結果實現最終的蛋白質功能預測.他們的實驗研究表明不同數據源的質量不同,應該設置不同的權重,中期集成方法能夠獲得較優的性能.本文工作也是圍繞基于多網絡集成的蛋白質功能預測展開.限于篇幅,本文僅對與本文密切相關的中期集成方法進行簡單介紹.
現有基于多源異構數據中期集成的蛋白質功能預測研究工作中,部分方法僅僅是將不同類型數據計算獲取的蛋白質/基因功能關聯網絡進行平均加權進行整合[17-18],忽略了不同的網絡對蛋白質功能預測任務的關聯性和貢獻不同.此外,若部分網絡由噪聲數據源計算獲取,這種不加區分的多網絡疊加組合會導致預測性能的極大下降[19-20].
Lanckriet等人[13]在多核學習(multiple kernel learning)框架下[21]進行蛋白質功能預測,他們首先將m類生物數據分別采用合適的核函數轉為核矩陣Wd∈n×n(n為蛋白質個數,d=1,2,…,m),該矩陣也可以看作是功能關聯網絡的邊權重矩陣,再通過半無限規劃(semi-infinite programming)優化核矩陣上的權重系數αd≥0,并基于優化的權重整合這些核矩陣為一個復合矩陣再在復合矩陣上應用支持向量機進行蛋白質功能預測.Tsuda等人[22]通過凸優化迭代更新每個核矩陣對應的加權系數和復合核矩陣上的預測器實現蛋白質功能預測.Mostafavi等人[23]提出GeneMANIA方法,將該方法應用到老鼠蛋白質功能預測競賽中取得了優異的名次[24].GeneMANIA通過嶺回歸(ridge regression)和目標矩陣對齊針對每個功能標簽分別優化網絡整合權重和對應的復合網絡,再在復合網絡上進行標簽信息傳播實現蛋白質功能預測.Myers和Troyanskaya[25]觀察到蛋白質的功能與不同的網絡具有不同的上下文相關性,提出一種基于Bayesian統計的方法整合多個網絡進行蛋白質功能預測.然而由于蛋白質功能標注非常稀疏和不平衡,針對稀疏功能標簽的上下文相關性很難準確衡量,所以該方法在稀疏標簽(標注的蛋白質個數小于30)上的預測精度有限.蛋白質的功能標簽空間非常大和不平衡性,如最廣泛用于標注蛋白質功能的GO[3]目前包含了40 000多個功能標簽,而已標注功能的蛋白質的相關標簽個數通常小于10,很多稀疏標簽標注的蛋白質個數小于10,并且稀疏標簽的個數遠大于一般的功能標簽(標注的蛋白質個數大于30).上述這些方法均對每個功能標簽分別優化對應的復合網絡,容易出現過擬合問題.為此這些方法通常僅考慮一般的功能標簽,或者采用正則化或不平衡分類技術克服標簽不平衡的影響[23,26].
一些基于多網絡整合的方法同時考慮多個功能標簽進行蛋白質功能預測.如Mostafavi和Morris在GeneMANIA的基礎上提出一種效率和精度更高的SW(simultaneous weights)方法[27].SW綜合考慮一組存在關聯的多個標簽(包括稀疏標簽),利用這些標簽及它們標注的蛋白質定義目標對齊網絡,再在GeneMANIA的框架下求解對應的網絡權重系數和利用標簽信息傳播預測蛋白質功能.他們研究還發現組合多個相關標簽可在不降低其他標簽上預測精度的前提下顯著提升稀疏標簽上的預測精度.然而,與GeneMANIA類似,SW將復合網絡的優化和復合網絡上的功能預測問題當作2個相互獨立的目標,容易出現優化獲取的復合網絡不一定適宜后續的預測任務的問題.針對這一問題,Yu等人[19]將復合網絡的優化和該復合網絡上針對所有功能標簽的蛋白質功能預測統一到一個目標方程中,提出一種基于多核集成的蛋白質功能預測方法ProMK,獲得了比SW更高的預測精度和較高的效率.然而ProMK僅基于網絡的平滑性優化網絡權重,越稀疏的網絡獲得的權重越大,因此它易受邊較少的噪聲網絡的干擾.為此,Yu等人[20]提出另一種基于多網絡整合的蛋白質功能預測方法MNet.MNet結合蛋白質功能標注信息和這類信息的不完整性特點定義了一個目標網絡,再將多個功能關聯網絡加權整合的復合網絡向該目標網絡對齊,在優化網絡權重的同時優化復合網絡上的預測器.實驗對比表明MNet能夠較ProMK更準確地預測蛋白質功能和克服稀疏噪聲網絡的干擾,但是它的計算開銷非常大.蛋白質之間的特征相似度(如序列相似度,基因共表達網絡和蛋白質互作網)與蛋白質之間的語義相似度存在不同程度的正相關[16,28],蛋白質之間的語義相似度通常基于蛋白質已有的功能標注信息和標簽間結構關系綜合衡量.根據這一特點,Yu等人提出一種基于語義多網絡集成的蛋白質功能預測方法SimNet[16].SimNet首先采用一種加權的術語重合相似性度量[29]構建蛋白質之間的語義網絡,再將該語義網絡向多個網絡加權整合的復合網絡對齊,進而求取加權系數,再在復合網絡上利用標簽信息傳播預測蛋白質功能.SimNet的時空開銷不僅遠小于MNet,其精度也通常優于后者.最近Cho等人[18]提出一種基于成分擴散分析[30]的多網絡整合方法Mashup并成功應用到蛋白質功能預測中.Mashup首先在每個網絡的鄰接矩陣上分別進行重啟動隨機游走,更新鄰接矩陣獲得蛋白質之間的拓撲結構信息,再將這些鄰接矩陣等權重相加融合為復合網絡,再對該復合網絡的權重鄰接矩陣應用奇異值分解(singular value decomposition, SVD)獲取蛋白質的低秩向量特征表示,最后在這些低維向量上應用支持向量機預測蛋白質功能.Zitnik和Zupan提出一種基于矩陣分解數據集成的蛋白質功能預測方法MFDF[17].該方法無需對各類分子間關聯數據的鄰接矩陣進行以蛋白質為鞍點的映射構造蛋白質功能關聯網絡,它直接在這些鄰接矩陣上進行協同低秩矩陣分解,實現蛋白質功能預測.雖MFDF與Mashup類似,均能較好地處理不同網絡中的局部噪聲數據,但它們等同看待和處理每個網絡,均易受噪聲和不相關網絡的干擾.
綜上所述,由于蛋白質功能預測問題自身的復雜性,現有基于多網絡集成的方法在處理較大的標簽集合、利用標簽間關聯和區分性整合多個網絡這3方面還存在不足.在已有基于矩陣分解的多網絡融合研究的[31-32],為此本文提出一種基于多網絡數據協同矩陣分解的蛋白質功能預測方法(protein function prediction based on multiple networks collaborative matrix factorization, ProCMF).ProCMF首先基于已有的蛋白質功能標注信息和標簽間層次結構關系初始化蛋白質-功能標簽關聯矩陣.為處理較大的標簽空間,ProCMF利用非負矩陣分解(nonnegative matrix factorization, NMF)[33]將該關聯矩陣分解為2個低秩矩陣分別挖掘蛋白質之間語義關聯和標簽間潛在關聯,將高維標簽空間通過低秩矩陣進行壓縮表示.其次,為利用標簽間關聯關系和多個蛋白質功能關聯網絡,基于上述2個低秩矩陣分別定義平滑正則項,約束指導低秩矩陣的協同分解.為了區分性地集成多個網絡,ProCMF對不同的網絡設置不同的權重.在此基礎上,ProCMF將這些目標整合到一個統一的目標方程中,再設計迭代更新策略同時優化求解低秩矩陣和網絡權重.本文在酵母菌、人類和老鼠3個模式物種多網絡數據集上的一系列蛋白質功能預測實驗表明:ProCMF在多種評價度量上均獲得了較現有相關算法更好的預測結果,ProCMF能有效地處理大量存在關聯的功能標簽,區分性地整合多個網絡,還擁有較高的運行效率且對輸入參數魯棒.
已知有m個蛋白質功能關聯網絡,這些網絡的權重鄰接矩陣為Wd∈n×n(d=1,2,…,m),n為蛋白質個數,Wd(i,j)=Wd(j,i)≥0存儲第d個網絡中成對蛋白質i和j之間的關聯強度(可靠性或序列相似性大小等).這些蛋白質共計被c個不同的功能標簽標注,Y∈n×c存儲n個蛋白質的已知功能標注信息,它基于GO結構初始化.GO是目前使用最為廣泛的蛋白質功能注釋范式,它通過一個有向無環圖存儲和表示功能標簽間的關聯關系,圖中每個節點對應一個功能標簽,子節點是父節點功能信息的進一步細化,當一個蛋白質標注有標簽t對應的功能時,該蛋白質也標注有t的祖先節點對應的功能,反之則不一定[3].根據基因本體中功能標簽的結構規則,本文對蛋白質-功能標簽關聯矩陣Y進行初始化:

(1)
需指出的是Y(i,t)=0并不表示蛋白質i不應該標注t,而只是表明目前還沒有證據證明該蛋白質具有t對應的功能.這一設置受蛋白質功能標注信息的不完整性和開放世界假設(open world assumption)[5]的影響.GO數據庫中通常僅登記蛋白質具有某個功能的信息,極少登記該蛋白質不具有的功能信息,原因是準確測定蛋白質所具有的全部功能非常困難,生物學家通常更關注蛋白質具有的功能信息.
基于功能標簽的結構特性和一個蛋白質通常標注多個功能標簽,一些方法利用蛋白質已有功能標注的模式信息或蛋白質之間語義相似度,進行功能預測[34-37].如Done等人[37]受SVD能夠挖掘文本與單詞間潛在關聯的啟發,將每個蛋白質看作一個文本,標注到該蛋白質上的功能標簽看作構成該文本的單詞,在Y上應用SVD分別挖掘蛋白質與標簽間的潛在關聯,再基于SVD的低秩近似矩陣重構新的關聯矩陣,實現蛋白質功能預測.該方法通過基因本體結構和詞頻與逆向文件頻率調整關聯矩陣中不同元素的權重,并設置子節點標簽與蛋白質的關聯權重大于其父節點標簽,以期克服標簽不平衡的影響.但這種調整方式實際上并不可取,因為一個標簽標注到蛋白質上的概率值不應大于其父節點標簽標注到該蛋白質上的概率值.Wang等人[38]和余國先等人[39]對上千(萬)個功能標簽構成的有向無環圖的鄰接矩陣進行低秩矩陣分解,在低維標簽空間進行蛋白質功能預測,最后將預測結果映射回原始標簽空間,顯著提升了蛋白質功能預測精度.研究表明:低秩矩陣分解可以挖掘標簽間的內在關聯并降低預測問題的規模和復雜性.
受上述工作啟發,考慮到Y的稀疏高維非負特性和非負矩陣分解NMF在文本分析領域的廣泛成功應用[40],本文首先在蛋白質-功能標簽關聯矩陣Y上應用NMF,以期挖掘蛋白質與大量標簽間內在關聯,具體最小化的目標方程為

(2)
其中,U=(u1,u2,…,un)∈n×r和V=(v1,v2,…,vc)∈c×r為2個低秩矩陣,它們分別在壓縮的r(r 2.2.1 結合功能標簽關聯信息 一個蛋白質通常標注多個功能標簽,這些標簽存在不同程度的關聯和共現概率[35,42].蛋白質功能預測問題可以轉化為多標記學習問題進行研究,面向蛋白質功能預測的多標記學習方法能夠利用標簽間的關聯關系指導蛋白質功能預測,顯著提升了蛋白質功能預測精度[42-43].式(2)僅通過矩陣分解隱式的挖掘蛋白質與標簽間的關聯關系,稀疏標簽容易由于標注的蛋白質個數較少而被忽略.Done等人[37]針對這一問題調整稀疏標簽的權重,但這種調整與蛋白質功能標注的結構要求相悖[44].為利用標簽間的關聯關系,本文采用一種廣泛使用的余弦相似性度量衡量成對標簽間的關聯關系[14,43,45],該度量的定義為 (3) 其中,Y(·,t)∈n×1為Y的第t個列向量,它存儲功能標簽t與n個蛋白質之間的已知關聯.當標簽s和t經常標注到同一個蛋白質上時,它們之間的關聯強度較大,否則關聯強度較小.上述定義還較少受標簽稀疏性的影響,2個稀疏標簽之間也可以有較強的關聯,只要它們同時標注到同一個蛋白質上的頻率較高即可. V中每行可以看作是對應標簽的低維表示,在高維標簽空間存在較強關聯的標簽s和t,它們的低維向量表示vs和vt應該距離靠近.為實現上述目標,受平滑性假設[46]啟發,本文引入標簽間平滑性約束項: (4) 其中,Dc∈c×c是對角矩陣通過最小化式(4)可以使得存在較強關聯的標簽擁有相似的低維實數向量表示,進而使得存在較強關聯的功能標簽更可能標注到同一個蛋白質上. 2.2.2 結合多個蛋白質功能關聯網絡 U中每行可以看作是相應蛋白質在V刻畫的r維語義空間的實數向量表示,但這種向量表示并沒有結合蛋白質的其他特征數據(如氨基酸序列和蛋白質互作網等).大量研究表明存在互作的蛋白質更容易共享相同的功能[9-10],不同的生物數據從不同的角度反映蛋白質功能,由于蛋白質功能的時空復雜性,很有必要整合多種生物數據獲取蛋白質功能信息的全局視圖,進而提高功能預測精度.為此,本文擬在U上引入多個功能關聯網絡的約束: (5) 其中,αd≥0為第d個網絡的權重,D∈n×n為對角矩陣最小化式(5)可以使得序列相似(或互作等)的成對蛋白質在低維語義空間彼此靠近,這一目標也遵循了蛋白質之間的語義相似度與蛋白質之間的特征相似度正相關的特點[27].因此Φ2(U,α)可以融合多個功能關聯網絡約束指導U的協同分解. 式(5)存在僅只選擇一個網絡的風險,具體分析式(5)可改寫為 (6) (7) 通過在式(7)中引入在α上的l2范式約束,可以避免僅選擇單個網絡的不足,它還可以對平滑且含噪聲少的網絡設置較大的權重,對非平滑且含噪聲多的網絡賦予較小(甚至為0)的權重,進而實現多個網絡的差異性整合和剔除噪聲網絡的干擾. 在2.2節分析設計的基礎上,為處理較大的標簽集合,利用標簽間關聯性和區分性整合多個網絡,本文定義ProCMF最終的目標方程: (8) 其中,ω1>0和ω2>0用于調控多個功能關聯網絡和標簽關聯性對低秩矩陣U和V的協同分解.在獲取優化后的低秩矩陣U*和V*之后,本文通過 (9) 重新定義蛋白質-標簽之間的關聯矩陣. 2.3.1 目標方程優化求解 式(8)中U,V和α的單個求解均依賴于其中另外2個參數,為此本文引入一種類似期望最大化[47]的交替迭代優化方法,在固定其中2個參數的情況下優化另外1個參數,直至達到指定的迭代次數或者收斂.式(8)可以等價為 (10) 首先,假定α和V已知,式(10)變為以U為參數的目標函數.由于Y也已知,此時式(10)中右邊第1項和最后2項均為常數,可忽略,可得以U為參數的目標函數為 Οu(U)=-2tr(YVUT)+tr(UVTVUT)+ (11) 令Λu∈n×r為約束U≥0的拉格朗日乘數,則有: Ou(U,Λu)=-2tr(YVUT)+2tr(UVTVUT)+ (12) 對式(11)求關于U的偏導數: (13) (14) 由此可得U的迭代更新方式: (15) 其次,假定α和U已知,式(10)變為以V為參數的目標函數.此時式(10)中右邊第1項、第4項和第6項均為常數,可忽略,可得以V為參數的目標函數為 Ov(V)=-2tr(YVUT)+tr(UVTVU)+ (16) 令Λv∈c×r為約束V≥0的拉格朗日乘數,則有: Ou(U,ψ)=-2tr(YVUT)+2tr(UVTVUT)- (17) 同樣,對式(11)求關于V的偏導數: (18) -(YTU)s hvs h+(VUTU)s hvs h+ω2(LcV)s hvs h=0. (19) 由此可得V的迭代更新方式: (20) 最后,假定U和V已知,式(10)變為以α為參數的目標函數.此時式(10)中右邊僅第4項和第6項與α有關,可得以α為參數的目標函數: (21) (22) 式(22)可看作是關于α的二次規劃問題.同樣令β∈m×1和η≥0為α≥0和αT1=1的拉格朗日乘數,則有: (23) 基于KKT條件[48],最優的α需滿足4個條件: 3)βd≥0,1≤d≤m, 4)βdαd=0,1≤d≤m, 令Oα(α)關于α的導數為0,可得: (24) αd依賴于βd和η的取值,其中η的取值對αd的影響為 1) 如果η-σd>0,由于βd≥0,所以αd>0.又根據上述第4個條件βdαd=0,得出βd=0,αd=(η-σd)/2λ; 2) 如果η-σd<0,由于αd≥0,則要求βd>0,又因為βdαd=0,所以αd=0; 3) 如果η-σd=0,由于βdαd=0,αd=βd/2λ,所以αd=0,βd=0. 為便于討論,假設σ1≤σ2≤…≤σm,對于給定的λ,若λ不是非常大,則存在η-σp>0和η-σp+1≤0(1≤p≤m-1),αd存在的顯示解: (25) (26) 從式(25)可以看出,αd在不同功能關聯網絡上的權重不同,越平滑(即tr(UTLdU)越小)的網絡獲取的權重越大.通常平滑的網絡含有噪聲邊較少,這類網絡中的邊存在于具有功能關聯的成對蛋白質之間.而非平滑網絡則由于存在較多的噪聲邊而引入了較大的平滑損失,因而被賦予較小(甚至為0)的權重.通過式(25),還可以觀察到部分功能關聯網絡的權重為0,原因可能是這些網絡含有較多的噪聲邊,導致較大的平滑損失.從上述分析可以看出,ProCMF可以差異性的集成多個蛋白質功能關聯網絡. 在上述迭代優化的基礎上,本文給出ProCMF的算法流程如算法1所示: 算法1. 算法ProCMF. ① 初始化αd=1/m,iter=1,tol=10-4, maxiter=100,δ=106; ③ 隨機初始化非負低秩矩陣U和V; ④ Whileiter ⑤ 根據式(15)和式(20)計算更新U和V; ⑥ 根據式(25)計算新的α; ⑧δ=|Φ(U,V,α)iter-Φ(U,V,α)iter-1|; ⑨iter=iter+1; ⑩ End While 其中,Φ(U,V,α)iter為第iter次迭代基于式(8)計算獲取的損失大小,Φ(U,V,α)0=tr(YTY).算法1中行①~③初始化α,U,V和W;行⑤~⑦計算更新U,V,α和W;行⑧~⑨計算前后2次優化迭代后損失大小的差異和迭代次數增1,用于判斷是否進入下一次循環. 為驗證ProCMF的性能,本文從文獻[26]的附件資料中收集了酵母菌(yeast)、人類(human)和老鼠(mouse)三個模式生物的蛋白質數據集進行實驗,其中每個物種的數據集均包含多個已處理好的蛋白質功能關聯網絡,這些網絡由蛋白質結構域、基因表達數據和氨基酸序列數據等通過特定的相似性度量函數轉化而來.其中Yeast包含44個網絡,Human包含8個網絡,Mouse包含10個網絡.為標注蛋白質功能,本文下載了GO數據文件和上述物種的功能標注文件(日期:2017-07-15;地址:http://geneontology.org/),并在GO三個分支(生物過程(BP)、細胞成分(CC)、分子功能(MF))分別對蛋白質進行功能標注.特別地,本文遵循true path rule[3,49]進行功能標注,即當蛋白質被某個功能標簽所標注時,則該蛋白質也將標注該標簽的祖先標簽.為避免循環預測,實驗中不考慮證據屬性為IEA(inferred by electronic annotations)的功能標注.為評價算法預測稀疏標簽的性能,所有標注蛋白質的標簽個數不少于3個均予以保留進行實驗分析. 傳統的蛋白質功能預測實驗通常將同一個蛋白質數據集劃分訓練集和測試集2部分,并將測試集中的蛋白質看做功能完全未知的蛋白質并對這些蛋白質進行功能預測,最后用這些蛋白質的已知功能標注信息評估預測性能[19,43].這種實驗設置忽略了兩部分蛋白質之間內在的關聯,評估結果通常過于樂觀[1].為了更好地反映蛋白質功能標注的真實場景,本文采用一種歷史到現在的實驗模式,首先利用2014年(history)的功能標注數據作為訓練集進行功能預測,再利用2017年(recent)的功能標注數據作為評估集檢驗預測結果.為此本文還下載了上述3個物種的蛋白質在2014-05-15對應的GO數據文件和上述物種的功能標注文件,并用同樣的預處理方法對蛋白質進行功能標注.表1中統計了2014-05和2017-07兩個時間節點每個物種的蛋白質在3個分支的功能標注數和相應的標簽個數. Table 1 Statistics of Functional Annotations of Proteins表1 蛋白質功能標注信息統計 從表1中可以看出,隨著時間的推移,蛋白質的功能標注信息在不斷地增多,如Yeast的3 904個蛋白質在生物過程(BP)分支的功能標注從111 094個增加到129 740個,這些蛋白質共計被2 354個不同的功能標簽標注,在BP分支的標簽數量跟蛋白質個數接近,從如此大的標簽空間中準確預測蛋白質的功能很具有挑戰性.值得指出的是,在2 354個標簽中,76.4%的標簽標注的蛋白質個數小于30,56.7%的標簽標注的蛋白質個數小于10. 本文共選取了5個相關且具有代表性的蛋白質功能預測方法作為對比方法進行實驗.這5個方法為DNN[50],SimNet[16],SW[27],DFMF[17]和Mashup[18].其中SimNet和SW均為基于多網絡數據加權集成的蛋白質功能預測方法,DFMF和Mashup是矩陣分解和多網絡數據等權重融合的方法.這些對比方法已經在第1節的相關工作中詳細介紹,不再贅述.近期已有深度學習方法應用于蛋白質功能預測,為此本文還引入深度神經網絡(DNN)作為對比算法[50].DNN以這些網絡等權重整合的復合網絡作為特征輸入,它的學習率為0.02,batch大小為512個,dropout比例為0.6,并使用batch正則化技術[51].為更直觀地研究ProCMF加權整合多個網絡的效用,本文還引入ProCMF的一個變種(ProCMF-E)作為對比方法進行實驗.ProCMF-E在等權重設置α后不再更新α,即ProCMF-E等權重的整合多個網絡后再進行基于矩陣協同分解的蛋白質功能預測.上述對比方法的參數均參照原文作者建議的參數范圍進行設置,或者優化后選取最優的參數進行實驗.ProCMF中U和V的低秩系數r=200,低秩矩陣約束項系數ω1,ω2∈[0.01,100]通過在訓練數據集上進行5重交叉驗證選擇最優值,α上的l2范式約束的參數λ=100. 為綜合評價蛋白質功能預測算法的性能,本文采取CAFA(community critical assessment of protein function annotation)[1]算法推薦的評價度量:AUC,Smin和Fmax.AUC是一種以標簽為中心的評價度量,它首先計算每個標簽的受試者操作特征曲線(receiver operating curve)下的面積,然后以這些標簽各自曲線下面積的均值評價預測效果.Fmax和Smin是以蛋白質為中心的評價準則.Fmax首先計算不同閾值下的準確率(precision)和查全率(recall)并計算該閾值對應的F1值,最后選擇最大F1值作為Fmax的值;Smin結合基因本體結構首先計算不同閾值下的未被預測到的功能標簽和過度預測的錯誤標簽之間的語義距離,最后選擇最小的距離值作為Smin的值.從上述3個評價度量的定義可知當AUC和Fmax值越大時預測精度越高,而Smin值越小時預測精度越高.這些度量的具體介紹可以參見文獻[1].這些度量從不同的角度衡量蛋白質功能預測性能,一個蛋白質功能預測方法通常很難在這3個度量上均超過另外一個方法. 本文利用2014年5月的酵母菌、人類和小鼠3個物種的蛋白質功能標注和收集的各物種的多個蛋白質功能關聯網絡進行蛋白質功能預測,并用2017年5月更新的蛋白質功能標注數據對預測結果進行評價,對應實驗結果匯報在表2~4中,表2~4中每種度量下最好的結果用粗體突出表示. Table 2 Results on Yeast表2 Yeast數據集上蛋白質功能預測結果 ↓ means the lower the better. 從表2~4中可以看出ProCMF在整體上要優于其他對比算法以及自身變種.在3個物種的3個分支的3種度量(共3×3×3=27種)對比實驗中,ProCMF分別在18,16,23,24,22,20種情況下優于 Table 3 Results on Human表3 Human數據集蛋白質功能預測結果 ↓ means the lower the better. Table 4 Results on Mouse 表4 Mouse數據集蛋白質功能預測結果 ↓ means the lower the better. DNN,SimNet,SW,DFMF,Mashup和ProCMF-E.由于表2~4中結果是基于歷史的蛋白質功能標注數據預測并用現在的功能標注數據檢驗,所以結果中不存在方差,為此本文利用Wilcoxon符號秩檢驗[52-53]分析對比ProCMF與DNN,SimNet,SW,DFMF,Mashup和ProCMF-E在不同數據集和度量下的結果,對應p值分別為4.61%,3.24%,0.08%,0.005%,0.008和3.45%.從上述對比結果可知,ProCMF顯著性優于已有基于多網絡集成、矩陣分解和深度學習技術的蛋白質功能預測算法. ProCMF的預測精度在人類和老鼠2個數據集上要優于DNN,而在酵母菌數據集中除AUC外要差于DNN.而從表1中的數據可知,在人類和老鼠2個數據集中2時間段標記數量相差較大,酵母菌數據集兩時間段標記數量相差較少.因此可以發現DNN在預測大量缺失標記時的預測精度較低. ProCMF的預測性能優于SimNet,原因是SimNet利用蛋白質已有的功能標注定義蛋白質之間的語義相似度和語義目標網絡,對于功能信息完全未知的蛋白質,SimNet簡單地設置它與其他蛋白質之間的語義相似度為0.SimNet通過多個網絡加權整合的復合網絡向該語義網絡對齊進而優化各個網絡上的權重.但由于蛋白質功能標注不完整,蛋白質之間的語義相似度可靠性不高,誤導了SimNet各個網絡上權重的優化.SW也是通過利用蛋白質的功能標注定義目標網絡,再利用多網絡加權整合的復合網絡向該目標網絡對其的方式求取網絡權重,但SW的目標網絡中含有權重為負的邊,且SW并沒有較好地考慮蛋白質功能標注信息的不完整性,所以其性能通常不及SimNet和ProCMF.本文提出的ProCMF在整合多個蛋白質功能關聯網絡時不依賴于目標網絡的構造,而是基于2個低秩矩陣,多個網絡上定義的平滑損失和標簽間關聯平滑損失設置網絡權重,避免了SimNet和SW過度依賴目標網絡的風險,所以ProCMF比SimNet和SW獲得了更好的預測結果.DFMF和Mashup都是利用矩陣分解融合多源異構生物數據進行蛋白質功能預測的方法.Mashup分別在多個蛋白質功能關聯網絡上進行隨機游走后,再將多個網絡等權重相加整合,它未考慮不同網絡對蛋白質功能預測的效用不同的特點,容易受噪聲網絡的干擾.DFMF在蛋白質與功能標簽節點組成的混合網絡上進行協同低秩矩陣分解挖掘蛋白質與功能標簽間的潛在關聯,實現蛋白質功能預測.DFMF和Mashup一樣為每個網絡分配相同的權重,它們均易受低質量網絡的干擾.雖然ProCMF也通過低秩矩陣分解和整合多個功能關聯網絡進行蛋白質功能預測,但是它對不同的網絡設置不同的權重,區分性地整合這些網絡,所以ProCMF獲得了較DFMF和Mashup更好的預測結果.從ProCMF與DNN結果間的差異可知,差異性集成不同的功能關聯網絡可以獲得較深度學習方法更好的精度. 雖然ProCMF-E與ProCMF類似,也能夠發掘利用蛋白質-功能標簽關聯矩陣中蛋白質與標簽間的潛在關聯和處理大量相關標簽,但是ProCMF-E的結果通常低于ProCMF.原因是ProCMF-E與DFMF和Mashup類似,對不同的網絡設置相同的權重,均忽視了不同的網絡對蛋白質功能預測效用不同. 為進一步分析利用多個蛋白質功能關聯網絡和標簽間關聯性的貢獻,本文引入ProCMF的3個變種(ProCMF-N,ProCMF-C和ProCMF-Y)作為對比方法進行實驗.ProCMF-N只利用多個蛋白質功能關聯網絡(ω1>0,ω2=0);ProCMF-C只利用功能標簽間的關聯性(ω1=0,ω2>0);ProCMF-Y僅利用蛋白質-功能標簽關聯矩陣Y進行功能預測(ω1=0,ω2=0).與上面的實驗設置類似,本文在Mouse數據集上進行了實驗并將ProCMF和其3個變種在評價度量Fmax下的結果報告如圖1所示: Fig. 1 Fmax of ProCMF and its variants on Mouse dataset圖1 ProCMF及其變種在Mouse數據集上的Fmax對比 從圖1可以發現ProCMF總是獲得最高的Fmax,而ProCMF-Y總是獲得最低的Fmax;ProCMF-N和ProCMF-C的Fmax通常大于ProCMF-Y.這一觀察表明蛋白質功能關聯網絡和標簽間的關聯性均可以提高蛋白質功能預測性能.ProCMF-C在BP分支獲得了與ProCMF-Y類似的Fmax,原因是蛋白質-功能標簽關聯矩陣Y基于基因本體結構初始化,它已經嵌入了部分標簽間關聯關系,Y上的低稚矩陣分解可以隱式地挖掘和利用標簽間關聯性.ProCMF-C在CC分支和MF分支的Fmax高于ProCMF-Y表明顯示地結合標簽間關聯性可提高蛋白質功能預測結果.ProCMF的Fmax總是大于ProCMF-C和ProCMF-N的Fmax,表明同時利用蛋白質功能關聯網絡和標簽間關聯性可以進一步提高蛋白質功能預測性能. ProCMF將蛋白質-功能標簽關聯矩陣分解為2個低秩矩陣U和V,為分析不同的低秩大小r對預測結果的影響,本文對r進行了敏感性分析并將10至300下r的Fmax結果值匯報在圖2(Yeast)和圖3(Mouse)中.ProCMF中其他參數的設置與3.3節的實驗設置一致. Fig. 2 Low rank parameter r analysis on Yeast圖2 酵母菌數據集上低秩參數r分析 Fig. 3 Low rank parameter r analysis on Mouse圖3 老鼠數據集上低秩參數r分析 根據圖2~3中曲線的趨勢可以發現,r的變化對預測的結果并沒有明顯的影響,這說明ProCMF對r是魯棒的.ProCMF在r較小時就可以達到一個良好的預測效果,說明低秩矩陣U和V在很低的維度就能挖掘大量蛋白質與大量功能標簽間的潛在關聯.Fmax在Yeast數據集的BP分支隨r的升高有部分提升后穩定,這是因為BP分支中含有2 354個標簽,而這些標簽僅與3 904個蛋白質存在稀疏的關聯,數據規模較小進而無法在較小的r下準確地挖掘蛋白質與功能標簽間的關聯.需指出,即使r=10,V也可以編碼210個不同的0-1標簽,而V實際上是非負實數矩陣,因此它可以編碼更多的標簽.通過在蛋白質-功能標簽關聯矩陣上進行低秩矩陣分解可以將大量的關聯標簽壓縮到低維空間,而顯式地結合功能標簽間的關聯并約束低秩矩陣的分解,有助于更進一步地挖掘蛋白質與功能標簽間的潛在關聯. 此外,為了分析λ的取值對權重系數α的影響,本文登記了λ分別為1,100和10 000時α在人類數據集的CC分支的權重分布情況,并匯報在圖4中.從圖4可以看出在λ=100時,ProCMF在8個功能關聯網絡上的權重不同,部分網絡的權重為0,說明ProCMF能夠區分性地整合多個網絡.當λ=1時,ProCMF僅選取最平滑的功能關聯網絡;當λ=104時,ProCMF賦予8個網絡類似的權重.上述實驗結果與第3節的理論分析一致,當λ取值過小時,α上的l2范式約束調控作用過小,ProCMF只需選擇平滑性損失最小的網絡即可使式(8)中的目標函數值最小;而當λ取值過大時,l2范式約束調控作用過強,為使式(8)中的目標函數值最小,ProCMF給予多個功能關聯網絡類似的權重.上述實驗表明ProCMF的性能依賴于合適的λ.本文實驗中在訓練數據上進行五重交叉驗證選取合適的λ.如何更規范化地選取合適的λ是本文未來研究工作之一. Fig. 4 Weight assignments under different input values of λ (Human, CC)圖4 不同λ值下的權重分配(人類數據集CC分支) 為了分析對比各個算法的效率,本文還登記了ProCMF及其他對算法的實際運行時間,如表5所示.實驗過程中各算法參數設置與之前保持一致,各算法均基于Matlab2011b(64位)編碼實現,實驗運行平臺配置為:Intel Xeon E5-3650v3,Linux OS 2.6.32,32 GB RAM. Table 5 Fmax of ProCMF and Its Variants on Mouse Dataset表5 ProCMF及其變種在Mouse數據集上的Fmax s 從表5中的運行時間結果可以看出SimNet的運行時間耗費最小,ProCMF次之.SimNet比ProCMF更快的原因是SimNet直接通過線性回歸求取多個功能關聯網絡上的權重,并不需要進行迭代優化,而ProCMF則需要迭代優化權重和低秩矩陣.SW在整合多個網絡和預測蛋白質功能時的理論復雜度與SimNet相似,但其實際運行時間比SimNet要大很多.這是因為SW利用二分類器對每一個功能標簽進行預測,并且它在定義目標網絡時需要啟發式地選擇負樣例.DFMF需要對每個網絡的鄰接矩陣進行低秩分解,所以其時間耗費大于ProCMF.Mashup首先在每個網絡上進行隨機游走,再在這些網絡整合的復合網絡的鄰接矩陣上應用SVD,最后利用支持向量機針對每個標簽進行功能預測,所以其運行時間耗費最大. 在上述實驗結果的基礎上,本文認為ProCMF不僅比現有基于多網絡數據整合的蛋白質功能預測方法的預測結果更好,還能保持較高的效率. 本文根據合理的整合多個蛋白質功能關聯網絡數據和結合功能標簽間關聯性能提高蛋白質功能預測精度的原理,提出了一種基于多網絡數據協同矩陣分解的蛋白質功能預測方法.該方法利用低秩矩陣分解挖掘蛋白質與功能標簽間潛在關聯信息,整合多網絡數據來更完整地刻畫蛋白質功能信息和融合標簽間關聯關系約束指導低秩矩陣的分解,獲得了較其他相關算法更好的預測結果.本文研究工作為后續基于多網絡數據融合的數據挖掘問題研究提供了新的思路. 通過與其他方法的對比實驗和分析,驗證了本文方法的有效性和合理性.如何準確地刻畫標簽間關聯性和結合多種異構生物數據預測蛋白質功能是一個值得深入研究的問題.此外,多網絡數據融合中如何有效地保持和利用每個網絡的內在結構特性都有待進一步研究. [1]Radivojac P, Cark W, Oron T, et al. A large-scale evaluation of computational protein function prediction[J]. Nature Methods, 2013, 10(3): 221-227 [2] Shehu A, Barbará D, Molloy K. A survey of computational methods for protein function prediction[G] //Big Data Analytics in Genomics. Berlin: Springer, 2016, 225-298 [3] Gene Ontology Consortium. Expansion of the gene ontology knowledgebase and resources[J]. Nucleic Acids Research, 2017, 45(D1): D331-D338 [4] Huntley R, Sawford T, Martin M, et al. Understanding how and why the Gene Ontology and its annotations evolve: The GO within UniProt[J]. GigaScience, 2014, 3: Article No 4 [5] Schones A, Ream D, Thorman A, et al. Bias in the experimental annotations of protein function and their effect on our understanding of protein function space[J]. PLoS Computational Biology, 2013, 9(5): Article No e1003063 [6] Legrain P, Aebersold R, Archakov A, et al. The human proteome project: Current state and future direction[J]. Molecular & Cellular Proteomics, 2011, 10(7): Article No M111.009993 [7] Lee D, Redfern O, Orengo C. Predicting protein function from sequence and structure[J]. Nature Review Molecular Cell Biology, 2007, 8(12): 995-1005 [8] Lowenstein Y, Raimondo D, Redfern O, et al. Protein function annotation by homology-based inference[J]. Genome Biology, 2009, 10(2): Article No 207 [9] Schwikowski B, Uetz P, Field S. A network of protein-protein interactions in yeast[J]. Nature Biotechnology, 2000, 18(12): 1257-1261 [10] Deng M, Tu Z, Sun F, et al. Mapping Gene Ontology to proteins based on protein-protein interaction data[J]. Bioinformatics, 2004, 20(6): 895-902 [11] Li Min, Meng Xiangmao. The construction, analysis, and applications of dynamic protein-protein interaction networks[J]. Journal of Computer Research and Development, 2017, 54(6): 1281-1299(李敏, 孟祥茂. 動態蛋白質網絡的構建、分析及應用研究進展[J]. 計算機研究與發展, 2017, 54(6): 1281-1299) [12] Pavlidis P, Weston J, Cai J, et al. Learning gene functional classifications from multiple data types[J]. Journal of Computational Biology, 2002, 9(2): 401-411 [13] Lanckriet G R, De B T, Cristianini N, et al. A statistical framework for genomic data fusion[J]. Bioinformatics, 2004, 20(16): 2626-2635 [14] Yu Guoxian, Domeniconi C, Rangwala H, et al. Transductive multi-label ensemble classification for protein function prediction[C] //Proc of the 18th ACM SIGKDD Int Conf on Knowledge Discovery and Data Mining. New York: ACM, 2012: 1077-1085 [15] Sokolov A, Funk C, Graim K, et al. Combining hetero-geneous data sources for accurate functional annotation of proteins[J]. BMC Bioinformatics, 2013, 14(S3): S10 [16] Yu Guoxian, Fu Guangyuan, Wang Jun, et al. Predicting protein function via semantic integration of multiple networks[J]. IEEE/ACM Trans on Computational Biology & Bioinformatics, 2016, 13(2): 220-232 [17] Zitnik M, Zupan B. Data fusion by matrix factorization[J]. IEEE Trans on Pattern Analysis & Machine Intelligence, 2013, 37(1): 41-53 [18] Cho H, Berger B, Peng J. Compact integration of multi-network topology for functional analysis of genes[J]. Cell Systems, 2016, 3(6): 540-548 [19] Yu Guoxian, Rangwala H, Domeniconi C, et al. Predicting protein function using multiple kernels[J]. IEEE/ACM Trans on Computational Biology and Bioinformatics, 2015, 12(1): 219-233 [20] Yu Guoxian, Zhu Hailong, Domeniconi C, et al. Integrating multiple networks for protein function prediction[J]. BMC Systems Biology, 2015, 9(S1): Article No S3 [21] G?nen M, Ethem A. Multiple kernel learning algorithms[J]. Journal of Machine Learning Research, 2011, 12(7): 2211-2268 [22] Tsuda K, Shin H J, Sch?lkopf B. Fast protein classification with multiple networks[J]. Bioinformatics, 2005, 21(S2): ii59-ii65 [23] Mostafavi S, Ray D, Warde-Farley D, et al. GeneMANIA: A real-time multiple association network integration algorithm for predicting gene function[J]. Genome Biology, 2008, 9(S1): Article No S4 [25] Myers C L, Troyanskaya O G. Context-sensitive data integration and prediction of biological networks[J]. Bioinformatics, 2007, 23(17): 2322-2330 [26] Cesa-Bianchi N, Re M, Valentini G. Synergy of multi-label hierarchical ensembles, data fusion, and cost-sensitive methods for gene functional inference[J]. Machine Learning, 2012, 88(1-2): 209-241 [27] Mostafavi S, Morris Q. Fast integration of heterogeneous data sources for predicting gene function with limited annotation[J]. Bioinformatics, 2010, 26(14): 1759-1765 [28] Mazandu G K, Chimusa E R, Mulder N J. Gene Ontology semantic similarity tools: Survey on features and challenges for biological knowledge discovery[J]. Briefings in Bioinformatics, 2017, 18(5): 886-901 [29] Mistry M, Pavlidis P. Gene Ontology term overlap as a measure of gene functional similarity[J]. BMC Bioinformatics, 2008, 9: Article No 327 [30] Cho H, Berger B, Peng J. Diffusion component analysis: Unraveling functional topology in biological networks [C] //Proc of the 19th Annual Int Conf on Research in Computational Molecular Biology. Berlin: Springer, 2015: 62-64 [31] Gao Yukai, Wang Xinhua, Guo Lei, et al. Learning to recommend with collaborative matrix factorization for new users[J]. Journal of Computer Research and Development, 2017, 54(8): 1813-1823 (in Chinese)(高玉凱, 王新華, 郭磊, 等. 一種基于協同矩陣分解的用戶冷啟動推薦算法[J]. 計算機研究與發展, 2017, 54(8): 1813-1823) [32] Shen Guowei, Yang Wu, Wang Wei, et al. Large-scale heterogeneous data co-clustering based on nonnegative matrix factorization[J]. Journal of Computer Research and Development, 2016, 53(2): 459-466 (in Chinese)(申國偉, 楊武, 王巍, 等. 基于非負矩陣分解的大規模異構數據聯合聚類[J]. 計算機研究與發展, 2016, 53(2): 459-466) [33] Lee D D, Seung H S. Algorithms for non-negative matrix factorization[C] //Proc of the 13th Annual Conf on Neural Information Processing Systems. Cambridge, MA: MIT Press, 2000: 535-541 [34] King O D, Foulger R E, Dwight S S, et al. Predicting gene function from patterns of annotation[J]. Genome Research, 2003, 13: 896-904 [35] Yu Guoxian, Zhu Hailong, Domeniconi C. Predicting protein function using incomplete hierarchical labels[J]. BMC Bioinformatics, 2015, 16: Article No 1 [36] Yu Guoxian, Zhu Hailong, Domeniconi C, et al. Predicting protein function via downward random walks on a gene ontology[J]. BMC Bioinformatics, 2015, 16: Article No 271 [37] Done B, Khatri P, Done A, et al. Predicting novel Human gene ontology annotations using semantic analysis[J]. IEEE/ACM Trans on Computational Biology & Bioinformatics, 2010, 7(1): 91-99 [38] Wang Sheng, Cho H, Zhai Chengxiang, et al. Exploiting ontology graph for predicting sparsely annotated gene function[J]. Bioinformatics, 2015, 31(12): i357-i364 [39] Yu Guangxian, Fu Guangyuan, Wang Jun, et al. Predicting irrelevant functions of proteins based on dimensionality reduction[J]. Science Sinica Informationis, 2017, 47(10): 1349-1368 (in Chinese) (余國先, 傅廣垣, 王峻, 等. 基于降維的蛋白質不相關功能預測[J]. 中國科學: 信息科學, 2017, 47(10): 1349-1368) [40] Wang Yuxiong, Zhang Yujin. Nonnegative matrix factorization: A comprehensive review[J]. IEEE Trans on Knowledge and Data Engineering, 2013, 25(6): 1336-1353 [41] Khatri P, Done B, Rao A, et al. A semantic analysis of the annotations of the human genome[J]. Bioinformatics, 2005, 21(16): 3416-3421 [42] Yu Guoxian, Rangwala H, Domeniconi C, et al. Protein function prediction with incomplete annotations[J]. IEEE/ACM Trans on Computational Biology & Bioinformatics, 2014, 11(3): 579-591 [43] Zhang Xiaofei, Dai Daoqing. A framework for incorporating functional interrelationships into protein function prediction algorithms[J]. IEEE/ACM Trans on Computational Biology & Bioinformatics, 2012, 9(3): 740-753 [44] Lu Chang, Wang Jun, Zhang Zili, et al. NoisyGOA: Noisy go annotations prediction using taxonomic and semantic similarity[J]. Computational Biology and Chemistry, 2016, 65: 203-211 [45] Fu Guangyuan, Yu Guoxian, Wang Jun, et al. Protein function prediction using positive and negative examples[J]. Journal of Computer Research and Development, 2016, 53(8): 1753-1765 (in Chinese)(傅廣垣, 余國先, 王峻, 等. 基于正負樣例的蛋白質功能預測[J]. 計算機研究與發展, 2016, 53(8): 1753-1765) [46] Mikhail B, Niyogi P, Sindhwani V. Manifold regularization: A geometric framework for learning from labeled and unlabeled examples[J]. Journal of Machine Learning Research, 2006, 7(11): 2399-2434 [47] Dempster A P, Laird N M, Rubin D B. Maximum likelihood from incomplete data via the EM algorithm[J]. Journal of the Royal Statistical Society, Series B (methodological), 1977, 39(1): 1-38 [48] Boyd S, Vandenberghe L. Convex Optimization[M]. Cambridge, UK: Cambridge University Press, 2004 [49] Valentini, G. True path rule hierarchical ensembles for genome-wide gene function prediction[J]. IEEE/ACM Trans on Computational Biology and Bioinformatics, 2011, 8(3): 832-847 [50] Angermueller C, P?rnamaa T, Parts L, et al. Deep learning for computational biology[J]. Molecular Systems Biology, 2016, 12(7): Article No 878 [51] Ioffe S, Szegedy C. Batch normalization: Accelerating deep network training by reducing internal covariate shift[C] //Proc of the 32nd Int Conf on Machine Learning. Cambridge, MA: MIT Press, 2015: 448-456 [52] Wilcoxon F. Individual comparisons by ranking methods[J]. Biometric Bulletin, 1945, 1(6): 80-83 [53] Demsar J. Statistical comparisons of classifiers over multiple data sets[J]. Journal of Machine Learning Research, 2006, 7(1): 1-30 ProteinFunctionPredictionBasedonMultipleNetworksCollaborativeMatrixFactorization Yu Guoxian1, Wang Keyao1, Fu Guangyuan1, Wang Jun1, and Zeng An2 1(CollegeofComputerandInformationScience,SouthwestUniversity,Chongqing400715)2(SchoolofComputers,GuangdongUniversityofTechnology,Guangzhou510006) Accurately and automatically predicting biological functions of proteins is one of the fundamental tasks in bioinformatics, and it is also one of the key applications of artificial intelligence in biological data analysis. The wide application of high throughput technologies produces various functional association networks of molecules. Integrating these networks contributes to more comprehensive view for understanding the functional mechanism of proteins and to improve the performance of protein function prediction. However, existing network integration based solutions cannot apply to a large number of functional labels, ignore the correlation between labels, or cannot differentially integrate multiple networks. This paper proposes a protein function prediction approach based on multiple networks collaborative matrix factorization (ProCMF). To explore the latent relationship between proteins and between labels, ProCMF firstly applies nonnegative matrix factorization to factorize the protein-label association matrix into two low-rank matrices. To employ the correlation between labels and to guide the collaborative factorization with proteomic data, it defines two smoothness terms on these two low-rank matrices. To differentially integrate these networks, ProCMF sets different weights to them. In the end, ProCMF combines these goals into a unified objective function and introduces an alternative optimization technique to jointly optimize the low-rank matrices and weights. Experimental results on three model species (yeast, human and mouse) with multiple functional networks show that ProCMF outperforms other related competitive methods. ProCMF can effectively and efficiently handle massive labels and differentially integrate multiple networks. protein function prediction; functional association network; network integration; nonnegative matrix factorization; collaborative factorization 2017-09-01; 2017-10-03 國家自然科學基金項目(61402378,61772143);重慶市自然科學基金項目(cstc2016jcyjA0351) This work was supported by the National Natural Science Foundation of China (61402378, 61772143) and the Natural Science Foundation of Chongqing (cstc2016jcyjA0351) 王峻(kingjun@swu.edu.cn) TP391 YuGuoxian, born in 1985. Associate professor. Member of CCF. His main research interests include machine learning, data mining and bioinformatics. WangKeyao, born in 1994. Master candidate. Student member of CCF. His main research interests include machine learning and bioinformatics (keyaowang@email.swu.edu.cn). FuGuangyuan, born in 1993. Master. Student member of CCF. His main research interests include machine learning and bioinformatics (fugy@email.swu.edu.cn). WangJun, born in 1983. Associate professor. Member of CCF. Her main research interests include data mining and bioinformatics. ZengAn, born in 1978. Professor. Member of CCF. Her main research interests include artificial intelligence, machinelearning and big data (zengan2010@126.com).2.2 結合功能標簽關聯信息和多個功能網絡數據






2.3 統一的目標方程與優化求解


ω1tr(UTLU).
ω1tr(UTLU)-tr(ΛuUT).



ω2tr(VTLcV).
tr(ΛvUT).













3 實 驗
3.1 數據集

3.2 對比方法與評價度量
3.3 蛋白質功能預測




3.4 參數敏感性分析



3.5 運行時間對比分析

4 結束語




