基于多網(wǎng)絡(luò)數(shù)據(jù)協(xié)同矩陣分解預(yù)測蛋白質(zhì)功能

2017-12-16 05:18:00余國先王可堯傅廣垣

計算機(jī)研究與發(fā)展 2017年12期

關(guān)鍵詞：關(guān)聯(lián)功能方法

余國先王可堯傅廣垣王峻曾安

1(西南大學(xué)計算機(jī)與信息科學(xué)學(xué)院重慶 400715) 2(廣東工業(yè)大學(xué)計算機(jī)學(xué)院廣州 510006)

基于多網(wǎng)絡(luò)數(shù)據(jù)協(xié)同矩陣分解預(yù)測蛋白質(zhì)功能

余國先1王可堯1傅廣垣1王峻1曾安2

1(西南大學(xué)計算機(jī)與信息科學(xué)學(xué)院重慶 400715)2(廣東工業(yè)大學(xué)計算機(jī)學(xué)院廣州 510006)

(gxyu@swu．edu．cn)

準(zhǔn)確預(yù)測蛋白質(zhì)功能是生物信息學(xué)的核心任務(wù)之一，也是人工智能在生物數(shù)據(jù)分析中的重要應(yīng)用點之一.高通量技術(shù)的廣泛應(yīng)用產(chǎn)生了大量的生物分子功能關(guān)聯(lián)網(wǎng)絡(luò)，整合這些網(wǎng)絡(luò)可更為全面地分析理解蛋白質(zhì)功能機(jī)理，提升蛋白質(zhì)功能預(yù)測精度.已有多種基于數(shù)據(jù)整合的蛋白質(zhì)功能預(yù)測方法，但它們通常難以應(yīng)用到較大功能標(biāo)簽空間，未利用標(biāo)簽間關(guān)聯(lián)性和差異性整合多個網(wǎng)絡(luò).提出一種基于多網(wǎng)絡(luò)數(shù)據(jù)協(xié)同矩陣分解的蛋白質(zhì)功能預(yù)測方法(ProCMF).該方法首先利用非負(fù)矩陣分解將蛋白質(zhì)-功能標(biāo)簽關(guān)聯(lián)矩陣分解為2個低秩矩陣,挖掘蛋白質(zhì)與標(biāo)簽之間的潛在關(guān)聯(lián).其次，為利用標(biāo)簽間關(guān)聯(lián)關(guān)系和多種蛋白質(zhì)特征數(shù)據(jù)，ProCMF分別基于上述2個低秩矩陣定義平滑正則性，約束指導(dǎo)低秩矩陣的協(xié)同分解.為了差異性地集成多個網(wǎng)絡(luò)，ProCMF對不同的網(wǎng)絡(luò)設(shè)置不同的權(quán)重.最后ProCMF將上述目標(biāo)統(tǒng)一到一個目標(biāo)方程中，并用一種交替迭代的方法分別優(yōu)化求解低秩矩陣和網(wǎng)絡(luò)權(quán)重.在酵母菌、人類和老鼠3個模式物種的多網(wǎng)絡(luò)數(shù)據(jù)集上的實驗結(jié)果表明：ProCMF獲得了較其他相關(guān)算法更好的預(yù)測性能，ProCMF能有效地處理大量的功能標(biāo)簽和區(qū)分性地整合多個網(wǎng)絡(luò).

蛋白質(zhì)功能預(yù)測；功能關(guān)聯(lián)網(wǎng)絡(luò)；網(wǎng)絡(luò)集成；非負(fù)矩陣分解；協(xié)同分解

蛋白質(zhì)是細(xì)胞的主要成分之一，它是生命活動的主要物質(zhì)基礎(chǔ)，生物體內(nèi)的各種重要功能均需要蛋白質(zhì)的參與才能完成.如催化代謝反應(yīng)的酶，調(diào)節(jié)物質(zhì)代謝和生命活動的激素和神經(jīng)遞質(zhì)等[1-2].各種高通量生物技術(shù)的應(yīng)用產(chǎn)生了海量與蛋白質(zhì)功能信息相關(guān)的數(shù)據(jù)，如蛋白質(zhì)互作網(wǎng)絡(luò)、氨基酸序列、基因微陣列和RNA-Seq數(shù)據(jù)等.蛋白質(zhì)的生物功能也不斷被各種生物濕實驗發(fā)現(xiàn)，并添加到蛋白質(zhì)功能標(biāo)注數(shù)據(jù)庫(如gene ontology， GO)[3]中.盡管如此，蛋白質(zhì)已有的功能信息并不完整、存在缺失，且受限于生物實驗技術(shù)和生物學(xué)家的研究興趣[4-5].如Legrain等人[6]指出人類目前已知約有的20 000個蛋白質(zhì)中2/3蛋白質(zhì)的功能信息未知或未完整標(biāo)注，亟需進(jìn)一步標(biāo)注.傳統(tǒng)的生物濕實驗方法雖能有效測定蛋白質(zhì)功能，但成本高、通量低，測定的功能范圍覆蓋度有限，難以對海量的蛋白質(zhì)數(shù)據(jù)進(jìn)行快速功能標(biāo)注.

基于人工智能技術(shù)的蛋白質(zhì)功能預(yù)測方法可以利用已有的蛋白質(zhì)功能標(biāo)注信息和各種蛋白質(zhì)數(shù)據(jù)，高效且較準(zhǔn)確地大規(guī)模預(yù)測蛋白質(zhì)的功能，為后續(xù)蛋白質(zhì)功能生物濕實驗測定提供可靠參照，減少生物實驗驗證的人力和物力成本[1-2].這些方法有的利用蛋白質(zhì)序列數(shù)據(jù)[7-8]，它們通常基于序列相似的蛋白質(zhì)更容易共享功能這一特性.還有一些方法利用蛋白質(zhì)互作網(wǎng)絡(luò)數(shù)據(jù)[9-11]，這類方法普遍基于互作的蛋白質(zhì)更有可能共享功能這一觀察[9].還有一些方法通過整合多種類型的生物數(shù)據(jù)(如基因表達(dá)數(shù)據(jù)、氨基酸序列和蛋白質(zhì)互作網(wǎng)等)進(jìn)行蛋白質(zhì)功能預(yù)測[12-16].大量研究表明有效地整合多種類型的生物數(shù)據(jù)通常能夠獲得更高的預(yù)測精度，原因是不同類型的數(shù)據(jù)從不同的角度刻畫蛋白質(zhì)功能信息，具有互補性，整合它們能夠獲得更為全面的蛋白質(zhì)功能信息，進(jìn)而提高預(yù)測精度.

Pavlidis等人[12]通過3種方式研究了如何整合基因微陣列數(shù)據(jù)和基因序列數(shù)據(jù)進(jìn)行蛋白質(zhì)功能預(yù)測：第1種方式稱為前期集成方法，它通過將每個基因的微陣列數(shù)據(jù)和序列數(shù)據(jù)拼接為一個更長的特征向量，再基于這些長向量進(jìn)行功能預(yù)測.第2種方式稱為中期集成方法，它先將每類數(shù)據(jù)通過特定的相似性度量方法轉(zhuǎn)化為對應(yīng)的蛋白質(zhì)功能關(guān)聯(lián)網(wǎng)絡(luò)，再對不同的網(wǎng)絡(luò)設(shè)置不同的權(quán)重并加權(quán)整合為一個復(fù)合網(wǎng)絡(luò)，最后在復(fù)合網(wǎng)絡(luò)上進(jìn)行功能預(yù)測.第3種方式稱為后期集成方法，它首先在每種數(shù)據(jù)上單獨訓(xùn)練一個預(yù)測器，再集成這些預(yù)測器的結(jié)果實現(xiàn)最終的蛋白質(zhì)功能預(yù)測.他們的實驗研究表明不同數(shù)據(jù)源的質(zhì)量不同，應(yīng)該設(shè)置不同的權(quán)重，中期集成方法能夠獲得較優(yōu)的性能.本文工作也是圍繞基于多網(wǎng)絡(luò)集成的蛋白質(zhì)功能預(yù)測展開.限于篇幅，本文僅對與本文密切相關(guān)的中期集成方法進(jìn)行簡單介紹.

1 相關(guān)工作

現(xiàn)有基于多源異構(gòu)數(shù)據(jù)中期集成的蛋白質(zhì)功能預(yù)測研究工作中，部分方法僅僅是將不同類型數(shù)據(jù)計算獲取的蛋白質(zhì)/基因功能關(guān)聯(lián)網(wǎng)絡(luò)進(jìn)行平均加權(quán)進(jìn)行整合[17-18]，忽略了不同的網(wǎng)絡(luò)對蛋白質(zhì)功能預(yù)測任務(wù)的關(guān)聯(lián)性和貢獻(xiàn)不同.此外，若部分網(wǎng)絡(luò)由噪聲數(shù)據(jù)源計算獲取，這種不加區(qū)分的多網(wǎng)絡(luò)疊加組合會導(dǎo)致預(yù)測性能的極大下降[19-20].

Lanckriet等人[13]在多核學(xué)習(xí)(multiple kernel learning)框架下[21]進(jìn)行蛋白質(zhì)功能預(yù)測，他們首先將m類生物數(shù)據(jù)分別采用合適的核函數(shù)轉(zhuǎn)為核矩陣Wd∈n×n(n為蛋白質(zhì)個數(shù)，d=1,2,…,m)，該矩陣也可以看作是功能關(guān)聯(lián)網(wǎng)絡(luò)的邊權(quán)重矩陣，再通過半無限規(guī)劃(semi-infinite programming)優(yōu)化核矩陣上的權(quán)重系數(shù)αd≥0，并基于優(yōu)化的權(quán)重整合這些核矩陣為一個復(fù)合矩陣再在復(fù)合矩陣上應(yīng)用支持向量機(jī)進(jìn)行蛋白質(zhì)功能預(yù)測.Tsuda等人[22]通過凸優(yōu)化迭代更新每個核矩陣對應(yīng)的加權(quán)系數(shù)和復(fù)合核矩陣上的預(yù)測器實現(xiàn)蛋白質(zhì)功能預(yù)測.Mostafavi等人[23]提出GeneMANIA方法，將該方法應(yīng)用到老鼠蛋白質(zhì)功能預(yù)測競賽中取得了優(yōu)異的名次[24].GeneMANIA通過嶺回歸(ridge regression)和目標(biāo)矩陣對齊針對每個功能標(biāo)簽分別優(yōu)化網(wǎng)絡(luò)整合權(quán)重和對應(yīng)的復(fù)合網(wǎng)絡(luò)，再在復(fù)合網(wǎng)絡(luò)上進(jìn)行標(biāo)簽信息傳播實現(xiàn)蛋白質(zhì)功能預(yù)測.Myers和Troyanskaya[25]觀察到蛋白質(zhì)的功能與不同的網(wǎng)絡(luò)具有不同的上下文相關(guān)性，提出一種基于Bayesian統(tǒng)計的方法整合多個網(wǎng)絡(luò)進(jìn)行蛋白質(zhì)功能預(yù)測.然而由于蛋白質(zhì)功能標(biāo)注非常稀疏和不平衡，針對稀疏功能標(biāo)簽的上下文相關(guān)性很難準(zhǔn)確衡量，所以該方法在稀疏標(biāo)簽(標(biāo)注的蛋白質(zhì)個數(shù)小于30)上的預(yù)測精度有限.蛋白質(zhì)的功能標(biāo)簽空間非常大和不平衡性，如最廣泛用于標(biāo)注蛋白質(zhì)功能的GO[3]目前包含了40 000多個功能標(biāo)簽，而已標(biāo)注功能的蛋白質(zhì)的相關(guān)標(biāo)簽個數(shù)通常小于10，很多稀疏標(biāo)簽標(biāo)注的蛋白質(zhì)個數(shù)小于10，并且稀疏標(biāo)簽的個數(shù)遠(yuǎn)大于一般的功能標(biāo)簽(標(biāo)注的蛋白質(zhì)個數(shù)大于30).上述這些方法均對每個功能標(biāo)簽分別優(yōu)化對應(yīng)的復(fù)合網(wǎng)絡(luò)，容易出現(xiàn)過擬合問題.為此這些方法通常僅考慮一般的功能標(biāo)簽，或者采用正則化或不平衡分類技術(shù)克服標(biāo)簽不平衡的影響[23,26].

一些基于多網(wǎng)絡(luò)整合的方法同時考慮多個功能標(biāo)簽進(jìn)行蛋白質(zhì)功能預(yù)測.如Mostafavi和Morris在GeneMANIA的基礎(chǔ)上提出一種效率和精度更高的SW(simultaneous weights)方法[27].SW綜合考慮一組存在關(guān)聯(lián)的多個標(biāo)簽(包括稀疏標(biāo)簽)，利用這些標(biāo)簽及它們標(biāo)注的蛋白質(zhì)定義目標(biāo)對齊網(wǎng)絡(luò)，再在GeneMANIA的框架下求解對應(yīng)的網(wǎng)絡(luò)權(quán)重系數(shù)和利用標(biāo)簽信息傳播預(yù)測蛋白質(zhì)功能.他們研究還發(fā)現(xiàn)組合多個相關(guān)標(biāo)簽可在不降低其他標(biāo)簽上預(yù)測精度的前提下顯著提升稀疏標(biāo)簽上的預(yù)測精度.然而，與GeneMANIA類似，SW將復(fù)合網(wǎng)絡(luò)的優(yōu)化和復(fù)合網(wǎng)絡(luò)上的功能預(yù)測問題當(dāng)作2個相互獨立的目標(biāo)，容易出現(xiàn)優(yōu)化獲取的復(fù)合網(wǎng)絡(luò)不一定適宜后續(xù)的預(yù)測任務(wù)的問題.針對這一問題，Yu等人[19]將復(fù)合網(wǎng)絡(luò)的優(yōu)化和該復(fù)合網(wǎng)絡(luò)上針對所有功能標(biāo)簽的蛋白質(zhì)功能預(yù)測統(tǒng)一到一個目標(biāo)方程中，提出一種基于多核集成的蛋白質(zhì)功能預(yù)測方法ProMK，獲得了比SW更高的預(yù)測精度和較高的效率.然而ProMK僅基于網(wǎng)絡(luò)的平滑性優(yōu)化網(wǎng)絡(luò)權(quán)重，越稀疏的網(wǎng)絡(luò)獲得的權(quán)重越大，因此它易受邊較少的噪聲網(wǎng)絡(luò)的干擾.為此，Yu等人[20]提出另一種基于多網(wǎng)絡(luò)整合的蛋白質(zhì)功能預(yù)測方法MNet.MNet結(jié)合蛋白質(zhì)功能標(biāo)注信息和這類信息的不完整性特點定義了一個目標(biāo)網(wǎng)絡(luò)，再將多個功能關(guān)聯(lián)網(wǎng)絡(luò)加權(quán)整合的復(fù)合網(wǎng)絡(luò)向該目標(biāo)網(wǎng)絡(luò)對齊，在優(yōu)化網(wǎng)絡(luò)權(quán)重的同時優(yōu)化復(fù)合網(wǎng)絡(luò)上的預(yù)測器.實驗對比表明MNet能夠較ProMK更準(zhǔn)確地預(yù)測蛋白質(zhì)功能和克服稀疏噪聲網(wǎng)絡(luò)的干擾，但是它的計算開銷非常大.蛋白質(zhì)之間的特征相似度(如序列相似度，基因共表達(dá)網(wǎng)絡(luò)和蛋白質(zhì)互作網(wǎng))與蛋白質(zhì)之間的語義相似度存在不同程度的正相關(guān)[16,28]，蛋白質(zhì)之間的語義相似度通常基于蛋白質(zhì)已有的功能標(biāo)注信息和標(biāo)簽間結(jié)構(gòu)關(guān)系綜合衡量.根據(jù)這一特點，Yu等人提出一種基于語義多網(wǎng)絡(luò)集成的蛋白質(zhì)功能預(yù)測方法SimNet[16].SimNet首先采用一種加權(quán)的術(shù)語重合相似性度量[29]構(gòu)建蛋白質(zhì)之間的語義網(wǎng)絡(luò)，再將該語義網(wǎng)絡(luò)向多個網(wǎng)絡(luò)加權(quán)整合的復(fù)合網(wǎng)絡(luò)對齊，進(jìn)而求取加權(quán)系數(shù)，再在復(fù)合網(wǎng)絡(luò)上利用標(biāo)簽信息傳播預(yù)測蛋白質(zhì)功能.SimNet的時空開銷不僅遠(yuǎn)小于MNet，其精度也通常優(yōu)于后者.最近Cho等人[18]提出一種基于成分?jǐn)U散分析[30]的多網(wǎng)絡(luò)整合方法Mashup并成功應(yīng)用到蛋白質(zhì)功能預(yù)測中.Mashup首先在每個網(wǎng)絡(luò)的鄰接矩陣上分別進(jìn)行重啟動隨機(jī)游走，更新鄰接矩陣獲得蛋白質(zhì)之間的拓?fù)浣Y(jié)構(gòu)信息，再將這些鄰接矩陣等權(quán)重相加融合為復(fù)合網(wǎng)絡(luò)，再對該復(fù)合網(wǎng)絡(luò)的權(quán)重鄰接矩陣應(yīng)用奇異值分解(singular value decomposition, SVD)獲取蛋白質(zhì)的低秩向量特征表示，最后在這些低維向量上應(yīng)用支持向量機(jī)預(yù)測蛋白質(zhì)功能.Zitnik和Zupan提出一種基于矩陣分解數(shù)據(jù)集成的蛋白質(zhì)功能預(yù)測方法MFDF[17].該方法無需對各類分子間關(guān)聯(lián)數(shù)據(jù)的鄰接矩陣進(jìn)行以蛋白質(zhì)為鞍點的映射構(gòu)造蛋白質(zhì)功能關(guān)聯(lián)網(wǎng)絡(luò)，它直接在這些鄰接矩陣上進(jìn)行協(xié)同低秩矩陣分解，實現(xiàn)蛋白質(zhì)功能預(yù)測.雖MFDF與Mashup類似，均能較好地處理不同網(wǎng)絡(luò)中的局部噪聲數(shù)據(jù)，但它們等同看待和處理每個網(wǎng)絡(luò)，均易受噪聲和不相關(guān)網(wǎng)絡(luò)的干擾.

綜上所述，由于蛋白質(zhì)功能預(yù)測問題自身的復(fù)雜性，現(xiàn)有基于多網(wǎng)絡(luò)集成的方法在處理較大的標(biāo)簽集合、利用標(biāo)簽間關(guān)聯(lián)和區(qū)分性整合多個網(wǎng)絡(luò)這3方面還存在不足.在已有基于矩陣分解的多網(wǎng)絡(luò)融合研究的[31-32]，為此本文提出一種基于多網(wǎng)絡(luò)數(shù)據(jù)協(xié)同矩陣分解的蛋白質(zhì)功能預(yù)測方法(protein function prediction based on multiple networks collaborative matrix factorization, ProCMF).ProCMF首先基于已有的蛋白質(zhì)功能標(biāo)注信息和標(biāo)簽間層次結(jié)構(gòu)關(guān)系初始化蛋白質(zhì)-功能標(biāo)簽關(guān)聯(lián)矩陣.為處理較大的標(biāo)簽空間，ProCMF利用非負(fù)矩陣分解(nonnegative matrix factorization, NMF)[33]將該關(guān)聯(lián)矩陣分解為2個低秩矩陣分別挖掘蛋白質(zhì)之間語義關(guān)聯(lián)和標(biāo)簽間潛在關(guān)聯(lián)，將高維標(biāo)簽空間通過低秩矩陣進(jìn)行壓縮表示.其次，為利用標(biāo)簽間關(guān)聯(lián)關(guān)系和多個蛋白質(zhì)功能關(guān)聯(lián)網(wǎng)絡(luò)，基于上述2個低秩矩陣分別定義平滑正則項，約束指導(dǎo)低秩矩陣的協(xié)同分解.為了區(qū)分性地集成多個網(wǎng)絡(luò)，ProCMF對不同的網(wǎng)絡(luò)設(shè)置不同的權(quán)重.在此基礎(chǔ)上，ProCMF將這些目標(biāo)整合到一個統(tǒng)一的目標(biāo)方程中，再設(shè)計迭代更新策略同時優(yōu)化求解低秩矩陣和網(wǎng)絡(luò)權(quán)重.本文在酵母菌、人類和老鼠3個模式物種多網(wǎng)絡(luò)數(shù)據(jù)集上的一系列蛋白質(zhì)功能預(yù)測實驗表明：ProCMF在多種評價度量上均獲得了較現(xiàn)有相關(guān)算法更好的預(yù)測結(jié)果，ProCMF能有效地處理大量存在關(guān)聯(lián)的功能標(biāo)簽，區(qū)分性地整合多個網(wǎng)絡(luò)，還擁有較高的運行效率且對輸入?yún)?shù)魯棒.

2 協(xié)同矩陣分解預(yù)測蛋白質(zhì)功能

已知有m個蛋白質(zhì)功能關(guān)聯(lián)網(wǎng)絡(luò)，這些網(wǎng)絡(luò)的權(quán)重鄰接矩陣為Wd∈n×n(d=1,2,…,m)，n為蛋白質(zhì)個數(shù)，Wd(i,j)=Wd(j,i)≥0存儲第d個網(wǎng)絡(luò)中成對蛋白質(zhì)i和j之間的關(guān)聯(lián)強(qiáng)度(可靠性或序列相似性大小等).這些蛋白質(zhì)共計被c個不同的功能標(biāo)簽標(biāo)注，Y∈n×c存儲n個蛋白質(zhì)的已知功能標(biāo)注信息，它基于GO結(jié)構(gòu)初始化.GO是目前使用最為廣泛的蛋白質(zhì)功能注釋范式，它通過一個有向無環(huán)圖存儲和表示功能標(biāo)簽間的關(guān)聯(lián)關(guān)系，圖中每個節(jié)點對應(yīng)一個功能標(biāo)簽，子節(jié)點是父節(jié)點功能信息的進(jìn)一步細(xì)化，當(dāng)一個蛋白質(zhì)標(biāo)注有標(biāo)簽t對應(yīng)的功能時，該蛋白質(zhì)也標(biāo)注有t的祖先節(jié)點對應(yīng)的功能，反之則不一定[3].根據(jù)基因本體中功能標(biāo)簽的結(jié)構(gòu)規(guī)則，本文對蛋白質(zhì)-功能標(biāo)簽關(guān)聯(lián)矩陣Y進(jìn)行初始化:

(1)

需指出的是Y(i,t)=0并不表示蛋白質(zhì)i不應(yīng)該標(biāo)注t，而只是表明目前還沒有證據(jù)證明該蛋白質(zhì)具有t對應(yīng)的功能.這一設(shè)置受蛋白質(zhì)功能標(biāo)注信息的不完整性和開放世界假設(shè)(open world assumption)[5]的影響.GO數(shù)據(jù)庫中通常僅登記蛋白質(zhì)具有某個功能的信息，極少登記該蛋白質(zhì)不具有的功能信息，原因是準(zhǔn)確測定蛋白質(zhì)所具有的全部功能非常困難，生物學(xué)家通常更關(guān)注蛋白質(zhì)具有的功能信息.

2.1 基于矩陣分解的蛋白質(zhì)功能預(yù)測

基于功能標(biāo)簽的結(jié)構(gòu)特性和一個蛋白質(zhì)通常標(biāo)注多個功能標(biāo)簽，一些方法利用蛋白質(zhì)已有功能標(biāo)注的模式信息或蛋白質(zhì)之間語義相似度，進(jìn)行功能預(yù)測[34-37].如Done等人[37]受SVD能夠挖掘文本與單詞間潛在關(guān)聯(lián)的啟發(fā)，將每個蛋白質(zhì)看作一個文本，標(biāo)注到該蛋白質(zhì)上的功能標(biāo)簽看作構(gòu)成該文本的單詞，在Y上應(yīng)用SVD分別挖掘蛋白質(zhì)與標(biāo)簽間的潛在關(guān)聯(lián)，再基于SVD的低秩近似矩陣重構(gòu)新的關(guān)聯(lián)矩陣，實現(xiàn)蛋白質(zhì)功能預(yù)測.該方法通過基因本體結(jié)構(gòu)和詞頻與逆向文件頻率調(diào)整關(guān)聯(lián)矩陣中不同元素的權(quán)重，并設(shè)置子節(jié)點標(biāo)簽與蛋白質(zhì)的關(guān)聯(lián)權(quán)重大于其父節(jié)點標(biāo)簽，以期克服標(biāo)簽不平衡的影響.但這種調(diào)整方式實際上并不可取，因為一個標(biāo)簽標(biāo)注到蛋白質(zhì)上的概率值不應(yīng)大于其父節(jié)點標(biāo)簽標(biāo)注到該蛋白質(zhì)上的概率值.Wang等人[38]和余國先等人[39]對上千(萬)個功能標(biāo)簽構(gòu)成的有向無環(huán)圖的鄰接矩陣進(jìn)行低秩矩陣分解，在低維標(biāo)簽空間進(jìn)行蛋白質(zhì)功能預(yù)測，最后將預(yù)測結(jié)果映射回原始標(biāo)簽空間，顯著提升了蛋白質(zhì)功能預(yù)測精度.研究表明：低秩矩陣分解可以挖掘標(biāo)簽間的內(nèi)在關(guān)聯(lián)并降低預(yù)測問題的規(guī)模和復(fù)雜性.

受上述工作啟發(fā)，考慮到Y(jié)的稀疏高維非負(fù)特性和非負(fù)矩陣分解NMF在文本分析領(lǐng)域的廣泛成功應(yīng)用[40]，本文首先在蛋白質(zhì)-功能標(biāo)簽關(guān)聯(lián)矩陣Y上應(yīng)用NMF，以期挖掘蛋白質(zhì)與大量標(biāo)簽間內(nèi)在關(guān)聯(lián)，具體最小化的目標(biāo)方程為

(2)

其中，U=(u1,u2,…,un)∈n×r和V=(v1,v2,…,vc)∈c×r為2個低秩矩陣，它們分別在壓縮的r(r

2.2 結(jié)合功能標(biāo)簽關(guān)聯(lián)信息和多個功能網(wǎng)絡(luò)數(shù)據(jù)

2.2.1 結(jié)合功能標(biāo)簽關(guān)聯(lián)信息

一個蛋白質(zhì)通常標(biāo)注多個功能標(biāo)簽，這些標(biāo)簽存在不同程度的關(guān)聯(lián)和共現(xiàn)概率[35,42].蛋白質(zhì)功能預(yù)測問題可以轉(zhuǎn)化為多標(biāo)記學(xué)習(xí)問題進(jìn)行研究，面向蛋白質(zhì)功能預(yù)測的多標(biāo)記學(xué)習(xí)方法能夠利用標(biāo)簽間的關(guān)聯(lián)關(guān)系指導(dǎo)蛋白質(zhì)功能預(yù)測，顯著提升了蛋白質(zhì)功能預(yù)測精度[42-43].式(2)僅通過矩陣分解隱式的挖掘蛋白質(zhì)與標(biāo)簽間的關(guān)聯(lián)關(guān)系，稀疏標(biāo)簽容易由于標(biāo)注的蛋白質(zhì)個數(shù)較少而被忽略.Done等人[37]針對這一問題調(diào)整稀疏標(biāo)簽的權(quán)重，但這種調(diào)整與蛋白質(zhì)功能標(biāo)注的結(jié)構(gòu)要求相悖[44].為利用標(biāo)簽間的關(guān)聯(lián)關(guān)系，本文采用一種廣泛使用的余弦相似性度量衡量成對標(biāo)簽間的關(guān)聯(lián)關(guān)系[14,43,45]，該度量的定義為

(3)

其中，Y(·,t)∈n×1為Y的第t個列向量，它存儲功能標(biāo)簽t與n個蛋白質(zhì)之間的已知關(guān)聯(lián).當(dāng)標(biāo)簽s和t經(jīng)常標(biāo)注到同一個蛋白質(zhì)上時，它們之間的關(guān)聯(lián)強(qiáng)度較大，否則關(guān)聯(lián)強(qiáng)度較小.上述定義還較少受標(biāo)簽稀疏性的影響，2個稀疏標(biāo)簽之間也可以有較強(qiáng)的關(guān)聯(lián)，只要它們同時標(biāo)注到同一個蛋白質(zhì)上的頻率較高即可.

V中每行可以看作是對應(yīng)標(biāo)簽的低維表示，在高維標(biāo)簽空間存在較強(qiáng)關(guān)聯(lián)的標(biāo)簽s和t，它們的低維向量表示vs和vt應(yīng)該距離靠近.為實現(xiàn)上述目標(biāo)，受平滑性假設(shè)[46]啟發(fā)，本文引入標(biāo)簽間平滑性約束項：

(4)

其中,Dc∈c×c是對角矩陣通過最小化式(4)可以使得存在較強(qiáng)關(guān)聯(lián)的標(biāo)簽擁有相似的低維實數(shù)向量表示，進(jìn)而使得存在較強(qiáng)關(guān)聯(lián)的功能標(biāo)簽更可能標(biāo)注到同一個蛋白質(zhì)上.

2.2.2 結(jié)合多個蛋白質(zhì)功能關(guān)聯(lián)網(wǎng)絡(luò)

U中每行可以看作是相應(yīng)蛋白質(zhì)在V刻畫的r維語義空間的實數(shù)向量表示，但這種向量表示并沒有結(jié)合蛋白質(zhì)的其他特征數(shù)據(jù)(如氨基酸序列和蛋白質(zhì)互作網(wǎng)等).大量研究表明存在互作的蛋白質(zhì)更容易共享相同的功能[9-10]，不同的生物數(shù)據(jù)從不同的角度反映蛋白質(zhì)功能，由于蛋白質(zhì)功能的時空復(fù)雜性，很有必要整合多種生物數(shù)據(jù)獲取蛋白質(zhì)功能信息的全局視圖，進(jìn)而提高功能預(yù)測精度.為此，本文擬在U上引入多個功能關(guān)聯(lián)網(wǎng)絡(luò)的約束：

(5)

其中，αd≥0為第d個網(wǎng)絡(luò)的權(quán)重，D∈n×n為對角矩陣最小化式(5)可以使得序列相似(或互作等)的成對蛋白質(zhì)在低維語義空間彼此靠近，這一目標(biāo)也遵循了蛋白質(zhì)之間的語義相似度與蛋白質(zhì)之間的特征相似度正相關(guān)的特點[27].因此Φ2(U,α)可以融合多個功能關(guān)聯(lián)網(wǎng)絡(luò)約束指導(dǎo)U的協(xié)同分解.

式(5)存在僅只選擇一個網(wǎng)絡(luò)的風(fēng)險，具體分析式(5)可改寫為

(6)

(7)

通過在式(7)中引入在α上的l2范式約束，可以避免僅選擇單個網(wǎng)絡(luò)的不足，它還可以對平滑且含噪聲少的網(wǎng)絡(luò)設(shè)置較大的權(quán)重，對非平滑且含噪聲多的網(wǎng)絡(luò)賦予較小(甚至為0)的權(quán)重，進(jìn)而實現(xiàn)多個網(wǎng)絡(luò)的差異性整合和剔除噪聲網(wǎng)絡(luò)的干擾.

2.3 統(tǒng)一的目標(biāo)方程與優(yōu)化求解

在2.2節(jié)分析設(shè)計的基礎(chǔ)上，為處理較大的標(biāo)簽集合，利用標(biāo)簽間關(guān)聯(lián)性和區(qū)分性整合多個網(wǎng)絡(luò)，本文定義ProCMF最終的目標(biāo)方程:

(8)

其中,ω1>0和ω2>0用于調(diào)控多個功能關(guān)聯(lián)網(wǎng)絡(luò)和標(biāo)簽關(guān)聯(lián)性對低秩矩陣U和V的協(xié)同分解.在獲取優(yōu)化后的低秩矩陣U*和V*之后，本文通過

(9)

重新定義蛋白質(zhì)-標(biāo)簽之間的關(guān)聯(lián)矩陣.

2.3.1 目標(biāo)方程優(yōu)化求解

式(8)中U，V和α的單個求解均依賴于其中另外2個參數(shù)，為此本文引入一種類似期望最大化[47]的交替迭代優(yōu)化方法，在固定其中2個參數(shù)的情況下優(yōu)化另外1個參數(shù)，直至達(dá)到指定的迭代次數(shù)或者收斂.式(8)可以等價為

(10)

首先，假定α和V已知，式(10)變?yōu)橐訳為參數(shù)的目標(biāo)函數(shù).由于Y也已知，此時式(10)中右邊第1項和最后2項均為常數(shù)，可忽略，可得以U為參數(shù)的目標(biāo)函數(shù)為

Οu(U)=-2tr(YVUT)+tr(UVTVUT)+
ω1tr(UTLU).

(11)

令Λu∈n×r為約束U≥0的拉格朗日乘數(shù)，則有:

Ou(U,Λu)=-2tr(YVUT)+2tr(UVTVUT)+
ω1tr(UTLU)-tr(ΛuUT).

(12)

對式(11)求關(guān)于U的偏導(dǎo)數(shù)：

(13)

(14)

由此可得U的迭代更新方式:

(15)

其次，假定α和U已知，式(10)變?yōu)橐訴為參數(shù)的目標(biāo)函數(shù).此時式(10)中右邊第1項、第4項和第6項均為常數(shù)，可忽略，可得以V為參數(shù)的目標(biāo)函數(shù)為

Ov(V)=-2tr(YVUT)+tr(UVTVU)+
ω2tr(VTLcV).

(16)

令Λv∈c×r為約束V≥0的拉格朗日乘數(shù)，則有:

Ou(U,ψ)=-2tr(YVUT)+2tr(UVTVUT)-
tr(ΛvUT).

(17)

同樣，對式(11)求關(guān)于V的偏導(dǎo)數(shù)：

(18)

-(YTU)s hvs h+(VUTU)s hvs h+ω2(LcV)s hvs h=0.

(19)

由此可得V的迭代更新方式:

(20)

最后，假定U和V已知，式(10)變?yōu)橐驭翞閰?shù)的目標(biāo)函數(shù).此時式(10)中右邊僅第4項和第6項與α有關(guān)，可得以α為參數(shù)的目標(biāo)函數(shù):

(21)

(22)

式(22)可看作是關(guān)于α的二次規(guī)劃問題.同樣令β∈m×1和η≥0為α≥0和αT1=1的拉格朗日乘數(shù)，則有:

(23)

基于KKT條件[48]，最優(yōu)的α需滿足4個條件:

3)βd≥0,1≤d≤m,

4)βdαd=0,1≤d≤m,

令Oα(α)關(guān)于α的導(dǎo)數(shù)為0，可得:

(24)

αd依賴于βd和η的取值，其中η的取值對αd的影響為

1) 如果η-σd>0，由于βd≥0，所以αd>0.又根據(jù)上述第4個條件βdαd=0，得出βd=0，αd=(η-σd)/2λ;

2) 如果η-σd<0，由于αd≥0，則要求βd>0，又因為βdαd=0，所以αd=0;

3) 如果η-σd=0，由于βdαd=0，αd=βd/2λ，所以αd=0，βd=0.

為便于討論，假設(shè)σ1≤σ2≤…≤σm，對于給定的λ，若λ不是非常大，則存在η-σp>0和η-σp+1≤0(1≤p≤m-1)，αd存在的顯示解:

(25)

(26)

從式(25)可以看出，αd在不同功能關(guān)聯(lián)網(wǎng)絡(luò)上的權(quán)重不同，越平滑(即tr(UTLdU)越小)的網(wǎng)絡(luò)獲取的權(quán)重越大.通常平滑的網(wǎng)絡(luò)含有噪聲邊較少，這類網(wǎng)絡(luò)中的邊存在于具有功能關(guān)聯(lián)的成對蛋白質(zhì)之間.而非平滑網(wǎng)絡(luò)則由于存在較多的噪聲邊而引入了較大的平滑損失，因而被賦予較小(甚至為0)的權(quán)重.通過式(25)，還可以觀察到部分功能關(guān)聯(lián)網(wǎng)絡(luò)的權(quán)重為0，原因可能是這些網(wǎng)絡(luò)含有較多的噪聲邊，導(dǎo)致較大的平滑損失.從上述分析可以看出，ProCMF可以差異性的集成多個蛋白質(zhì)功能關(guān)聯(lián)網(wǎng)絡(luò).

在上述迭代優(yōu)化的基礎(chǔ)上，本文給出ProCMF的算法流程如算法1所示:

算法1. 算法ProCMF.

① 初始化αd=1/m,iter=1,tol=10-4,

maxiter=100,δ=106;

③ 隨機(jī)初始化非負(fù)低秩矩陣U和V；

④ Whileitertol

⑤ 根據(jù)式(15)和式(20)計算更新U和V；

⑥ 根據(jù)式(25)計算新的α；

⑧δ=|Φ(U,V,α)iter-Φ(U,V,α)iter-1|；

⑨iter=iter+1；

⑩ End While

其中，Φ(U,V,α)iter為第iter次迭代基于式(8)計算獲取的損失大小,Φ(U,V,α)0=tr(YTY).算法1中行①～③初始化α，U，V和W;行⑤～⑦計算更新U，V，α和W;行⑧～⑨計算前后2次優(yōu)化迭代后損失大小的差異和迭代次數(shù)增1，用于判斷是否進(jìn)入下一次循環(huán).

3 實驗

3.1 數(shù)據(jù)集

為驗證ProCMF的性能，本文從文獻(xiàn)[26]的附件資料中收集了酵母菌(yeast)、人類(human)和老鼠(mouse)三個模式生物的蛋白質(zhì)數(shù)據(jù)集進(jìn)行實驗，其中每個物種的數(shù)據(jù)集均包含多個已處理好的蛋白質(zhì)功能關(guān)聯(lián)網(wǎng)絡(luò)，這些網(wǎng)絡(luò)由蛋白質(zhì)結(jié)構(gòu)域、基因表達(dá)數(shù)據(jù)和氨基酸序列數(shù)據(jù)等通過特定的相似性度量函數(shù)轉(zhuǎn)化而來.其中Yeast包含44個網(wǎng)絡(luò)，Human包含8個網(wǎng)絡(luò)，Mouse包含10個網(wǎng)絡(luò).為標(biāo)注蛋白質(zhì)功能，本文下載了GO數(shù)據(jù)文件和上述物種的功能標(biāo)注文件(日期：2017-07-15；地址：http://geneontology.org/)，并在GO三個分支(生物過程(BP)、細(xì)胞成分(CC)、分子功能(MF))分別對蛋白質(zhì)進(jìn)行功能標(biāo)注.特別地，本文遵循true path rule[3,49]進(jìn)行功能標(biāo)注，即當(dāng)?shù)鞍踪|(zhì)被某個功能標(biāo)簽所標(biāo)注時，則該蛋白質(zhì)也將標(biāo)注該標(biāo)簽的祖先標(biāo)簽.為避免循環(huán)預(yù)測，實驗中不考慮證據(jù)屬性為IEA(inferred by electronic annotations)的功能標(biāo)注.為評價算法預(yù)測稀疏標(biāo)簽的性能，所有標(biāo)注蛋白質(zhì)的標(biāo)簽個數(shù)不少于3個均予以保留進(jìn)行實驗分析.

傳統(tǒng)的蛋白質(zhì)功能預(yù)測實驗通常將同一個蛋白質(zhì)數(shù)據(jù)集劃分訓(xùn)練集和測試集2部分，并將測試集中的蛋白質(zhì)看做功能完全未知的蛋白質(zhì)并對這些蛋白質(zhì)進(jìn)行功能預(yù)測,最后用這些蛋白質(zhì)的已知功能標(biāo)注信息評估預(yù)測性能[19,43].這種實驗設(shè)置忽略了兩部分蛋白質(zhì)之間內(nèi)在的關(guān)聯(lián),評估結(jié)果通常過于樂觀[1].為了更好地反映蛋白質(zhì)功能標(biāo)注的真實場景，本文采用一種歷史到現(xiàn)在的實驗?zāi)Ｊ剑紫壤?014年(history)的功能標(biāo)注數(shù)據(jù)作為訓(xùn)練集進(jìn)行功能預(yù)測，再利用2017年(recent)的功能標(biāo)注數(shù)據(jù)作為評估集檢驗預(yù)測結(jié)果.為此本文還下載了上述3個物種的蛋白質(zhì)在2014-05-15對應(yīng)的GO數(shù)據(jù)文件和上述物種的功能標(biāo)注文件，并用同樣的預(yù)處理方法對蛋白質(zhì)進(jìn)行功能標(biāo)注.表1中統(tǒng)計了2014-05和2017-07兩個時間節(jié)點每個物種的蛋白質(zhì)在3個分支的功能標(biāo)注數(shù)和相應(yīng)的標(biāo)簽個數(shù).

Table 1 Statistics of Functional Annotations of Proteins表1 蛋白質(zhì)功能標(biāo)注信息統(tǒng)計

從表1中可以看出，隨著時間的推移，蛋白質(zhì)的功能標(biāo)注信息在不斷地增多，如Yeast的3 904個蛋白質(zhì)在生物過程(BP)分支的功能標(biāo)注從111 094個增加到129 740個，這些蛋白質(zhì)共計被2 354個不同的功能標(biāo)簽標(biāo)注，在BP分支的標(biāo)簽數(shù)量跟蛋白質(zhì)個數(shù)接近，從如此大的標(biāo)簽空間中準(zhǔn)確預(yù)測蛋白質(zhì)的功能很具有挑戰(zhàn)性.值得指出的是，在2 354個標(biāo)簽中，76.4%的標(biāo)簽標(biāo)注的蛋白質(zhì)個數(shù)小于30，56.7%的標(biāo)簽標(biāo)注的蛋白質(zhì)個數(shù)小于10.

3.2 對比方法與評價度量

本文共選取了5個相關(guān)且具有代表性的蛋白質(zhì)功能預(yù)測方法作為對比方法進(jìn)行實驗.這5個方法為DNN[50]，SimNet[16]，SW[27]，DFMF[17]和Mashup[18].其中SimNet和SW均為基于多網(wǎng)絡(luò)數(shù)據(jù)加權(quán)集成的蛋白質(zhì)功能預(yù)測方法，DFMF和Mashup是矩陣分解和多網(wǎng)絡(luò)數(shù)據(jù)等權(quán)重融合的方法.這些對比方法已經(jīng)在第1節(jié)的相關(guān)工作中詳細(xì)介紹，不再贅述.近期已有深度學(xué)習(xí)方法應(yīng)用于蛋白質(zhì)功能預(yù)測，為此本文還引入深度神經(jīng)網(wǎng)絡(luò)(DNN)作為對比算法[50].DNN以這些網(wǎng)絡(luò)等權(quán)重整合的復(fù)合網(wǎng)絡(luò)作為特征輸入，它的學(xué)習(xí)率為0.02，batch大小為512個，dropout比例為0.6，并使用batch正則化技術(shù)[51].為更直觀地研究ProCMF加權(quán)整合多個網(wǎng)絡(luò)的效用，本文還引入ProCMF的一個變種(ProCMF-E)作為對比方法進(jìn)行實驗.ProCMF-E在等權(quán)重設(shè)置α后不再更新α，即ProCMF-E等權(quán)重的整合多個網(wǎng)絡(luò)后再進(jìn)行基于矩陣協(xié)同分解的蛋白質(zhì)功能預(yù)測.上述對比方法的參數(shù)均參照原文作者建議的參數(shù)范圍進(jìn)行設(shè)置，或者優(yōu)化后選取最優(yōu)的參數(shù)進(jìn)行實驗.ProCMF中U和V的低秩系數(shù)r=200，低秩矩陣約束項系數(shù)ω1,ω2∈[0.01,100]通過在訓(xùn)練數(shù)據(jù)集上進(jìn)行5重交叉驗證選擇最優(yōu)值，α上的l2范式約束的參數(shù)λ=100.

為綜合評價蛋白質(zhì)功能預(yù)測算法的性能，本文采取CAFA(community critical assessment of protein function annotation)[1]算法推薦的評價度量:AUC，Smin和Fmax.AUC是一種以標(biāo)簽為中心的評價度量，它首先計算每個標(biāo)簽的受試者操作特征曲線(receiver operating curve)下的面積，然后以這些標(biāo)簽各自曲線下面積的均值評價預(yù)測效果.Fmax和Smin是以蛋白質(zhì)為中心的評價準(zhǔn)則.Fmax首先計算不同閾值下的準(zhǔn)確率(precision)和查全率(recall)并計算該閾值對應(yīng)的F1值，最后選擇最大F1值作為Fmax的值;Smin結(jié)合基因本體結(jié)構(gòu)首先計算不同閾值下的未被預(yù)測到的功能標(biāo)簽和過度預(yù)測的錯誤標(biāo)簽之間的語義距離，最后選擇最小的距離值作為Smin的值.從上述3個評價度量的定義可知當(dāng)AUC和Fmax值越大時預(yù)測精度越高，而Smin值越小時預(yù)測精度越高.這些度量的具體介紹可以參見文獻(xiàn)[1].這些度量從不同的角度衡量蛋白質(zhì)功能預(yù)測性能，一個蛋白質(zhì)功能預(yù)測方法通常很難在這3個度量上均超過另外一個方法.

3.3 蛋白質(zhì)功能預(yù)測

本文利用2014年5月的酵母菌、人類和小鼠3個物種的蛋白質(zhì)功能標(biāo)注和收集的各物種的多個蛋白質(zhì)功能關(guān)聯(lián)網(wǎng)絡(luò)進(jìn)行蛋白質(zhì)功能預(yù)測，并用2017年5月更新的蛋白質(zhì)功能標(biāo)注數(shù)據(jù)對預(yù)測結(jié)果進(jìn)行評價，對應(yīng)實驗結(jié)果匯報在表2～4中，表2～4中每種度量下最好的結(jié)果用粗體突出表示.

Table 2 Results on Yeast表2 Yeast數(shù)據(jù)集上蛋白質(zhì)功能預(yù)測結(jié)果

↓ means the lower the better.

從表2～4中可以看出ProCMF在整體上要優(yōu)于其他對比算法以及自身變種.在3個物種的3個分支的3種度量(共3×3×3=27種)對比實驗中，ProCMF分別在18，16，23，24，22，20種情況下優(yōu)于

Table 3 Results on Human表3 Human數(shù)據(jù)集蛋白質(zhì)功能預(yù)測結(jié)果

↓ means the lower the better.

Table 4 Results on Mouse 表4 Mouse數(shù)據(jù)集蛋白質(zhì)功能預(yù)測結(jié)果

↓ means the lower the better.

DNN，SimNet，SW，DFMF，Mashup和ProCMF-E.由于表2～4中結(jié)果是基于歷史的蛋白質(zhì)功能標(biāo)注數(shù)據(jù)預(yù)測并用現(xiàn)在的功能標(biāo)注數(shù)據(jù)檢驗，所以結(jié)果中不存在方差，為此本文利用Wilcoxon符號秩檢驗[52-53]分析對比ProCMF與DNN，SimNet，SW，DFMF，Mashup和ProCMF-E在不同數(shù)據(jù)集和度量下的結(jié)果，對應(yīng)p值分別為4.61%，3.24%，0.08%，0.005%，0.008和3.45%.從上述對比結(jié)果可知，ProCMF顯著性優(yōu)于已有基于多網(wǎng)絡(luò)集成、矩陣分解和深度學(xué)習(xí)技術(shù)的蛋白質(zhì)功能預(yù)測算法.

ProCMF的預(yù)測精度在人類和老鼠2個數(shù)據(jù)集上要優(yōu)于DNN，而在酵母菌數(shù)據(jù)集中除AUC外要差于DNN.而從表1中的數(shù)據(jù)可知，在人類和老鼠2個數(shù)據(jù)集中2時間段標(biāo)記數(shù)量相差較大，酵母菌數(shù)據(jù)集兩時間段標(biāo)記數(shù)量相差較少.因此可以發(fā)現(xiàn)DNN在預(yù)測大量缺失標(biāo)記時的預(yù)測精度較低.

ProCMF的預(yù)測性能優(yōu)于SimNet，原因是SimNet利用蛋白質(zhì)已有的功能標(biāo)注定義蛋白質(zhì)之間的語義相似度和語義目標(biāo)網(wǎng)絡(luò)，對于功能信息完全未知的蛋白質(zhì)，SimNet簡單地設(shè)置它與其他蛋白質(zhì)之間的語義相似度為0.SimNet通過多個網(wǎng)絡(luò)加權(quán)整合的復(fù)合網(wǎng)絡(luò)向該語義網(wǎng)絡(luò)對齊進(jìn)而優(yōu)化各個網(wǎng)絡(luò)上的權(quán)重.但由于蛋白質(zhì)功能標(biāo)注不完整，蛋白質(zhì)之間的語義相似度可靠性不高，誤導(dǎo)了SimNet各個網(wǎng)絡(luò)上權(quán)重的優(yōu)化.SW也是通過利用蛋白質(zhì)的功能標(biāo)注定義目標(biāo)網(wǎng)絡(luò)，再利用多網(wǎng)絡(luò)加權(quán)整合的復(fù)合網(wǎng)絡(luò)向該目標(biāo)網(wǎng)絡(luò)對其的方式求取網(wǎng)絡(luò)權(quán)重，但SW的目標(biāo)網(wǎng)絡(luò)中含有權(quán)重為負(fù)的邊，且SW并沒有較好地考慮蛋白質(zhì)功能標(biāo)注信息的不完整性，所以其性能通常不及SimNet和ProCMF.本文提出的ProCMF在整合多個蛋白質(zhì)功能關(guān)聯(lián)網(wǎng)絡(luò)時不依賴于目標(biāo)網(wǎng)絡(luò)的構(gòu)造，而是基于2個低秩矩陣，多個網(wǎng)絡(luò)上定義的平滑損失和標(biāo)簽間關(guān)聯(lián)平滑損失設(shè)置網(wǎng)絡(luò)權(quán)重，避免了SimNet和SW過度依賴目標(biāo)網(wǎng)絡(luò)的風(fēng)險，所以ProCMF比SimNet和SW獲得了更好的預(yù)測結(jié)果.DFMF和Mashup都是利用矩陣分解融合多源異構(gòu)生物數(shù)據(jù)進(jìn)行蛋白質(zhì)功能預(yù)測的方法.Mashup分別在多個蛋白質(zhì)功能關(guān)聯(lián)網(wǎng)絡(luò)上進(jìn)行隨機(jī)游走后，再將多個網(wǎng)絡(luò)等權(quán)重相加整合，它未考慮不同網(wǎng)絡(luò)對蛋白質(zhì)功能預(yù)測的效用不同的特點，容易受噪聲網(wǎng)絡(luò)的干擾.DFMF在蛋白質(zhì)與功能標(biāo)簽節(jié)點組成的混合網(wǎng)絡(luò)上進(jìn)行協(xié)同低秩矩陣分解挖掘蛋白質(zhì)與功能標(biāo)簽間的潛在關(guān)聯(lián)，實現(xiàn)蛋白質(zhì)功能預(yù)測.DFMF和Mashup一樣為每個網(wǎng)絡(luò)分配相同的權(quán)重，它們均易受低質(zhì)量網(wǎng)絡(luò)的干擾.雖然ProCMF也通過低秩矩陣分解和整合多個功能關(guān)聯(lián)網(wǎng)絡(luò)進(jìn)行蛋白質(zhì)功能預(yù)測，但是它對不同的網(wǎng)絡(luò)設(shè)置不同的權(quán)重，區(qū)分性地整合這些網(wǎng)絡(luò)，所以ProCMF獲得了較DFMF和Mashup更好的預(yù)測結(jié)果.從ProCMF與DNN結(jié)果間的差異可知，差異性集成不同的功能關(guān)聯(lián)網(wǎng)絡(luò)可以獲得較深度學(xué)習(xí)方法更好的精度.

雖然ProCMF-E與ProCMF類似，也能夠發(fā)掘利用蛋白質(zhì)-功能標(biāo)簽關(guān)聯(lián)矩陣中蛋白質(zhì)與標(biāo)簽間的潛在關(guān)聯(lián)和處理大量相關(guān)標(biāo)簽，但是ProCMF-E的結(jié)果通常低于ProCMF.原因是ProCMF-E與DFMF和Mashup類似，對不同的網(wǎng)絡(luò)設(shè)置相同的權(quán)重，均忽視了不同的網(wǎng)絡(luò)對蛋白質(zhì)功能預(yù)測效用不同.

為進(jìn)一步分析利用多個蛋白質(zhì)功能關(guān)聯(lián)網(wǎng)絡(luò)和標(biāo)簽間關(guān)聯(lián)性的貢獻(xiàn)，本文引入ProCMF的3個變種(ProCMF-N，ProCMF-C和ProCMF-Y)作為對比方法進(jìn)行實驗.ProCMF-N只利用多個蛋白質(zhì)功能關(guān)聯(lián)網(wǎng)絡(luò)(ω1>0,ω2=0)；ProCMF-C只利用功能標(biāo)簽間的關(guān)聯(lián)性(ω1=0,ω2>0)；ProCMF-Y僅利用蛋白質(zhì)-功能標(biāo)簽關(guān)聯(lián)矩陣Y進(jìn)行功能預(yù)測(ω1=0,ω2=0).與上面的實驗設(shè)置類似，本文在Mouse數(shù)據(jù)集上進(jìn)行了實驗并將ProCMF和其3個變種在評價度量Fmax下的結(jié)果報告如圖1所示:

Fig. 1 Fmax of ProCMF and its variants on Mouse dataset圖1 ProCMF及其變種在Mouse數(shù)據(jù)集上的Fmax對比

從圖1可以發(fā)現(xiàn)ProCMF總是獲得最高的Fmax，而ProCMF-Y總是獲得最低的Fmax；ProCMF-N和ProCMF-C的Fmax通常大于ProCMF-Y.這一觀察表明蛋白質(zhì)功能關(guān)聯(lián)網(wǎng)絡(luò)和標(biāo)簽間的關(guān)聯(lián)性均可以提高蛋白質(zhì)功能預(yù)測性能.ProCMF-C在BP分支獲得了與ProCMF-Y類似的Fmax，原因是蛋白質(zhì)-功能標(biāo)簽關(guān)聯(lián)矩陣Y基于基因本體結(jié)構(gòu)初始化，它已經(jīng)嵌入了部分標(biāo)簽間關(guān)聯(lián)關(guān)系，Y上的低稚矩陣分解可以隱式地挖掘和利用標(biāo)簽間關(guān)聯(lián)性.ProCMF-C在CC分支和MF分支的Fmax高于ProCMF-Y表明顯示地結(jié)合標(biāo)簽間關(guān)聯(lián)性可提高蛋白質(zhì)功能預(yù)測結(jié)果.ProCMF的Fmax總是大于ProCMF-C和ProCMF-N的Fmax，表明同時利用蛋白質(zhì)功能關(guān)聯(lián)網(wǎng)絡(luò)和標(biāo)簽間關(guān)聯(lián)性可以進(jìn)一步提高蛋白質(zhì)功能預(yù)測性能.

3.4 參數(shù)敏感性分析

ProCMF將蛋白質(zhì)-功能標(biāo)簽關(guān)聯(lián)矩陣分解為2個低秩矩陣U和V，為分析不同的低秩大小r對預(yù)測結(jié)果的影響，本文對r進(jìn)行了敏感性分析并將10至300下r的Fmax結(jié)果值匯報在圖2(Yeast)和圖3(Mouse)中.ProCMF中其他參數(shù)的設(shè)置與3.3節(jié)的實驗設(shè)置一致.

Fig. 2 Low rank parameter r analysis on Yeast圖2 酵母菌數(shù)據(jù)集上低秩參數(shù)r分析

Fig. 3 Low rank parameter r analysis on Mouse圖3 老鼠數(shù)據(jù)集上低秩參數(shù)r分析

根據(jù)圖2～3中曲線的趨勢可以發(fā)現(xiàn)，r的變化對預(yù)測的結(jié)果并沒有明顯的影響，這說明ProCMF對r是魯棒的.ProCMF在r較小時就可以達(dá)到一個良好的預(yù)測效果，說明低秩矩陣U和V在很低的維度就能挖掘大量蛋白質(zhì)與大量功能標(biāo)簽間的潛在關(guān)聯(lián).Fmax在Yeast數(shù)據(jù)集的BP分支隨r的升高有部分提升后穩(wěn)定，這是因為BP分支中含有2 354個標(biāo)簽，而這些標(biāo)簽僅與3 904個蛋白質(zhì)存在稀疏的關(guān)聯(lián)，數(shù)據(jù)規(guī)模較小進(jìn)而無法在較小的r下準(zhǔn)確地挖掘蛋白質(zhì)與功能標(biāo)簽間的關(guān)聯(lián).需指出，即使r=10，V也可以編碼210個不同的0-1標(biāo)簽，而V實際上是非負(fù)實數(shù)矩陣，因此它可以編碼更多的標(biāo)簽.通過在蛋白質(zhì)-功能標(biāo)簽關(guān)聯(lián)矩陣上進(jìn)行低秩矩陣分解可以將大量的關(guān)聯(lián)標(biāo)簽壓縮到低維空間，而顯式地結(jié)合功能標(biāo)簽間的關(guān)聯(lián)并約束低秩矩陣的分解，有助于更進(jìn)一步地挖掘蛋白質(zhì)與功能標(biāo)簽間的潛在關(guān)聯(lián).

此外，為了分析λ的取值對權(quán)重系數(shù)α的影響，本文登記了λ分別為1，100和10 000時α在人類數(shù)據(jù)集的CC分支的權(quán)重分布情況，并匯報在圖4中.從圖4可以看出在λ=100時，ProCMF在8個功能關(guān)聯(lián)網(wǎng)絡(luò)上的權(quán)重不同，部分網(wǎng)絡(luò)的權(quán)重為0，說明ProCMF能夠區(qū)分性地整合多個網(wǎng)絡(luò).當(dāng)λ=1時，ProCMF僅選取最平滑的功能關(guān)聯(lián)網(wǎng)絡(luò)；當(dāng)λ=104時，ProCMF賦予8個網(wǎng)絡(luò)類似的權(quán)重.上述實驗結(jié)果與第3節(jié)的理論分析一致，當(dāng)λ取值過小時，α上的l2范式約束調(diào)控作用過小，ProCMF只需選擇平滑性損失最小的網(wǎng)絡(luò)即可使式(8)中的目標(biāo)函數(shù)值最小；而當(dāng)λ取值過大時，l2范式約束調(diào)控作用過強(qiáng)，為使式(8)中的目標(biāo)函數(shù)值最小，ProCMF給予多個功能關(guān)聯(lián)網(wǎng)絡(luò)類似的權(quán)重.上述實驗表明ProCMF的性能依賴于合適的λ.本文實驗中在訓(xùn)練數(shù)據(jù)上進(jìn)行五重交叉驗證選取合適的λ.如何更規(guī)范化地選取合適的λ是本文未來研究工作之一.

Fig. 4 Weight assignments under different input values of λ (Human, CC)圖4 不同λ值下的權(quán)重分配(人類數(shù)據(jù)集CC分支)

3.5 運行時間對比分析

為了分析對比各個算法的效率，本文還登記了ProCMF及其他對算法的實際運行時間,如表5所示.實驗過程中各算法參數(shù)設(shè)置與之前保持一致，各算法均基于Matlab2011b(64位)編碼實現(xiàn)，實驗運行平臺配置為：Intel Xeon E5-3650v3，Linux OS 2.6.32，32 GB RAM.

Table 5 Fmax of ProCMF and Its Variants on Mouse Dataset表5 ProCMF及其變種在Mouse數(shù)據(jù)集上的Fmax s

從表5中的運行時間結(jié)果可以看出SimNet的運行時間耗費最小，ProCMF次之.SimNet比ProCMF更快的原因是SimNet直接通過線性回歸求取多個功能關(guān)聯(lián)網(wǎng)絡(luò)上的權(quán)重，并不需要進(jìn)行迭代優(yōu)化，而ProCMF則需要迭代優(yōu)化權(quán)重和低秩矩陣.SW在整合多個網(wǎng)絡(luò)和預(yù)測蛋白質(zhì)功能時的理論復(fù)雜度與SimNet相似，但其實際運行時間比SimNet要大很多.這是因為SW利用二分類器對每一個功能標(biāo)簽進(jìn)行預(yù)測，并且它在定義目標(biāo)網(wǎng)絡(luò)時需要啟發(fā)式地選擇負(fù)樣例.DFMF需要對每個網(wǎng)絡(luò)的鄰接矩陣進(jìn)行低秩分解，所以其時間耗費大于ProCMF.Mashup首先在每個網(wǎng)絡(luò)上進(jìn)行隨機(jī)游走，再在這些網(wǎng)絡(luò)整合的復(fù)合網(wǎng)絡(luò)的鄰接矩陣上應(yīng)用SVD，最后利用支持向量機(jī)針對每個標(biāo)簽進(jìn)行功能預(yù)測，所以其運行時間耗費最大.

在上述實驗結(jié)果的基礎(chǔ)上，本文認(rèn)為ProCMF不僅比現(xiàn)有基于多網(wǎng)絡(luò)數(shù)據(jù)整合的蛋白質(zhì)功能預(yù)測方法的預(yù)測結(jié)果更好，還能保持較高的效率.

4 結(jié)束語

本文根據(jù)合理的整合多個蛋白質(zhì)功能關(guān)聯(lián)網(wǎng)絡(luò)數(shù)據(jù)和結(jié)合功能標(biāo)簽間關(guān)聯(lián)性能提高蛋白質(zhì)功能預(yù)測精度的原理，提出了一種基于多網(wǎng)絡(luò)數(shù)據(jù)協(xié)同矩陣分解的蛋白質(zhì)功能預(yù)測方法.該方法利用低秩矩陣分解挖掘蛋白質(zhì)與功能標(biāo)簽間潛在關(guān)聯(lián)信息，整合多網(wǎng)絡(luò)數(shù)據(jù)來更完整地刻畫蛋白質(zhì)功能信息和融合標(biāo)簽間關(guān)聯(lián)關(guān)系約束指導(dǎo)低秩矩陣的分解，獲得了較其他相關(guān)算法更好的預(yù)測結(jié)果.本文研究工作為后續(xù)基于多網(wǎng)絡(luò)數(shù)據(jù)融合的數(shù)據(jù)挖掘問題研究提供了新的思路.

通過與其他方法的對比實驗和分析，驗證了本文方法的有效性和合理性.如何準(zhǔn)確地刻畫標(biāo)簽間關(guān)聯(lián)性和結(jié)合多種異構(gòu)生物數(shù)據(jù)預(yù)測蛋白質(zhì)功能是一個值得深入研究的問題.此外，多網(wǎng)絡(luò)數(shù)據(jù)融合中如何有效地保持和利用每個網(wǎng)絡(luò)的內(nèi)在結(jié)構(gòu)特性都有待進(jìn)一步研究.

[1]Radivojac P, Cark W, Oron T, et al. A large-scale evaluation of computational protein function prediction[J]. Nature Methods, 2013, 10(3): 221-227

[2] Shehu A, Barbará D, Molloy K. A survey of computational methods for protein function prediction[G] //Big Data Analytics in Genomics. Berlin: Springer, 2016, 225-298

[3] Gene Ontology Consortium. Expansion of the gene ontology knowledgebase and resources[J]. Nucleic Acids Research, 2017, 45(D1): D331-D338

[4] Huntley R, Sawford T, Martin M, et al. Understanding how and why the Gene Ontology and its annotations evolve: The GO within UniProt[J]. GigaScience, 2014, 3: Article No 4

[5] Schones A, Ream D, Thorman A, et al. Bias in the experimental annotations of protein function and their effect on our understanding of protein function space[J]. PLoS Computational Biology, 2013, 9(5): Article No e1003063

[6] Legrain P, Aebersold R, Archakov A, et al. The human proteome project: Current state and future direction[J]. Molecular & Cellular Proteomics, 2011, 10(7): Article No M111.009993

[7] Lee D, Redfern O, Orengo C. Predicting protein function from sequence and structure[J]. Nature Review Molecular Cell Biology, 2007, 8(12): 995-1005

[8] Lowenstein Y, Raimondo D, Redfern O, et al. Protein function annotation by homology-based inference[J]. Genome Biology, 2009, 10(2): Article No 207

[9] Schwikowski B, Uetz P, Field S. A network of protein-protein interactions in yeast[J]. Nature Biotechnology, 2000, 18(12): 1257-1261

[10] Deng M, Tu Z, Sun F, et al. Mapping Gene Ontology to proteins based on protein-protein interaction data[J]. Bioinformatics, 2004, 20(6): 895-902

[11] Li Min, Meng Xiangmao. The construction, analysis, and applications of dynamic protein-protein interaction networks[J]. Journal of Computer Research and Development, 2017, 54(6): 1281-1299(李敏, 孟祥茂. 動態(tài)蛋白質(zhì)網(wǎng)絡(luò)的構(gòu)建、分析及應(yīng)用研究進(jìn)展[J]. 計算機(jī)研究與發(fā)展, 2017, 54(6): 1281-1299)

[12] Pavlidis P, Weston J, Cai J, et al. Learning gene functional classifications from multiple data types[J]. Journal of Computational Biology, 2002, 9(2): 401-411

[13] Lanckriet G R, De B T, Cristianini N, et al. A statistical framework for genomic data fusion[J]. Bioinformatics, 2004, 20(16): 2626-2635

[14] Yu Guoxian, Domeniconi C, Rangwala H, et al. Transductive multi-label ensemble classification for protein function prediction[C] //Proc of the 18th ACM SIGKDD Int Conf on Knowledge Discovery and Data Mining. New York: ACM, 2012: 1077-1085

[15] Sokolov A, Funk C, Graim K, et al. Combining hetero-geneous data sources for accurate functional annotation of proteins[J]. BMC Bioinformatics, 2013, 14(S3): S10

[16] Yu Guoxian, Fu Guangyuan, Wang Jun, et al. Predicting protein function via semantic integration of multiple networks[J]. IEEE/ACM Trans on Computational Biology & Bioinformatics, 2016, 13(2): 220-232

[17] Zitnik M, Zupan B. Data fusion by matrix factorization[J]. IEEE Trans on Pattern Analysis & Machine Intelligence, 2013, 37(1): 41-53

[18] Cho H, Berger B, Peng J. Compact integration of multi-network topology for functional analysis of genes[J]. Cell Systems, 2016, 3(6): 540-548

[19] Yu Guoxian, Rangwala H, Domeniconi C, et al. Predicting protein function using multiple kernels[J]. IEEE/ACM Trans on Computational Biology and Bioinformatics, 2015, 12(1): 219-233

[20] Yu Guoxian, Zhu Hailong, Domeniconi C, et al. Integrating multiple networks for protein function prediction[J]. BMC Systems Biology, 2015, 9(S1): Article No S3

[21] G?nen M, Ethem A. Multiple kernel learning algorithms[J]. Journal of Machine Learning Research, 2011, 12(7): 2211-2268

[22] Tsuda K, Shin H J, Sch?lkopf B. Fast protein classification with multiple networks[J]. Bioinformatics, 2005, 21(S2): ii59-ii65

[23] Mostafavi S, Ray D, Warde-Farley D, et al. GeneMANIA: A real-time multiple association network integration algorithm for predicting gene function[J]. Genome Biology, 2008, 9(S1): Article No S4

[25] Myers C L, Troyanskaya O G. Context-sensitive data integration and prediction of biological networks[J]. Bioinformatics, 2007, 23(17): 2322-2330

[26] Cesa-Bianchi N, Re M, Valentini G. Synergy of multi-label hierarchical ensembles, data fusion, and cost-sensitive methods for gene functional inference[J]. Machine Learning, 2012, 88(1-2): 209-241

[27] Mostafavi S, Morris Q. Fast integration of heterogeneous data sources for predicting gene function with limited annotation[J]. Bioinformatics, 2010, 26(14): 1759-1765

[28] Mazandu G K, Chimusa E R, Mulder N J. Gene Ontology semantic similarity tools: Survey on features and challenges for biological knowledge discovery[J]. Briefings in Bioinformatics, 2017, 18(5): 886-901

[29] Mistry M, Pavlidis P. Gene Ontology term overlap as a measure of gene functional similarity[J]. BMC Bioinformatics, 2008, 9: Article No 327

[30] Cho H, Berger B, Peng J. Diffusion component analysis: Unraveling functional topology in biological networks [C] //Proc of the 19th Annual Int Conf on Research in Computational Molecular Biology. Berlin: Springer, 2015: 62-64

[31] Gao Yukai, Wang Xinhua, Guo Lei, et al. Learning to recommend with collaborative matrix factorization for new users[J]. Journal of Computer Research and Development, 2017, 54(8): 1813-1823 (in Chinese)(高玉凱, 王新華, 郭磊, 等. 一種基于協(xié)同矩陣分解的用戶冷啟動推薦算法[J]. 計算機(jī)研究與發(fā)展, 2017, 54(8): 1813-1823)

[32] Shen Guowei, Yang Wu, Wang Wei, et al. Large-scale heterogeneous data co-clustering based on nonnegative matrix factorization[J]. Journal of Computer Research and Development, 2016, 53(2): 459-466 (in Chinese)(申國偉, 楊武, 王巍, 等. 基于非負(fù)矩陣分解的大規(guī)模異構(gòu)數(shù)據(jù)聯(lián)合聚類[J]. 計算機(jī)研究與發(fā)展, 2016, 53(2): 459-466)

[33] Lee D D, Seung H S. Algorithms for non-negative matrix factorization[C] //Proc of the 13th Annual Conf on Neural Information Processing Systems. Cambridge, MA: MIT Press, 2000: 535-541

[34] King O D, Foulger R E, Dwight S S, et al. Predicting gene function from patterns of annotation[J]. Genome Research, 2003, 13: 896-904

[35] Yu Guoxian, Zhu Hailong, Domeniconi C. Predicting protein function using incomplete hierarchical labels[J]. BMC Bioinformatics, 2015, 16: Article No 1

[36] Yu Guoxian, Zhu Hailong, Domeniconi C, et al. Predicting protein function via downward random walks on a gene ontology[J]. BMC Bioinformatics, 2015, 16: Article No 271

[37] Done B, Khatri P, Done A, et al. Predicting novel Human gene ontology annotations using semantic analysis[J]. IEEE/ACM Trans on Computational Biology & Bioinformatics, 2010, 7(1): 91-99

[38] Wang Sheng, Cho H, Zhai Chengxiang, et al. Exploiting ontology graph for predicting sparsely annotated gene function[J]. Bioinformatics, 2015, 31(12): i357-i364

[39] Yu Guangxian, Fu Guangyuan, Wang Jun, et al. Predicting irrelevant functions of proteins based on dimensionality reduction[J]. Science Sinica Informationis, 2017, 47(10): 1349-1368 (in Chinese) (余國先, 傅廣垣, 王峻, 等. 基于降維的蛋白質(zhì)不相關(guān)功能預(yù)測[J]. 中國科學(xué): 信息科學(xué), 2017, 47(10): 1349-1368)

[40] Wang Yuxiong, Zhang Yujin. Nonnegative matrix factorization: A comprehensive review[J]. IEEE Trans on Knowledge and Data Engineering, 2013, 25(6): 1336-1353

[41] Khatri P, Done B, Rao A, et al. A semantic analysis of the annotations of the human genome[J]. Bioinformatics, 2005, 21(16): 3416-3421

[42] Yu Guoxian, Rangwala H, Domeniconi C, et al. Protein function prediction with incomplete annotations[J]. IEEE/ACM Trans on Computational Biology & Bioinformatics, 2014, 11(3): 579-591

[43] Zhang Xiaofei, Dai Daoqing. A framework for incorporating functional interrelationships into protein function prediction algorithms[J]. IEEE/ACM Trans on Computational Biology & Bioinformatics, 2012, 9(3): 740-753

[44] Lu Chang, Wang Jun, Zhang Zili, et al. NoisyGOA: Noisy go annotations prediction using taxonomic and semantic similarity[J]. Computational Biology and Chemistry, 2016, 65: 203-211

[45] Fu Guangyuan, Yu Guoxian, Wang Jun, et al. Protein function prediction using positive and negative examples[J]. Journal of Computer Research and Development, 2016, 53(8): 1753-1765 (in Chinese)(傅廣垣, 余國先, 王峻, 等. 基于正負(fù)樣例的蛋白質(zhì)功能預(yù)測[J]. 計算機(jī)研究與發(fā)展, 2016, 53(8): 1753-1765)

[46] Mikhail B, Niyogi P, Sindhwani V. Manifold regularization: A geometric framework for learning from labeled and unlabeled examples[J]. Journal of Machine Learning Research, 2006, 7(11): 2399-2434

[47] Dempster A P, Laird N M, Rubin D B. Maximum likelihood from incomplete data via the EM algorithm[J]. Journal of the Royal Statistical Society, Series B (methodological), 1977, 39(1): 1-38

[48] Boyd S, Vandenberghe L. Convex Optimization[M]. Cambridge, UK: Cambridge University Press, 2004

[49] Valentini, G. True path rule hierarchical ensembles for genome-wide gene function prediction[J]. IEEE/ACM Trans on Computational Biology and Bioinformatics, 2011, 8(3): 832-847

[50] Angermueller C, P?rnamaa T, Parts L, et al. Deep learning for computational biology[J]. Molecular Systems Biology, 2016, 12(7): Article No 878

[51] Ioffe S, Szegedy C. Batch normalization: Accelerating deep network training by reducing internal covariate shift[C] //Proc of the 32nd Int Conf on Machine Learning. Cambridge, MA: MIT Press, 2015: 448-456

[52] Wilcoxon F. Individual comparisons by ranking methods[J]. Biometric Bulletin, 1945, 1(6): 80-83

[53] Demsar J. Statistical comparisons of classifiers over multiple data sets[J]. Journal of Machine Learning Research, 2006, 7(1): 1-30

ProteinFunctionPredictionBasedonMultipleNetworksCollaborativeMatrixFactorization

Yu Guoxian1, Wang Keyao1, Fu Guangyuan1, Wang Jun1, and Zeng An2

1(CollegeofComputerandInformationScience,SouthwestUniversity,Chongqing400715)2(SchoolofComputers,GuangdongUniversityofTechnology,Guangzhou510006)

Accurately and automatically predicting biological functions of proteins is one of the fundamental tasks in bioinformatics, and it is also one of the key applications of artificial intelligence in biological data analysis. The wide application of high throughput technologies produces various functional association networks of molecules. Integrating these networks contributes to more comprehensive view for understanding the functional mechanism of proteins and to improve the performance of protein function prediction. However, existing network integration based solutions cannot apply to a large number of functional labels, ignore the correlation between labels, or cannot differentially integrate multiple networks. This paper proposes a protein function prediction approach based on multiple networks collaborative matrix factorization (ProCMF). To explore the latent relationship between proteins and between labels, ProCMF firstly applies nonnegative matrix factorization to factorize the protein-label association matrix into two low-rank matrices. To employ the correlation between labels and to guide the collaborative factorization with proteomic data, it defines two smoothness terms on these two low-rank matrices. To differentially integrate these networks, ProCMF sets different weights to them. In the end, ProCMF combines these goals into a unified objective function and introduces an alternative optimization technique to jointly optimize the low-rank matrices and weights. Experimental results on three model species (yeast, human and mouse) with multiple functional networks show that ProCMF outperforms other related competitive methods. ProCMF can effectively and efficiently handle massive labels and differentially integrate multiple networks.

protein function prediction; functional association network; network integration; nonnegative matrix factorization; collaborative factorization

2017-09-01；

2017-10-03

國家自然科學(xué)基金項目(61402378,61772143);重慶市自然科學(xué)基金項目(cstc2016jcyjA0351)

This work was supported by the National Natural Science Foundation of China (61402378, 61772143) and the Natural Science Foundation of Chongqing (cstc2016jcyjA0351)

王峻(kingjun@swu.edu.cn)

TP391

YuGuoxian, born in 1985. Associate professor. Member of CCF. His main research interests include machine learning, data mining and bioinformatics.

WangKeyao, born in 1994. Master candidate. Student member of CCF. His main research interests include machine learning and bioinformatics (keyaowang@email.swu.edu.cn).

FuGuangyuan, born in 1993. Master. Student member of CCF. His main research interests include machine learning and bioinformatics (fugy@email.swu.edu.cn).

WangJun, born in 1983. Associate professor. Member of CCF. Her main research interests include data mining and bioinformatics.

ZengAn, born in 1978. Professor. Member of CCF. Her main research interests include artificial intelligence, machinelearning and big data (zengan2010@126.com).

基于多網(wǎng)絡(luò)數(shù)據(jù)協(xié)同矩陣分解預(yù)測蛋白質(zhì)功能

1 相關(guān)工作

2 協(xié)同矩陣分解預(yù)測蛋白質(zhì)功能

2.1 基于矩陣分解的蛋白質(zhì)功能預(yù)測

2.2 結(jié)合功能標(biāo)簽關(guān)聯(lián)信息和多個功能網(wǎng)絡(luò)數(shù)據(jù)

2.3 統(tǒng)一的目標(biāo)方程與優(yōu)化求解

3 實 驗

3.1 數(shù)據(jù)集

3.2 對比方法與評價度量

3.3 蛋白質(zhì)功能預(yù)測

3.4 參數(shù)敏感性分析

3.5 運行時間對比分析

4 結(jié)束語

3 實驗