衛(wèi)博翔,焦 雄
(太原理工大學 生物醫(yī)學工程學院,太原 030024)
蛋白質的功能必須通過其相互作用表現出來。蛋白質相互作用作為細胞生命活動中信號傳遞的基礎,在生長、分化、代謝和凋亡中起著重要作用[1]。但是,現有蛋白質相互作用網絡(PPI)通常不攜帶兩個相互作用蛋白質之間的方向信息,如上游/下游,激活/抑制關系等。這阻礙了對生命活動中的信號傳遞的理解。因此,需要用相互作用蛋白質間的信號傳遞的方向來進一步注釋當前的PPI網絡。
一些計算生物學家試圖從PPI網絡推斷信號傳遞方向。VINAYAGAM et al[2]基于信號通路是從質膜相關受體開始到轉錄因子結束的假設,從蛋白質相互作用網絡中導出最短路徑連接(SPC)特征,訓練預測PPI網絡方向的樸素貝葉斯分類器。GITTER et al[3]提出了一種優(yōu)化方法來求解蛋白質相互作用網絡中最大邊緣方向。該方法不需要其他的信息,僅需要蛋白質相互作用網絡中的拓撲信息,但是存在計算強度大的缺點。這種基于PPI網絡拓撲的方法雖然簡單直觀,但通常沒有利用KEGG和NetPath中提供的經由實驗驗證的蛋白質相互作用間的上游/下游信息,因此容易產生錯誤的信號蛋白通路和信號流方向。劉偉等[4]首先從兩個相互作用的蛋白質之間的方向信息中歸納得到兩個相互作用蛋白質的兩個結構域之間的方向概率;然后提出了函數F來預測任何結構域對的方向,并且進一步提出了參數PIDS來預測任何相互作用蛋白質對之間信號傳遞的方向。但是僅憑兩個結構域的方向信息尚不足以確定兩個蛋白質之間的作用方向,需要考慮其他的輔助信息。梅素玉等[5]考慮到蛋白質相互作用過程中結構域的非線性組合,提取結構域特征訓練一個SVM支持向量機模型,用以預測蛋白質相互作用間的激活/抑制關系。與那些基于PPI網絡拓撲結構的方法相比,這些方法能夠有效地利用實驗驗證的相互作用蛋白質之間的方向信息。
結構域作為蛋白質中具有進化保守性的結構功能單位,是蛋白質相互作用中發(fā)揮著重要作用的結構功能區(qū)域,結構域信息在方向預測中具有重要地位。本文選用結構域理化性質,提出一種基于結構域理化性質[6-7]預測蛋白質相互作用方向的新方法。該方法利用在線分析工具計算蛋白質結構域的理化性質,構成能夠反映相互作用蛋白質對的特征向量,接著利用支持向量機技術分析代表這些相互作用蛋白質對的特征向量,并對其進行分類,由此預測相互作用蛋白質間信號傳遞的方向。本方法將蛋白質結構域自有的理化性質引入相互作用方向預測,不同于之前基于網絡拓撲的方法,為以后的研究提供了一個新思路。
結構域(domain)是具有一定活性的蛋白質超二級結構單元,是蛋白質折疊、設計、進化以及功能實現的基本單位[8]。一個蛋白質平均含有2~3個結構域,平均50個氨基酸構成一個蛋白質的結構域[9]。研究表明,76.4%的蛋白質具有一個或多個結構域,且結構域相互作用的方向性是廣泛存在的,可以用于預測信號網絡中蛋白質相互作用的方向[10]。因此,選取蛋白質結構域理化性質作為樣本特征,并分析現有的具有明確方向的蛋白質相互作用數據,可以為未來進一步預測方向未知的蛋白質相互作用提供有益的幫助。
為了訓練及評估分類器,首先需要用于訓練和分類的標準陽性集和標準陰性集。為方便起見,本文數據集采用文獻[11]中的數據集,該數據集從人、小鼠、大鼠、果蠅和酵母的所有信號網絡中,分離整理出2 803對具有特定方向的蛋白質相互作用,包括激活、抑制、磷酸化、去磷酸化和泛素化,作為標準陽性集。同時,蛋白質復合物中的蛋白質相互作用被認為是不具有方向的,構建649個蛋白質復合物,將其作為標準陰性集。
本文采用Expasy的protparam在線分析工具[12],得到蛋白質結構域的10種理化性質,包括氨基酸數量、分子量、理論等電點、帶負電的殘基總數、帶正電的殘基總數、消光系數、平均消光系數、不穩(wěn)定指數、脂肪族指數和親水性平均值。每一對相互作用蛋白質對的結構域均采用在pfam數據庫[13]中經過注釋的結構域。

由于蛋白質結構域之間結構的差異性,計算所得的理化特性值具有一個很大的跨度,范圍從幾百到幾萬。為了避免支持向量機模型參數被分布范圍較大或較小的數據支配,需要特征矩陣進行歸一化處理。如公式(1)所示,特征矩陣S中的每一行對應一對相互作用蛋白質的結構域理化性質特征值,特征矩陣歸一化方法如式(2)所示。
(1)
(2)
式中:Si,j表示第i對蛋白質的第j個特征值;max(S)和min(S)分別表示所有樣本中第j個特征值的最大值和最小值。
支持向量機(support vector machine,SVM)是一種建立在結構風險最小原理基礎上的機器學習方法,其可以根據樣本信息在學習能力和模型的復雜性之間尋求最佳平衡。在預測蛋白質相互作用方向中,支持向量機有專門針對有限樣本情況,理論上可以得到全局最優(yōu)點;對于不平衡樣本,能夠給定一個置信水平來避免過擬合;對于高通量的蛋白質相互作用數據,能將特征向量映射到高維空間[14],計算效率高,能夠進行快速的訓練。
本文選用SVM分類器利用蛋白質理化性質進行蛋白質相互作用方向預測,具體步驟如下:
1) 構建特征向量。利用1.2小節(jié)的方法分別計算并構建標準陽性集和標準陰性集的相互作用蛋白質對的特征向量。最終得到的數據集樣本為3 452個,其中陽性集2 803個,陰性集649個,每個樣本維數為1 560維。
2) 特征向量的歸一化。由于模型的輸入值需在[0,1]范圍內,使用1.3小節(jié)的方法對特征向量進行歸一化,使特征向量的各個特征值在(0,1)范圍內。
3) 生成訓練集和測試集。將所有的樣本集分為訓練集和測試集,在標準陽性集和標準陰性集中分別隨機選取4/5的數據,將這兩部分組成用于訓練SVM分類器模型的訓練集,其余的標準陽性集數據和標準陰性集數據組成測試集。
4) 利用訓練集對SVM分類器進行訓練,并使用libsvm中的grid函數對模型進行參數優(yōu)化。
為了定量評價基于結構域理化性質預測蛋白質相互作用間信號傳遞方向的方法的性能,使用準確率、精確度、召回率和F-measure 4種指標來評價分類器模型的性能。4種評價指標的含義分別為:
1) 準確率(aaccuracy):正確預測的蛋白質有明確相互作用方向和無明確方向的樣本數在所有樣本中所占比例。
2) 精確度(bprecision):正確預測的蛋白質有明確相互作用方向的樣本占所有被預測為有明確方向樣本的比例。
3) 召回率(crecall):正確預測為蛋白質有明確相互作用方向占所有蛋白質相互作用有方向樣本的比例。
4) F-measure(dF-measure):精確度和召回率調和均值的2倍。
4種評價指標的相關計算公式如下:
(1)
(2)
(3)
(4)
式中:PT表示預測正確的有明確方向的相互作用蛋白質對數目;NT表示預測正確的無明確方向的相互作用蛋白質對數目;PF表示將無明確方向預測為有明確方向的相互作用蛋白質對數目;NF表示將有明確方向預測為無明確方向的相互作用的蛋白質對數目。
此外,由于本文的實驗數據中有明確相互作用方向的樣本數據量遠遠大于無方向的,因此引入了接收者操作特征(receiver operating characteristic,ROC)曲線及其線下面積AUC值用于預測方法的性能評價。AUC值能更加全面地反映分類器的性能,避免由于樣本數量在不同類別上的不均衡所帶來的誤差。
SVM的核函數決定了模型的分類學習能力。目前支持向量機中常用的核函數有:線性核函數、多項式核函數、高斯徑向基核函數和Sigmoid核函數。線性核函數用于線性可分的情況,具有參數少、速度快的優(yōu)點,且特征空間和輸入空間的維數一樣,對于線性可分數據,分類效果理想;多項式核函數可以將輸入空間的低維向量映射到特征空間的高維度,但是由于多項式和函數參數多,當多項式的階數較高時,計算復雜度會阻礙分類;高斯徑向基核函數局部性強,可以將一個樣本映射到更高維的空間,應用范圍廣,對大樣本或小樣本都有較好的分類性能,而且相對于多項式和函數,參數較少;而采用sigmoid核函數,支持向量機實現一種多層神經網絡。所以,為支持向量機模型選擇恰當的核函數會達到事半功倍的效果。
首先對支持向量機的核函數進行選擇,使用4/5的數據集訓練分類器,剩余的1/5數據則作為測試集,測試選擇不同核函數時預測模型的分類性能,實驗結果如表1所示。由于實驗用的數據不均衡,標準陽性集大于標準陰性集。由表1可以看出,當選擇高斯徑向基核函數時,分類器模型的準確率遠高于其他模型,可達86.79%.因此,選擇高斯徑向基核函數,使支持向量機模型預測結果更加精確。

表1 不同核函數SVM預測模型的性能比較Table 1 Performance comparison of SVM prediction models with different kernel functions
進一步,使用libsvm中的grid函數來選擇最佳的高斯徑向基核函數的參數g和SVM的懲罰系數c.核函數參數g的網格搜索范圍設置為g∈[-15,-14,…,14,15],懲罰系數c的網格搜索范圍設置為c∈[-15,-14,…,14,15].如圖1所示,當c=2,g=0.000 122時,該預測模型的準確率最高,為

圖1 c,g參數尋優(yōu)結果Fig.1 c, g parameter optimization results
88.17%.因此SVM預測模型的參數選擇如下:核函數選擇高斯徑向基核函數,高斯徑向基核函數的參數g=0.000 122,懲罰系數c=2.
將上述參數用于支持向量機模型;在測試集上,該模型的預測準確率、精確度、召回率和F-measure分別為88.17%,82.94%,80.12%,81.51%.圖2給出了分類器的ROC曲線,以真陽性率作為縱軸,假陽性率作為橫軸,曲線下的面積越大,即AUC值越大,則分類器的性能越好。圖中曲線下面積AUC值為0.837,說明分類器有很好的分類性能。這些結果表明,基于蛋白質結構域理化性質的支持向量機模型能夠有效預測蛋白質相互作用間的信號傳遞方向。

圖2 預測模型的ROC曲線Fig.2 ROC plot of the predictive model
為了進一步考察各種理化性質對蛋白質相互作用方向預測的影響,依次刪除不同的理化性質,并采取5折交叉驗證的方法,計算預測模型的準確率、均方誤差及平方相關系數,結果見表2。由表可見,刪除不同的理化性質后,預測模型的準確率、均方誤差及平方相關系數均有所下降,所以蛋白質結構域的10種理化性質均有助于蛋白質相互作用方向的預測。

表2 刪除不同理化性質后在測試集上的預測性能比較Table 2 Comparison of prediction performance on test sets after removing different physicochemical properties
為了進一步說明本文方法的可靠性,使用文獻[4]中評價標準,將預測模型與PIDS方法進行對比,結果如表3所示。在準確率和誤報率方面,本文的方法與PIDS方法相比略有不足;但是對于數據的覆蓋度,本文的方法領先于PIDS方法。綜上所述,本文提出的新方法用于預測的蛋白質相互作用間的信號傳遞方向是有效的。

表3 不同方法的預測結果比較Table 3 Prediction results of different methods
筆者提出了一種基于結構域的理化特性來推斷相互作用蛋白質間的信號傳遞方向的新方法。與以往方法相比,本文的方法關注結構域的理化性質,利用經過實驗注釋的具有明確方向的蛋白質相互作用信息,著重于成對相互作用蛋白質之間的信號傳遞方向預測。特別是,該方法可用于預測蛋白質組范圍內蛋白質相互作用間的信號傳遞方向,并可進一步注釋現有的蛋白質相互作用網絡。但是此方法仍具有一定的局限性,本方法涉及到的蛋白質結構域的理化性質信息僅僅只有10種;接下來。可以嘗試更多的蛋白質結構域信息,并使用特征提取方法對特征向量進行選擇,來進一步完善本文提出的預測模型。