崔浩
(上海海事大學信息工程學院,上海 201306)
酶是一種可以加速化學反應的分子。大多數的酶是蛋白質并且參與幾乎所有的代謝過程,以創造出足夠的能量來維持生命。為了標記酶,每個酶會分配一個酶委員會編號(Enzyme Commission(EC)number),簡稱EC編號。EC編號由四個數字組成,例如1.1.1.1。詳細地說,前三個數字代表酶可以參與的化學反應類型,最后一個數字表示底物專一性或編號[1]。到目前為止,EC編號已被用在多個公共數據庫。例如,在京都基因與基因組百科全書(KEGG)[2]中,在代謝途徑中的化學反應被至少一個EC編號打上標簽,用來表示哪種酶可以催化這種反應。
識別一個所給酶的EC編號對揭示其功能是相當重要的,研究人員可以進一步推斷出這個酶可以參與哪種類型的反應。然而,通過傳統的實驗來獲取所給酶的EC編號是耗時和昂貴的。建立計算方法來推斷酶的EC編號是一種可替代的方法,這樣可以充分利用幾個已知的信息來給出有用的提示。到目前為止,在這方面有人做出了一些努力。然而,他們中的大多數都集中在預測酶所屬EC編號的前兩個數字,甚至是第一個數字。在這方面的首次研究是由Jensen等人提出的[3],他們使用各種序列相關物理化學特征來表示酶以及人工神經元網絡作為預測引擎。此后,許多在這方面的預測方法相繼被提出。在這些方法中,酶總是由幾種類型的特征來表示,如氨基酸組成[4]、蛋白質功能域組成[5]、偽氨基酸組成[6,7]、蛋白質結構[8]、基因本體[9],以及采用經典的機器學習算法,如人工神經元網絡[3]、支持向量機[10]、貝葉斯[11]、最近鄰算法[12],來建立預測模型。雖然這些方法能夠產生良好的性能,但是它們不能準確地判定酶的整個EC編號。此外,以前的方法只考慮了酶的信息,從而引起了方法的局限性。
在本文中,我們構造了一種新的分類器來識別酶的EC編號。為了訓練這個分類器,所有的酶以及它們的EC編號都是從ENZYME數據庫中檢索出來的[13]。不同于以前把酶分為幾類的方法,在本文中是把一個酶和它的所屬EC編號配對為一個正樣本。負樣本隨機被產生并且產生的個數和正樣本的個數一樣多。然后,酶的EC編號的確定問題被轉換成一個二分類問題,即,測定一個酶和一個EC編號是否可以配對。從蛋白質相互作用數據庫STRING(https://string-db.org/,version 10.0)里獲得的蛋白質-蛋白質相互作用被用來測量任何兩個酶之間的相似性[14],并提出了一種新的方案來評估兩個EC編號之間的關系。通過集成上述兩種類型的關系,可以評估兩個樣本之間的關系,樣本之間的關系被采用作為基于支持向量機的分類器里的核函數。在五個不同的數據集上應用提出的基于5-折交叉驗證的分類器,得到的整體準確率為0.810,馬修斯相關性系數為0.629,F1-measure為0.791。相信所提出的方法是一個識別酶的EC編號的有用工具。
酶和酶的EC編號是從ENZYME數據庫的站點(http://enzyme.expasy.org/,2016年2月訪問)檢索得來的[13]。在這里,我們只考慮了人類的酶和它們對應的EC編號。為了構建一個二分類器,把一個EC編號C分配給酶E,那么它們被配對為一個樣本,記為S=(E,C)。因為我們使用了蛋白質-蛋白質相互作用來評估酶之間的相似性,所以沒有蛋白質-蛋白質相互作用信息的酶對會被丟棄,從而產生了1,480對酶和EC編號。這些對在本研究中被稱為正樣本。
為了評估二分類器的性能,負樣本是必要的。在這里,我們隨機配對酶和EC編號作為負樣本。但是,它們不能是正樣本。盡管一些負樣本可能是實際的酶和EC編號對,但我們仍然將它們用作負樣本,因為這種類型的樣本非常少,并且它們不會對預測結果產生很大影響。為了充分評估所提出的分類器,我們隨機產生了5組負樣本,每組包含與正樣本個數一樣多的樣本。每組負樣本和正樣本都組成一個數據集,其他組負樣本也一樣和正樣本組成數據集,即我們構建了五個數據集來評估分類器,分別記為D1,D2,D3,D4,D5。
蛋白質-蛋白質相互作用是研究蛋白質相關問題的有用信息[15,16]。幾項研究表明,可以相互作用的蛋白質更可能共有共同的功能。如第1節所述,大多數酶都是蛋白質。使用蛋白質-蛋白質相互作用來評估酶之間的聯系是可行的。
在本文中,我們使用了在STRING(https://stringdb.org/,版本10.0)中報告的蛋白質-蛋白質相互作用,這是一個集成了被驗證和預測的蛋白質-蛋白質相互作用的公共數據庫,這些相互作用源自(I)基因組上下文預測;(II)高通量實驗;(III)保守性共表達;(四)自動文本挖掘;(五)數據庫先驗知識。因此,他們可以廣泛地評估蛋白質之間的關系,并已應用于研究許多生物問題[15,17]。我們從文件“9606.protein.links.v10.txt.gz”中提取了人類蛋白質-蛋白質相互作用。每個相互作用包含兩個蛋白質和一個分值,蛋白質以Ensembl IDs表示,分值表示相互作用的強度。為了公式化表達,我們記蛋白質 p1和 p2之間的一個相互作用分值為S(p1,p2)。因為相互作用分值的范圍在150到999之間,所以我們評估了酶E1和E2之間的相似性為:

如第1節所述,以前的大多數方法只考慮了構建分類器的酶的信息。在這里,我們給出了一個新的方案來評估兩個EC編號之間的關系,這將進一步用于構建分類器。
對于任何EC編號C=W.X.Y.Z,它被轉換為由四個元素組成的集合,公式化為S(C)={W,W.X,W.X.Y,W.X.Y.Z}。然后,給定兩個EC編號,比如說C1和C2,它們的相似性可以被轉化為兩個集合S(C1)和S(C2)之間的關系,由公式表達為:

在1.2節和1.3節中,評估了酶之間的相似性(參見方程1)和EC編號之間的相似性(參見方程(2))。顯然,通過集成它們,可以評估任意兩個樣本(酶和EC編號對)S1=(E1,C1)和S2=(E2,C2)之間的相似性,相似性被定義為:

很容易看出,Q(S1,S2)值的范圍在0到1之間。Q(S1,S2)的值越高,意味著S1和S2的相似性越高。
通過使用方程(3)作為核函數,可以構建基于支持向量機的分類器來識別酶的EC編號。假設Dt是一個包含m個樣本的訓練集,比如說S1,S2,…,Sm,對于每個樣本Si(1 ≤i≤m ),它可以通過其與Dt里所有樣本的相似性來表示,其他的樣本也是如此,即:

然后,采用經典的支持向量機算法并對數據集Dt進行訓練,從而生成分類器F.對于任何測試樣本S,可以表示為:

測試樣本的類別要么為正樣本要么為負樣本,能夠由分類器F來預測。
本文使用了著名的開源機器學習以及數據挖掘軟件Weka,Weka軟件收集了一套用于數據挖掘任務的機器學習算法。其中一個名為“SMO”的工具實現了一種支持向量機。“SMO”工具使用了John Platt的連續最小優化算法優化支持向量機的訓練過程。為了快速實現基于支持向量機的分類器,本文采用了“SMO”工具,并使用其默認參數執行。
本文研究的是二元分類問題,所以由分類器產生的預測結果可以統計為一個2×2的混淆矩陣M,公式化表達為:

其中矩陣包含4個值:TP代表將正樣本預測為正樣本的數量,FN代表將正樣本預測為負樣本的數量,FP代表將負樣本預測為正樣本的數量,TN代表將負樣本預測為負樣本的數量。
基于混淆矩陣M中的四個值,我們還計算出其他對分類模型的評價指標。以下總共計算了7個指標,分別為靈敏度(SN)、特異度(SP)、準確率(ACC)、馬修斯相關性系數(MCC)、精確率(Precision)、召回率(Re?call)、F1-measure,計算公式分別為:

所有上述指標均用于評估本研究中提及的任何分類器的性能,其中準確率,馬修斯相關性系數和F1-measure是更重要的指標,因為它們可以測量分類器整體的性能,其他評價指標(靈敏度、特異度、精確率、召回率)也會給出,以供讀者參考。從公式中不難看出,靈敏度和召回率的公式是一樣的,所以在文章中評價分類器性能的時候,我們只需展示靈敏度的結果就可以了。
在本文中,我們提出了基于支持向量機的分類器識別酶的EC編號。整個分類器的構造和評估的流程如圖1所示:
為了表明基于支持向量機分類器的有效性,本文還使用了其他三種經典的機器學習算法:貝葉斯網絡,JRip和隨機森林來構建分類器,通過比較結果來說明基于支持向量機分類器的有效性。為了方便起見,我們采用了 WEKA 中的“SMO”、“BayesNet”、“Jrip”和“RandomForest”工具分別實現這四個分類器,工具都使用其默認參數執行,測試流程都按照圖1所示進行,只有分類器不同而已。
本小節給出了所提出的四種分類器的測試結果。如第2.1節所述,構建了五個數據集D1,D2,D3,D4,D5。對于每一個數據集,執行基于支持向量機的分類器,并通過5-折交叉驗證來評估其性能。預測結果由靈敏度、特異度、準確率、馬修斯相關性系數,精確率和F1-measure來表示,如表1所示:

圖1 分類器的構造和評估

表1 基于支持向量機的分類器在5個數據集上的性能
對于第2.1節中提到的五個數據集,它們都用于測試基于貝葉斯網絡,JRip和隨機森林的分類器的性能,通過5-折交叉驗證來進行評估。預測結果還是由靈敏度、特異度、準確率、馬修斯相關性系數,精確率和F1-measure來表示,如表2~4所示:

表2 基于貝葉斯網絡的分類器在5個數據集上的性能

表3 基于JRip的分類器在5個數據集上的性能

表4 基于隨機森林的分類器在5個數據集上的性能
表1~4不容易直觀地看出每個分類器每個評價指標的值的分布規律,也不能直觀地做出分類器之間的比較,所以我們根據表中的數據畫出了四張箱形圖,如圖2所示。
從圖2中我們可以看出,基于支持向量機的分類器提供了最好的指標。對于靈敏度而言,基于隨機森林的分類器產生了最高的值,但是它卻提供了最低的特異度;對于特異度而言,基于貝葉斯網絡的分類器產生了最高的值,但是它卻提供了最低的靈敏度;證明它們不如基于支持向量機的分類器。這也可以通過觀察這三個分類器的準確率,馬修斯相關性系數和F1-mea?sure來證明。
為了進一步比較這三個分類器和基于支持向量機分類器的性能,在表中列出了每個分類器產生的每個指標的平均值,$標出每列平均值的最大值,如表5所示:

圖2 基于四種算法的分類器的評估指標結果的箱形圖

表5 基于四種算法的分類器的性能的評估指標平均值結果比較
可以看出,平均值的比較結果和圖2的比較結果趨勢是一樣的,同圖2解釋,這里就不再贅述。稍微值得一提的是基于支持向量機的分類器的靈敏度,特異度和精確率分別為0.722,0.897和0.875,表明了該分類器為正樣本和負樣本的預測提供了很高的準確率,并且在預測為正的樣本中,大多數是正確的。對于能夠評估該分類器整體性能的準確率,馬修斯相關性系數和 F1-measure,它們的值分別是 0.810,0.629和0.791,這表明該分類器在識別酶的EC編號方面有著良好的性能。為了進一步表明提出的基于支持向量機的分類器比其他三個分類器優越得多,由基于支持向量機的分類器產生的準確率(馬修斯相關性系數和F1-measure)比由其他分類器獲得的準確率(馬修斯相關性系數和 F1-measure)至少高出 0.05(0.11,0.03)。
此外,每個分類器產生的每個指標的標準差也列了一個表格,標準差是由表1~4中的數據計算所得,$標出每列標準差的最小值,如表6所示:

表6 基于四種算法的分類器的性能的評估指標標準差結果比較
從表中可以觀察到,基于支持向量機分類器的所有指標的標準差都是最小的且都小于0.01,這意味著盡管負樣本在五個數據集中不同,但是該分類器的性能是相當穩定的。所有的這些證據都意味著基于支持向量機的分類器比其他三個分類器都要強大。
本文除了通過比較基于四種算法的分類器說明支持向量機的算法更具優勢外,還在此基礎上改善基于支持向量分類器的預測準確度,那就是調整2.3節中計算EC編號之間相似性的公式2中的參數α,我們嘗試過{0,0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1,1.5,2,2.5},分類器性能評價6個指標具體數據就不在這里用表格詳細展示了,我們挑出了具有代表性的評價指標馬修斯相關性系數MCC來展示各參數在2.1節中提到的5個數據集上的結果,如圖3所示:
從圖中的MCC平均值可以看出參數α越小,MCC平均值越大,說明當參數α為0時,預測的準確率相比之下最高。5個不同數據集在參數相同的情況下MCC值差異很小,說明即使負樣本不同,也不會影響到分類器的性能。還有一個很明顯的現象,那就是參數α從0到1時MCC值是緩慢遞減的,而從α大于1時,MCC值相比之下遞減速度更快。

圖3 馬修斯相關性系數在不同參數下的結果
在本文中,我們建立了一個基于支持向量機的分類器來識別酶的EC編號。然而,識別酶的EC編號是否特殊?這小節將證明所提出的分類器是針對這個問題的,這表明在2.1節中提到的結果是相當可靠的。
我們隨機地生成了1,480個酶和EC編號對作為正樣本和1,480個酶和EC編號對作為負樣本,這些對組成了一個數據集。同理,隨機生成其他四個數據集。因此,生成了五個數據集,記為然后,對這些數據集分別執行基于支持向量機,貝葉斯網絡,JRip和隨機森林的分類器,通過5-折交叉驗證進行評估。預測結果也被統計為2.1節中提到的6個指標,為了方便觀察四種分類器在每個評價指標下的每個數據集上的結果比較,我們畫出了6張對應的圖,如圖4所示。
可以觀察到,盡管不同分類器在相同數據集上獲得的靈敏度和特異度差異很大,但是其他四個指標幾乎是在同一級別,特別是對于準確率、馬修斯相關性系數和F1-measure。所有這些都表明了基于支持向量機的分類器在這種情況下并不優于其他三種分類器,這意味著基于支持向量機的分類器可以捕獲D1,D2,D3,D4,D5里正、負樣本中的關鍵差異。此外,通過觀察由基于支持向量機的分類器所產生的準確率和馬修斯相關性系數,它們的值分別都在0.5和0左右,這表明預測結果與通過隨機預測獲得的結果非常相似。這是合理的,因為所有的樣本都是隨機產生的,這意味著它們之間的差異很小。

圖4 四種分類器在每個評價指標下的每個數據集上的結果比較
本文提出了基于支持向量機的二分類器來識別酶的EC編號,與以往僅考慮酶的信息和將酶分成若干類的問題的研究不同,本文將酶和EC編號配對作為樣本,把問題轉化成了二分類問題。為了構建分類器,酶之間的關系與EC編號之間的關系被集成。測試結果表明了基于支持向量機的分類器對于識別酶的EC編號是非常有效的。希望該分類器可以成為一種將EC編號分配給新型酶的新工具,并且分類器的構建思想可以提供新的見解,從而為涉及多層分類的問題建立更好的預測模型。