糖基化是蛋白質翻譯后的一種非常重要的修飾過程,在生物學過程中扮演重要的角色,它能參與免疫防御,病毒復制,細胞生長等過程。蛋白質的糖基化有N-糖基化、O-糖基化、C-甘露糖糖基化,磷脂酰肌醇(GPI)錨區4種類型。糖蛋白的蛋白鏈與糖鏈通過共價鍵相連蛋的位點稱為糖基化位點,對于給定的蛋白質,表達宿主細胞類型的改變,培養介質成分的變化,以及生產過程中的發酵條件都會使糖基化位點發生改變[1]。O-糖基化作為生物體內重要的生物過程,迄今為止還未發現固定的模式,它的糖基化位點的確切序列片段還不清楚,但通常存在于糖蛋白分子表面絲氨酸(Serine,S)或蘇氨酸(Threonine,T)比較集中且周圍常有脯氨酸(Proline,P)的序列片段中[2-3]。
雖然O-糖基化的研究還沒有確定性的結果,但是許多基于實驗和計算的方法已經被應用。Wilson等發現糖基化位點中脯氨酸在位置-1和+3有一個較高的頻率[4],Elhammer等發現脯氨酸,絲氨酸和蘇氨酸在糖基化位點的所有位點都有很高的頻率[5]。
本文采用稀疏編碼方案,對BP神經網絡結構及其訓練算法進行研究的基礎上,提出了一種改進傳統BP算法缺陷的動量梯度下降算法,運用BP神經網絡對O-糖基化位點進行預測和分析。實驗表明蛋白質序列特征向量的維數(蛋白質編碼序列的長度)是影響預測性能的最主要因素。
本研究的實驗數據來源于糖基化數據庫Uniport(v8.0)[6]。我們隨機挑選了哺乳動物的99個蛋白質序列用于分析。由于O-糖基化是將糖鏈轉移到多肽鏈的絲氨酸、蘇氨酸或羥賴氨酸的羥基的氧原子上,根據對S和T的特異性,將蛋白質序列分成四類,分別注釋為糖基化的絲氨酸、蘇氨酸稱為positive T 和positive S,沒有這種注釋的稱為negative T 和negative S。我們將所有的positive T 和positive S混合在一起稱為positive set(糖基化位點),而negative T 和negative S稱為negative set(非糖基化位點)。從每一類中隨機選取300個樣本用于訓練,隨機選取10個樣本用于測試,實驗樣本數目如表1所示。

表1 樣本數
沒有編碼的氨基酸序列不能被神經網絡識別,預測前必須對原始的氨基酸序列進行編碼。已經研究出許多種氨基酸編碼方案,諸如3字母編碼方案,5字母編碼方案,水療編碼方案等。本文采用稀疏編碼方案,用21位的二進制序列表示一個氨基酸或一個空位,以區分20種氨基酸和空位。每一個被選擇的氨基酸序列被一個窗口分成若干個子序列,S或T位于中間。
假設一個原始的氨基酸序列窗口大小為Ws,編碼后的序列的長度即為21*(Ws-1)。窗口大小和相應的編碼長度如表2所示。可知,隨著窗口Ws的增大,特征向量的維數D也增大,當Ws=51時,D=1050。

表2 窗口大小與編碼長度
糖鏈的生物合成沒有模板可以遵循,同一個糖基化位點可能存在不同的糖鏈形成所謂的微觀不均勻性。我們計算氨基酸序列在每一個位點的直方圖得到位置概率函數(Positional Probability Functions,PPFS)來表示這種不均勻性。窗口大小Ws=7的糖基化位點和非糖基化位點的PPF如圖1如示。由圖可見,糖基化位點中所有的位點不僅脯氨酸,而且絲氨酸,蘇氨酸和丙胺酸(alanine,A)都有一個很高的含量;并且糖基化位點中脯氨酸,絲氨酸,蘇氨酸和丙胺酸的含量高于非糖基化位點的含量。我們也計算脯氨酸,絲氨酸,蘇氨酸和丙胺酸在每一個位點的PPFS,如圖2-圖5所示。很明顯,糖基化位點中脯氨酸在位置-1和+3相對于其他的三種氨基酸有一個較高的含量,此結果與Wilson的研究結果一致。

圖1 位置概率函數(PPFS,Ws =7)
BP(Back Propagation)神經網絡是多層前饋神經網絡最普遍的模型之一,基本結構分為輸入層,隱含層,輸出層三層。BP神經網絡最初使用梯度下降搜索技術,對網絡連接權值進行修正,使網絡實際輸出與期望輸出之間的均方誤差最小[6,7]。設第P個學習樣本,期望輸出為dpj,實際輸出為tpj,網絡輸出與期望輸出間的誤差為:

如果E值超過誤差許可范圍,則需要調整網絡的權值,權值修正公式如下:

其中n為學習速率。
傳統BP網絡訓練時間較長,學習性能不理想,為了提高檢測的性能和速度,本研究運用動量梯度下降反向傳播算法,綜合運用本次訓練和上一次訓練權值的改變修正權值,以平滑訓練收斂曲線的震蕩,提高網絡的收斂性能。
第K次訓練的權值公式為:

其中D(k)表示k時刻的負梯度,η為學習速度,α∈[0,1]是動量因子。
此方法所加入的動量項實質上相當于阻尼項,它能減小學習過程的振蕩趨勢以改善收斂性。
糖基化位點的預測在本研究中是一個二分類問題,我們建立一個三層的BP神經網絡進行預測。根據不同的窗口大小,輸入到網絡的是不同編碼長度的蛋白質序列,輸出為與此序列相關的糖基化信息。輸入層神經元的數目等于特征向量維數,隱含層神經元的數目根據實驗確定,隱含層和輸出層的轉換函數是sigmoid型的激活函數。
實驗中從糖基化位點和非糖基化位點中隨機選取300個樣本序列用于訓練,選取10個測試樣本用于測試。如果蛋白質序列長度太短,對于同一個序列有可能出現糖基化或非糖基化的情況,即使對于訓練數據,網絡也不能有效地學習。因此,我們取Ws=7,11,21,31,41,51進行實驗,訓練時間和預測性能如圖6和圖7所示。由實驗結果可知,當Ws增大時,特征向量的維數隨著增大,預測時間延長,預測性能提高。

圖2 脯氨酸的PPF

圖3 蘇氨酸的PPF

圖4 丙胺酸的PPF

圖5 絲氨酸的PPF

圖6 預測性能

圖7 訓練時間
本文采用稀疏編碼方案,對BP神經網絡結構及其訓練算法進行研究的基礎上,提出了一種改進傳統BP學習算法缺陷的動量梯度下降算法,運用改進的BP神經網絡對O-糖基化位點進行預測和分析。分析表明,預測性能與蛋白質序列特征向量的維數(蛋白質編碼序列的長度)直接相關。當窗口的大小控制在一定范圍時訓練速度快,誤差較小,具有很好的預測性能,隨著窗口大小的增大,網絡變得越來越復雜,訓練時間延長,有可能出現局部優化或過擬合的傾向。因此,我們下一步的目標一方面是探索其他的編碼方式,另一方面是對蛋白質序列進行特征提取,降低神經網絡的復雜度,更好地發揮神經網絡的預測性能。
[1]Hart,G.W.Glycosylation,Curr.Opin [J].Cell Bio,1992,(17):1017-1023.
[2]Hansen,J.E.,Lund,O.,Engelbrecht,J,et al.specificity patterns of UDP-GaINAc:polypeptide N-acetylgalactosam inyltransferase[J],Biochem.1995,(308):801-813.
[3]Julenius,K.,Molgaard,A.,Gupta,R.,et al.Prediction, conservation analysis and structural characterization of mammalian mucin-type O-glycosylation sites [J],Glycobiology.2004,(15):153-164.
[4]Wilson,I.B.H.,Gavel,Y.,and Heijne,G.:Amino acid distributions around O-linked glycosylation sites,Biochem.J.,1991,(275):529-534.
[5]Elhammer,A.P.,Poorman,R.A.,Brown,E.et al.The specificity of UDP-Ga1NAc:polypeptide N-acetylgalactosaminyltrans-ferase as inferred from a database of in vivo substrates and from the in vitro glycosylation of proteins and peptides [J],Biol.Chem.1998,(268):10029-10038.
[6]http://www.ebi.uniprot.
[7]Bishop,C.M.:Neural Network for Pattern Recognition [M].Oxford.Oxford University Press,1995.
[8]閻平凡,張長水.人工神經網絡與模擬進化計算[M].北京清華大學出版社,2004.