摘要:基于蛋白質(zhì)的氨基酸組成,采用三種幾何距離,即Euclidean 距離、Minkowski 距離和廣義距離,利用最近鄰算法對蛋白質(zhì)亞細(xì)胞定位進(jìn)行預(yù)測。結(jié)果表明該方法新穎、簡單、有效。
關(guān)鍵詞:生物信息學(xué); 蛋白質(zhì)亞細(xì)胞定位; 氨基酸組成; 最近鄰算法
中圖分類號:TP392; Q617文獻(xiàn)標(biāo)志碼:A
文章編號:1001-3695(2007)11-0030-02
蛋白質(zhì)的一個重要特征是不同的蛋白質(zhì)通常分布在細(xì)胞的不同部位,它們的功能與其空間定位密切相關(guān)。要充分了解蛋白質(zhì)的功能,就需要知道蛋白質(zhì)所處的空間位置。另外,許多蛋白質(zhì)在細(xì)胞中不是靜止不動的,它們在細(xì)胞中常常通過在不同亞細(xì)胞環(huán)境中的運動發(fā)揮作用。例如細(xì)胞周期的調(diào)控過程、細(xì)胞的信號轉(zhuǎn)導(dǎo)和轉(zhuǎn)錄調(diào)控,均依賴于蛋白質(zhì)空間位置的變化和運動。因而,蛋白質(zhì)的亞細(xì)胞定位成為細(xì)胞生物學(xué)和分子生物學(xué)研究的一個重要問題。蛋白質(zhì)的一級序列決定著蛋白質(zhì)的空間結(jié)構(gòu),而蛋白質(zhì)的結(jié)構(gòu)與蛋白質(zhì)的功能緊密相關(guān)。因而蛋白質(zhì)的一級序列必然包含蛋白質(zhì)的功能信息。針對目前新測的蛋白質(zhì)序列的飛速增長,利用生物信息學(xué)方法從蛋白質(zhì)的一級結(jié)構(gòu)預(yù)測其亞細(xì)胞定位顯得越來越重要。
Nakashima等人[1]在1994年,首先提出了用蛋白質(zhì)的氨基酸組成來區(qū)分細(xì)胞內(nèi)蛋白質(zhì)和細(xì)胞外蛋白質(zhì)的算法。1997年Cedano 等人[2]將蛋白質(zhì)進(jìn)一步分為五類,即細(xì)胞外蛋白、細(xì)胞內(nèi)蛋白、細(xì)胞核蛋白、膜整合蛋白和定位膜蛋白,并基于蛋白質(zhì)氨基酸組成和Mahalanobis 距離方法預(yù)測蛋白質(zhì)的亞細(xì)胞定位。此后,基于蛋白質(zhì)氨基酸組成,神經(jīng)網(wǎng)絡(luò)方法(neuro networks, NN)[3,4]、組分耦聯(lián)算法(component-coupled algorithm,或稱為covariant discrimination algorithm)[5]、支持向量機(jī)(support vector machine, SVM)方法[6]等被用來進(jìn)行蛋白質(zhì)亞細(xì)胞定位預(yù)測。這些方法中,支持向量機(jī)方法整體預(yù)測效果最好,但不同的方法對不同位置的蛋白質(zhì)靈敏程度不同。人們在利用氨基酸組成預(yù)測蛋白質(zhì)亞細(xì)胞定位的同時,也考慮是否可以利用更多的信息以提高預(yù)測準(zhǔn)確率。例如Markov模型 (Markov model, MM)方法[7]考慮了序列的順序信息、Zp參數(shù)[8]和偽氨基酸組成[9]考慮了氨基酸的物理化學(xué)性質(zhì),但氨基酸組成仍然是基本的特征參數(shù)。蛋白質(zhì)亞細(xì)胞定位也可以通過尋找蛋白質(zhì)序列N-末端的信號肽來預(yù)測 [10~12],但并非所有的蛋白質(zhì)都具有信號肽或者具有完整的信號肽。這種方法也具有一定的局限性。所以探索新的、簡單有效的亞細(xì)胞定位方法仍然具有重要意義。
1方法
本文基于蛋白質(zhì)的氨基酸組成進(jìn)行蛋白質(zhì)亞細(xì)胞定位預(yù)測。若用A代表一條蛋白質(zhì)的氨基酸序列,其氨基酸組成向量定義為(p1,p2,…,p20)。其中:pi=ni/l;l為序列的長度;ni為該條序列中第i個氨基酸所含的個數(shù)。預(yù)測時,首先確定數(shù)據(jù)集中各條蛋白質(zhì)序列的氨基酸組成向量,用這一向量表示該條蛋白質(zhì)序列。
2數(shù)據(jù)集
Reinhardt等人[3]對SwissProt數(shù)據(jù)庫中具有亞細(xì)胞位置解釋的15 775個蛋白質(zhì)進(jìn)行篩選,除去了其中不完整、解釋不明確的蛋白質(zhì),并且排除了膜蛋白和植物蛋白,得到了兩個數(shù)據(jù)集。神經(jīng)網(wǎng)絡(luò)[3]、支持向量機(jī)[6]和Markov模型[7]等方法均采用這兩個數(shù)據(jù)集,為便于比較,本文也采用這兩個數(shù)據(jù)集。一個是真核生物蛋白質(zhì)數(shù)據(jù)集,其中包含684個細(xì)胞質(zhì)蛋白(cytoplasmic proteins)、325個細(xì)胞外蛋白(extracellular proteins)、1 097個細(xì)胞核蛋白(nuclear proteins)和321個線粒體蛋白(mitochondrial proteins);另一個是原核生物蛋白質(zhì)數(shù)據(jù)集,其中包含688個細(xì)胞質(zhì)蛋白、107個細(xì)胞外蛋白和202個細(xì)胞周質(zhì)蛋白(periplasmic proteins)。
3結(jié)果和討論
首先對三種距離利用最近鄰法則在上面所述的數(shù)據(jù)集上,分別對原核生物三種位置上的蛋白質(zhì)和真核生物四種位置上的蛋白質(zhì)進(jìn)行分類。采用Jackknife檢驗,分類指標(biāo)為各類預(yù)測準(zhǔn)確率和總預(yù)測準(zhǔn)確率。
可以看到,基于幾何距離的最近鄰算法,無論是真核生物還是原核生物、單純利用氨基酸組成,這幾種方法都基本能夠區(qū)分細(xì)胞內(nèi)蛋白和細(xì)胞外蛋白。而細(xì)胞內(nèi)不同部分的蛋白質(zhì)的氨基酸組成同樣與其定位有很強(qiáng)的相關(guān)關(guān)系。在利用這幾種方法進(jìn)行的兩類預(yù)測中,各種蛋白質(zhì)的預(yù)測精度都有了不同程度的提高。另外,真核細(xì)胞蛋白的兩類預(yù)測精度比原核細(xì)胞蛋白的兩類預(yù)測精度提高更為顯著。
4結(jié)束語
研究亞細(xì)胞定位對于研究蛋白質(zhì)功能、了解疾病機(jī)理和發(fā)展新藥物都具有重要作用。本文用蛋白質(zhì)氨基酸組成描述蛋白質(zhì)序列,基于三種簡單的幾何距離,利用最近鄰算法對真核生物和原核生物從各個層次進(jìn)行了蛋白質(zhì)亞細(xì)胞定位預(yù)測,并且與其他預(yù)測方法進(jìn)行了比較。本文方法簡單、意義明確、運算速度快,不像SVM方法那樣復(fù)雜,需要人為地選擇參數(shù),而且求解大規(guī)模問題比較困難,需要專門的算法和軟件。從預(yù)測效果看,本文方法并不亞于其他基于氨基酸組成的預(yù)測方法,因而本文方法可以作為蛋白質(zhì)亞細(xì)胞定位預(yù)測的有效工具。除了氨基酸組成之外,還有許多描述蛋白質(zhì)序列的方法,可以嘗試?yán)帽疚牡姆椒ㄟM(jìn)行蛋白質(zhì)亞細(xì)胞定位預(yù)測;也可以將本文方法與其他方法相結(jié)合,在決策層加以融合進(jìn)行預(yù)測,結(jié)果可能會更好。
參考文獻(xiàn):
[1]NAKASHIMA H, NISHIKAWA K. Discrimination of intracellular and extracellular proteins using amino acid composition and residue-pair frequencies[J]. Journal of Molecular Biology, 1994,238(1):54-61.
[2]CEDANO J, ALOY P, PEREZ-PONS J A, et al. Relation between amino acid composition and cellular location of proteins[J]. Journal of Molecular Biology, 1997,266(3):594-600.
[3]REINHARDT A, HUBBARD T. Using neural networks for prediction of the subcellular location of proteins[J]. Nucleaic Acid Research, 1998,26(9):2230-2236.
[4]CAI Yu-dong, LIU Xiao-jun, CHOU K C. Artificial neural network model for predicting protein subcellular location[J].Computers and Chemistry, 2002,26(2):179-182.
[5]CHOU K C, ELROD D. Protein subcellular location prediction[J]. Protein Engineering, 1999,12(2):107-118.
[6]HUA Su-jun, SUN Zhi-rong. Support vector machine approach for protein subcellular localization prediction[J]. Bioinformatics, 2001,17(8):721-728.
[7]YUAN Z. Prediction of protein subcellular locations using Markov chain models[J]. FEBS Letters, 1999,451(1):23-26.
[8]FENG Z P, ZHANG C T. Prediction of the subcellular location of prokaryotic proteins based on the hydrophobic index of the amino acids[J]. International Journal of Biological Macromolecules, 2001,28(3):255-261.
[9]CHOU K C.Prediction of protein subcellular attributes using pseudoa-mino acid composition[J]. Proteins:Structure, Function, and Genetics, 2001,43(3):246-255.
[10]NAKAI K, KANEHISA M. A knowledge base for predicting protein localization sites in eukaryotic cells[J]. Genomics, 1992,14(4):897-911.
[11]NIELSEN H, BRUNAK S,Von HEIJNE G. Machine learning approaches for the prediction of signal peptides and other protein sorting signals[J]. Protein Engineering, 1999,12(1):3-9.
[12]EMANUELSSON O, NIELSEN H, BRUNAK S, et al. Predicting subcellular localization of proteins based on their N-terminal amino acid sequence[J]. Journal of Molecular Biology, 2000,300(4):1005-1016.
[13]ANDRADE M A, O’DONOGHUE S I, ROST B. Adaptation of protein surface to subcellular location[J]. Journal of Molecular Bio ̄logy, 1998,276(2):517-525.
“本文中所涉及到的圖表、注解、公式等內(nèi)容請以PDF格式閱讀原文”