摘要:基于氨基酸一級序列,應用離散增量的方法識別ArchDB數據庫中的6 100個β發夾模體和2 701個非β發夾模體。模體按照二級結構中無規卷曲的長進行分類得到“07232”、“07322”、“09432”、“09522”、“13643”、“13733”、“13832”、“13922”型。以氨基酸和氨基酸緊鄰關聯為參量,利用10-fold交叉檢驗的方法進行檢驗,平均識別精度均達到75.0%和83.0%以上。以氨基酸親疏水性和親疏水緊鄰關聯為參量進行檢驗,平均識別精度有所降低。
關鍵詞:β發夾模體;離散增量;離散量
中圖分類號:Q51 文獻標識碼:A 文章編號:0439-8114(2013)23-5898-04
目前測定蛋白質空間結構不但需要較多的經費,而且周期較長,使得已知結構的蛋白質數量難以適應急劇增加的蛋白質序列數量。如何從這些已有的蛋白質序列的數據出發,用理論的方法預測蛋白質的結構和功能,已成為生物學領域的一個重要目標。超二級結構預測是三級結構預測的關鍵一步,近年來,對這方面的研究進一步深入。Sun等[1]利用統計的方法對240個蛋白質進行了研究,得到了常見的11種蛋白質超二級結構形式。研究者利用人工神經網絡法、得分法、支持向量機法、矩陣打分法對β發夾進行了研究[2-6]。一系列的研究表明,超二級結構預測主要針對全部超二級結構類型和特殊結構模體β發夾的預測。β發夾是1個簡單的超二級結構類型,廣泛存在于球蛋白結構中。若1個連接多肽(loop)連接2個折疊(Strand),而且2個折疊之間有一個或多個氫鍵,稱此模體為β發夾。
本研究選取序列相似性低于40%的3 088個蛋白質,應用無需記憶的統計方法——離散增量法對β發夾模體和非β發夾模體進行了識別,以期為蛋白質結構預測提供參考。
1 數據和方法
1.1 數據
本研究使用的數據來自ArchDB(http://sbi.imim.es/cgi-bin/archdb/loops.pl)數據庫中ArchDB40子庫,包含序列相似性低于40%的3 088個蛋白質,按照二級結構中無規卷曲(Coil)的長進行統計,得到β發夾模體6 100個,非β發夾模體2 701個。由于每個模體序列的長度有所差別,為保證計算過程中氨基酸結構信息更好的進入序列,對每個模體按照不同的無規卷曲長分別選取了不同的固定序列模式長來進行計算。選取了“07232”、“07322”、“09432”、“09522”、“13643”、“13733”、“13832”、“13922”型序列模式。每種序列模式的前兩位數代表所選取的模體的固定序列長,第三個數字代表模體與二級結構無規卷曲相對應選取的連續氨基酸殘基數,第四、五個數字代表模體與無規卷曲相對應的N、C端所選取的連續氨基酸殘基數。如“07232”型中的“07”代表序列固定模式長為7,數字“2”代表模體對應的無規卷曲長為2,數字“3、2”代表模體與無規卷曲相對應的N端、C端相連接部分所選取的連續氨基酸殘基數。序列模式的選取分以下3步(計每種序列模式為“XYZMN”):
1)無規卷曲長Z為奇數時,則無規卷曲N端、C端各取連續的氨基酸殘基數均為(XY-Z)/2。
2)無規卷曲長Z為偶數時,則無規卷曲N端、C端各取連續的氨基酸殘基數分別為(XY-Z+1)/2和(XY-Z-1)/2。
3)無規卷曲N端、C端連續的氨基酸殘基數若不足時,以空位(*)代替缺少的殘基(每個空位代替1個氨基酸殘基)。
1.2 方法
2 結果與分析
2.1 以氨基酸和氨基酸緊鄰關聯為參量的預測結果
以氨基酸和氨基酸緊鄰關聯為參量,應用離散增量的方法進行計算,不同固定序列模式長的識別結果見表1和表2。
從表1和表2可知,以氨基酸為參量時,“07322”型的平均識別精度(Acc)比“07232”型低0.2個百分點;“09522”型的平均識別精度比“09432”型高6.3個百分點;“13922”型的平均識別精度比“13643”型高16.0個百分點。以氨基酸緊鄰關聯為參量時,“07322”型的平均識別精度比“07232”型高14.0個百分點;“09522”型的平均識別精度比“09432”型高2.2個百分點;“13922”型的平均識別精度比“13643”型高6.4個百分點。這說明與無規卷曲的N端和C端相連接的2個氨基酸殘基具有重要的結構信息和較好的保守性,能準確提供結構預測所需信息,同時反映出固定序列模式長的選擇與識別精度密切相關。比較表1和表2的識別結果,以氨基酸為參量的識別結果達到75.0%以上,相關系數達到0.40以上;以氨基酸緊鄰關聯為參量的識別結果達到83.0%以上,相關系數達到0.50以上。即以氨基酸緊鄰關聯為參量的識別結果明顯優于氨基酸參量。這說明對于離散增量算法來說,參量的選擇至關重要。
這種按照不同無規卷曲的長分別進行計算,對識別序列產生了一定的局限性,為改變這種局面,將“07232”和“07322”合并為一類,記為“07”型;“09432”和“09522”合并為“09”型;“13643”、“13733”、“13832”和“13922”合并為“13”型,分別以氨基酸和氨基酸緊鄰關聯為參量,識別結果如表3所示。
比較表3中2種參量的識別結果,β發夾的特異性均好于敏感性,以氨基酸為參量時,平均識別精度最高達到77.5%,相關系數最高為0.53;而以氨基酸緊鄰關聯為參量的平均識別精度最高為97.0%,相關系數達到0.60以上。結合表1和表2中的數據分析表明,不同的固定序列模式長和參量的選取與識別精度密切相關。
2.2 選取不同參量的計算結果比較
為更加明確地體現參量的選取與識別精度的關聯,選取以氨基酸親疏水性[7](6個參量加1個空位)的7個參量和氨基酸親疏水緊鄰關聯的49個參量,分別運用離散增量的方法進行計算,結果如表4和表5所示。
從表4和表5的結果可以看出,總體上各種模式的平均識別精度低于氨基酸和氨基酸緊鄰關聯為參量的結果。以親疏水緊鄰關聯為參量的識別結果好于以親疏水為參量的識別結果,平均識別精度基本在72.0%以上,相關系數均在0.4以上,其中“13832”和“13922”型模式的平均識別精度相對較好,與以氨基酸和氨基酸緊鄰關聯為參量的識別結果具有相似的規律。
3 小結與討論
本研究結果表明,以氨基酸為參量的平均識別精度低于氨基酸緊鄰關聯為參量的結果;以氨基酸親疏水為參量的平均識別精度低于氨基酸親疏水緊鄰關聯為參量的結果。而“13832”和“13922”型模式在4種參量下的平均識別精度優于其他模式。這表明,氨基酸序列包含重要的結構信息,運用離散增量算法,固定序列模式長的選取和參量的選擇是檢驗識別結果的關鍵,對識別結果有著一定的影響。適合參量的運用,將會有效提高識別精度。
Kuhn等[4]、Kumar等[5]采用需要記憶的人工神經網絡和支持向量機的方法,選取14種參量或通過引入進化信息識別了β發夾,識別中運算的次數要遠遠高于本研究所用的分類策略。本研究中雖然以氨基酸為參量的識別結果大多低于Kumar等[5]的研究結果,但以氨基酸緊鄰關聯為參量的識別結果卻好于Kumar等[5]的研究結果。本研究中對模式長的選取相對于Kumar等[5]的研究來說雖具有一定的局限性,但識別原理和運算過程卻較為簡單快捷。
參考文獻:
[1] SUN Z R, JING B. Patterns and conformations of commonly occurring supersecondary structures(basic motifs) in protein data bank[J].Journal of Protein Chemistry,1996,15(7):675-690.
[2] SUN Z, RAO X, PENG L, et al. Prediction of protein supersecondary structures based on artificial neural network method[J].Protein Engineering,1997,10(7):763-769.
[3] DE LA CRUZ X, HUTCHINSON E G, SHEPHERD A, et al. Toward predicting protein topology: An approach to identifying β hairpins[J]. Proc Natl Acad Sci USA,2002,99(17):11157-11162.
[4] KUHN M, MEILER J, BAKER D. Strand-loop-strand motifs: Prediction of hairpins and diverging turns in proteins[J].Proteins: Structure, Function, and Bioinformatics,2004,54(2):282-288.
[5] KUMAR M,BHASIN M,NATT N K,et al.BhairPred: Prediction of β-hairpins in a protein from multiple alignment information using ANN and SVM techniques[J].Nucleic Acids Research,2005,33(2):154-159.
[6] 姜 雪,胡秀珍.打分矩陣方法在β-發夾模體識別中的應用[J].生物信息學,2008,6(4):156-158.
[8] TAYLOR W R.Identification of protein sequence homology consensus template alignment[J]. Journal of Molecular Biology,1986,188(2):233-258.