999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

隱馬爾科夫模型基于殘基對蛋白質序列的分析

2014-07-10 10:42:03汪一亭
池州學院學報 2014年3期
關鍵詞:界面模型

汪一亭

(池州學院 數學與計算機科學系,安徽 池州247000)

隱馬爾科夫模型基于殘基對蛋白質序列的分析

汪一亭

(池州學院 數學與計算機科學系,安徽 池州247000)

區分、識別出同源蛋白質序列并揭示不同類型的殘基的研究在生物信息領域具有重要的意義。文章將蛋白質的氨基酸與殘基的序列用隱馬爾科夫模型(HMM)來表示,介紹了一種基于蛋白質殘基來建立隱馬爾科夫模型的思路。接著采用HMM的評估算法對蛋白質同源性進行分類,又由于是將殘基類型作為模型的狀態來考慮,利用HMM的結論可以解碼出最優的殘基序列,從而進一步預測出殘基的類型。結果表明分類算法取得了較好的效果,且在預測結果上與其他方法相比也具有一定的優勢。

隱馬爾可夫模型;蛋白質;界面殘基;表面殘基

1 引言

近年來,隨著蛋白質測序工作的快速發展,人們已經獲取了大量蛋白質序列數據。但是,由于同源蛋白質的原因,往往會出現對某類同源的序列進行測序,并將其存入數據庫的情況,結果可能會導致對某一簇蛋白質序列的功能分析的夸大,從而對研究產生誤導[1]。因此,比較蛋白質序列并區分、識別出同源序列的算法的研究已成為生物信息領域的重要內容。目前,已有不少相關學者對此類問題進行了研究。有聚類算法[2]、基于圖論的算法[3]。而隱馬爾可夫模型(Hidden Markov model,HMM)用于蛋白質研究是生物信息學研究的新領域,文獻 [4]將HMM用于蛋白質同源性的研究,但是該算法建立的HMM模型所基于的特征的關注度和準確性遠遠沒有蛋白質殘基的分布特征高。

蛋白質間的相互作用是蛋白質組學研究的另一個核心問題。其中蛋白質界面殘基的預測所研究的是確定在蛋白質-蛋白質相互作用中,某一條鏈上的哪些殘基參與了作用[6]。因此捕捉和揭示不同種類的蛋白質殘基對深入了解蛋白質間相互作用的機制具有重要的生物學意義。由于生物學實驗技術探測殘基費時費力且不能大規模應用,近幾年已有很多計算方法被提出,主要有SVM方法[7]、貝葉斯方法[6]、神經網絡方法[8]等,但相較于傳統的分類方法中,利用隱馬爾可夫模型預測殘基的案例較少。

2 基本理論

2.1 HMM簡介

隱馬爾可夫模型作為一種統計分析模型,被用于生物信息學研究領域的基礎是計算機技術、統計學和分子生物學。它由相互關聯的兩個隨機過程共同描述信號的統計特性,HMM可以用五個元素來描述分別為隱含狀態、可觀測狀態、初始狀態概率、隱含狀態轉移概率矩陣、觀測狀態概率矩陣。HMM解決的關鍵實際問題有三類分別是:1)評估問題,采用前向算法;2)解碼問題,采用Viterbi算法;3)學習問題,采用Baum-Welch算法。

2.2 蛋白質殘基的定義與分類

蛋白質殘基是氨基酸序列脫水形成肽鏈后的部分,共分為界面殘基(interface residue)、表面殘基(surface residue)、非表面殘基(non-surface residue)三類[5]。對于此三類殘基的定義還沒有完全統一,文獻[6]、[10]都有各自的區分殘基的標準,但都是基于某一實驗手段稱為溶劑可及表面積(solvent accessible surface area,SASA)的基礎上量化指標的不同而已。其中,界面殘基屬于表面殘基,但比非界面的表面殘基具有更高的SASA[9],為方便描述,下文中的表面殘基特指非界面的表面殘基。三者分布關系見圖1。

不僅如此,SASA不僅能區分殘基,而且通過SASA還可以了解氨基酸的疏水性,而疏水性對于蛋白質的二級結構預測非常關鍵。因此對殘基的研究無論對于蛋白質間相互作用還是蛋白質空間結構的預測都具有非常關鍵的意義。我們采用文獻[6]的定義:即若殘基的SASA對殘基的最大面積的比值超過25%,就定義它為表面殘基。而在復合物形成過程中SASA的減少量超過1的殘基就定義為界面殘基。

圖1 蛋白質殘基分布關系

3 HMM模型的建立與算法

3.1 HMM各元素的確立與參數學習

已有學者將HMM用來表示蛋白質序列而進行的研究[4],但該模型的狀態是基于進化過程中原始蛋白質序列經歷突變,遺失,或引入外源序列,而此類特征的關注度和準確性遠遠沒有蛋白質殘基的分布特征高。

在本文中,將蛋白質的氨基酸與殘基的序列用HMM模型來表示,其中界面、表面、非表面殘基是由難以直接觀測到的隱狀態表示,構成蛋白質的20種氨基酸由可觀測值表示。圖2為相應的隱馬爾可夫模型。該模型的具體流程是從一個起始隱狀態開始,以某種概率進入界面、表面、非表面殘基狀態之間的某一個,其中每個隱狀態會觀察到一種氨基酸。當模型從起始狀態到結束狀態時,產生的不同氨基酸會構成一個氨基酸序列。圖中箭頭表示的狀態間的轉換概率是有區別的,此外不同狀態所能觀測到的氨基酸種類的概率也是有區別的。狀態的初始分布、每個狀態產生的氨基酸種類的概率、各狀態間的轉移概率都由模型的參數決定。經過訓練,可以調整該模型的參數,訓練好的模型能夠以最大的可能性產生參與訓練的觀察序列,由此可以代表有共同特征的蛋白質序列,從而描述不同族的蛋白質。我們將采用典型的HMM訓練算法Baumwelch算法來進行建模。

圖2 基于蛋白質殘基的隱馬爾可夫模型

3.2 同源蛋白質序列的區分算法

之后將Baum-welch算法訓練出來的參數模型進行蛋白質同源性的研究。其原理為HMM的評估問題,分析由該模型產生不同序列的概率,對于與模型相符合的序列,則能以較大的概率產生該序列,若不與該模型符合的序列,則產生該序列的概率會相對較小,由此可以區分出同源和非同源蛋白質序列,此外,只要對概率劃分合適的域值,就能夠從許多蛋白質序列中識別出該族的蛋白質序列。我們將采用HMM評估問題的典型算法前向算法來區分蛋白質序列。

3.3 蛋白質殘基的預測算法

在上述區分的同源蛋白質的基礎上可以進一步根據該模型預測界面、表面、非表面殘基,該問題則屬于HMM的解碼問題。

4 實驗結果分析

實驗采用的蛋白質復合物為Homo-complex I data set與Hetero-complex I data set[5],這些數據集來源于PDB數據庫經過篩選后得到的結果,各自含有621和504條蛋白質復合物鏈。我們首先從Hetero-complex I data set中選擇前50條作為訓練序列,經過Baum-welch算法的學習得到隱馬爾科夫模型。訓練好的該模型參數見表1、2、3。其中,狀態0,1,2分別表示界面、表面、非表面殘基。

表1 初始狀態概率

表2 狀態轉移概率矩陣

表3 氨基酸種類概率矩陣

根據上述參數模型,將Hetero-complex I data set余下的454條蛋白質序列隨機選取150條采用前向算法進行分析評估,為了便于統計大量數據結果,程序在實現前向算法的基礎上添加計算平均值和方差的功能。再將Homo-complex I data set的蛋白質序列同樣方法用該模型進行分析,兩次實驗各自得到的統計結果見表4。

由表4我們可以清楚看出,模型產生Homocomplex I數據集的蛋白質序列的概率明顯小于Hetero-complex I數據集的蛋白質概率。由于這兩個數據集分別是描述同類聚合物和異類聚合物的蛋白質序列,由此說明該隱馬爾科夫模型能夠很好的區分出同源和非同源蛋白質序列。

表4HMM評估結果

接下來將與該模型相匹配的余下的蛋白質序列用viterbi算法進行解碼,預測出界面、表面、非表面殘基的結果見表5,我們選取其中的PDB代碼為1xqs蛋白質的D鏈為例,列舉出其部分詳細的殘基預測結果。其中的T表示該殘基為界面殘基,S表示該殘基為表面殘基,N表示非表面殘基。殘基的序列號是PDB文件中的序列編號,所有殘基采用單字母表示。

從表5可以看出,與文獻[4]、[6]相比,文獻[4]只能識別出同源和非同源蛋白質序列,不能預測殘基的種類,而采用我們的方法既能識別出蛋白質序列(如表4所示)又能預測出殘基種類;文獻[6]采用貝葉斯方法所得到的僅能預測界面殘基,而表面殘基和非表面殘基的情況則沒有考慮 (見表6:在1fc2_C鏈上貝葉斯方法的預測結果),而本文利用的HMM的viterbi算法可以預測出最可能的三類蛋白質殘基序列。在預測算法的思想上,傳統的分類方法僅分散的研究各殘基而忽略相鄰殘基間的相互關聯,本文的馬爾科夫模型則考慮了相鄰殘基間的相互關系。

表5 在1xqs_D鏈上本方法的預測結果

表6 在1fc2_C鏈上貝葉斯方法的預測結果

5 結論

由實驗結果可看出,HMM可以基于已知的一級結構對蛋白質序列進行分類,并進一步預測界面、表面、非表面殘基,并且有較好的效果,是對其它分類和預測方法的補充。但它也存在一些缺陷,使得它用于蛋白質分析方面有一定的不足,最主要的因素是Baum-Welch算法存在陷入局部極值、過早收斂或收斂速度慢等缺點,而學習得到的模型參數將直接影響區分和預測算法的準確性。結合HMM 和SVM[7]、貝葉斯[6]、神經網絡[8]等方法來改進更好的學習算法,使用更高性能的計算機,結合各種蛋白質結構數據庫,將會在蛋白質序列分析方面得到更準確的結果。

[1]張成崗,歐陽曙光,張紹文,等.基于PC/Linux的核酸序列分析系統的構建及其應用[J].生物化學與生物物理進展,2001(2):263-266.

[2]Yona G,Linial N,Linial M.ProtoMap:automatic classification of protein sequences and hierarchy of protein families[J].Nucleic Acids Res,2000,28(1):49-55.

[3]Hideya Kawaji,Yoichi Takenaka,Hideo Matsuda.Graph-based clustering for finding distant relationships in a large set of protein sequences[J].Oxford Journals Life Sciences&Mathematics&Physical Sciences Bioinformatics,2004(20):243-252.

[4]吳曉明,宋長新,王波,等.隱馬爾可夫模型用于蛋白質序列分析[J].生物醫學工程學雜志,2002,19(3):455-458.

[5]Liu Bin,Homo-complex I data set [DB/OL].(2009-11-20).[2014-02-10].http://www.biomedcentral.com/content/supplementary/1471-2105-10-381-s2.txt.

[6]王池社,程家興,等.基于貝葉斯方法的蛋白質界面殘基預測[J].計算機應用與軟件,2009,26(5):75-77.

[7]Qiwen Dong,XiaoLong Wang,Lei Lin,et al.Exploiting residuelevel and profile-level interface propensities for usage in binding sites prediction of proteins[J].BMCBioinformatics,2007(8):147.

[8]Yanay Ofran,Burkhard Rost.ISIS:interaction sites identified fromsequence[J].Bioinformatics,2007(23):2.

[9]歐陽玉梅,方若森.蛋白質-蛋白質界面熱點殘基預測及其在線工具[J].生命科學,2012,24(1):106-111.

[10]Feihong Wu,Fadi Towfic,Drena dobbs,etc.Analysis of Protein Protein Dimeric Interfaces[C].Fremont:International Conference on Bioinformatics and Biomedicine,2007:35-38.

[責任編輯:桂傳友]

TP391

A

1674-1104(2014)03-0025-03

10.13420/j.cnki.jczu.2014.03.007

2014-02-22

池州學院自然科學研究項目(2013ZR017)。

汪一亭(1983-),女,安徽池州人,池州學院數學與計算機科學系助教,碩士,研究方向為生物信息學。

猜你喜歡
界面模型
一半模型
重要模型『一線三等角』
國企黨委前置研究的“四個界面”
當代陜西(2020年13期)2020-08-24 08:22:02
重尾非線性自回歸模型自加權M-估計的漸近分布
基于FANUC PICTURE的虛擬軸坐標顯示界面開發方法研究
空間界面
金秋(2017年4期)2017-06-07 08:22:16
電子顯微打開材料界面世界之門
人機交互界面發展趨勢研究
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 曰AV在线无码| 2021国产精品自产拍在线| 人人爽人人爽人人片| 香蕉精品在线| 日本尹人综合香蕉在线观看| 麻豆国产在线观看一区二区 | 国产精品夜夜嗨视频免费视频| 无码 在线 在线| 国产亚洲欧美日韩在线一区二区三区| 亚洲欧美成人影院| 又爽又黄又无遮挡网站| 欧美69视频在线| 久久精品中文字幕免费| 国产精品永久久久久| 免费一级α片在线观看| 国产成人精品男人的天堂下载| 午夜一区二区三区| 三级视频中文字幕| 亚洲视频无码| 日本一区二区三区精品视频| 女人18毛片久久| 国产视频你懂得| 精品少妇三级亚洲| 在线另类稀缺国产呦| 国产欧美日韩精品综合在线| 夜夜操天天摸| 婷婷99视频精品全部在线观看| 99视频在线观看免费| 乱人伦99久久| 午夜成人在线视频| 日韩午夜福利在线观看| 国产精品视频猛进猛出| 91久久夜色精品国产网站| 国产va免费精品观看| 午夜日b视频| 国产精品嫩草影院av| 免费人成黄页在线观看国产| 国产肉感大码AV无码| 国产精品夜夜嗨视频免费视频 | 人妻少妇久久久久久97人妻| 午夜久久影院| 无码啪啪精品天堂浪潮av| 国产剧情一区二区| 欧美在线视频a| 亚洲综合中文字幕国产精品欧美| 欧美一区二区三区香蕉视| 亚洲综合九九| 亚洲最大看欧美片网站地址| 亚洲手机在线| 99中文字幕亚洲一区二区| 亚洲天堂视频在线观看| 亚洲大学生视频在线播放| 免费国产小视频在线观看| 一级不卡毛片| 毛片手机在线看| 国产喷水视频| 亚洲精品自产拍在线观看APP| 99r在线精品视频在线播放| 视频一区视频二区中文精品| 在线观看精品自拍视频| 国产精品冒白浆免费视频| 无码中文AⅤ在线观看| 色综合五月婷婷| 日本在线亚洲| 热re99久久精品国99热| 国产女同自拍视频| 色婷婷狠狠干| 国产中文在线亚洲精品官网| 亚洲首页在线观看| 国产97视频在线| 大陆精大陆国产国语精品1024| 国产欧美精品专区一区二区| 高潮毛片无遮挡高清视频播放| 热热久久狠狠偷偷色男同| 亚洲欧美日韩中文字幕在线一区| 久久综合丝袜日本网| 奇米精品一区二区三区在线观看| 在线另类稀缺国产呦| 国产办公室秘书无码精品| 成人免费网站久久久| 国内精品伊人久久久久7777人| av一区二区三区在线观看|