999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于優化特征參量的蛋白質βαβ模體識別分析

2015-03-12 21:58:33姜雪于巍
江蘇農業科學 2015年2期

姜雪 于巍

摘要:選取了來自1 423個相似性小于33%的蛋白質序列的1 459個βαβ模體和2 419個非βαβ模體,通過分析模體中各二級結構單元的分布情況,確定固定序列模式長。基于優化的氨基酸信息,利用離散增量算法識別βαβ模體。運用10-fold交叉檢驗和獨立檢驗方法對算法進行檢驗,識別總精度分別達到79.4%和78.6%。

關鍵詞:蛋白質;βαβ模體;離散增量;優化的參量;優化位點氨基酸;識別精度

中圖分類號: Q51文獻標志碼: A文章編號:1002-1302(2015)02-0020-04

收稿日期:2014-04-09

基金項目:遼寧省教育廳教學改革立項(編號:2012411)。

作者簡介:姜雪(1978—),女,黑龍江明水人,碩士,講師,主要從事生物信息學研究。E-mail:shuidi780829@163.com。 模體是具有特定功能或作為一個獨立結構域一部分的相鄰的二級結構的聚合體,是蛋白質家族組成結構和執行功能的重要部分,介于蛋白質二級結構和三級結構之間,充當三級結構的構件。近20年來,對簡單模體如β-轉角、β-發夾的預測[1-8]得到了很好的發展,主要方法集中在人工神經網絡、支持向量機和統計方法上,且都取得了較好的預測效果。而βαβ是常見的復雜結構模體之一。如果2組平行的β折疊片通過α螺旋經過連接肽(Loop)回折2次,且β折疊之間有氫鍵相連,最終β折疊片的疏水側鏈面向α螺旋的疏水面,彼此緊密裝配,形成β-Loop-α-Loop-β結構,簡記為βαβ,多傾向于形成右手扭曲的拓撲結構[9]。它包含大量的折疊信息,頻繁地出現在每一個具有β折疊片的蛋白質結構中,常與形成功能結構位點和活性位點有關,同時βαβ模體上存在大量的功能位點,能為藥物分子設計提供信息。因此對蛋白質的功能有著重要影響。正確地識別βαβ模體對研究蛋白質的空間結構和功能具有重要意義,對分子藥物開發設計具有相應的理論價值。1983年,Taylor等運用和已知模板進行序列比對的方法對16個α/β類蛋白質包含的βαβ模體進行了預測,預測率達到70%[10];1984年,Taylor等在統計βαβ模體的基礎上用同樣的方法對18個α/β類蛋白質包含的βαβ模體進行了預測,預測率達到75%[11];1986年Wierenga等運用指紋圖譜方法對PID數據集中的2 676條序列中的βαβ模體的ADP結合位點進行了預測[12]。可見,對復雜結構模體βαβ的預測研究工作還很少,但成功的預測卻說明βαβ存在著功能位點,其理論預測是可行的。

本研究構建了2個數據集:一是來自1 423個相似性小于33%的蛋白質的1 459個βαβ模體和2 419個非βαβ模體;二是來自256個相似性小于25%的蛋白質的310個βαβ模體和480個非βαβ模體。通過分析模體中各二級結構單元的分布情況,確定了固定序列模式長為33個氨基酸殘基,運用了一種基于優化特征參量的離散信息算法,識別了βαβ模體,取得了良好的效果。

1材料與方法

1.1數據

構建合理的數據集是蛋白質模體預測的關鍵,本研究中使用DSSP[13](definition of secondary structure of proteins)數據庫和PROMOTIF[14]軟件來構建βαβ數據集,這是目前廣泛應用的獲得蛋白質特殊結構模體的方法。數據來自EVA(這是一種連續的、自動化、大規模的工作方式進行蛋白質結構預測算法評估的Web服務器http://pdg.cnb.uam.es/eva/)。從中選取了1 423個相似性小于33%、分辨率高于2.5的蛋白質作為數據集1(set1)和256個相似性小于25%、分辨率高于3.0的蛋白質作為數據集2(set2)。選取的蛋白質需要滿足:(1)每個蛋白質序列中至少包含一個βαβ模體;(2)剔除含有不規則氨基酸的模體。序列及其對應的二級結構信息按DSSP庫確定,文中在使用時將二級結構分為3類:H、I、G歸為α螺旋,用H表示;E歸為β折疊;其他都歸為無規卷曲,用C表示。對set1,獲得二級結構為ECHCE模式的片斷為 3 878個,利用PROMOTIF軟件分析獲得βαβ模體片段為1 622個,其中與ECHCE模式相匹配的1 459個片斷確認為βαβ,其余2 419個確認為非βαβ;對set2,獲得的二級結構為ECHCE模式的片斷為790個,利用PROMOTIF獲得與ECHCE模式相匹配的310個確認為βαβ,其余480個確認為非βαβ。

1.2序列固定模式長的選取

復雜結構模體是由簡單的二級結構連接而成,其二級結構單元的種類、連接肽的長度等信息影響著復雜結構模體的形成及功能。因此有必要對2個數據集的βαβ模體序列片段長、組成單元β折疊長、連接肽loop長和α螺旋長進行統計,結果如表1和表2。

從表1和表2的數據看出,2個數據集中各二級結構單元的分布情況基本一致,2個數據集的模體平均長分別為33、31個氨基酸殘基左右,左右兩端β折疊長為5個氨基酸左右,α螺旋長為10個氨基酸左右,這也說明了二級結構單元在βαβ模體中分布的特定性。因此,選取適合的序列信息是預測的關鍵步驟,根據2個數據集中序列的平均長度,為使得表1set1二級結構單元長度統計

預測過程中信息更好的進入序列,確定固定序列長為33個氨基酸殘基。參照文獻[3]、[6]和[7]識別β發夾的思想,對βαβ模體進行以下3種截取方式,得到B00型、N05型和C29型。其具體截取方法為:

(1)以模體對應的二級結構CHC為中央位置對齊(B00型):當序列對應的二級結構CHC為奇數時,序列對應二級結構CHC的左端和右端取相同個數的殘基;當序列對應的二級結構CHC為偶數時,序列對應二級結構CHC的左側比右側多取一個氨基酸殘基。

(2)以序列左端loop的起始位點作為序列的第5位點,選取序列(N05)。

(3)以序列右端loop的終止位點作為序列的第29位點,選取序列(C29)。

選取過程中,若序列長不足33個氨基酸殘基時,添加空位補齊。截取示意圖如圖1。

同時,為考察模體序列中氨基酸的保守性,計算了位點信息矢量,Ci[15]定義如下:

Ci=100lgl(∑lj=1Pijlgpij+lgl)。

如果某一位點是完全保守的,可計算該位點Ci的值為100;如果該位點的氨基酸是隨機分布的,同樣可計算Ci的值為0。因此Ci取值在[0,100]之間。Ci的值在各自的取值區域內越高表明該位點的保守性越強。對set1的βαβ 3種取法對應序列位點的保守性計算結果如圖2、圖3、圖4。

型左端氨基酸的保守性好于右端,這2種取法綜合起來與B00型的保守性結果一致。因此本研究以位點氨基酸為參量來預測βαβ模體。

1.3計算方法

離散量是對離散性的度量,是信息系數之一,生物多樣性指標和生物的關聯性分析等都需要引入離散量。它是一種較好的模式識別分類器,離散量和離散增量定義如下:

定義1:對于s個信息符號的狀態空間X,ni表示第i狀態出現的個數,離散源X:[n1,n2,…,ns]的離散量為:

D(X)=D(n1,n2,…,ns)=NlogbN-∑si=1nilogbni。(1)

定義2:對于2個離散源X:[n1,n2,…,ns]和Y:[m1,m2,…,ms],它們的離散增量為

Δ(X,Y)=D(X,Y)-D(X)-D(Y)=(M+N)lg(M+N)-∑si=1(mi+ni)lg(mi+ni)-MlgM-NlgN+∑si=1milgmi+∑si=1nilgni。(2)

其中D(X,Y)是混合離散源X+Y:[n1+m1,n2+m2,…,ns+ms]的離散量,N=∑si=1ni,M=∑si=1mi。可以證明,離散增量的取值范圍是0≤Δ(X,Y)≤D(M,N)。

2個離散源之間的離散增量Δ(X,Y)值越小,說明這2個離散源的相似程度越大,而Δ(X,Y)值越大,說明這2個離散源的相似性越差。

本研究中選取位點氨基酸作為參量,對于βαβ和非βαβ模體的3種選取模式的任何一種,其位點氨基酸維數分別為(21×33)(21表示20種氨基酸和一個空位,33表示固定序列長),共得到2 079(21×33×3)維向量。任一待測序列應用公式(2)得到2個離散增量值,哪一個值小,則被判斷為哪一類模體。

1.4檢驗方法

檢驗方法使用目前廣泛應用的k-fold交叉檢驗和獨立檢驗。k-fold交叉檢驗即隨機、均勻地將數據集分為k個子集,依次取出一個子集作為測試集,其余k-1個子集作為訓練集,此過程循環k次,識別的結果取k次的平均,本研究中k取10。獨立檢驗是指訓練集和檢驗集相互獨立,即訓練集中的數據不會出現在檢驗集中,更加客觀地反應實際問題和預測之間的差別。

1.5精度評價指標

本研究中計算了βαβ的正確識別率(即識真的能力)Q(βαβ)、非βαβ發夾正確識別率Q(nβαβ)、βαβ發夾識別的預測率[即辨假的能力S(βαβ)]、非βαβ發夾識別的預測率S(nβαβ),識別總精度(Acc)和相關系數(MCC),定義如下:

Q(βαβ)=PP+U×100,Q(nβαβ)=NN+O×100,

S(βαβ)=PP+O×100,

S(nβαβ)=NN+U×100,Acc=P+NO+N+U+O×100,

MCC=(P×N)-(O×U)(P+O)×(P+U)×(N+U)×(N+O)。

這里P、U、N、O分別表示βαβ被正確識別出來的序列數目、βαβ沒有被正確識別出來的數目、非βαβ被正確識別出來的序列數目、非βαβ沒有被正確識別出來的數目。

2結果與分析

2.1以位點氨基酸為參量的預測結果

由于氨基酸在蛋白質序列中具有很強的保守性,以位點氨基酸出現的頻率為參量,輸入到離散增量的算法中,得出每條序列的離散量值,用上文中的識別方法作判斷,對set1和set2 3種截取模式的10-fold交叉檢驗結果如表3和表4。表3set1的10-fold交叉檢驗預測結果

截取模式Q(βαβ)Q(nβαβ)S(βαβ)S(nβαβ)Acc(%)MCCB0082.255.652.484.065.50.371N0580.862.556.185.669.30.419C2983.153.751.582.464.60.362

表4set2的10-fold交叉檢驗預測結果

截取模式Q(βαβ)Q(nβαβ)S(βαβ)S(nβαβ)Acc(%)MCCB0083.958.754.786.068.10.417N0583.959.855.386.368.80.426C2984.856.153.486.266.80.402

從表3和表4的數據可看出,兩數據集中βαβ的識真能力均達到80%以上,好于辯假能力,但非βαβ的識真能力低于辯假能力,說明可以很好地識別出βαβ,排除非βαβ。數據顯示,3種截取模式中N05型的識別總精度好于B00型和C29型,set1的識別精度達到69.3%,相關系數達到0.419。

2.2優化的位點氨基酸(A)的預測結果

上述計算中選取參量的維數較高,計算中常會由于高維參量引起維數災難問題,因此有必要將位點氨基酸通過降維來避免過訓練發生,從而提高識別的效果。下面選取mRMR(maximum relevance mimimum redundancy)方法來進行降維。mRMR方法是一種基于互信息的特征篩選方法:利用互信息計算特征參量與分析目標間的相關性和特征之間的冗余性,根據最大依賴性來優先選取具有最小冗余性的n個特征,本研究中用已編譯成程序[16]的mRMR軟件包實現。2個數據集的序列模式長為33個氨基酸殘基的序列中提取的2 079維位點氨基酸通過篩選,累積貢獻率達到90%以上的前100維作為優化的位點氨基酸(A)。運用上述算法2個數據集的10-fold交叉檢驗結果如表5和表6。

主站蜘蛛池模板: 全部毛片免费看| 国产欧美在线观看视频| 成人免费午夜视频| 亚洲人成网7777777国产| 国产精品手机视频一区二区| 久久夜色精品| 亚洲天堂网在线播放| 国产欧美日韩视频怡春院| 911亚洲精品| 国产精品理论片| 精品久久久久成人码免费动漫 | 最新国产午夜精品视频成人| 欧美一级高清片久久99| 在线观看无码av免费不卡网站| 国产美女自慰在线观看| 久久91精品牛牛| 亚洲中文字幕在线一区播放| 国产精品午夜电影| 国产成人精品日本亚洲| 精品久久香蕉国产线看观看gif| 久久精品人人做人人综合试看| 亚洲人成影院午夜网站| 成人第一页| 亚卅精品无码久久毛片乌克兰 | 国产毛片片精品天天看视频| 亚洲性视频网站| 91精品国产丝袜| 国产色网站| 国产精品hd在线播放| 国产精品大尺度尺度视频| 久草性视频| 91视频青青草| www.av男人.com| 久久久成年黄色视频| 成人综合在线观看| 国产成人三级在线观看视频| 99久久人妻精品免费二区| 亚洲永久视频| 国产国拍精品视频免费看| 69av免费视频| 国语少妇高潮| 91精选国产大片| 伊人久久影视| 在线另类稀缺国产呦| 国产在线麻豆波多野结衣| 国产乱人伦精品一区二区| 一区二区三区精品视频在线观看| 成人第一页| 日韩在线视频网| 国产麻豆精品在线观看| 91午夜福利在线观看| 国产在线视频自拍| 欧美在线国产| 国产成人综合日韩精品无码首页| 国产精品香蕉在线观看不卡| 亚洲欧洲一区二区三区| 国产女同自拍视频| 国产精品久久久久久久伊一| 国产精品视频观看裸模| 日韩色图区| 国产青青操| 99热国产这里只有精品9九| 69av在线| 亚洲人成网站色7799在线播放 | 国产日本欧美亚洲精品视| 亚洲国产中文在线二区三区免| 国产成人精品日本亚洲| 亚洲精品无码AⅤ片青青在线观看| 亚洲91精品视频| 九九热视频在线免费观看| 国产成人8x视频一区二区| 国产高潮视频在线观看| 亚洲热线99精品视频| 夜夜操国产| 91麻豆久久久| 亚洲精品在线91| 亚洲国产欧美国产综合久久| 99视频精品全国免费品| 看国产一级毛片| 中文字幕精品一区二区三区视频 | 久久黄色一级视频| 成人中文在线|