999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

利用偽氨基酸組分和支持向量機預測抗凍蛋白

2013-11-14 07:10:32
生物信息學 2013年4期
關鍵詞:信息模型

許 嘉

(內蒙古科技大學分析測試中心,內蒙古包頭014010)

抗凍蛋白(Antifreeze protein,AFP)是一類能夠特異性結合冰晶、提高生物抗凍能力的蛋白質[1]。這類蛋白最初是在南北極的海洋魚類血清中發現,近年來,在昆蟲、真菌、細菌和某些植物體內也均發現存在抗凍蛋白。這類蛋白通過與冰晶的特異性相互作用,阻止生物體內冰核的形成與生長,維持生物體內的溶液狀態。因此,對抗凍蛋白的理論研究有助于揭示抗凍蛋白的活性和抗凍機理。

正確判斷一條新測序的蛋白質是否為抗凍蛋白對于生物工程發展、作物的改造十分重要。然而,利用實驗手段來判斷是否是抗凍蛋白不但費時,而且會消耗很多資源。隨著大量生物基因組測序的完成,海量基因組、蛋白質組、轉錄組數據的產生,利用機器學習算法來預測蛋白質的類型和功能不僅節約了實驗成本,而且能夠大大提高實驗效率。后基因組時代為我們提供了大量蛋白質序列和注釋信息,同時為理論預測抗凍蛋白提供了可能性[2]。

目前,已有一些判別方法用于抗凍蛋白的預測[3-4],且取得了一定的結果。然而,仍缺乏對抗凍蛋白有效的描述。本文利用偽氨基酸組分來描述抗凍蛋白序列,并利用支持向量機來對抗凍蛋白進行預測。

1 數據庫

抗凍蛋白原始數據從 http://www3.ntu.edu.sg/home/EPNSugan/index_files/AFP-Pred.htm[3]下載。該數據集包含了481條抗凍蛋白序列和9 193條非抗凍蛋白序列,這些數據的序列一致性低于40%。如果正負數據集的數目偏差過大,會導致錯誤的評估預測模型。因此,為了平衡正負集數據,分別選取400條抗凍蛋白和400條非抗凍蛋白作為基準數據集,并進一步將正負數據集隨機分為訓練集和測試。這兩集合分別包含200條抗凍蛋白和200條非抗凍蛋白。

2 預測算法

2.1 特征提取

偽氨基酸組分(PseAAC)[5]是 Chou教授提出的一種能夠很好地表征蛋白質序列的信息參數。它不但能夠描述蛋白質序列的氨基酸組成,而且能夠描述蛋白質氨基酸序列的物理化學性質的關聯。下面對偽氨基酸組分進行描述。

如果將一個氨基酸殘基數為L的蛋白質X表示成,R1R2R3…RL那么,這條蛋白質序列就可以表示成由20+λ個離散數值定義的一個20+λ維向量,定義形式如下:

這里

其中,fi表示20種不同氨基酸殘基在蛋白質X中出現的頻率。ω是蛋白質序列關聯的權重因子。通常,權重因子的選擇范圍定在ω=0.05到0.7之間,這里我們選取ω=0.05。θj是j階序列相關系數:

公式(3)中相關性函數Θ(Ri,Ri+j)是可以由以下公式得出:

其中,k是因子個數,Hl(Ri)是第i個氨基酸殘基所具有的任一種物理化學特征。這些物理化學特征主要包括親水性,疏水性,側鏈聚集度,a-COOH基的PK值,α-NH3+基的PK值,溫度為25℃時的pI值。這些物化性質的值需經過標準化處理,公式如下:

這里Hl0(i)是第i個氨基酸殘基物理化學特征值的原始值,可從網站 http://chou.med.harvard.edu/bioinf/PseAAC/獲得。

2.2 支持向量機

支持向量機是一種優秀的機器學習方法,并已廣泛運用于生物信息學的領域,比如:轉錄起始點和蛋白質亞細胞定位等多個方面。其優點在于能夠同時最小化經驗誤差與最大化幾何邊緣區,因此支持向量機也被稱為最大邊緣區分類器。其基本思想是將向量映射到一個更高維的空間里,使得不同類型的向量在高維空間中線性可分。對于待分類樣本,其判別函數具有如下形式:

其中,k(x,xi)稱為核函數,通過選取不同的核函數可以得到不同的支持向量機,常用的核函數有以下幾種形式:

(6)~(8)式中,d、γ、b和 c分別為三種核函數的可調參數。本文采用由Chang和Lin開發的LIBSVM軟件包[6],選取徑向基函數(RBF)作為支持向量機的核函數,調整誤差懲罰參數C及核函數參數γ,可得到最佳預測模型。這里使用LIBSVM中的gridsearch程序來優化參數C和γ。

2.3 精度估計

利用敏感性(Sensitivity,Sn)、特異性(Specificity,Sp)和總體準確率(Overall accuracy,OA)為評價指標測試模型的預測性能,其定義如下:

其中,TP、TN、FP和FN分別為正確預測抗凍蛋白數目,正確預測的非抗凍蛋白,非抗凍蛋白預測成為抗凍蛋白的數目和抗凍蛋白預測成非抗凍蛋白的數目。

3 結果與討論

以偽氨基酸組分為特征,利用支持向量機進行分類。利用grid方法對訓練集進行參數尋優,建立最優模型。發現當C=32 768且γ=0.001 953 125時,模型的預測精度最高,對訓練集預測精度達到91.3%。為檢驗模型的推廣能力,我們利用構建好的模型對400條測試序列進行預測,結果表明有78.8%的蛋白質被預測成功,其中75.1%的抗凍蛋白和83.6%的非抗凍蛋白能夠被正確預測。該結果證明偽氨基酸組分可用于抗凍蛋白的預測。

AFP-Pred是第一款用于抗凍蛋白預測的軟件[3],其構建基于300條抗凍蛋白和300條抗凍蛋白。通過使用隨機森林算法對抗凍蛋白進行預測,對訓練集的預測精度達到81.3%,對測試集的預測精度達到 83.4%。最近,Zhao Xiaowei等開發了AFP_PSSM來預測抗凍蛋白[4],對訓練集的預測精度為82.7%,對測試集的預測精度達到93.0%。

盡管已有對測試集的預測精度高于本研究結果,但對于訓練集,本研究結果仍具備優勢。此外,這些方法大多使用了蛋白質序列的進化信息和預測的二級結構信息,這些信息的獲得和提取比本研究使用的偽氨基酸組分要更加復雜。特別是當查詢的數據庫中沒有待查詢序列的同源序列時,進化信息將不可用;當二級結構預測軟件錯誤的預測了蛋白質結構時,那么提取的二級結構信息也不可信。因此,只從蛋白質一級序列出發來預測抗凍蛋白,能夠避免以上問題的出現。

盡管目前的研究結果還不十分令人滿意,但隨著蛋白質序列數據庫的不斷充實,將考慮更多的信息,如寡肽頻率、氨基酸約化等信息,以期提高分類模型的預測準確率。

References)

[1] Carvajal-Rondanelli PA,Marshall SH,Guzman F.Antifreeze glycoprotein agents:structural requirements for activity[J].Journal Science Food Agricuture,2011,91(14):2507-2510.

[2] Garner J,Harding MM.Design and synthesis of antifreeze glycoproteins and mimics[J].Chembiochem,2010,11(18):2489-2498.

[3] Kandaswamy KK,Chou KC,Martinetz T,M?ller S,Suganthan PN,Sridharan S,Pugalenthi G.AFP-Pred:A random forest approach for predicting antifreeze proteins from sequence-derived properties[J].Journal of Theoretical Biology,2011,270(1):56-62.

[4] Zhao Xiaowei,Ma Zhiqiang,Yin Minghao.Using support vector machine and evolutionary profiles to predict antifreeze protein sequences[J].Interntional Journal of Molecular Science,2012,13(2):2196-2207.

[5] Chou KC.Prediction of protein cellular attributes using pseudo-amino acid composition[J].Proteins,2001,43(3):246-255.

[6] Fan RE,Chen PH,Lin CJ.Working set selection using the second order information for training SVM[J].Journal of Multivariate Analysis,2005,6:1889-1918.

猜你喜歡
信息模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
一個相似模型的應用
信息
建筑創作(2001年3期)2001-08-22 18:48:14
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 亚洲男人天堂2018| 国模粉嫩小泬视频在线观看| 国产香蕉一区二区在线网站| 亚洲第一天堂无码专区| 久热re国产手机在线观看| 婷婷午夜天| 日本亚洲国产一区二区三区| av一区二区三区在线观看| 在线观看国产小视频| 国产精品19p| 亚洲欧美日韩中文字幕在线| 区国产精品搜索视频| 欧美性色综合网| 免费一级成人毛片| 很黄的网站在线观看| 97国内精品久久久久不卡| 国产在线观看第二页| 欧美伊人色综合久久天天| 欧美综合区自拍亚洲综合绿色 | 亚洲无码37.| 国产精品污污在线观看网站| 欧美精品一区二区三区中文字幕| 亚洲区视频在线观看| 亚洲成A人V欧美综合| 色悠久久久久久久综合网伊人| 亚洲视频欧美不卡| 国模视频一区二区| 久久semm亚洲国产| 久久免费视频6| 亚洲美女久久| 日韩不卡高清视频| 青青草国产免费国产| 精品国产自在在线在线观看| 真人免费一级毛片一区二区| 一级做a爰片久久毛片毛片| 青青草原国产av福利网站| 手机精品福利在线观看| 强奷白丝美女在线观看| 精品视频在线一区| 麻豆国产精品一二三在线观看| 亚洲欧美日韩综合二区三区| 毛片手机在线看| 狠狠色丁香婷婷综合| 无码'专区第一页| 日本中文字幕久久网站| 国产精品久久自在自线观看| 国产欧美日韩91| 久久精品人妻中文视频| 国产成人高精品免费视频| 综合久久久久久久综合网| 久久激情影院| 亚洲欧洲自拍拍偷午夜色无码| 久久久91人妻无码精品蜜桃HD| 国产一区二区三区在线观看视频| 尤物成AV人片在线观看| 亚洲一区毛片| 国产第二十一页| 久久久噜噜噜| 久久 午夜福利 张柏芝| 欧美在线精品一区二区三区| 国产91精品久久| 成人在线综合| 国产午夜在线观看视频| 亚洲国产精品日韩欧美一区| 国产十八禁在线观看免费| 欧美伦理一区| 中字无码精油按摩中出视频| 日韩大片免费观看视频播放| 国产精品3p视频| 国产午夜精品鲁丝片| 日a本亚洲中文在线观看| 国产精品对白刺激| 亚洲精品国产日韩无码AV永久免费网| 免费Aⅴ片在线观看蜜芽Tⅴ| 亚洲中文字幕手机在线第一页| a级毛片免费在线观看| 欧美日韩久久综合| 国产在线97| 亚洲人成网站在线观看播放不卡| 日本少妇又色又爽又高潮| 亚洲香蕉久久| 亚洲天堂网在线播放|