999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于序列的蛋白質功能分類系統的研究與設計

2016-12-31 00:00:00譚生龍
科技創新與應用 2016年27期

摘 要:在生物序列快速增長的大環境下,對新產生的未知功能序列進行快速功能注釋是一項有挑戰性的任務,文本以蛋白質序列為研究對象,描述了使用機器學習方法對未知功能的蛋白質序列進行功能分類的一般方法。

關鍵詞:蛋白質序列;特征提取;功能分類

1 概述

蛋白質是一切生命活動的載體,對蛋白質序列進行功能預測是研究蛋白質功能的重要途徑。隨著越來越多的生物物種被測序,生物數據庫中的未知功能序列正在快速增加,僅通過實驗手段來驗證未知序列的功能顯然已經不能滿足要求。因此,借助計算技術對未知功能生物序列進行功能預測已變成一種可行途徑。文章以蛋白質序列為例,描述了基于序列的蛋白質功能分類系統的設計流程。

2 基于蛋白質序列的功能分類算法的分析

測序技術的快速發展產生了大量未知功能的序列;其中,蛋白質序列占很大比重,對這些序列進行功能注釋是一項繁瑣的大工程。在生物領域,一般認為在序列上相似的蛋白質在功能上也具有相似性。因此,我們希望通過對已知功能的蛋白質序列進行建模,用該模型來對未知功能的序列進行功能分類,其功能分類框架如圖1所示。

2.1 構建正負樣本訓練集

為了構建基于機器學習的功能分類模型,獲取高質量的正樣本和負樣本序列訓練集非常重要。正樣本序列是指已確認其具有某項功能的蛋白質序列,獲取途徑可以從已發表的文獻或者相關蛋白質功能數據庫中獲取,也可以從模式生物蛋白質序列的注釋信息中提取。負樣本序列指不具有相關功能的一般序列。負樣本序列的選擇可以來源于基因組中的其它隨機序列,它不能與正樣本集中的序列有交集,且負樣本序列和正樣本序列在數量上應該保存相當。

2.2 剔除訓練集中的重復序列

為了提高機器學習模型的分類性能,訓練集中序列之間的相似性應該比較低,即正負樣本訓練集中的序列相似性應該低于給定的閥值,一般取20%或者25%,即兩條序列間序列的一致性(Identity)不超過20%或者25%。評價序列相似性的軟件很多,包括Blast、BlastClust和cd-hit等;使用這些軟件可以剔除訓練集中的相似序列(冗余序列)。

2.3 從蛋白質序列中提取特征向量

訓練集中的蛋白質序列是由字母表∑中的20個字符生成的字符長串,每個字符代表20種基本氨基酸之一,即∑={A,C,D,E,F,G,H,I,K,L,M,N,P,Q,R,S,T,V,W,Y};而目前的機器學習算法僅能處理特征向量;因此,將訓練集中的每條序列轉化為一個特征向量是必經步驟。設計高效的特征提取方案將蛋白質序列轉化成特征向量是獲得高性能分類模型的關鍵,比如使用propy[1]和Pse-in-One[2]等工具軟件可實現將蛋白質序列轉化為特征向量。

2.4 確定訓練集中特征向量的類標號

將訓練集中的序列轉換為特征向量后,需要將正負樣本的特征向量加上類標號,正樣本特征向量一般加上類標號+1,負樣本的特征向量加上-1,這樣就可以將正負樣本特征向量集合并為一個輸入文件,方便輸入到機器學習分類模型中。

2.5 選擇機器學習方法構建分類模型

在生物信息學領域沒有通用的機器學習算法,比較常用的算法包括支持向量機算法(Support Vector Machine)、隨機森林(Random Forest)、決策樹(Decision Tree)、貝葉斯(Na ve Bayesian)和二次判別分析(Quadratic Discriminant Analysis)等眾多機器學習算法[3]。不同的生物信息學應用場景、不同的特征提取方法和不同的機器學習算法的組合可能會產生性能顯著不同的分類器。通過比較不同的特征提取方式和機器學習算法,并通過性能評價指標來選擇分類性能高的機器學習算法。

2.6 通過交叉檢驗來評價機器學習算法的性能

評價機器學習算法的性能指標包括靈敏度(Sensitivity, Sn)、特異度(Specificity, Sp)、準確度(Precision, Pr)、馬修相關系數(Mathew's correlation coefficient,MCC)等,具體的計算公式可文獻參考[3,4],通過交叉檢驗來計算不同分類算法的性能指標值,根據這些指標值來比較不同分類算法的性能;常用的交叉檢驗方法包括5倍交叉檢驗、10倍交叉檢驗和留一法交叉檢驗。

2.7 機器學習算法的最優參數

在使用機器學習算法對蛋白質序列進行功能分類的應用中,不同的算法可能有不同的參數組合,將參數調節到最優狀態可以獲得分類器的最佳性能。交叉檢驗是衡量機器學習算法選擇及最優參數配置的手段。例如,使用支持向量機并選擇徑向基核函數來對蛋白質序列構建分類模型時,可以使用網格搜索法來搜索支持向量機算法的核函數因子γ和懲罰系數C這兩個參數的最佳值,并通過交叉檢驗計算每種參數下的性能指標,尋找最優參數組合,并在此參數下訓練出性能最優的機器學習模型。

2.8 對未知功能序列進行功能預測

在應用預測模型對未知功能的蛋白質序列進行分類時,首先,應該將該序列轉化為特征向量,轉化方法應該與構建模型的特征提取方法相同,將蛋白質序列轉化成特征向量后輸入到前面步驟所構建的機器學習模型中,其輸出結果為表示特定功能的類標號,根據輸出的類標號即可判定未知功能序列是否屬于指定的功能類別。

3 結束語

文章描述了應用機器學習方法對蛋白質序列進行功能分類的一般流程,通過選擇合適的特征提取方法和機器學習算法,并通過交叉檢驗選擇最佳的模型參數,可構建一個分類性能佳的分類器,可實現對未知功能蛋白質序列進行快速功能分類。

參考文獻

[1]D. S. Cao, Q. S. Xu, and Y. Z. Liang, “propy: a tool to generate various modes of Chou's PseAAC,” Bioinformatics, vol. 29, pp. 960-2, Apr 1 2013.

[2]B. Liu, F. Liu, X. Wang, J. Chen, L. Fang, and K. C. Chou, “Pse-in-One: a web server for generating various modes of pseudo components of DNA, RNA, and protein sequences,” Nucleic Acids Res, vol. 43, pp. W65-71, Jul 1 2015.

[3]J. C. Jeong, X. Lin, and X. W. Chen, “On position-specific scoring matrix for protein function prediction,” IEEE/ACM Trans Comput Biol Bioinform, vol. 8, pp. 308-15, Mar-Apr 2011.

[4]G. Liu, J. Liu, X. Cui, and L. Cai, “Sequence-dependent prediction of recombination hotspots in Saccharomyces cerevisiae,” J Theor Biol, vol. 293, pp. 49-54, Jan 21 2012.

主站蜘蛛池模板: 国产精品国产主播在线观看| 国产成人1024精品下载| 黄片一区二区三区| 欧美日在线观看| 精品成人一区二区| 老司国产精品视频| 国产凹凸视频在线观看| 不卡网亚洲无码| 国产剧情国内精品原创| 成人字幕网视频在线观看| 麻豆AV网站免费进入| 国产久草视频| 好吊日免费视频| 国内精自线i品一区202| 国产成人av一区二区三区| 国产内射在线观看| 成人年鲁鲁在线观看视频| 午夜精品区| 久久6免费视频| 精品国产三级在线观看| 欧美人人干| 精品欧美一区二区三区在线| 亚洲天堂精品在线| 成人免费视频一区| 国产成人综合亚洲网址| 久久国产精品电影| 欧美亚洲国产一区| 手机在线免费毛片| 91亚洲国产视频| 国产无码网站在线观看| 亚洲成人网在线播放| 91久久国产成人免费观看| 伊人AV天堂| 国产呦精品一区二区三区网站| 国产日韩欧美黄色片免费观看| 国产精品欧美在线观看| 奇米精品一区二区三区在线观看| 欧美日韩在线亚洲国产人| 综合久久五月天| 任我操在线视频| 狠狠做深爱婷婷久久一区| 色噜噜狠狠色综合网图区| 欧美一级在线看| a亚洲天堂| 精品一区二区三区水蜜桃| 亚洲无码四虎黄色网站| 污视频日本| 97人妻精品专区久久久久| 区国产精品搜索视频| 国产v欧美v日韩v综合精品| 超清无码一区二区三区| 91毛片网| 亚洲AV色香蕉一区二区| 91蝌蚪视频在线观看| 色婷婷国产精品视频| 国产黄色爱视频| 97在线国产视频| 日韩在线2020专区| 最新亚洲人成无码网站欣赏网| 精品色综合| 亚洲国产成人精品一二区| 青青草国产一区二区三区| 超薄丝袜足j国产在线视频| 在线观看国产黄色| 97超爽成人免费视频在线播放| 成人午夜视频在线| 91视频精品| 国产人免费人成免费视频| 夜夜操国产| 直接黄91麻豆网站| 青青国产视频| 午夜电影在线观看国产1区| 国产高清无码麻豆精品| 国产99在线观看| 中文字幕免费在线视频| 久久午夜夜伦鲁鲁片无码免费| 亚洲精品在线91| 久热99这里只有精品视频6| 99这里只有精品6| 国产精品无码AV片在线观看播放| 99视频精品全国免费品| 日本三级欧美三级|