999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于序列的蛋白質功能分類系統的研究與設計

2016-12-31 00:00:00譚生龍
科技創新與應用 2016年27期

摘 要:在生物序列快速增長的大環境下,對新產生的未知功能序列進行快速功能注釋是一項有挑戰性的任務,文本以蛋白質序列為研究對象,描述了使用機器學習方法對未知功能的蛋白質序列進行功能分類的一般方法。

關鍵詞:蛋白質序列;特征提取;功能分類

1 概述

蛋白質是一切生命活動的載體,對蛋白質序列進行功能預測是研究蛋白質功能的重要途徑。隨著越來越多的生物物種被測序,生物數據庫中的未知功能序列正在快速增加,僅通過實驗手段來驗證未知序列的功能顯然已經不能滿足要求。因此,借助計算技術對未知功能生物序列進行功能預測已變成一種可行途徑。文章以蛋白質序列為例,描述了基于序列的蛋白質功能分類系統的設計流程。

2 基于蛋白質序列的功能分類算法的分析

測序技術的快速發展產生了大量未知功能的序列;其中,蛋白質序列占很大比重,對這些序列進行功能注釋是一項繁瑣的大工程。在生物領域,一般認為在序列上相似的蛋白質在功能上也具有相似性。因此,我們希望通過對已知功能的蛋白質序列進行建模,用該模型來對未知功能的序列進行功能分類,其功能分類框架如圖1所示。

2.1 構建正負樣本訓練集

為了構建基于機器學習的功能分類模型,獲取高質量的正樣本和負樣本序列訓練集非常重要。正樣本序列是指已確認其具有某項功能的蛋白質序列,獲取途徑可以從已發表的文獻或者相關蛋白質功能數據庫中獲取,也可以從模式生物蛋白質序列的注釋信息中提取。負樣本序列指不具有相關功能的一般序列。負樣本序列的選擇可以來源于基因組中的其它隨機序列,它不能與正樣本集中的序列有交集,且負樣本序列和正樣本序列在數量上應該保存相當。

2.2 剔除訓練集中的重復序列

為了提高機器學習模型的分類性能,訓練集中序列之間的相似性應該比較低,即正負樣本訓練集中的序列相似性應該低于給定的閥值,一般取20%或者25%,即兩條序列間序列的一致性(Identity)不超過20%或者25%。評價序列相似性的軟件很多,包括Blast、BlastClust和cd-hit等;使用這些軟件可以剔除訓練集中的相似序列(冗余序列)。

2.3 從蛋白質序列中提取特征向量

訓練集中的蛋白質序列是由字母表∑中的20個字符生成的字符長串,每個字符代表20種基本氨基酸之一,即∑={A,C,D,E,F,G,H,I,K,L,M,N,P,Q,R,S,T,V,W,Y};而目前的機器學習算法僅能處理特征向量;因此,將訓練集中的每條序列轉化為一個特征向量是必經步驟。設計高效的特征提取方案將蛋白質序列轉化成特征向量是獲得高性能分類模型的關鍵,比如使用propy[1]和Pse-in-One[2]等工具軟件可實現將蛋白質序列轉化為特征向量。

2.4 確定訓練集中特征向量的類標號

將訓練集中的序列轉換為特征向量后,需要將正負樣本的特征向量加上類標號,正樣本特征向量一般加上類標號+1,負樣本的特征向量加上-1,這樣就可以將正負樣本特征向量集合并為一個輸入文件,方便輸入到機器學習分類模型中。

2.5 選擇機器學習方法構建分類模型

在生物信息學領域沒有通用的機器學習算法,比較常用的算法包括支持向量機算法(Support Vector Machine)、隨機森林(Random Forest)、決策樹(Decision Tree)、貝葉斯(Na ve Bayesian)和二次判別分析(Quadratic Discriminant Analysis)等眾多機器學習算法[3]。不同的生物信息學應用場景、不同的特征提取方法和不同的機器學習算法的組合可能會產生性能顯著不同的分類器。通過比較不同的特征提取方式和機器學習算法,并通過性能評價指標來選擇分類性能高的機器學習算法。

2.6 通過交叉檢驗來評價機器學習算法的性能

評價機器學習算法的性能指標包括靈敏度(Sensitivity, Sn)、特異度(Specificity, Sp)、準確度(Precision, Pr)、馬修相關系數(Mathew's correlation coefficient,MCC)等,具體的計算公式可文獻參考[3,4],通過交叉檢驗來計算不同分類算法的性能指標值,根據這些指標值來比較不同分類算法的性能;常用的交叉檢驗方法包括5倍交叉檢驗、10倍交叉檢驗和留一法交叉檢驗。

2.7 機器學習算法的最優參數

在使用機器學習算法對蛋白質序列進行功能分類的應用中,不同的算法可能有不同的參數組合,將參數調節到最優狀態可以獲得分類器的最佳性能。交叉檢驗是衡量機器學習算法選擇及最優參數配置的手段。例如,使用支持向量機并選擇徑向基核函數來對蛋白質序列構建分類模型時,可以使用網格搜索法來搜索支持向量機算法的核函數因子γ和懲罰系數C這兩個參數的最佳值,并通過交叉檢驗計算每種參數下的性能指標,尋找最優參數組合,并在此參數下訓練出性能最優的機器學習模型。

2.8 對未知功能序列進行功能預測

在應用預測模型對未知功能的蛋白質序列進行分類時,首先,應該將該序列轉化為特征向量,轉化方法應該與構建模型的特征提取方法相同,將蛋白質序列轉化成特征向量后輸入到前面步驟所構建的機器學習模型中,其輸出結果為表示特定功能的類標號,根據輸出的類標號即可判定未知功能序列是否屬于指定的功能類別。

3 結束語

文章描述了應用機器學習方法對蛋白質序列進行功能分類的一般流程,通過選擇合適的特征提取方法和機器學習算法,并通過交叉檢驗選擇最佳的模型參數,可構建一個分類性能佳的分類器,可實現對未知功能蛋白質序列進行快速功能分類。

參考文獻

[1]D. S. Cao, Q. S. Xu, and Y. Z. Liang, “propy: a tool to generate various modes of Chou's PseAAC,” Bioinformatics, vol. 29, pp. 960-2, Apr 1 2013.

[2]B. Liu, F. Liu, X. Wang, J. Chen, L. Fang, and K. C. Chou, “Pse-in-One: a web server for generating various modes of pseudo components of DNA, RNA, and protein sequences,” Nucleic Acids Res, vol. 43, pp. W65-71, Jul 1 2015.

[3]J. C. Jeong, X. Lin, and X. W. Chen, “On position-specific scoring matrix for protein function prediction,” IEEE/ACM Trans Comput Biol Bioinform, vol. 8, pp. 308-15, Mar-Apr 2011.

[4]G. Liu, J. Liu, X. Cui, and L. Cai, “Sequence-dependent prediction of recombination hotspots in Saccharomyces cerevisiae,” J Theor Biol, vol. 293, pp. 49-54, Jan 21 2012.

主站蜘蛛池模板: jizz国产视频| 依依成人精品无v国产| 久久精品嫩草研究院| 免费一级毛片| 久久一日本道色综合久久| 国产永久免费视频m3u8| 99成人在线观看| 国产成人啪视频一区二区三区| 毛片在线播放网址| 精品91自产拍在线| 91麻豆精品国产91久久久久| a在线观看免费| 国产精品三级专区| 国产成人AV男人的天堂| 国产极品美女在线| 色综合成人| 国产男女XX00免费观看| 国产成人毛片| 四虎免费视频网站| 国产精品开放后亚洲| 精品国产自| 亚洲成a人片| 99热最新网址| 国产大片黄在线观看| 伊大人香蕉久久网欧美| 国产自无码视频在线观看| 伊人查蕉在线观看国产精品| 直接黄91麻豆网站| 国产91色| 国产激爽大片在线播放| 国产美女叼嘿视频免费看| 国产大全韩国亚洲一区二区三区| 97久久人人超碰国产精品| lhav亚洲精品| 免费在线视频a| 国产av剧情无码精品色午夜| 正在播放久久| 伊在人亚洲香蕉精品播放 | 婷婷综合缴情亚洲五月伊| 国产欧美高清| 色悠久久久| 日本高清成本人视频一区| 日韩欧美91| 国产一级α片| 网友自拍视频精品区| 久久婷婷六月| 国产高清自拍视频| 51国产偷自视频区视频手机观看| 孕妇高潮太爽了在线观看免费| 国产成人永久免费视频| 久一在线视频| 男人天堂伊人网| 欧美v在线| 亚洲无码视频一区二区三区 | 久久香蕉国产线看精品| 亚洲娇小与黑人巨大交| 欧美亚洲另类在线观看| 成人韩免费网站| 少妇精品在线| 露脸真实国语乱在线观看| 日韩欧美一区在线观看| www中文字幕在线观看| 2021亚洲精品不卡a| 亚洲欧美一区二区三区麻豆| 无遮挡国产高潮视频免费观看| 老司机久久99久久精品播放| 97国产在线播放| 国产精品永久久久久| 中文字幕在线不卡视频| 综1合AV在线播放| 国产小视频在线高清播放| 亚洲成在人线av品善网好看| 精品国产自| 欧美一区二区三区国产精品| 欧美精品啪啪| 日本高清有码人妻| 在线观看国产精品日本不卡网| 亚洲欧美在线综合一区二区三区| 狠狠色丁香婷婷综合| 乱码国产乱码精品精在线播放 | 亚洲无卡视频| 97在线公开视频|