999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

原核生物基因識別問題的相關分析

2017-02-16 19:35:17楊漢銘
科技與創新 2017年1期

楊漢銘

摘 要:原核生物基因識別屬于生物信息學的范疇,作為一門交叉性的學科,生物信息學中融入了對生物信息的解釋、分析、分發、存儲、處理和獲取等多方面的內容,利用生物學、計算機科學和數學等工具,對大量數據中包含的生物學意義進行理解和闡述。通過分析DNA序列,有效分析蛋白質中非編碼和編碼序列的特征,以期提升蛋白質編碼基因的識別率。簡要闡述原核基因組中ORF及基因的結構特征,嘗試提取描述基因特征的參量,通過分析重疊基因,有效設計自訓練識別原核生物基因算法。

關鍵詞:原核生物;基因識別;結構特征;蛋白質編碼

中圖分類號:Q93-33 文獻標識碼:A DOI:10.15913/j.cnki.kjycx.2017.01.038

在生物信息學領域中,基因識別是一項重要內容,通過分析基因序列,能夠提取基因特征結構信息,得到相應的理論模型,設計識別算法,從而實現對計算機輔助基因的識別。在基因識別中,主要識別RNA基因、蛋白質編碼基因。過去,采用生物學實驗的方法確定基因及其結構,存在費用高、周期長等問題。因此,采用非實驗的方法定位基因,確定基因結構,具有十分重要的意義。

1 Fisher判別法

過去,應用統計模式識別方法存在的一個問題,就是特征數或維數問題。基于此,逐漸產生了一種能夠將特征空間維數降低的方法,其中一種較為常用的方法就是Fisher線性判別法。在這種方法中,在一條過原點的直線上投影d維空間的所有模式,從而形成在一起聚合的一個群,其在一維直線上可能存在混雜的投影。但是,如果轉動這條支線,就能夠在某個方向上很好地區分不同模式的投影。假設存在X1,X2 2種模式樣本集,各自的d維樣本數為n1,n2,假設能夠有效區分模式樣本投影的直線正方向單位向量為W,丨W丨=1,在直線中,X1,X2的投影能夠分別得到r1,r2 2個集合,而y∈ri,即x∈Xi在單位向量W中的投影,則y=WTX。在Fisher先行判別方程中,對編碼區的識別存在多維空間的一個超平面,用矢量c代表,其中包含了c1,c2……cm這m個組分,這個內容可以從2組樣本中得出。其中,第一組g=1表示編碼樣本,第二組g=2則表示非編碼樣本。

2 蛋白質編碼區的識別

在生物信息領域,蛋白質編碼區的識別是一項十分重要的內容。通過訓練已知蛋白質的正負樣本,可確定識別標準,從而預測未知序列。隨著基因識別算法的發展,對序列編碼能力的尺度的衡量是基因識別算法中最重要的內容。但是,在實際應用中,對于原核生物基因的識別仍然存在不足。在提取過程中,重要的部分是參量,選擇的參量應當恰當有效,同時,具有明確的統計學意義和生物學意義,并且具有足夠高的識別率。在實際應用中,利用氨基酸不均勻度能夠達到96.5%的識別率,GC含量的增加能夠有效提升識別率。在不均勻度中發現了很多參量,例如密碼子不均勻度、堿基不均勻度等,這些都能達到較高的識別率。其中,堿基含量不均勻度能夠達到97.8%的識別率。而采用Bayes判別法、Fisher判別法等均能夠達到不錯的識別率。對于生成負樣本,可通過隨機兩兩交換基因堿基一萬次、直接利用基因間序列、生成[0,3]的隨機數等方法加以實現。采用這種方法識別蛋白質編碼區,能夠達到95%以上的識別率。

3 自訓練原核生物基因識別

近年來,隨著模式生物基因組、人來基因組的大規模測序,產生了大量未注釋DNA序列。因此,為了自動注釋原始序列,需要采用準確、快速的算法。在基因識別中,主要的問題是正確識別給定基因組的基因范圍,以及其在基因組序列中的具體位置。目前,常用的基因識別方法是基于序列比對方法。這種方法基于同源蛋白質,具有相似的基因結構,是對其與已知基因未知序列相似性的比對進行判斷和識別。不過,這種方法的局限性是顯而易見的,一旦遇到不具有相近親緣關系的新物種,這種方法就不能適用。所以,可采用自訓練方法識別原核生物基因,也就是從頭計算方法。在這種方法下,可以考慮基因結構保守性的特點,通過分析已知基因結構的特征,提取其中的信息參量,并基于相應理論模型設計算法,從而實現對原核生物基因的識別。

在基因識別中,除了原核基因識別以外,還包括真核基因識別,只是原核基因的結構更為簡單,所以,識別原核生物基因意義更為重要。在識別原核生物基因時,ORF篩選是一項重要的工作,通過下載到某物種序列,尋找正反鏈中起始于TTG、GTG、ATG,終止于TGA、TAG、TAA的,長度在300 bp以上的,是3的倍數的ORF,共得到6個相位。在ORF的篩選中,排除非基因的ORF,并找出訓練集,訓練一組參量,識別篩選后的ORF。在篩選過程中,主要采用的方法有去短留長、信息熵相乘、出現頻率、錯位方差、堿基平均自信息、氨基酸自信息量等。

4 結束語

生物信息學是目前十分重要的學科之一,其包含了很多相關學科的知識和內容。原核生物基因識別作為生物信息學中的一個重要問題,近年來,通過不斷的研究,取得了較大的進展。在識別過程中,Fisher是常用的判別方法。基于此識別蛋白質編碼區,并用自訓練方法識別原核生物基因,有良好的效果。

參考文獻

[1]杜武英,黃江,胡旭初,等.豬帶絳蟲乳酸脫氫酶基因的序列分析、克隆表達和免疫學分析[J].中國人獸共患病學報,2010(03):246-251.

[2]郝志敏,申珅,李志勇,等.玉米大斑病菌Stga-2及其啟動子的克隆與基因表達分析[J].中國農業科學,2010(18):3705-3712.

[3]謝兆輝,曾強成,沈亮,等.真核生物翻譯過程中的mRNA質量控制[J].生物化學與生物物理進展,2013(01):22-29.

[4]朱叢睿,周明旭,朱國強.大腸埃希菌內參基因gapA克隆表達及抗體的制備與應用[J].揚州大學學報(農業與生命科學版),2015(02):14-18.

〔編輯:白潔〕

主站蜘蛛池模板: 青青草一区| 谁有在线观看日韩亚洲最新视频 | 99热国产在线精品99| 久久精品波多野结衣| 中文字幕免费在线视频| 无码网站免费观看| 成人av专区精品无码国产| 91av成人日本不卡三区| 99视频只有精品| a级免费视频| 日韩一区二区三免费高清| 91精品啪在线观看国产| 欧美日一级片| 草草影院国产第一页| 91精品久久久无码中文字幕vr| 国产成人精品2021欧美日韩| 欧美伦理一区| 亚洲精品制服丝袜二区| 国产人碰人摸人爱免费视频| 精品视频一区在线观看| 午夜天堂视频| 国产成人凹凸视频在线| 熟女成人国产精品视频| 中文字幕在线一区二区在线| 亚洲中文字幕无码爆乳| 国产激情第一页| 亚洲无码视频一区二区三区 | 亚洲成aⅴ人片在线影院八| 免费人成网站在线高清| 国产精品美女免费视频大全| 黄色网站在线观看无码| 免费视频在线2021入口| 操美女免费网站| 色国产视频| 第一页亚洲| 手机在线免费不卡一区二| 亚洲中文无码av永久伊人| 久久久国产精品免费视频| 中日韩一区二区三区中文免费视频| 强奷白丝美女在线观看| 国产人免费人成免费视频| 欧美一区二区三区国产精品| 日韩激情成人| 日本亚洲国产一区二区三区| 在线无码九区| 久热精品免费| 日韩成人高清无码| 九九九九热精品视频| 日本91在线| 欧美不卡二区| 国产一区二区网站| 国产麻豆另类AV| 亚洲国产欧洲精品路线久久| 怡红院美国分院一区二区| 欧美a在线看| 国产一二视频| 亚洲第一中文字幕| 亚洲乱码视频| 美女高潮全身流白浆福利区| 国产一区二区三区在线观看免费| 一级毛片免费不卡在线视频| 久久不卡国产精品无码| 高潮毛片无遮挡高清视频播放| 国产无遮挡猛进猛出免费软件| 一级一级特黄女人精品毛片| 亚洲精品成人7777在线观看| 国产精品成| 国产成年女人特黄特色毛片免| 欧美成人日韩| 蜜臀AV在线播放| 国产精品19p| 精品久久人人爽人人玩人人妻| 天天操天天噜| 在线视频亚洲色图| 99在线观看视频免费| 欧美a在线| 黄片在线永久| 欧美一级高清视频在线播放| 欧美综合中文字幕久久| 伊在人亚洲香蕉精品播放 | 久草网视频在线| 97se亚洲综合在线天天|