999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

長非編碼RNA鑒定方法研究

2020-07-04 02:27:37楊陽
智能計算機(jī)與應(yīng)用 2020年3期
關(guān)鍵詞:機(jī)器學(xué)習(xí)

楊陽

摘要:高通量測序技術(shù)的出現(xiàn)帶來了大量可用的轉(zhuǎn)錄組數(shù)據(jù),評估進(jìn)化保守區(qū)域的編碼潛力成為轉(zhuǎn)錄數(shù)據(jù)分析中的核心任務(wù)。對轉(zhuǎn)錄本編碼潛力的預(yù)測可以用來鑒定長非編碼RNA(long noncoding RNA, lncRNA)。lncRNA是一種長度超過200個核苷酸的非編碼RNA,研究表明lncRNA在多種生物中都有重要作用,能夠在染色質(zhì)修飾、表觀遺傳、轉(zhuǎn)錄及轉(zhuǎn)錄后調(diào)控等多種層面發(fā)揮重要的調(diào)控作用。已經(jīng)有許多基于機(jī)器學(xué)習(xí)的工具被開發(fā)用來區(qū)分編碼與非編碼轉(zhuǎn)錄本序列。不同的工具通常是針對不同的情況設(shè)計的,因此需要根據(jù)特定的情況選擇合適的方法。本文分析了幾種常用工具各自的特點(diǎn)和適用范圍,幫助研究人員選用合適的方法以獲得更可靠的結(jié)果。

關(guān)鍵詞: 轉(zhuǎn)錄組數(shù)據(jù); 編碼潛力; 長非編碼RNA; 機(jī)器學(xué)習(xí)

【Abstract】 With the advent of high-throughput sequencing technologies, a large amount of available transcriptome data has been generated, and the evaluation of the coding potential of evolutionarily conserved regions has become a core in the analysis of transcripts. Prediction of the coding potential of transcripts can be used to identify long noncoding RNAs (lncRNAs). lncRNA is a kind of noncoding RNA with length more than 200 nucleotides, which plays an important role in many organisms. It can play an important regulatory role in various aspects such as chromatin modification, epigenetics, transcription and post-transcriptional regulation. Many machine learning tools have been developed to distinguish between coding and non-coding transcripts. Different tools are designed for different situations, so it is required to choose the suitable method for the specific situation. In this review, several popular tools and their advantages, disadvantages, and application scopes are summarised to assist people in employing a suitable method and obtaining a more reliable result.

【Key words】 ?transcriptome data; coding potential; long noncoding RNA; machine learning

0 引 言

非編碼RNA(noncoding RNA ,ncRNA)是所有從DNA轉(zhuǎn)錄但不編碼蛋白質(zhì)的功能性RNA的統(tǒng)稱。最初,人們將非編碼RNA基因分類為“垃圾基因”或轉(zhuǎn)錄“噪音”,然而在之后的研究中發(fā)現(xiàn),非編碼序列在生命體生命活動中具有重要的調(diào)控作用[1]。這些非編碼序列中,最近研究較多的是長非編碼RNA(long noncoding RNA, lncRNA),lncRNA是指長度超過200個核苷酸且不編碼蛋白質(zhì)的轉(zhuǎn)錄物[2]。

為了系統(tǒng)研究lncRNA的功能,首要的工作是從基因中識別lncRNA。高通量測序數(shù)據(jù)大量涌現(xiàn)為學(xué)者們提供了更多有關(guān)lncRNA的有用信息。與此同時,為了方便后續(xù)研究和分析,很多鑒定lncRNA的計算機(jī)方法被提出。本文對鑒定lncRNA的計算方法進(jìn)行了較為全面的回顧。

1 lncRNA鑒定工具介紹

lncRNA鑒定過程中的一個重要問題是區(qū)分編碼與非編碼轉(zhuǎn)錄本序列,目前已經(jīng)有很多生物信息學(xué)的方法使用序列的內(nèi)部特征和結(jié)構(gòu)特點(diǎn)預(yù)測非編碼RNA[3]。本文中比較了幾種流行的基于機(jī)器學(xué)習(xí)的工具。對此可做闡釋分述如下。

1.1 CPAT[4]介紹

CPAT是基于邏輯回歸模型的蛋白質(zhì)編碼潛力評估工具。使用的特征包括:開放閱讀框大小、開放閱讀框覆蓋率、Fickett分?jǐn)?shù)和Hexamer分?jǐn)?shù)。

1.4 CPC2介紹

CPC2[7]是CPC的升級,仍然使用支持向量機(jī)模型,CPC2能更加快速、準(zhǔn)確地評估RNA轉(zhuǎn)錄本的編碼能力。CPC2中使用了4個特征,包括:Fickett分?jǐn)?shù)、開放閱讀框長度、開放閱讀框完整性以及預(yù)測肽的等電點(diǎn)。開放閱讀框的完整性是指開放閱讀框以起始密碼子開始,以終止密碼子結(jié)束。等電點(diǎn)可以通過BioPython中的ProtParam模塊計算得到。

1.5 CPPred介紹

CPPred[8]的實(shí)現(xiàn)基于支持向量機(jī)分類器和多個序列特征, CPPred使用開放閱讀框長度、開放閱讀框覆蓋率、Fickett分?jǐn)?shù)和Hexamer分?jǐn)?shù)、開放閱讀框完整性、預(yù)測肽的等電點(diǎn)、預(yù)測肽的不穩(wěn)定指數(shù)、預(yù)測肽的親水性平均值Gravy以及30個CPPred中提出的CTD特征訓(xùn)練分類器。CTD特征用來描述全局轉(zhuǎn)錄本序列,核苷酸組成(特征C)描述了轉(zhuǎn)錄本序列中每個核苷酸的百分比組成;核苷酸轉(zhuǎn)換(特征T)描述了4個核苷酸在相鄰位置之間轉(zhuǎn)換的百分比;核苷酸分布(特征D)計算每個核苷酸在轉(zhuǎn)錄物序列的5個相對位置(0,25%,50%,75%,100%)來表示每個核苷酸在轉(zhuǎn)錄本序列中的分布。

2 lncRNA鑒定工具比較

本文所涉及的5個lncRNA鑒定工具包括最常用的CPAT、CNCI、PLEK,以及CPC的最新版本CPC2和最新發(fā)布的工具CPPred。其中,CPAT使用了邏輯回歸模型,其余四個工具都使用了支持向量機(jī)模型。本文總結(jié)每種工具的簡要信息和使用細(xì)節(jié)見表1。

接著,本文更具體地對5種工具所選擇的特征進(jìn)行概述,見表2。

5種鑒定工具都是不包含比對過程的,適用于對未充分研究的物種的轉(zhuǎn)錄物分析。其中,CNCI和PLEK都可以用于有測序錯誤的數(shù)據(jù)集,PLEK在這類數(shù)據(jù)上表現(xiàn)更好。與CPAT、CPC2和CPPred相比,PLEK在除人類以外的其他物種中表現(xiàn)不佳。5種鑒定工具在不同測試集上的表現(xiàn)見表3。

由于不同物種lncRNA、不同測序數(shù)據(jù)之間存在一定的差異性,不同的lncRNA鑒定工具設(shè)計上存在一定的針對性。CPAT和CPPred為小鼠轉(zhuǎn)錄本的鑒定提供了專門的模型。在分析其他物種時,CPAT還提供了果蠅和斑馬魚的模型;CNCI和PLEK可以預(yù)測脊椎動物和植物的序列;CPC2還可以預(yù)測果蠅、斑馬魚、擬南芥、蠕蟲;CPPred提供了適用于斑馬魚、果蠅、釀酒酵母、線蟲和擬南芥的模型。不同工具在不同條件下的適用性見表4。

3 結(jié)束語

lncRNA的鑒定一直以來都是生物信息學(xué)研究的一個挑戰(zhàn),在2010年之前,以CPC軟件為代表的lncRNA鑒定工具會依賴比對過程,此后,大部分軟件通過提取序列的內(nèi)在特征來進(jìn)行分類。這篇綜述中,集中探討了常用的和最新的lncRNA鑒定工具,總結(jié)了其相應(yīng)的適用范圍,幫助研究人員來選擇使用適合的工具,同時獲得令人信服的結(jié)果。未來lncRNA鑒定工具的趨勢是針對不同類型的序列,開放不同的工具來解決各種特定情況下的問題。

參考文獻(xiàn)

[1] PALAZZO A F, LEE E S. Non-coding RNA:What is functional and what is junk? [J]. Frontiers in Genetics, 2015, 6: 2.

[2]SCHMITZ S U, GROTE P, HERRMANN B G. Mechanisms of long noncoding RNA function in development and disease[J]. Cellular and molecular life sciences, 2016, 73(13): 2491.

[3]HAN Siyu, LIANG Yanchun, LI Ying, et al. Long noncoding RNA identification: Comparing machine learning based tools for long noncoding transcripts discrimination[J]. BioMed Research International, 2016, 2016: 8496165.

[4]WANG Liguo, PARK H J, DASARI S, et al. CPAT: Coding-potential assessment tool using an alignment-free logistic regres-sion model[J]. Nucleic acids research, 2013,41(6): e74.

[5]SUN Liang, LUO Haitao, BU Dechao, et al. Utilizing sequence intrinsic composition to classify protein-coding and long non-coding transcripts[J]. Nucleic acids research, 2013, 41(17): e166.

[6]LI Aimin, ZHANG Junying, ZHOU Zhongyin. PLEK:A tool for predicting long non-coding RNAs and messenger RNAs based on an improved k-mer scheme[J]. BMC bioinformatics, 2014, 15: 311.

[7]KANG Yujian, YANG Dechang, KONG Leilei, et al. CPC2: A fast and accurate coding potential calculator based on sequence intrinsic features[J]. Nucleic acids research, 2017, 45(W1): W12.

[8]TONG Xiaoxue, LIU Shiyong. CPPred: Coding potential prediction based on the global description of RNA sequence[J]. Nucleic Acids Research, 2019, gkz087:1

猜你喜歡
機(jī)器學(xué)習(xí)
基于詞典與機(jī)器學(xué)習(xí)的中文微博情感分析
基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測分析
時代金融(2016年27期)2016-11-25 17:51:36
前綴字母為特征在維吾爾語文本情感分類中的研究
下一代廣播電視網(wǎng)中“人工智能”的應(yīng)用
活力(2016年8期)2016-11-12 17:30:08
基于支持向量機(jī)的金融數(shù)據(jù)分析研究
基于Spark的大數(shù)據(jù)計算模型
基于樸素貝葉斯算法的垃圾短信智能識別系統(tǒng)
基于圖的半監(jiān)督學(xué)習(xí)方法綜述
機(jī)器學(xué)習(xí)理論在高中自主學(xué)習(xí)中的應(yīng)用
極限學(xué)習(xí)機(jī)在圖像分割中的應(yīng)用
主站蜘蛛池模板: 欧美啪啪一区| 亚洲成aⅴ人片在线影院八| 国产激情无码一区二区三区免费| 无码国内精品人妻少妇蜜桃视频| 性色在线视频精品| 九九九精品成人免费视频7| 亚洲午夜国产片在线观看| 久996视频精品免费观看| 四虎影视8848永久精品| 亚洲精品日产精品乱码不卡| 天天色天天综合网| 伊人91视频| 国产成人亚洲欧美激情| 免费看一级毛片波多结衣| 日本午夜网站| 久久亚洲黄色视频| 一本大道视频精品人妻 | 国产一级精品毛片基地| 亚洲av无码牛牛影视在线二区| 在线观看欧美国产| 一级一级一片免费| 色哟哟国产精品一区二区| 亚洲综合日韩精品| 欧美一区日韩一区中文字幕页| 亚洲另类第一页| 亚洲人成影院午夜网站| 国产资源免费观看| 国产欧美精品一区二区| 福利一区三区| 在线欧美一区| 国产美女免费| 在线观看欧美精品二区| 亚洲国产看片基地久久1024| 国产丝袜无码精品| 一本二本三本不卡无码| 中文字幕亚洲另类天堂| 亚洲综合色吧| 久久久久久久久亚洲精品| 黄色网在线| 久久亚洲国产视频| 国内老司机精品视频在线播出| 久久人人97超碰人人澡爱香蕉 | 国产精品成人观看视频国产 | 免费在线国产一区二区三区精品| 国产欧美日韩18| 成人亚洲天堂| 国产精品网址你懂的| 波多野结衣一区二区三视频| 欧美a级完整在线观看| 尤物精品视频一区二区三区| 国产毛片高清一级国语| 欧美色综合网站| 国产亚洲精品91| 亚洲中文字幕在线观看| 国产美女无遮挡免费视频| 麻豆国产精品视频| 国产福利一区二区在线观看| 久久夜夜视频| 国产美女无遮挡免费视频| 天天色综合4| AV在线天堂进入| 亚洲色中色| 无码一区18禁| 91福利免费| 国产在线观看精品| 国产精品男人的天堂| 国产素人在线| 国产成人一区在线播放| 亚洲国产亚洲综合在线尤物| 亚洲一区二区日韩欧美gif| 欧美亚洲国产一区| 伊人91视频| 国产香蕉97碰碰视频VA碰碰看| 永久成人无码激情视频免费| 国产成人AV男人的天堂| 二级特黄绝大片免费视频大片| 男女精品视频| 亚洲精品无码高潮喷水A| 免费无遮挡AV| 亚洲综合激情另类专区| 激情视频综合网| 美女国内精品自产拍在线播放|