999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

利用轉錄組測序數據分析可變剪接的方法

2020-05-26 02:18:11馬素平
科學與信息化 2020年8期

馬素平

摘 要 可變剪接是調節基因表達和產生蛋白組多樣性的重要因素,同時參與調控細胞分裂、分化及凋亡等重要生物學過程,異常的可變剪接多與人類疾病有關。隨著新一代測序技術和生物信息學的快速發展,以及先進計算方法的提出,使得我們對可變剪接有了深入的認識。并且基于剪接機制對于病的靶向藥物設計,已得到了有效的臨床治療效果。本文主要闡述了近年來基于二代測序技術開發的幾種識別可變剪接的計算方法,并對未來的發展方向進行展望。

關鍵詞 可變剪接;二代測序技術;生物信息學;分析工具

可變剪接,又稱選擇性剪接(Alternative Splicing,AS),是真核生物基因表達的普遍調節機制,是指一個前體mRNA經過不同的剪接形式產生多種不同剪接異構體的過程。在1978年,Walter Gilbert提出了內含子和外顯子命名[1],不同外顯子組合產生特異的異構體。二代測序技術的迅速發展極大地推動了人類對可變剪接的認識。現有數據表明,人類大約有92%-94%的基因都會經歷某種程度的可變剪接行為,并且在20000多種人類蛋白編碼基因中,約37%的基因會編碼產生不同的蛋白亞型,這表明可變剪接增加了蛋白質組的多樣性和復雜性[2]。

AS對基因的功能起著重要調控作用,同一基因的不同亞型可能參與不同的生物學過程。例如p53抑癌基因(TP53)在DNA受損細胞的調控中起著核心作用,然而其Δ133β亞型則可以抑制全長p53β亞型5和6從而誘導腫瘤細胞的凋亡[3]。另外AS幾乎參與了所有生物學過程,包括調節細胞的分裂和凋亡、神經系統的發育以及細胞對抗多種環境因素做出的免疫應激反應等[4]。

另一方面,AS的異常調節還與多種遺傳性疾病和惡性腫瘤相關,包括神經退行性疾病、心血管疾病和代謝狀況等。據報道,與SNP相關的遺傳性疾病多達一半是由于剪接受損引起的[5]。AS的異常調節對癌癥的發生發展有重要的作用,為疾病的發展提供了可能的新穎治療靶標和生物標志物的來源,而AS位點的預測可以為藥物設計提供很好的分子基礎。

本文主要闡述了最新的基于二代測序數據計算可變剪接方法的基本原理及應用,并對未來的研究方向做了初步的展望。

1可變剪接的主要類型

目前大量數據研究結果表明,可變剪接主要包括五種形式(圖1),分別為外顯子跳躍(Skipped Exon,SE),可變5′剪接位點(Alternative 5′ Splice Site,A5SS),可變3′剪接位點(Alternative 3′ Splice Site,A3SS),互斥外顯子(Mutually Exclusive Exons,MXE)和內含子保留(Retained Intron,RI)。此外還有兩種不常見的形式:可變的第一個外顯子(Alternative First Exon,AFE)和可變的最后一個外顯子(Alternative Last Exon,ALE)。其中SE是人類基因組中最主要的可變剪接模式(約35%),其次是A3SS(16%)與AA5SS(15%),RI發生最少,僅占到全部事件的1%[6]。

2分析可變剪接的軟件

可變剪接現象從70年代發現后,其基本的科學問題聚焦于剪接位點的發現、差異分析、調控元件和網絡的發現和構建等。RNA-seq技術的發明,使系統、定量的可變差異剪接分析成為可能。大量測序數據的可變剪接差異分析需要優秀的統計模型和計算工具,因此一直是生物信息學領域的重要研究課題之一。

2.1 轉錄組讀段回帖

序列比對軟件STAR(Spliced Transcripts Alignments to a Reference,STAR)[7]是專門針對RNA-seq數據開發的,該算法使用未壓縮后綴陣列中的連續最大可比種子進行搜索,接著進行種子聚類(Seed clustering)和縫合過程(Stitching procedure)。除了典型剪接的無偏從頭檢測外,STAR還能發現非典型拼接和嵌合(融合)轉錄本,并且能夠比對全長RNA序列。STAR是目前轉錄組測序分析最常用的軟件之一,由C++編寫,運行速度快,同時也是免費開源軟件。

TopHat[8]是基于Bowtie[9]短序列比對軟件開發的,它可以實現對短序列的快速比對,根據比對的結果可以檢測到外顯子間的剪接位點。該算法基本思想是對Bowtie比對結果中大量重疊的片段尋找標志性的剪接位點,并列出它們所有可能的組合情況。此外對于Bowtie沒有比對到基因組上的片段,TopHat會重新建立索引進行比對,并與上個過程得到的所有可能組合進行對比,最終將跨越剪接位點的片段比對到基因組。

2.2 比對后的可變剪接分析

rMATS( replicate multivariate analysis of transcript splicing)是目前最常用的分析RNA-seq數據可變剪接事件的軟件[10]。該算法依賴于有重復的數據集,利用分層模型同時考慮重復樣本的不確定性和變異性。以SE為例,rMATS首先采用Exon Inclusion level 來定義樣本中可變剪接事件的表達量,正常的isoform稱為Exon Inclusion Isoform, 發生了外顯子跳躍的轉錄本稱之為Exon Skipping Isoform,比對到Inclusion? isoform上的reads用L表示,比對到Skipping Isoform上的reads用S表示(圖2),則該外顯子跳躍的定量如下:

Exon Inclusion level為Inclusion isoform所占的比例,計算時用長度(LI和Ls)校正了原始的reads數。給定閾值c,? 判斷兩個樣本中相對應的inclusion level是否發生了變化:c,c用戶可以自定義,取值范圍為0~1,表示兩個樣本中Inclusion level的差值。如c=0.1,則表示兩個樣本中該可變剪接事件的Inclusion level相差10%。其他類型的可變剪接事件也可以劃分成上述兩種isoforms,進行差異分析比較的是兩組樣本中inclusion level的差異。

Exon Skipping Isoform為Upstream exon 和Downstream exon直接連接形成;Exon Inclusion Isoform為Upstream exon, Alternative exon和Downstream exon連接形成。

該模型以Likelihood-ratio test計算p值,大大提升了計算速度。rMATS支持多線程運行且支持兩種輸入格式:Fastq或者Bam。根據計算時用到的reads差別,最后會得到兩組結果,一種是只用到跨Junction的reads;另一種是比對到剪接位點上的所有reads。rMATS是目前在RNA-seq數據領域應用最多的分析可變剪接的工具。

DARTS[11]是2019年3月由邢毅教授團隊在開發rMATS工具后,新提出的一個基于深度學習檢測可變剪接的計算框架,這也是首次將深度學習與貝葉斯假設檢驗相結合,用于RNA的可變剪接分析。DARTS由兩部分構成(圖3):深度神經網絡(DNN)和貝葉斯假設檢驗(BHT)。DNN模型是基于順式序列特征和RNA結合蛋白(RBP)的mRNA表達水平預測差異剪接的結果;BHT統計模型通過將經驗證據整合到特定的RNA-seq數據集中,并結合先驗的差異可變剪接概率來進行預測。在訓練過程中,DARTS BHT使用無先驗概率信息(DARTS BHT(flat),僅將RNA-seq數據用于推斷)分析大規模RNA-seq數據,以生成高置信度差異及未發生剪接的訓練標簽之間的事件,以此作為DARTS DNN的訓練輸入。在應用過程中,已訓練完成的DARTS DNN用于預測用戶特定數據集中的差異可變剪接,然后與DARTS BHT(DARTS BHT(info))觀察到的RNA-seq片段的計數結合到一起,以達到深度學習增強的剪接分析。

DARTS BHT(flat)進行常規分析大規模RNA-seq數據中的可變剪接事件,創建帶標簽的訓練數據,用于訓練 DNN模型;新的特定RNA-seq經DNN模型預測作為貝葉斯模型的先驗(DARTS BHT(info));用戶的RNA-seq數據則是用于更新先驗概率形成后驗概率。順式序列特征(Cis-sequence)和反式RBP的mRNA水平(Trans-RBP):DARTS DNN預測差異可變剪接的兩個因素。先驗信息(Prior):DARTS DNN預測的結果。可能性(Likelihood):特定RNA-seq數據集觀察到的讀數。差異剪接的后驗概率(Posterior)由Cis-sequence和Trans-RBP生成的先驗概率和Likelihood組成。

DARTS的深度神經網絡部分整合了剪接位置附近的序列信息、進化信息、可變剪接產生的RNA二級結構信息和RBP的表達信息等,提高了該模型的準確性。相較于之前的例如MISO[12]、SpliceTrap[13]、SUPPA[14]等軟件,DARTS對測序深度的要求降低。總的來說,DARTS綜合了深度學習和貝葉斯假設檢驗統計模型的優點,為低測序深度的數據提供了更好的分析可變剪接的方法,拓展了傳統RNA-seq可變剪接分析的敏感度和準確度。

3總結與展望

可變剪接(AS)是基因在轉錄后水平的一項復雜調控機制。在最近的幾十年中,我們對AS的機理和動力學的了解呈指數級增長,人們也越來越認識到AS在人類健康和疾病中發揮的關鍵作用。隨著RNA-seq和各種計算工具的不斷涌現,使得我們可以在全基因組水平檢測AS現象。同時隨著近年來單細胞測序技術的發展,可能會在單個細胞中出現新的剪接現象,這需要我們去開發專門針對單細胞測序的更優計算方法。另外機器學習方法將會加快我們對可變剪接的認識[15]。最后,可變剪接變體在功能上有助于疾病的耐藥性,因此靶向可變剪接可作為某些疾病的新型療法。目前在人類某些疾病(如SMA)中已取得了很好的臨床治療效果[16],但在癌癥方面還未有重大突破,相信隨著研究的不斷深入,在不久的將來也能為癌癥提供有效的可選藥物。

參考文獻

[1] Gilbert,Walter. Why genes in pieces?[J]. Nature,1978, 271(5645):501.

[2] Min-Sik, K. A draft map of the human proteome.[J].Nature, 2014,509(7502):575-581.

[3] Aoubala M,Murray-Zmijewski F,Khoury M P,et al. P53 directly transactivates Δ133p53α, regulating cell fate outcome in response to DNA damage[J]. Cell death and differentiation,2011,18(2):248-258.

[4] Ramanouskaya T V,Grinev V V . The determinants of alternative RNA splicing in human cells[J]. Molecular Genetics & Genomics,2017,(3):263.

[5] Garcia-Blanco M A,Baraniak A P,Lasda E L . Alternative splicing in disease and therapy[J]. Nature Biotechnology,2004,22(5):535-546.

[6] Wang E T,Sandberg R,Luo S,et al. Alternative isoform regulation in human tissue transcriptomes[J]. Nature,2008,456(7221):470-476.

[7] Alexander D , Davis C A , Felix S , et al. STAR: ultrafast universal RNA-seq aligner[J]. Bioinformatics,,2013(1):1.

[8] Trapnell C,Pachter L,Salzberg S L . TopHat: discovering splice junctions with RNA-Seq[J]. Bioinformatics,2009,25(9):1105-1111.

[9] Langmead B,Trapnell C,Pop M,et al. Ultrafast and memory-efficient alignment of short DNA sequences to the human genome[J]. Genome Biology,2009,10(3):1-10.

[10] Shihao Shen,Juw Won Park,Zhixiang Lu,et al. rMATS: Robust and flexible detection of differential alternative splicing from replicate RNA-Seq data[J]. proc natl acad sci u s a,2014,111(51):5593-601.

[11] 佚名. Deep-learning augmented RNA-seq analysis of transcript splicing[J]. Nature Methods,2019,(1):157.

[12] Yang-Ming S I,Yong-Qiang X,Lu C . Differential splicing event analysis of liver tumor-educated blood platelets RNA-seq data with Hisat2 and MISO[J]. journal of inner mongolia university of science and technology,2016,(3):73.

[13] Zhang M Q . SpliceTrap: a method to quantify alternative splicing under single cellular conditions[J]. Bioinformatics,2011,27(21):3010-3016.

[14] more samples. SUPPA: a super-fast pipeline for alternative splicing analysis from RNA-Seq[J]. Biorxiv,2014,(1):257.

[15] Jaganathan K,Kyriazopoulou Panagiotopoulou S,Mcrae J F,et al. Predicting Splicing from Primary Sequence with Deep Learning[J]. Cell,2019,(3):176.

[16] Cleveland,D. W. Antisense oligonucleotide therapy for neurodegenerative disease[J].The Journal of clinical investigation,2006, 116(8):2290.

主站蜘蛛池模板: 激情综合激情| 精久久久久无码区中文字幕| 亚洲色成人www在线观看| 青青草a国产免费观看| 久久www视频| 99精品国产自在现线观看| h网址在线观看| 国产黄色爱视频| 又爽又大又光又色的午夜视频| 激情乱人伦| 五月天久久婷婷| 国产极品美女在线| 国产精品分类视频分类一区| 亚洲男人的天堂网| 久久女人网| 国产精品一区二区国产主播| 91成人在线免费视频| 国产清纯在线一区二区WWW| 在线另类稀缺国产呦| 国产成人AV综合久久| 无码中文AⅤ在线观看| 日韩大乳视频中文字幕| 免费Aⅴ片在线观看蜜芽Tⅴ | 97精品久久久大香线焦| 亚洲一区二区精品无码久久久| 中国一级毛片免费观看| 国产另类乱子伦精品免费女| 国产精品亚欧美一区二区三区 | 免费全部高H视频无码无遮掩| 91福利免费视频| 日本草草视频在线观看| www.精品国产| 国内丰满少妇猛烈精品播| 欧美区在线播放| 国产精品无码制服丝袜| 精品夜恋影院亚洲欧洲| 亚洲国产天堂久久综合| 99精品视频在线观看免费播放| 伊人久久影视| 亚洲AV成人一区国产精品| 麻豆精品在线视频| 国产性生交xxxxx免费| 国产午夜无码片在线观看网站| 国产在线自揄拍揄视频网站| 日韩无码黄色网站| 精品亚洲麻豆1区2区3区| 国产一区二区影院| 亚洲码在线中文在线观看| 日韩在线欧美在线| 欧美不卡二区| 国产精品嫩草影院av| 国产精品无码AV中文| 国产一级毛片网站| 国产成人禁片在线观看| 国产亚洲视频在线观看| 久久一日本道色综合久久| 精品国产91爱| 久久精品国产999大香线焦| 秘书高跟黑色丝袜国产91在线| 丁香五月亚洲综合在线| 精品国产香蕉伊思人在线| 国产精品永久久久久| 亚洲IV视频免费在线光看| 国产精品无码久久久久AV| 欧美国产日韩在线播放| 欧美另类图片视频无弹跳第一页| 欧美在线视频不卡第一页| 曰韩人妻一区二区三区| 最新加勒比隔壁人妻| 中文字幕资源站| 国产欧美日韩在线在线不卡视频| 中文字幕无码电影| 日韩av电影一区二区三区四区| 波多野结衣无码AV在线| 国产一区在线观看无码| 九九热在线视频| 国产网站免费看| 孕妇高潮太爽了在线观看免费| 亚洲色欲色欲www在线观看| 成人午夜视频网站| 亚洲激情区| 久久综合九九亚洲一区|