999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于平滑LDA的RNA-Seq數據表達分析研究*

2016-06-13 00:17:09歐書華劉學軍
計算機與生活 2016年3期

歐書華,劉學軍,張 禮

南京航空航天大學計算機科學與技術學院,南京210016

ISSN 1673-9418 CODEN JKYTA8

Journal of Frontiers of Computer Science and Technology 1673-9418/2016/10(03)-0381-08

?

基于平滑LDA的RNA-Seq數據表達分析研究*

歐書華+,劉學軍,張禮

南京航空航天大學計算機科學與技術學院,南京210016

ISSN 1673-9418 CODEN JKYTA8

Journal of Frontiers of Computer Science and Technology 1673-9418/2016/10(03)-0381-08

E-mail: fcst@vip.163.com

http://www.ceaj.org

Tel: +86-10-89056056

* The National Natural Science Foundation of China under Grant No. 61170152 (國家自然科學基金); the Qinglan Project of Jiangsu Province (江蘇省青藍工程) ; the Fundamental Research Funds for the Central Universities of China under Grant No. CXZZ11_0217(中央高?;究蒲袠I務費專項資金).

Received 2015-04,Accepted 2015-06.

CNKI網絡優先出版: 2015-06-19, http://www.cnki.net/kcms/detail/11.5602.TP.20150619.1044.001.html

摘要:RNA-Seq是目前轉錄組研究的一種重要技術,針對RNA-Seq數據分析中讀段的多源映射,參考序列分布的不均勻性,一些轉錄本中外顯子分布稀疏以及跨結合區讀段處理問題,提出了一個新的轉錄組表達研究book=382,ebook=86模型sLDASeq。該模型根據基因中轉錄本注釋信息對模型參數進行約束,對跨結合區的讀段按長度分配處理,解決了讀段非均勻分布和跨結合區問題;在模型中增加一個超參數,從而解決了外顯子的稀疏問題。將該模型應用到3個真實的數據集上,并與其他主流方法進行比較,結果表明該模型獲得了較為準確的基因以及轉錄本表達水平計算結果。

關鍵詞:RNA-Seq;基因轉錄本表達水平;平滑LDA;結合區;多源映射;非均勻性

1 引言

RNA-Seq是近年來發展迅速的深度測序技術[1-3],該技術通過記錄每個基因中讀段的表達頻率來量化轉錄組,相比其他方法具有信噪比高、靈敏度高、分辨率高、背景噪聲低、所需樣本少等特點[4],并提供了尋找新的基因、轉錄本和病變的組織特異基因的方法[5-7]。RNA-Seq數據處理通常分為3個步驟:首先,將讀段映射到參考基因組或轉錄組上;其次,利用比對上的讀段重建參考基因組或轉錄組;最后,計算比對到基因組或轉錄組上的讀段數,獲得基因或轉錄本的表達水平。

通過序列對比將RNA-Seq原始讀段映射到基因組或轉錄組后,若以映射到基因上讀段數衡量基因的表達水平是不合理的,為此Mortazavi等人提出RPKM(reads per kilo bases per million reads)方法估計基因的表達水平[8]。RPKM方法是用讀段的覆蓋度來刻畫基因的表達水平,僅在讀段是均勻分布和不含異構體基因上基因的表達水平估計較為準確,而對含選擇性剪切異構體的基因整體表達水平上低于真實值。針對讀段在多異構體基因上多源映射問題,Bullard等人提出UI(union-intersection)基因來估計基因整體表達水平[9]。Trapnell等人提出采用基因的異構體表達水平之和來估計基因表達水平的方法[10]。Jiang等人利用泊松分布對讀段在外顯子上分布建模,提出極大似然估計求得異構體表達水平估計值[11]。針對讀段在參考序列不均勻分布問題,Li等人提出了通過利用經驗分布和讀段質量匹配信息來消除不均勻分布影響的RSEM(RNA-Seq by expectation maximization)方法[12-13]。Zhang等人提出了利用全局和局部偏差曲線描述讀段非均勻分布特性的N-URD (non-uniformreaddistribution)方法[14-15]。此外還有Glaus提出的BitSeq方法[16]、模擬讀段隨機采用特性的Cufflinks方法[17]以及Seqguio方法[8]均對讀段的非均勻分布采取了一些措施。

針對RNA-Seq讀段數據在參考序列上的多源映射和分布的不均勻性,基于LDA(latent Dirichlet allocation)模型[18]處理的文本數據和RNA-Seq數據的相似性[19],在先前的工作中提出了基于LDA模型的LDASeq方法用于計算基因和轉錄本的表達水平。LDASeq模型通過引入隱含變量模擬異構體和對LDA模型中β矩陣的優化,較好地解決了讀段的多源映射和非均勻分布問題,但忽略了外顯子長度對讀段的影響,沒有處理讀段落在外顯子之間的結合區的情況,同時也沒有考慮多外顯子基因中異構體的外顯子稀疏問題。針對以上問題本文提出sLDASeq (smoothed LDASeq)模型,對外顯子長度歸一化和結合區的讀段進行處理,增加了一個超參數來解決模型中的稀疏問題。本文通過3個真實數據集對提出的模型進行了驗證,并與其他主流方法進行了對比。

2 方法

2.1平滑LDA

平滑LDA模型[18]是文本數據分析中,針對LDA模型中不在訓練集中的詞項,多項式參數β會將其概率設置為0而帶來的稀疏問題的改進。如圖1所示,α為隱含主題概率的先驗概率分布參數,θd為文檔d下的主題概率分布, zn,d為第n個單詞在文檔d下生成的主題,wn,d為主題產生的單詞,β為主題和單詞的K×V概率矩陣,βij表示第i個隱含主題生成第j個單詞的概率,η為生成β的先驗概率參數。

2.2 sLDASeq模型

考慮到RNA-Seq數據和文本數據結構上的相似性,LDASeq模型[20]是基于LDA提出的RNA-Seq數據分析方法,它是一個三層貝葉斯結構模型。該模型將固定長度的探針對應文檔的單詞,探針上的讀段數對應單詞出現的頻率,將單個通道中一個基因上的探針及讀段個數看作一篇文檔,M篇文檔形成一個文檔集,基因的異構體則對應文檔的隱含主題,模型中的隱含θ變量反映基因中異構體的比重。LDASeq模型中β矩陣初值是由注釋文件中每個基因的異構體所含外顯子的信息得到的:若基因第i個異構體含有第j個外顯子,那么矩陣第i行j列初值為1,反之為0,再將矩陣歸一化得到β矩陣的初值,并在計算過程中只優化β矩陣中的非零元素。因此在基因的外顯子多而異構體的外顯子少的情況下,按LDASeq模型處理較容易造成β矩陣稀疏問題。

Fig.1  Model representation of smoothed LDA圖1 平滑LDA模型

本文針對于LDASeq中一些缺點提出了基于平滑LDA的sLDASeq模型?,F用圖2所示的基因結構圖說明RNA-Seq數據與文本數據的相似性,在sLDASeq中舍棄了LDASeq模型中的探針,將基因的外顯子和LDA中的單詞對應,外顯子上讀段個數對應單詞的頻數,單通道中一個基因的外顯子及讀段數對應一篇文檔,基因的剪切異構體則對應LDA模型中的隱含主題。為消除外顯子長度對讀段數目的影響,sLDASeq將外顯子上讀段數按外顯子長度歸一化,即將每個外顯子上讀段數除以該外顯子的長度,并將單位外顯子長度上的讀段個數作為單詞出現的頻數。假設圖2中基因的外顯子1和4上讀段數分別為1和2,外顯子長度分別為10bp、20bp,那么歸一化后基因上外顯子1和4上單位長度讀段數均為0.1。

Fig.2  Gene structure圖2 基因結構圖

LDASeq模型對圖3跨結合區的讀段處理是將讀段歸為前一個或后面的外顯子,導致外顯子上的讀段數不太準確,為了更為準確地計算外顯子上的讀段數,sLDASeq模型將跨結合區的讀段按其在各個外顯子上的長度分配,然后歸一化。假設圖3中所示的讀段1長度為20bp,落在外顯子1、2上的長度分別為5bp、15bp,那么就將外顯子1上的讀段數計為0.25,外顯子2上的讀段數計為0.75,這樣在最終每個外顯子的讀段計數中保留了跨結合區讀段的統計特性,有助于模型優化時獲得相應異構體相對表達值。

Fig.3  reads in exon-junction圖3 結合區的讀段處理

為解決LDASeq模型中β矩陣稀疏問題,該模型增加了一個超參數η生成異構體中外顯子(exon)上讀段出現的概率矩陣β,α為生成異構體(isoform)概率的狄利克雷分布參數,θ表示各個異構體分布強弱關系概率分布。該模型下RNA-Seq數據生成流程如下。

(1)根據狄利克雷分布(Dirichlet)生成每個通道的異構體概率分布θd:

θd~Dirichlet(α)

(2)對于通道d生成的θd,按多項式分布(multinomial)選擇第n個讀段的異構體isoformn:

isoformn~multinomial(θd)

(3)根據超參數η生成第i個異構體的外顯子上讀段出現的概率向量βi:

βi~Dirichlet(η)

重復K次得到一個基因上K個異構體和外顯子上讀段出現的概率矩陣β。

(4)最后以生成的異構體和β為條件,通過多項式分布概率選擇外顯子:

p(exonn|isoformn,β)

在給定超參數α和η,模型關于隱含變量θ、isoform、exon、β的聯合概率為:

每個通道均相互獨立,含有M個通道基因的似然函數為:

由于β和θ的耦合性使得上式直接求解很困難,通過變分推理將p(θ,isoform,β|exon,α,η)近似等于q(θ,isoform,β|γ,?,λ),再根據變分EM算法求解模型:

E步給定α和η,根據變分推理優化變分參數γ,φ,λ。

M步利用E步得到的γ,φ,λ,計算極大化下界p(D|α,η)的超參數α和η的值。

重復上述步驟,直到對數似然函數下界收斂。

根據文獻[20],模型優化出的參數θ反映了基因中異構體表達的強弱程度,且θ服從狄利克雷分布θ~Dirichlet(α),根據狄利克雷分布性質:

模型優化出的歸一化后超參數α代表了異構體的比重,將映射到基因外顯子中的讀段數按這個比例分配給異構體,采用下式中的FPKM(reads per kilobase of exon model per million mapped reads)公式計算異構體的表達水平:

其中,n表示異構體上外顯子的總讀段數;N表示所有基因上外顯子的總讀段數;l表示異構體的長度。基因表達水平的計算則是將基因中所有異構體的表達水平相加即可。

2.3 sLDASeq處理流程

sLDASeq采用bowtie2[21]將讀段比對到轉錄組參考序列。圖4給出了sLDASeq模型處理RNA-Seq數據流程。第一步,根據參考序列用bowtie2將讀段比對到轉錄組序列上,比對的結果包含讀段在轉錄組上的相對位置。第二步,根據讀段的位置和注釋信息得到其在基因上的位置,從而獲得基因上各個外顯子映射的讀段個數,其中對于跨結合區的讀段單獨處理。第三步,應用sLDASeq模型將第二步得到的結果作為輸入計算轉錄本和基因的表達值FPKM。

Fig.4  Workflow of sLDASeq approach圖4  sLDASeq處理流程圖

3 實驗及討論

本文使用了3個真實的數據集,分別是基因芯片質量控制(micro array quality control,MAQC)雙末端和單末端的數據集[22]、人類乳腺癌數據集(humanbreast cancer,HBC)[23]以及吸煙與肺癌關系(smoke exposure an lung cancer pathogenesis,SELC)數據集[24]。實驗分別采用以上3個數據集對sLDASeq模型的性能進行驗證,并將實驗結果和LDASeq模型以及另外兩個主流方法Cufflinks[17]和RSEM進行對比。

3.1基因水平上驗證

3.1.1 MAQC數據集

MAQC是美國食品藥品監督管理局(Food and Drug Administration,FDA)領導并聯合多國研究機構實施的項目,該項目得到生物芯片數據具有平臺內和平臺間的重現性的結論。MAQC包含單末端和雙末端數據集,對其中約1 000個基因進行qRT-PCR (quantitative real time PCR)[8,10-11]驗證用以作為判別其他方法優劣的依據。該項目中包含兩個條件,分別是通用人類參考(universal human reference,UHR)和人類大腦參考(human brain reference,HBR)。

本文實驗主要采用的是UHR條件下雙末端數據集以及HBR和UHR條件下的單末端數據集。sLDASeq模型分別計算了經過qRT-PCR驗證的約1 000基因中,在UHR條件下雙末端數據集、單末端數據集和HBR條件下的單末端數據集中被檢測到并匹配到注釋文件中的多異構體的711、728、730個基因的表達值與經qRT-PCR驗證的基因表達值的相關系數,即反映變量之間相關關系密切程度的統計指標,其值越接近于1表明該方法與qRT-PCR驗證的結果吻合度越高,則越準確。并將結果和Cufflinks、RSEM及LDASeq方法得到的相關系數進行比較,由表1可見,在MAQC雙末端和單末端數據集上sLDASeq獲得了比其他方法更高的相關系數。結果表明sLDASeq相比其他方法在基因表達水平計算上取得了較為準確的結果。

Table 1  Results of various methods for MAQC dataset表1 不同方法在MAQC數據集上結果

3.1.2 SELC數據集

SELC數據集分別在NS(healthy never smoker)、S(current smoker)、C(smokers with lung cancer)、NC (smokers without lung cancer)4個條件下對樣本RNA數據進行測序。本文在該數據集上分別用Cufflinks、RSEM、LDASeq、sLDASeq方法計算“S vs NS”和“C vs NC”條件分組下的7個基因LFC(logged foldchange)值,即將基因在兩個條件下求得的表達值相除再取以2為底的對數。將結果與qRT-PCR的LFC值進行比較,實驗結果如表2所示。

Table 2  Results of various methods for SELC dataset表2  SELC數據集上各種方法結果

表2中第3列表示qRT-PCR在第1列兩個條件分組下獲得的LFC值,后5列分別是基因在條件“S vs NS”和“C vs NC”下用Cufflinks、RSEM、LDASeq、sLDASeq方法獲得的LFC值。括號里的數值是4個方法得到的LFC值與qRT-PCR獲得的LFC值的誤差率,即將每種方法獲得的LFC值與qRT-PCR的LFC值相減取絕對值,再除以qRT-PCR的LFC值。表中最后一行是每個方法中7個基因的誤差率取均值得到的平均誤差率。結果表明sLDASeq在該數據集上相比其他方法平均誤差率最低,在基因表達水平計算中取得了較為準確的結果。

3.2轉錄本水平上驗證

實驗采用了人類乳腺癌數據集進行轉錄本水平上的驗證。本文分別用Cufflinks、RSEM、LDASeq、sLDASeq方法計算乳腺癌細胞(cancer cell line,MCF-7)和正常乳腺細胞(breast normal cell line,HME)兩個條件下的4個基因8個轉錄本LFC值和調控方向變化,并將結果和qRT-PCR實驗LFC值比較得到誤差率,實驗結果如表3所示。

Table 3  Results of various methods for human breast cancer dataset表3 人類乳腺癌數據集上各種方法計算結果

表3顯示了同一轉錄本在兩個不同條件中以及同一基因在一個條件下兩個不同轉錄本的調控方向和誤差率。表中的“+”表示轉錄本在不同實驗下方向上調(up-regulation),“-”表示下調(down-regulation)。括號中的數字表示其他幾種方法獲得的LFC值與qRT-PCR的LFC值比較獲得的誤差率。表中顯示Cufflinks、RSEM、LDASeq、sLDASeq調控方向錯的個數分別為4、5、1、1,且sLDASeq平均誤差率最小。結果表明相比其他幾個方法,sLDASeq在轉錄本表達水平計算中取得了較為準確的結果。

4 結論

本文提出了基于平滑LDA的sLDASeq模型來計算基因和轉錄本的表達水平。sLDASeq模型利用已知的注釋文件對模型參數進行約束,增加了對于跨外顯子讀段的處理,并在原LDA模型的基礎上增加了一個超參數生成轉錄本和外顯子上讀段出現的概率矩陣,解決了原模型中的稀疏問題。將所設計的sLDASeq模型應用于基因芯片質量控制(MAQC)、人類乳腺癌(HBC)、吸煙與肺癌關系(SELC)3個數據集上進行驗證,并與先前提出的LDASeq模型、Cufflinks、RSEM的結果進行對比。在MAQC數據集上本文模型獲得的基因表達值與qRT-PCR實驗結果的相關系數均比其他模型要高;在經過qRT-PCR驗證的SELC和HBC數據集上,sLDASeq模型與其他方法相比,與qRT-PCR結果更為接近。由此得出,sLDASeq模型獲得了較為準確的基因以及異構體上表達水平。

本文所用的實驗數據均是已知基因的轉錄本注釋信息,但生物基因的轉錄本注釋信息并不是全部已知的,在后續的工作中,可以構造多種未知的轉錄本的組合,利用模型學習出新的轉錄本。另外對于結合區的讀段處理,本文是將這些跨外顯子的讀段按長度比例分配到各個外顯子上,但是結合區的讀段含有選擇性剪切的信息,若保留這些讀段的選擇性剪切的信息對其單獨處理的效果,將在后續的工作中進一步驗證。

References:

[1] Wang Zhong, Gerstein M, Snyder M. RNA-Seq: a revolutionary tool for transcriptomics[J]. Nature Reviews Genetics, 2009, 10(1): 57-63.

[2] Sultan M, Amstislavskiy V, Risch T. Influence of RNA extraction methods and library selection schemes on RNA-seq data[J]. BMC Genomics, 2014, 15: 675-688.

[3] Robert A W, Philippa A S, Catherine M M. RNA Seq analysis of the Eimeria tenella gametocyte transcriptome reveals clues about the molecular basis for sexual reproduction and oocyst biogenesis[J]. BMC Genomics, 2015, 16: 94-114.

[4] Wang Xi, Wang Xiaowo, Wang Likun. A review on the processing and analysis of next-generation RNA-seq data[J]. Progress in Biochemistry and Biophysics, 2010, 37(8): 837-846.

[5] Xiao Shengjian, Zhang Chi, Zou Quan, et al. TiSGeD: a database for tissue-specific genes[J]. Bioinformatics, 2010, 26 (9): 1273-1275.

[6] Pan Jianbo, Hu Shichang, Shi Dan, et al. PaGenBase: a pattern gene database for the global and dynamic understanding of gene function[J]. PLoS ONE, 2013, 8(12): e80747.

[7] Pan Jianbo, Hu Shichang, Wang Hao, et al. PaGeFinder: quantitative identification of spatiotemporal pattern genes[J]. Bioinformatics, 2012, 28(11): 1544-1545.

[8] Mortazavi A, Williams B A, McCue K, et al. Mapping and quantifying mammalian transcriptomes by RNA-seq[J]. Nature Methods, 2008, 5(7): 621-628.

[9] Bullard J H, Purdom E, Hansen K D, et al. Evaluation of statistical methods for normalization and differential expression in mRNA-Seq experiments[J]. BMC Bioinformatics, 2010, 11: 94-107.

[10] Trapnell C, Williams B A, Pertea G. Transcript assembly and quantification by RNA-Seq reveals unannotated transcripts and isoform switching during cell differentiation[J]. Nature Biotechnology, 2011, 28(5): 511-515.

[11] Jiang Hui, Wong W H. Statistical inferences for isoform expression in RNA-Seq[J]. Bioinformatics, 2009, 25(8): 1026-1032.

[12] Li Bo, Ruotti V, Stewart R M, et al. RNA-Seq gene expression estimation with read mapping uncertainty[J]. Bioinformatics, 2010, 26(4): 493-500.

[13] Li Bo, Dewey C N. RSEM: accurate transcript quantification from RNA-Seq data with or without a reference genome[J]. BMC Bioinformatics, 2011, 12: 323-339.

[14] Wu Zhengpeng, Wang Xi, Zhang Xuegong. Using non-uniform read distribution models to improve isoform expression inference in RNA-Seq[J]. Bioinformatics, 2011, 27(4): 502-508.

[15] Ma Xinyun, Zhang Xuegong. NURD an implementation of a new method to estimate isoform expression from non-uniform RNA-seq data[J]. BMC Bioinformatics, 2013, 14: 220-227.

[16] Glaus P, Honkela A, Rattray M. Identifying differentially expressed transcripts from RNA-Seq data with biological variation[J]. Bioinformatics, 2012, 28(3): 1721-1728.

[17] Roberts A, Trapnell C, Donaghey J, et al. Improving RNASeq expression estimates by correcting for fragment bias[J]. Genome Biology, 2011, 12(3): 22-36.

[18] Blei D M, Ng A Y, Jordan M I. Latent Dirichlet allocation[J]. Journal of Machine Learning Research, 2003, 3: 993-1022.

[19] Zhao Zhilan, Liu Xuejun, Zhang Li. RNA-Seq data analysis based on probabilistic model[C]//The Monograph of Academic Annual Conference Held by Chinese Society of Biomedical Engineering (CD). Wuhan: Chinese Society of Biomedical Engineering, 2011.

[20] Liu Xuejun, Li Meng, Zhang Li. A method of isoform expression calculation for RNA-Seq data[J]. Chinese Journal of Biomedical Engineering, 2013, 32(4): 454-463.

[21] Langmead B, Salzberg S L. Fast gapped-read alignment with Bowtie 2[J]. Nature Methods, 2012, 9(4): 357-359.

[22] Consortium M. The microarray quality control (MAQC) project shows inter- and intraplatform reproducibility ofgene expression measurements[J]. Nature Biotechnology, 2006, 24(9): 1151-1161.

[23] Kim H, Bi Yingtao, Pal S, et al. IsoformEx: isoform level gene expression estimation using weighted non-negative least squares from mRNA-Seq data[J]. BMC Bioinformatics, 2011, 12: 305-314.

[24] Beane J, Vick J, Schembri F, et al. Characterizing the impact of smoking and lung cancer on the airway transcriptome using RNA-Seq[J]. Cancer Prevention, 2011, 4(6): 803-817.

附中文參考文獻:

[4]王曦,汪小我,王立坤.新一代高通量RNA測序數據的處理與分析[J].生物化學與生物物理進展, 2010, 37(8): 837-846.

[19]趙志蘭,劉學軍,張禮.一種基于概率模型的RNA-Seq數據分析方法[C]//中國生物醫學工程聯合學術年會論文集(光盤版).武漢:中國生物醫學工程學會, 2011.

[20]劉學軍,李蒙,張禮.一種針對RNA-Seq數據的基因異構體表達水平計算方法[J].中國生物醫學工程學報, 2013, 32(4): 454- 463.

OU Shuhua was born in 1991. She is an M.S. candidate at College of Computer Science and Technology, Nanjing University of Aeronautics and Astronautics. Her research interests include bioinformatics and machine learning, etc.歐書華(1991—),女,南京航空航天大學計算機科學與技術學院碩士研究生,主要研究領域為生物信息學,機器學習等。

LIU Xuejun was born in 1976. She received the Ph.D. degree in computer science from the University of Manchester in 2006. Now she is a professor at College of Computer Science and Technology, Nanjing University of Aeronautics and Astronautics. Her research interests include bioinformatics and machine learning, etc.劉學軍(1976—),女,2006年于英國曼徹斯特大學獲得博士學位,現為南京航空航天大學計算機科學與技術學院教授,主要研究領域為生物信息學,機器學習等。

ZHANG Li was born in 1985. He received the M.S. degree in computer applications from Nanjing University of Aeronautics and Astronautics in 2010. Now he is a Ph.D. candidate at Nanjing University of Aeronautics and Astronautics. His research interests include bioinformatics and machine learning, etc.張禮(1985—),男,2010年于南京航空航天大學計算機應用專業獲得碩士學位,現為南京航空航天大學博士研究生,主要研究領域為生物信息學,機器學習等。

RNA-Seq Data Expression Analysis Based on Smoothed LDA?

OU Shuhua+, LIU Xuejun, ZHANG Li
College of Computer Science and Technology, Nanjing University of Aeronautics and Astronautics, Nanjing 210016, China
+ Corresponding author: E-mail: oshuhua@163.com

OU Shuhua, LIU Xuejun, ZHANG Li. RNA-Seq data expression analysis based on smoothed LDA. Journal of Frontiers of Computer Science and Technology, 2016, 10(3): 381-388.

Abstract:RNA-Seq is an important technique for transcriptome research. Considering the multi-mappings between reads and isoforms, non-uniform distribution of reads along the reference sequence, conjunction reads and the sparsity caused by the large exon size, this paper proposes a new method, sLDASeq, to calculate the gene and transcript expression. To solve the problems of multi-mappings, non-uniform distribution of reads and conjunction reads, the model utilizes the known gene-isoform annotation to constrain the hyper-parameters and allocate the read counts according to exon length. By adding a hyper-parameter, the model solves the problem of sparsity in the exons. sLDASeq is validated by using three real datasets on the gene and transcript expression calculation and compared with LDASeq and other popular methods. Results show that sLDASeq obtains more accurate transcript and gene expression measurements than other methods.

Key words:RNA-Seq; gene and transcript expression; smoothed LDA; exon-junction; multi-mapping; non-uniformity

doi:10.3778/j.issn.1673-9418.1505048

文獻標志碼:A

中圖分類號:TP391

主站蜘蛛池模板: 日韩精品欧美国产在线| 亚洲天堂2014| 国产精品区视频中文字幕| 狠狠色香婷婷久久亚洲精品| 伊人福利视频| 天天爽免费视频| 无码日韩视频| 亚洲精选高清无码| 波多野结衣在线se| 91人妻日韩人妻无码专区精品| 国产00高中生在线播放| 青青草原偷拍视频| 无码日韩人妻精品久久蜜桃| 亚洲成人www| 粉嫩国产白浆在线观看| 亚洲天堂视频网站| 亚洲日韩Av中文字幕无码| 人妻精品全国免费视频| 91视频免费观看网站| 久草网视频在线| 国产美女在线观看| 亚洲色图欧美激情| 天天色综网| 欧美日在线观看| 国产精品吹潮在线观看中文| 黄色在线不卡| 不卡国产视频第一页| 国产麻豆永久视频| 98精品全国免费观看视频| 午夜啪啪福利| 97色婷婷成人综合在线观看| 欧美、日韩、国产综合一区| 毛片在线播放a| 久久综合色天堂av| 日韩精品无码不卡无码| 亚洲中文久久精品无玛| 国内精品久久久久鸭| aa级毛片毛片免费观看久| 久久国产高清视频| 中文字幕天无码久久精品视频免费 | 亚洲av无码久久无遮挡| 欧美翘臀一区二区三区| 在线网站18禁| 在线国产欧美| 国产内射一区亚洲| 毛片网站观看| 色老头综合网| 午夜视频在线观看免费网站| 免费观看成人久久网免费观看| 国产后式a一视频| 精品無碼一區在線觀看 | 欧美另类精品一区二区三区 | 国产精品太粉嫩高中在线观看| 99久久精品美女高潮喷水| 成人韩免费网站| 五月激情婷婷综合| 精品1区2区3区| 波多野吉衣一区二区三区av| 欧美综合在线观看| 97国产一区二区精品久久呦| 国产情侣一区| 亚洲AV永久无码精品古装片| 91九色视频网| 欧美一级专区免费大片| 免费无码AV片在线观看国产| 精品色综合| 亚洲动漫h| 国产黑丝一区| 中文字幕亚洲乱码熟女1区2区| 成人福利免费在线观看| 久久久久九九精品影院| 99国产精品一区二区| 天天躁夜夜躁狠狠躁躁88| 制服丝袜国产精品| 多人乱p欧美在线观看| 青青国产视频| 2048国产精品原创综合在线| 性色生活片在线观看| 在线观看免费AV网| 波多野结衣久久高清免费| 亚洲欧美另类视频| 亚洲第一视频免费在线|