多實驗平臺下基因及異構體表達分析綜述

2017-06-01 12:20:40王凱莉劉學軍

中國生物醫學工程學報 2017年2期

關鍵詞：差異水平方法

王凱莉張禮劉學軍*

1(南京航空航天大學計算機科學與技術學院，南京 211106)2(南京林業大學信息科學技術學院，南京 210037)

多實驗平臺下基因及異構體表達分析綜述

王凱莉1張禮2劉學軍1*

1(南京航空航天大學計算機科學與技術學院，南京 211106)2(南京林業大學信息科學技術學院，南京 210037)

轉錄組學研究近幾年成為生命科學和醫學領域的研究熱點，基因表達水平測量則是轉錄組學研究的基礎。差異基因表達分析對于了解基因功能具有重要作用，而差異異構體表達分析則能夠反映選擇性剪切變化的情況。當前大規模測量基因表達水平的實驗平臺主要包括基因芯片，以及基于高通量測序技術的RNA-Seq。首先介紹廣泛使用的Affymetrix傳統3′基因芯片、外顯子芯片、較新的全轉錄組芯片，以及基于RNA-Seq技術的Illumina平臺4個主流實驗平臺的技術原理；其次從基因表達水平計算和差異表達分析兩方面介紹每個平臺下一些主流數據分析方法和該研究設計的方法，分析每個平臺下各數據分析方法的優劣，并進一步展示在標準數據集上一些代表性方法的對比結果。

傳統3′基因芯片; 外顯子芯片; HTA2.0芯片; RNA-Seq; 基因表達分析

引言

近年來，隨著大規?；虮磉_水平測量技術的發展，逐漸形成兩種主要測量技術，分別是基于雜交原理的基因芯片技術[1]和基于高通量測序技術的RNA-Seq[2]。其中，采用基因芯片技術的Affymetrix公司制備的傳統3′基因芯片、外顯子芯片、較新的全轉錄組芯片，以及采用RNA-Seq技術的Illumina測序平臺均是被廣泛使用的大規模基因表達水平測量平臺。在基因及異構體表達分析中，差異表達(differential expression, DE)分析是最基本的研究目標之一。基因芯片早期在差異表達分析中占據絕對領先地位，但隨著RNA-Seq技術蓬勃發展，RNA-Seq也被廣泛應用于基因表達水平測量和差異表達分析。相比基因芯片，RNA-Seq并不依賴現有的基因注釋信息而能獲得幾乎所有表達的轉錄，而基因芯片需要已知基因注釋信息來設計探針，因此基因芯片無法檢測到新的剪切異構體。此外，RNA-Seq背景噪聲低，提高了表達水平測量的靈敏度和特異性。目前國際上對基因芯片與RNA-Seq的性能對比已有了一定的研究，如文獻[3-4]對傳統3′基因芯片與RNA-Seq在基因表達水平測量方面進行了對比研究。文獻[5]主要在基因表達水平測量方面，對傳統3′基因芯片、外顯子芯片與RNA-Seq進行對比研究。文獻[6]主要在基因表達水平測量和差異表達分析方面，對傳統3′基因芯片和RNA-Seq進行對比研究。但現有的研究中較少考慮較新的全轉錄組芯片，并且在異構體差異表達分析方面的平臺對比研究較少。

本研究全面綜述了目前較常用的基因和異構體表達水平測量平臺及其數據分析方法。首先介紹了傳統3′基因芯片、外顯子芯片、全轉錄組芯片以及基于RNA-Seq技術的Illumina平臺的技術原理。其次從基因表達水平計算和差異表達分析兩方面介紹了每個平臺下一些主流數據分析方法和筆者設計的方法，分析了每個平臺下各數據分析方法的優劣，并進一步展示了在生物芯片質量控制項目(microarray quality control, MAQC)的系列標準數據集[7-9]上一些代表性方法的對比結果，為生物醫學領域研究學者對于實驗平臺和數據分析方法的選擇提供參考。

1 平臺介紹

1.1 基因芯片

基因芯片是20世紀90年代建立起來的大規?；虮磉_水平測量技術，該技術基于雜交原理，主要特點是高通量、自動化和微型化。Affymetrix公司的芯片產品非常豐富，并被業界廣泛采用。目前Affymetrix公司的基因芯片在公共數據庫(如GEO)中累積了大量的數據，以滿足學者們深入研究的需要[10]?；蛐酒瑢嶒灢襟E如下：首先用熒光標記物標記待測樣本，并放入基因芯片自動孵育裝置中進行雜交；雜交完成后，檢測探針的信號強度，即探針檢測到樣本的表達量；最后將實驗結果保存到細胞密度文件(CEL文件)中，即基因芯片原始數據。

Affymetrix公司的傳統3′基因芯片包含130萬個探針，具有獨特的PM-MM探針對。PM(perfect-match)探針的堿基序列和目標序列完全匹配，MM(mis-match)探針僅將序列中間的一位堿基換成互補堿基。芯片上每個基因對應一個或多個探針集，這些探針集由25堿基長度的PM-MM探針對構成，提高了對低表達樣本的檢測[11]。本研究采用了人類基因芯片Human Genome U133 Plus 2.0 Array(U133)。

Affymetrix公司的外顯子芯片僅設計了PM探針[12]。人類外顯子芯片包含550萬個探針，構成大約140萬個探針集，每個基因平均覆蓋40個探針，每個外顯子平均覆蓋4個探針(見圖1)。傳統3′基因芯片的探針僅覆蓋轉錄組的3′區域，而外顯子芯片的探針覆蓋了所有編碼轉錄組，覆蓋范圍更廣，準確性更高。本研究實驗中采用的外顯子芯片是Human Exon 1.0 ST Array(Exon array)。

Affymetrix公司在2013年推出一款人類全轉錄組基因芯片(Human Transcriptome Array 2.0, HTA2.0)[13]。該芯片包含外顯子探針、外顯子之間的剪切結合區探針、SNP探針、lncRNA探針等多種探針，總數近700萬個。每個外顯子覆蓋約10個探針，外顯子之間的剪切結合區覆蓋4個探針(見圖1)，可檢測超過24萬條編碼轉錄本和超過4萬條非編碼轉錄本。

傳統3′基因芯片的探針設計注重轉錄組的3′區域(見圖1)，探針覆蓋范圍較窄，而且也未考慮基因的選擇性剪切，因此無法測量異構體表達水平，應用范圍受到一定的限制。而外顯子芯片的探針覆蓋范圍較廣，可用于基因、外顯子和剪切異構體水平分析。HTA2.0芯片探針類型多樣，覆蓋范圍更為全面，不僅應用于基因、外顯子和剪切異構體水平分析，還應用于非編碼轉錄組分析等，具有最為廣泛的應用前景。

1.2 RNA-Seq技術

圖1 傳統3′基因芯片、外顯子芯片和HTA2.0芯片的探針設計對比Fig.1 Comparison of probe design of traditional 3′ GeneChip, Exon array and HTA2.0

RNA-Seq是基于高通量測序技術對轉錄組進行研究的新一代測序方法，并以高通量，所需樣本少等優勢，迅速成為研究基因及異構體表達水平的主流方法[3]。RNA-Seq技術可應用于全基因組范圍內基因的表達水平測量和差異表達分析，并具有定量研究選擇性剪切[14-15]，發現未知序列特征的能力。

RNA-Seq實驗一般過程如圖2所示，主要分為以下幾個步驟：首先選擇mRNA，并片段化。其次將mRNA片段逆轉錄成cDNA，并進行PCR 擴增。之后將cDNA片段的兩端加上接頭得到測序需要的文庫。最后采用測序平臺進行測序。經過激光照射和圖像分析，獲得被測堿基和質量評分，并將同一位置的堿基根據測序順序連成讀段(read)，這就是RNA-Seq測序后得到的最原始數據[16]。目前，Roche公司的454技術、Illumina公司的Solexa技術以及ABI公司的SOLiD技術等測序技術被廣泛使用，其中使用最為廣泛的是Illumina/Solexa測序平臺。

圖2 RNA-Seq 實驗一般過程Fig.2 Process of RNA-Seq experiment

2 基因表達水平計算

2.1 基因芯片原始數據分析

基因芯片數據分析過程如圖3所示。首先從基因芯片原始數據中提取出探針的灰度值，然后根據基因或剪切異構體以及探針的注釋文件，利用數據分析方法，計算基因或異構體的表達水平，為后續分析提供準確的數據?；蛐酒瑪祿治龅闹饕щy是探針的非特異雜交特性，導致原始數據中存在大量的噪聲。另外，基因芯片數據分析方法依賴于基因注釋信息，其完善程度會對分析結果產生很大的影響。目前，許多學者提出了各種算法對原始數據進行去噪處理，如傳統算法RMA[17]，以及本研究小組已發表的伽馬模型mmgMOS[18]和GME[19]等，下載網址如表1所示。

圖3 基因芯片數據分析過程Fig.3 Process of microarray data analysis

表1 基因芯片及RNA-Seq的計算基因或異構體表達水平的方法列表

Table 1 Methods and softwares to calculate gene and isoform expression levels for microarray and RNA-Seq

平臺計算方法下載網址基因芯片RMAhttp://www.bioconductor.org/packages/oligo.htmlmmgMOShttp://www.bioconductor.org/packages/puma.htmlGMEhttp://www.bioconductor.org/packages/puma.htmlRNA-SeqCufflinkshttp://cole-trapnell-lab.github.io/cufflinks/MMSEQhttps://github.com/eturro/mmseqkallistohttps://github.com/pachterlab/kallistoStringTiehttps://github.com/gpertea/stringtiePGSeqhttps://github.com/PUGEA/PGSeq

RMA算法僅采用PM探針的灰度值來計算基因表達水平。為了消除噪聲的影響和保持數據的一致性，進行背景校正和歸一化。之后利用經過背景校正及歸一化后探針的灰度值擬合一個線性相加模型以獲得基因的表達水平。由于選擇性剪切，一個基因會對應一個或多個剪切異構體，而在基因芯片上一個剪切異構體往往對應多個探針，有些探針可以被不同的剪切異構體所共享(見圖1)。這種基因、剪切異構體及探針的多元映射關系，導致了獲取異構體對應的探針灰度值時具有很高的不確定性，給異構體表達水平的計算帶來挑戰。由于RMA算法無法處理基因、剪切異構體及探針的多元映射，因此只能計算基因的表達水平，無法計算異構體的表達水平。目前，RMA 算法實現在生物信息學組件Bioconductor中的oligo軟件包中，如表1所示。mmgMOS是基于伽馬分布并針對多重復芯片的概率模型，用于傳統3′基因芯片數據分析。與RMA算法不同，mmgMOS概率模型能夠很好地模擬基因芯片實驗中的不確定性，抗噪能力強，同時采用PM和MM探針的灰度值，并考慮了兩者之間的相關性，提高了基因表達水平計算的準確性。GME模型也是基于伽馬分布的概率模型，根據基因、剪切異構體及探針的多元映射關系，計算基因和異構體表達水平，并特別地考慮了異構體所共享的探針。與RMA等傳統的計算方法相比，GME的優勢在于能夠同時計算基因和異構體的表達水平，因此可以更好地應用于選擇性剪切的研究。另外，GME模型可以獲得表達水平的不確定度，提高了差異表達分析的準確性。根據GATExplorer[20]和Microarray Lab[21]分別提供的外顯子芯片和HTA2.0芯片的注釋文件，提取出基因、剪切異構體及探針的映射關系，因此GME模型適用于外顯子芯片和HTA2.0芯片。目前，mmgMOS和GME實現在Bioconductor的puma軟件包中。

2.2 RNA-Seq原始數據分析

RNA-Seq原始數據分析過程如圖4所示。首先采用序列對比方法將讀段定位到參考基因組或轉錄組上；然后通過計數映射到基因及其異構體上的讀段數目來計算基因及異構體表達水平。表達水平計算的主要困難是讀段的多源映射問題和讀段在參考序列上呈非均勻分布。讀段的多源映射問題一方面是由于RNA-Seq實驗產生的讀段通常較短，一般是25～400 bp(base pairs)，而轉錄組長度很長，一般包含了上萬個堿基，這樣讀段無法完全覆蓋轉錄組，從而導致相當一部分讀段在參考基因組上有多個匹配位點[22]。隨著測序技術的發展，讀段長度不斷增加或者制備雙末端讀段等方式可以降低讀段多源映射的影響。另一方面由于真核生物普遍存在選擇性剪切現象，同一個讀段會被基因的不同剪切異構體所共享，從而不能將讀段準確地映射到單一異構體上[23]，為異構體表達水平的計算增加了難度。

圖4 RNA-Seq數據分析過程Fig.4 Process of RNA-Seq data analysis

讀段的非均勻分布是由于在制備cDNA文庫時人為地引入了一些偏好，如在RNA逆轉錄cDNA的過程中加入的隨機引物對不同的RNA會產生不同程度的偏好[16]。另外，對RNA-Seq原始數據處理不當也會導致讀段在參考序列上非均勻分布，如直接丟棄多源映射讀段和低質量分數的讀段等。當前有學者提出了很多方法來解決這些問題，如主流方法Cufflinks[24]，較新的MMSEQ[25]、kallisto[26]和StringTie[27]，以及本研究小組已提出的方法PGSeq[28]等，上述方法下載網址如表1所示。

Cufflinks方法采用泊松分布模擬讀段在外顯子上的分布，消除讀段多源映射的影響，同時對讀段非均勻分布偏好的隨機特性進行模擬。MMSEQ方法采用泊松-伽馬雙層模型來模擬異構體隨機表達的特性，消除讀段多源映射的影響。kallisto方法采用讀段到轉錄組的偽比對策略，能夠快速地定量分析異構體表達水平，從而獲得基因表達水平。StringTie采用網絡流算法和可選的從頭(de novo)組裝轉錄組并估算表達水平，能夠在拼接出轉錄組的同時進行表達水平的定量分析。PGSeq方法采用泊松分布來模擬映射到每個外顯子上的讀段數，消除讀段多源映射的影響，同時引入了伽瑪因子來模擬讀段非均勻分布的偏好信息。雖然MMSEQ與 PGSeq方法均采用泊松-伽馬分布雙層模型，但是MMSEQ并未考慮讀段在參考序列上呈非均勻分布，而PGSeq方法引入伽馬分布的隱含變量來模擬讀段的非均勻分布特性，并推導出基因及異構體的表達水平服從負二項分布，能夠更好地模擬讀段數據的散布特點，提高了計算準確性。表2顯示了在MAQC數據集下4個平臺的不同表達水平計算方法的準確性。MAQC數據集提供的804個qRT- PCR驗證基因作為基準，在通用人類參考RNA(universal human reference RNA, UHRR)和人類大腦參考 RNA(human brain reference RNA, HBRR)兩個條件下進行比較。不同方法計算得到的基因表達值與qRT-PCR實驗獲得的基因表達值的相關系數(squared Pearson correlation coefficient, R2)被用來評價準確性，相關系數越接近1，則說明測量結果的準確度越高。為避免較大的表達水平對相關系數的影響，本研究對所有基因的表達水平進行對數轉換后再計算相關系數。

表2 在MAQC數據集的UHRR和HBRR 2個條件下4個平臺的不同表達水平計算方法的準確性(%)Tab.2 Accuracy (%) of various gene expression calculation methods for UHRR and HBRR conditions under MAQC

注：根據qRT-PCR測量值，804個qRT-PCR驗證的基因被劃分為3個區間，分別是低表達區間(Low)，中表達區間(Medium)和高表達區間(High)。括號里的數字代表在兩個樣本下相應表達區間的qRT-PCR驗證的基因數目。

Note: According to qRT-PCR measurements 804 genes are divided into three intervals, Low, Medium and High. The numbers in brackets represent the numbers of genes that are validated by qRT-PCR in UHRR and HBRR samples.

3 差異表達分析

在基因芯片和RNA-Seq數據分析中，差異表達分析是最基本的研究目標，通過分析不同條件下的轉錄組表達數據，識別發生差異表達的基因或異構體，這對揭示基因調控規律或基因選擇性剪切的變化具有重要作用。

3.1 基因芯片差異表達分析

由于基因芯片發展時間較長，人們已經提出很多差異表達分析方法。例如，limma[29]、PBR[30]以及研究小組已發表的PPLR方法[31]，其下載網址如表3所示。limma方法應用范圍較為廣泛，其核心思想就是用一個線性模型來擬合每個基因的表達數據。limma方法適用于基因芯片和RNA-Seq等平臺。PBR(Penalized Binomial Regression)是基于PED(Penalized Euclidean Distance)的懲罰二項式回歸算法。首先，利用PED對基因表達數據進行分類并排序；其次，利用真實已知的數據進行仿真，識別差異表達的基因和異構體。PBR方法與limma相同，適用于基因芯片和RNA-Seq等平臺。但是，這些方法忽略了很多潛在且有用的信息，如表達水平的技術性測量誤差。若能夠從原始數據獲得更多的先驗信息，可以提高模型的性能。因此，PPLR方法采用貝葉斯模型，并考慮了表達水平的不確定度，從而提高了差異檢測的準確度。

表3 基因芯片及RNA-Seq的差異表達分析方法

Table 3 Methods and softwares to detect DE genes and isoforms for microarray and RNA-Seq

平臺計算方法下載網址基因芯片limmahttp://www.bioconductor.org/packages/limmaPBRhttps://github.com/sclamons/PEDPPLRhttp://www.bioconductor.org/packages/pumaRNA-SeqDESeqhttp://www.bioconductor.org/packages/DESeqSAMSeqhttp://www.bioconductor.org/packages/imputeCuffdiffhttp://cole-trapnell-lab.github.io/cufflinks/MMDiffhttps://github.com/eturro/mmseqBallgownhttp://www.bioconductor.org/packages/ballgownPG_bayeshttps://github.com/PUGEA/PGSeq

3.2 RNA-Seq差異表達分析

RNA-Seq差異表達分析方法主要分為兩種，一是基于讀段計數方法，二是兩步法。在讀段計數方法中，有DESeq[32]和SAMSeq等[33]。DESeq采用負二項分布，解決了讀段非均勻的問題；非參數模型SAMSeq僅對基因表達水平排序，以識別差異表達的基因。這類方法可以有效地識別差異表達的基因，但是不能直接用來識別差異表達的異構體。兩步法能夠同時識別差異表達的基因和異構體，使用范圍更加廣泛，如Cufflinks和Cuffdiff[34]、MMSEQ和MMDiff[35]、kallisto和limma、StringTie和Ballgown[36]以及PGSeq和PG_bayes[37]等，上述方法下載網址如表3所示。Cuffdiff使用 Cufflinks 方法得到表達水平，并使用一個線性模型識別差異表達的基因和異構體。MMDiff方法克服了數據高度結構化的問題，并考慮了表達水平的不確定度。Ballgown方法是基于F-test識別差異表達的基因和異構體。與Cuffdiff相似，Ballgown可以處理Cufflinks輸出的表達數據，但是其效率和準確度高于Cuffdiff。另外，本研究小組已發表的差異檢測方法PG_bayes根據模型選擇的思想，基于PGSeq方法推導出的表達水平的負二項分布模型，采用貝葉斯因子方法，并考慮了表達水平的不確定度，從而提高差異表達分析的靈敏度和準確度。圖5和表4顯示了3種基因芯片和RNA-Seq在MAQC數據集上獲得的121個基因的差異表達分析結果。由于傳統3′基因芯片無法測量異構體表達水平，因此圖6和表5顯示了外顯子芯片、HTA2.0芯片和RNA-Seq在MAQC數據集上獲得的529個異構體的差異表達分析結果(見下頁)。

表4 不同平臺下121個共同基因差異表達分析的AUCTable 4 AUC of DE gene analysis for the various platforms

注：RMA、mmgMOS和GME使用的差異表達分析方法均是PPLR。Cufflinks、MMSEQ、kallisto、StringTie和PGSeq使用的差異表達分析方法分別是Cuffdiff、MMDiff、limma、Ballgown和PG_bayes。

Note: RMA, mmgMOS and GME use PPLR for DE analysis. Cufflinks, MMSEQ, kallisto, StringTie and PGSeq use Cuffdiff, MMDiff, limma, Ballgown and PG_bayes for DE analysis, respectively.

圖5 4個平臺下121個共同基因差異表達分析的ROC曲線。(a)U133；(b)外顯子芯片；(c)HTA2.0；(d)RNA-SeqFig.5 ROC curves of DE analysis for the 121 common genes found on the four platforms. (a) U133; (b) Exon array; (c) HTA2.0; (d) RNA-Seq

4 總結與討論

本研究對傳統3′基因芯片、外顯子芯片、HTA2.0芯片及RNA-Seq技術進行了總結，并從基因表達水平測量和差異表達分析兩方面，介紹了這4種平臺下具有代表性或較新的數據分析方法，并進一步展示了一些方法在MAQC數據集上的對比結果，為不同需求的研究學者對于實驗平臺和數據分析方法的選擇提供參考。雖然RNA-Seq技術在轉錄組數據分析中具有一定的優勢，但是RNA-Seq分析結果的準確性依賴于測序深度，測序深度增加，成本也會增加，而基因芯片由于實驗成本相對較低，在大規模已知序列的基因表達分析中，基因芯片仍具有很大的應用空間。研究者可以根據不同的研究目的以及研究成本等因素，選擇合適的實驗平臺。此外，不同平臺下不同的數據分析方法對分析結果的準確性也有重要影響。

由于測序技術的快速發展，大量可用的方法用于基因芯片和RNA-seq數據分析。選擇合適的數據分析方法進行不同的研究并選擇最佳參數都是至關重要的，這些因素直接影響最終結果和生物過程的解釋。另外，對于基因芯片和RNA-seq數據分析，注釋文件或參考基因組序列對于分析過程和結果具有重要影響。由于基因芯片數據分析方法依賴于基因、異構體以及探針的注釋信息，其完善程度會對分析結果影響較大。例如，傳統3′基因芯片、外顯子芯片和HTA2.0芯片，均采用RMA算法計算基因表達水平，但是HTA2.0芯片的準確率略低于其他兩種芯片的準確率。由于HTA2.0芯片是一種相對較新的芯片，其注釋信息不夠完善是導致其準確率低于傳統3′基因芯片和外顯子芯片的主要原因。在RNA-Seq數據分析過程中，參考基因組注釋的完備程度也會影響后續分析的策略和準確性。當參考基因組注釋比較完備時(如人類和老鼠)，讀段可以直接定位到參考基因組序列，在后續分析中不需要進行轉錄組重構。但是，參考基因組序列注釋不完善，后續分析中需要進行轉錄組重構，以提高分析結果的準確性。另外，由于絕大部分生物是沒有參考基因組序列或者參考基因組序列的可信度較低，在后續分析過程就需要采取從頭組裝轉錄組，提高后續分析的準確性。因此，根據不同的研究目標，除了選擇合適的實驗平臺外，選取準確的數據分析方法和注釋文件或參考基因組序列，對獲得合理的分析結果同樣重要。

表5 3個平臺異構體差異表達分析的AUCTable 5 AUC of DE isoform analysis for the three platforms

注： GME使用的差異表達分析方法是PPLR，Cufflinks、MMSEQ、kallisto、StringTie和PGSeq使用的差異表達分析方法分別是Cuffdiff、MMDiff、limma、Ballgown和PG_bayes。

Note: GME uses PPLR for DE analysis. Cufflinks, MMSEQ, kallisto, StringTie and PGSeq use Cuffdiff, MMDiff, limma, Ballgown and PG_bayes for DE analysis, respectively.

[1] Schena M, Shalon D, Davis RW, et al. Quantitative monitoring of gene expression patterns with a complementary DNA microarray [J]. Science, 1995, 270(5235): 467-470.

[2] Wang Zhong, Gerstein M, Snyder M. RNA-Seq: a revolutionary tool for transcriptomics [J]. Nature Reviews Genetics, 2009, 10(1): 57-63.

[3] Marioni JC, Mason CE, Mane SM, et al. RNA-seq: an assessment of technical reproducibility and comparison with gene expression arrays [J]. Genome Research, 2008, 18(9): 1509-1517.

[4] Xu Xiao, Zhang Yuanhao, Williams J, et al. Parallel comparison of Illumina RNA-Seq and Affymetrix microarray platforms on transcriptomic profiles generated from 5-aza-deoxy-cytidine treated HT-29 colon cancer cells and simulated datasets. BMC Bioinforma 14:S1 [J]. Bmc Bioinformatics, 2013, 14(9):1-14.

[5] Bemmo A, Benovoy D, Kwan T, et al. Gene expression and isoform variation analysis using Affymetrix exon arrays [J]. Bmc Genomics, 2008, 9(1):1-15.

[6] Zhao Shanrong, Fung-Leung Wai-Ping, Bittner A, et al. Comparison of RNA-Seq and microarray in transcriptome profiling of activated T cells [J]. PLoS ONE, 2014, 9(1): e78644.

[7] Shi Leming, Reid LH, Jones WD, et al. The MicroArray Quality Control (MAQC) project shows inter-and intraplatform reprodu-cibility of gene expression measurements [J]. Nature Biotechnology, 2006, 24(9): 1151-1161.

[8] MAQC Consortium. The MicroArray Quality Control (MAQC)-II study of common practices for the development and validation of microarray-based predictive models [J]. Nature Biotechnology, 2010, 28(8): 827-838.

[9] Seqc/Maqc-Iii Consortium. A comprehensive assessment of RNA-seq accuracy, reproducibility and information content by the Sequencing Quality Control Consortium [J]. Nature Biotechnology, 2014, 32(9): 903-914.

[10] Dalma-Weiszhausz DD, Warrington J, Tanimoto EY, et al. The Affymetrix GeneChip? Platform: An Overview [J]. Methods in Enzymology, 2006, 410: 3-28.

[11] Southern E, Mir K, Shchepinov M. Molecular interactions on microarrays [J]. Nature Genetics, 1999, 21(1 Suppl):5-9.

[12] Affymetrix: Affymetrix Gene Chip exon array design [R]. 2005.

[13] Affymetrix: GeneChip Human Transcriptome Array 2.0 [R]. 2013.

[14] Valenzuela A, Talavera D, Orozco M, et al. Alternative splicing mechanisms for the modulation of protein function: conservation between human and other species [J]. Journal of Molecular Biology, 2004, 335(2): 495-502.

[15] Wang ET, Sandberg R, Luo S, et al. Alternative isoform regulation in human tissue transcriptomes [J]. Nature, 2008, 456(7221): 470-476.

[16] 王曦, 汪小我, 王立坤, 等. 新一代高通量 RNA 測序數據的處理與分析[J]. 生物化學與生物物理進展, 2010, 37(8): 834-846.

[17] Irizarry RA, Hobbs B, Collin F, et al. Exploration, normalization, and summaries of high density oligonucleotide array probe level data [J]. Biostatistics, 2003, 4(2): 249-264.

[18] Liu Xuejun, Milo M, Lawrence ND, et al. A tractable probabilistic model for Affymetrix probe-level analysis across multiple chips [J]. Bioinformatics, 2005, 21(18): 3637-3644.

[19] Liu Xuejun, Gao Zhenzhu, Zhang Li, et al. puma 3.0: improved uncertainty propagation methods for gene and transcript expression analysis [J]. Bmc Bioinformatics, 2013, 14(3):1-15.

[21] Dai Manhong, Wang Pinglang, Boyd AD, et al. Evolving gene/transcript definitions significantly alter the interpretation of GeneChip data [J]. Nucleic Acids Research, 2005, 33(20): e175-e175.

[22] Pasaniuc B, Zaitlen N, Halperin E. Accurate estimation of expression levels of homologous genes in RNA-seq experiments [J]. Journal of Computational Biology, 2011, 18(3): 459-468.

[23] Costa V, Angelini C, De FI, et al. Uncovering the Complexity of Transcriptomes with RNA-Seq [J]. Biomed Research International, 2010, 2010(1):853916.

[24] Trapnell C, Williams BA, Pertea G, et al. Transcript assembly and quantification by RNA-Seq reveals unannotated transcripts and isoform switching during cell differentiation [J]. Nature Biotechnology, 2010, 28(5): 511-515.

[25] Turro E, Su SY, Gon?alves, et al. Haplotype and isoform specific expression estimation using multi-mapping RNA-seq reads [J]. Genome Biology, 2011, 12(2):81-89.

[26] Bray NL, Pimentel H, Melsted P, et al. Near-optimal probabilistic RNA-seq quantification [J]. Nature Biotechnology, 2016, 34(5):525 -527.

[27] Pertea M, Pertea GM, Antonescu CM, et al. StringTie enables improved reconstruction of a transcriptome from RNA-seq reads [J]. Nature Biotechnology, 2015, 33(3): 290-295.

[28] Liu Xuejun, Zhang Li, Chen Songcan. Modeling exon-specific bias distribution improves the analysis of RNA-seq data [J]. PLoS ONE, 2015, 10(10): e0140032.

[29] Ritchie ME, Phipson B, Wu D, et al. limma powers differential expression analyses for RNA-sequencing and microarray studies [J]. Nucleic Acids Research, 2015, 43(7):e47.

[30] Vasiliu D, Clamons S, Mcdonough M, et al. A regression-based differential expression detection algorithm for microarray studies with ultra-low sample size [J]. PLoS ONE, 2015; 10(3): e0118198.

[31] Liu Xuejun, Milo M, Lawrence ND, et al. Probe-level measurement error improves accuracy in detecting differential gene expression [J]. Bioinformatics, 2006, 22(17): 2107-2113.

[32] Anders S, Huber W. Differential expression analysis for sequence count data [J]. Genome Biology, 2010, 11(10):1-12.

[33] Li Jun, Tibshirani R. Finding consistent patterns: A nonparametric approach for identifying differential expression in RNA-Seq data [J]. Statistical Methods in Medical Research, 2013, 22(5):519-536.

[34] Trapnell C, Roberts A, Goff L, et al. Differential gene and transcript expression analysis of RNA-seq experiments with TopHat and Cufflinks [J]. Nature Protocols, 2012, 7(3): 562-578.

[35] Schweikert G, Cseke B, Clouaire T, et al. MMDiff: quantitative testing for shape changes in ChIP-Seq data sets [J]. Bmc Genomics, 2013, 14(48):5492-5500.

[36] Frazee AC, Pertea G, Jaffe AE, et al. Ballgown bridges the gap between transcriptome assembly and expression analysis [J]. Nature Biotechnology, 2015, 33(3): 243-246.

[37] 王黎, 劉學軍, 張禮. 基于模型選擇的差異基因和異構體檢測[J]. 數據采集與處理,2016,31(5)：965-973.

A Review of Gene and Isoform Expression Analysis across Multiple Experimental Platforms

Wang Kaili1Zhang Li2Liu Xuejun1*

1(CollegeofComputerScienceandTechnology,NanjingUniversityofAeronauticsandAstronautics,Nanjing211106,China)2(CollegeofInformaitonScienceandTechnology,NanjingForestryUniversity,Nanjing210037,China)

Transcriptomics study has become a hot topic in life science and medical research in recent years. From the expression point of view, the foundation of transcriptomics study is the measurement of gene expression levels. Differential expression (DE) analysis of genes is very important for understanding the function of genes. DE analysis of isoforms is a feasible method to reflect the change of alternative splicing. Currently, there are mainly two large-scale experimental platforms for measuring gene expression levels, including microarray and high-throughput sequencing technology, RNA-Seq. At the beginning of this paper, we introduced the technical principles of the four mainstream experimental platforms: Affymetrix′s traditional 3′ GeneChip, Exon array, Human Transcriptome Array 2.0 and Illumina platform based on RNA-Seq. We then reviewed the mainstream analysis methods and our methods on each platform for the calculation of gene expression levels and DE analysis. We also showed the comparison results of expression measurement and DE analysis across various platforms under a well-defined benchmark data set.

traditional 3′ GeneChip; Exon array; HTA2.0; RNA-Seq; gene expression analysis

10.3969/j.issn.0258-8021. 2017. 02.012

2016-04-17，錄用日期:2016-10-23

國家自然科學基金(61170152)

R318

0258-8021(2017) 02-0211-08

*通信作者(Corresponding author)，E-mail: xuejun.liu@nuaa.edu.cn