金玉 李赫健 馮成強
(1. 北京師范大學中藥資源保護與利用北京市重點實驗室,北京 1000875;2. 北京師范大學地理科學學部,北京 100875)
藥物作用機理的研究在新藥開發、提高藥效和評價藥物毒性、指導藥物聯合治療等方面具有重要作用。目前,研究藥物作用機理大多靠傳統藥理學方法[1],然而這些傳統的策略在研究中具有局限性,主要集中在表觀遺傳學和形態學觀察或僅僅是分子靶點的鑒定等[2]。隨著高通量測序技術的發展,使用組學(Omics)這門新興技術采集生物學數據信息的方法越來越普遍。早期的研究傾向于僅使用一種組學來分析研究[3-4],然而,越來越多的對于藥物作用機理的研究正在利用多組學聯合的技術手段開展[5-6]。多組學聯合分析的主要優勢是通過這些整合的數據可以更好地分析生物體內發生的細微變化,為預測生物體作用功能靶點提供更可靠的數據支撐。雖然在不同的文獻中介紹過不同組學的研究方法,但由于價格低廉等優勢,在藥物作用機理研究中最常用的研究方法是轉錄組-代謝組聯合分析,這種方法和策略在研究藥物作用機理方面發揮著重要作用。近年來,許多研究人員利用轉錄組學、代謝組學對藥物作用機理進行了大量的研究并且取得了一定的成果[6]。現今,轉錄組-代謝組聯合分析已廣泛用于探索藥物作用機制的研究,本文主要從轉錄組學概念、代謝組學概念、轉錄組-代謝組聯合分析概念及聯合分析的方法出發,闡述它們在藥物作用機理研究中的應用,目的是探討轉錄組學和代謝組學及其二者聯合應用在藥物作用機制研究中的策略,從而不僅為今后藥物作用的分子機理研究提供借鑒與參考,并且希望能夠基于現有研究基礎發掘新的研究思路與方法。
在完成人類基因組測序以及許多其他生物基因組測序后[7],生命科學進入了后基因組時代,功能基因組學成為了目前研究的主流方法。轉錄組學(Transcriptomics)是功能基因組學的重要組成部分[8]。轉錄組學的研究對象是一種細胞或組織的基因組所轉錄出來的RNA的總和,其研究目的是確定基因的轉錄結構并解釋基因功能,從而揭示藥物在機體中作用的相關機制[9]。
轉錄組學的研究方法包括基因芯片技術(Microarray)和高通量RNA測序技術(RNA Sequencing,RNA-Seq)[10]等。最初,研究人員通過雜交測序方法將數千個短DNA片段構建成基因芯片,并通過與芯片上的特定位點探針靶向雜交來檢測這些基因的表達。目前為止,大量的基因芯片研究在人們對生物變化過程的理解方面提供了實質性的幫助[11],然而,由于其雜交靈敏度有限,很難檢測出低豐度的mRNA。另一種轉錄譜分析方法是基于高通量測序儀的發展而出現的RNA-Seq,該方法引入了測序和轉錄本數字化的概念,通過隨機剪切的短cDNA序列測序,計算mRNA的表達量。相比于前者,RNASeq對功能基因組研究非常有效,能夠檢測出組織或細胞樣品內全部基因表達譜。
這些轉錄組學方法為解釋生物學功能中基因表達差異及尋找藥物在機體中的作用靶點都提供了有力的技術支持。Ujihira等[12]通過基因芯片鑒定了11種與他莫昔芬反應有關的小RNA,其中之一是腫瘤抑制miRNA,miR-574-3p。Kim等[13]通過RNASeq研究了嗜油不動桿菌DR1的諾氟沙星耐藥性,分析了用諾氟沙星處理的DR1和DR1之間RNA的差異。以上兩項研究分別用了上述兩種方法,隨著科技發展,RNA-Seq由于提高了檢測的特異性和準確性越來越受到學者們的青睞。轉錄組測序雖然可以得到大量差異表達基因和調控代謝通路,但由于基因與表型之間很難直接關聯,導致關鍵的藥物作用信號通路難以確定,因此往往很難達到預期的研究目的。
代謝組學(Metabolomics)是指定性定量測定活體系統內經病理生理刺激或遺傳修飾引起的動態變化的代謝物質[1],近來廣泛應用于藥物毒理機制,疾病發生過程和藥物開發等研究領域,特別是在新藥開發領域具有深遠影響[14-20]。當藥物作用時,隨著時間的改變,機體內往往都伴隨著代謝物的微小變化,采用代謝組學現代分析技術,不僅可以測定這些微小變化的代謝物,并且通過對比代謝物可以發現特異性生物標記物。傳統方法如利用生化指標對藥物作用方式進行評價時,往往只局限于對特定物質進行檢測而忽略了藥物對機體的整體影響,難以準確反映生物系統對藥物作用引起的全面變化,如今利用代謝組學評價藥物對機體的作用能夠更加準確全面的反映生物系統整體的動態變化,通過對變化的代謝物進行測定,可為進一步闡明藥物作用的分子機制提供強大的數據支撐。
代謝組學分析方法包括核磁共振(Nuclear magnetic resonance,NMR)[21]、 液 相 色 譜 質 譜 聯用(Liquid chromatograph mass spectrometer,LCMS)[22]、氣相色譜質譜聯用(Gas chromatography mass spectrometer,GC-MS)[23]等。不同技術其檢測偏向性不同,但不同平臺之間具有互補性。一般來說NMR的靈敏度最低,能檢測并定性的物質少于100個,其優勢是簡單、無損傷、可定量[24]等。質譜的靈敏度大概是NMR的千倍,GC-MS可檢測的物質數量一般為1 000個以上,但由于對樣品要求比較嚴格,其應用受到了一定限制[25]。雖然LC-MS檢測物質的數量要比GC-MS少一些,但由于其避免了對樣品進行復雜的前處理等步驟,并且由于能夠方便的對樣本進行定性定量分析而深受大眾青睞[26]。近年來越來越多學者利用代謝組學手段研究外源物質在生物體內的作用機制。王喜軍等[27]通過代謝組學研究方法輔以生物化學鑒定方法闡明了茵陳蒿湯對酒精性肝病大鼠具有良好的保肝作用。查偉斌等[28]基于GC-MS檢測技術的代謝組學方法,研究銀杏提取物對高脂誘導動脈粥樣硬化引起的代謝紊亂的作用,闡明銀杏提取物抗動脈粥樣硬化效果與其對脂質代謝、膽酸合成及氨基酸代謝的調控密切相關。
然而,單一代謝組學方法并不足以闡述生物系統內發生的各種變化,其方法在很大程度上取決于1H-NMR、MS[29]和色譜的發展,另外,許多學者傾向專注于某一循環系統代謝物的分析,但循環系統內的物質變化是許多生物系統共同反應的綜合結果,因此通過單一代謝組學研究并不能獲得對組織內產生的具體反應機制的全面闡述。另外,由于目前對代謝物種類分析的局限性,只依靠代謝組學研究結果難以對藥物作用機理進行全面的生物學解釋[30]。
隨著高通量測序技術的完善和各種組學方法的成熟,不同組學的組合使用越來越受歡迎,然而研究過程中對于產生的大量數據進行分析是目前面臨的最大挑戰。通過整合不同組學數據來分析比較不同數據間的關系以及闡述綜合數據所說明的生物學問題才是最終研究目的,因此分析這些復雜數據的統計學工具必不可少。轉錄組-代謝組聯合分析(Transcriptome-metabolism conjoint analysis) 中, 有多種數據整合分析的方法,包括基于相關性分析將數據結合的方法、基于級聯的集成方法、基于多變量整合的分析方法和基于代謝通路數據庫來整合分析數據的方法,學者們可以根據不同的生物學研究目的確定不同的聯合分析手段[31]。
通過聯合分析手段探索多元數據的簡單方法之一是尋找數據集之間的相關性。這里有兩種常用的方法,其中最常見的是Pearson’s和Spearman’s相關分析方法[32]。雖然科學家們期望通過此種方法找到代謝物與基因之間的關聯,然而僅使用這種單一方法往往不足以達到預期目的。雖然人們普遍認為遵循中心法則的信息流動應該符合層層遞進的規律,然而Kuile和Westerhoff[33]發現mRNA與其相應的代謝物之間并不符合預期的數量關系,并且Moxley等[34]也報道了酵母中轉錄物和代謝物之間的相關性非常低。
除了使用Pearson′s或Spearman′s等標準相關系數外,還有Goodman和Kruskal伽馬檢驗[35],這種分析方法僅考慮每種代謝物或基因的上調或下調,如用線性模型僅通過轉錄組的變化預測相應代謝物變化趨勢[36]。事實上,直接利用相關系數來聯合分析兩組學數據存在一些潛在問題,分析過程中如果那些已知在路徑上密切相關的元素不表現出相關性,則我們需要通過其他的分析方法來給予輔助。
基于數據級聯的集成方法是最早出現,且最簡單的方法之一,它可將多個組學數據集集合成單一模型。通過將每種組學技術產生的數據表匯總成單個數據表,應用自組織映射[37-38]、K均值聚類分析[39]或隨機森林[40]等算法進行分析。Daub等[41]介紹了一種在線軟件MetaGeneAlyse,它可以通過運行上述標準方法來針對轉錄組-代謝組進行數據分析。代謝組和轉錄組數據集分別是從不同的分析技術中獲得的,其兩組數據集大小不一,這意味著數據集具有不同的標注模式與結構、不同的期望值、不同的底層噪聲分布和不同的方差,因此,從簡單連接的數據集中獲得代謝組和轉錄組數據之間的聯系并非易事。當對連接的數據集進行聚類時,來自不同數據集的元素將傾向于與其自身數據集中的其他元素聚類,從而可能會掩蓋組間關聯。
盡管需要進行更多的研究來彌補這些局限性,但使用諸如iCluster[42]這樣的工具可將這些問題最小化,這些潛在的分布差異影響可以通過去除信號低甚至沒有信號的元素將噪音的影響最小化。雖然通過預處理完全消除這些影響是不可能的,但是可以結合本文中的其他方法對代謝組-轉錄組數據進行進一步分析,其結果的可信度會更高。
除了前面描述的相對簡單的分析方法外,還可以利用多變量建模的方法進行轉錄組-代謝組聯合分析。這種方法在用于生物學分析之前常用于化學計量學領域。兩種最常見的多變量分析方法是主成分分析(Principal component analysis,PCA)和偏最小二乘回歸(Partial least squares regression,PLSR)[43-44]。通過這種分析,研究人員可以利用一個數據集來預測另一個數據集并且找到兩個數據集之間的“協方差”關聯。與上述分析方法不同的是,這種方法可以將代謝組學和轉錄組學數據集保持在模型內的獨立模塊中。
最早利用PLS模型整合代謝組數據和轉錄組數據的是Griffin團隊[45]。他們將兩組乳清酸處理大鼠的轉錄組與代謝組結合,用代謝組NMR光譜作為模型的x值,轉錄組數據作為待預測的y值,隨后他們通過模型找出了各種與基因相關的代謝物。這種建模方法解釋了乳清酸對于大鼠脂肪肝作用的相關代謝物,同時結果也表明1H-NMR與基因表達譜數據相結合的方法有利于挖掘復雜生物系統中發生的微小反應。這種模型同樣也被Jauhiainen等[46]以類似的方式預測轉錄譜中的相關代謝譜。在Griffin的方法中必須定義一種數據集作為x,事實上這兩個數據集在模型中并非等價。因此,這種情況下,我們可以選擇更為泛化的評價方法,稱為O2PLS[47]。正交偏最小二乘法方法(Orthogonal partial least squares,OPLS)是一種新發展起來的將正交信號校正方法與PLSR進行結合對PLSR進行修正的分析方法,而O2PLS是一種泛化的OPLS,可在兩個數據矩陣中進行雙向建模和預測。在這個算法中,x和y是等價的,所以無論分配哪個數據集作為x或y無關緊要。Eveillard等[48]用這種方法檢測了內二(2-乙基己基)鄰苯二甲酸酯暴露后的人體肝臟轉錄物和血漿代謝物。
近年來,Boccard等[49]引入了正交偏最小二乘判別分析(Orthogonal partial least squares discriminant analysis,OPLS-DA)方法并且對比其他方法檢測了NCI60細胞系的代謝組、轉錄組和蛋白質組,結果在所有3個組學案例中發現不同組學數據集對于得到一致的生物學解釋都是有用的。OPLS-DA的主要優勢在于它可以處理兩個以上的數據集,并可以同時對這些模塊進行統一處理,然而,該模型并未提供關于數據集之間相關性特征的信息,而是將所有數據與變量進行了對比。
多變量建模用于數據集成的選擇有很多種,然而,解釋模型非常復雜,目前缺乏對不同方法的全面比較,科學家需要進一步評估不同方法對結果的偏向性,所以未來可以繼續優化不同分析工具,使得其不僅可以運行上述所有方法,并且分析后的結果更容易解釋。如果這些目標得到滿足,那么諸如O2PLS等工具將會成為集成式組學數據分析中的強大組成部分。
由于生物系統反應的復雜性,多組學的聯合分析應該以生物體內的反應通路作為研究基礎,而基于通路的聯合分析方法正是將生物學知識與轉錄組-代謝組結果相結合來解釋生物體內發生的變化的方法,其中不同組學數據的整合可以通過以下幾種工具和方法來處理,如線上免費工具KEGG[50]、Wikipathways[51]、Integrated molecular pathway level analysis(IMPALA)[52]、iPEAP[53]和MetaboAnalyst 3.0[54]等都是利用生物學信號通路為基礎支持不同組學的聯合分析。很多研究利用了商業化的MetaCore(GeneGo Inc.)工具來整合兩組數據[55-56],在MetaCore中,分別從兩個組學數據中取最小P值數據來分析代謝物與基因之間的關系。另一種商業工具獨創性路徑分析(Ingenuity pathways analysis,IPA)[57]也可用于多組學集成分析,根據所有數據集中的-log(P值)之和對路徑進行分類,相當于原始IMPaLA中的P值的獨立組合。其他可用于生物學關鍵通路分析的工具有PathVisio[58]、Paintomics[59]、InCroMAP[60]和表達數據分析的整合薈萃分析(Integrative meta-analysis of expression data,INMEX)[61],這些工具都可以分析出差異表達基因和代謝物的數量。除此之外還有其他基于信號通路的分析方法,但每種方法都有各自不同的分析側重點。
利用基于生物學反應途徑的集成方法中,另一個比較重要的影響結果的分析因素是背景信息[62],雖然背景信息中包含檢測到的沒有統計學意義的物質,但是它們對分析也至關重要,是否分析這些背景信息會帶來不同的差異通路分析結果。在轉錄組中,處理數據過程很容易獲得背景列表,然而在代謝組中,很多物質檢測不到,并且不同的檢測方法對不同類型的物質具有偏好性,一些關鍵性的分析偏差會影響整個通路分析結果。例如,NMR容易檢測氨基酸類,所以結果中氨基酸類物質會占較大比例,如果沒有背景信息陳述這種偏好性,涉及氨基酸的途徑將始終位于差異表達的前列。所以,作為一個中間步驟,建議研究者將其代謝組學途徑分析中使用的背景信息作為補充信息來參考,這會使最終分析結果更加具有可信度。然而,基于信號通路途徑的分析方法也有其弊端,由于這種方法理論上全部依賴于預先研究確定的途徑,隨著數據庫的持續更新,對于還未確定的生物途徑,有時并不能得出相應可靠的結論。
隨著高通量測序技術向各個學科領域的滲透,利用現代測序技術手段有效地研究藥物作用機理成為目前研究的主流發展方向之一。根據以往經驗普遍認為單一的組學分析對于藥物作用方式的研究不能提供足夠的支撐,因此需要聯合分析轉錄組數據與代謝組數據才能對后期進一步實驗對象進行更加全面的定位[63]。
針對特定的藥物研究其作用機理,通過轉錄組-代謝組聯合分析的研究方法,對時序表達的眾多基因與差異積累的代謝物信息進行整合分析,能夠使我們所期望得到的機體內微小變化不被生物體內在的復雜網絡所淹沒,后期可結合分子生物學技術,從分子層面解釋關注的生物表型,從而為研究藥物作用機理提供可靠預測途徑。Jennen等[64]利用轉錄組學和代謝組學方法研究了環境致癌物2,3,7,8-四氯二苯并二惡英(2,3,7,8-Tetrachlorodibenzop-dioxin,TCDD)對人類肝癌細胞系HepG2的相關RNA和代謝物,發現G蛋白偶聯受體信號通路中的SOS1基因及氨基酸、脂質代謝和谷胱甘肽代謝過程在癌癥發生發展過程中發揮至關作用。相比于前期僅使用單一轉錄組學進行研究,轉錄組-代謝組整合分析為探討其受體介導機制提供了更為深入的分析。Zheng等[65]利用轉錄組-代謝組方法評估了ADMA對血清不足LoVo細胞中基因表達和代謝變化的影響,結果表明96 h血清不足導致的轉錄水平改變大部分通過ADMA恢復,血清不足誘導的主要信號通路包括癌癥相關通路、細胞凋亡和細胞周期等;代謝組結果顯示血清不足顯著抑制TCA循環,改變葡萄糖和脂肪酸代謝以及核酸代謝。此研究通過兩組學的聯合應用不僅有效縮小了眾多基因的研究范圍,表明了藥物在細胞內作用的關鍵途徑及關鍵基因,并且為今后進一步明確藥物作用機理及相關基因功能奠定了重要基礎。He等[66]對二甲雙胍處理不同時間的人源性結腸癌LoVo細胞進行了轉錄組-代謝組聯合分析研究,表明在細胞活力降低前細胞有明顯的時間依賴性代謝改變,主要涉及的有碳水化合物、脂質、氨基酸、維生素和核苷酸代謝途徑。除了癌癥信號傳導途徑之外,參與細胞能量代謝途徑的基因表達也顯著改變,表明二甲雙胍可能是以時間依賴性的方式在代謝和轉錄水平上調節細胞能量代謝。通過高通量篩選方式,研究者初步建立了藥物作用的可能途徑,今后可以此為基礎進行下一步的深入探究。Yan等[67]通過微觀基因表達差異-宏觀生物代謝組聯合分析方法,系統評價了芪鄧明目膠囊對糖尿病視網膜病變的作用機制,其不僅采用高通量轉錄組測序技術從整體水平全面反映糖尿病視網膜并發癥病理狀態和藥物干預下機體產生的微觀調控機制,還采用代謝組學方法全面系統的研究病理刺激及藥物干預對機體內源性小分子代謝產物的影響,將差異表達基因與篩選鑒定出的11個潛在生物標志物有效的進行了前后印證,為未來藥物作用機制研究提供了可行的策略。
由于宏觀上藥物作用靶點和作用機制的多樣性及基因和代謝作用的多樣性,轉錄組-代謝組聯合分析會在分子水平上豐富整個藥理作用研究體系。無論是新藥開發還是已有藥物作用機理的研究,一個關鍵問題需要解決,即逐步從分子水平到代謝物水平上研究解決藥物發生作用的機制,而其中通過轉錄組-代謝組聯合分析具有很強的說服力。在新藥研究領域,可在開始研究階段同時進行轉錄組-代謝組聯合研究,這將會為今后的進一步研究增添更多的方法和內容,在藥物作用機理研究領域實現質的飛躍。
系統生物學的發展,在某種程度上改變了人們研究藥物作用機理的方式,因為組學方法揭示了藥物可能作用的所有潛在機制。在改進轉錄組學和代謝組學的可獲得性和可應用性方面,研究者們已經取得了重大進步[68],但是,轉錄組-代謝組聯合分析手段在應用中仍然有其局限性。由于高通量篩選,兩個組學聯合分析方法會產生大量的復雜數據,目前的分析手段仍然難以滿足科學家們的分析需求,如何保證靈敏度和準確性是個難題。首先,由于轉錄物和代謝物存在于生物體的復雜網絡中,代謝物和基因表達之間的關聯和強度在不同實驗條件下變化很大[33-34];其次,單一的組學分析會產生大量的數據,其中不排除固有的噪音和方差結構[62],在分析時不容易找出真正起作用的關鍵點。但是轉錄組-代謝組即不同的數據集聯合分析會有很多互補的信息內容,因此綜合分析多組學數據比單獨分析更容易揭示潛在的生物學問題。
對比以上4種聯合分析方法,在生物學研究中基于生物學途徑的分析方法是最為直觀也是最可取的,并且它可以為解釋數據提供充足的相關信息。然而,因為這種方法是基于現有的知識水平加以分析數據,所以我們不能將此用于發現新的基因-代謝物之間的關聯,因此為探索這些潛在的未知關聯,還需要后續其他生物學實驗加以支撐和補充。未來,需要進一步開發能夠處理大型、復雜、高維數據和稀有生物領域知識的方法,以有效整合當前和下一代組學平臺生成的大量生化信息,并且需要先進的易于應用和記錄的統計方法予以配合,以便獲得科學界的廣泛采用。
隨著多種技術逐步實現更高的吞吐量并擴大覆蓋范圍和復雜性,復雜數據分析的瓶頸將越來越多地轉向有效的集成和解釋。為滿足這種需求,進一步發展目前使用的數據集成系統越來越有必要。另外,由于組學研究的結果往往缺乏足夠的特異性,因此,這些不同的組學方法可以進行組合使用,使之相輔相成[69-70]。目前,在研究藥物作用機制領域,轉錄組-代謝組聯合分析吸引了一大批研究人員的注意力,其潛在社會價值和經濟效益也日益得到重視,隨著組學技術使用的普遍性與分析技術上的發展,轉錄組-代謝組聯合分析方法在研究藥物作用機制領域中的應用將會繼續擴大,正確利用多組學聯合分析技術合理地解釋藥物作用機制相關問題,必將推動藥物研究進程,并且這種方法會逐步適應發展的需求。在不久的將來,多組學聯合分析將推動藥物開發及其作用機理的闡釋進入新時代。