李益 孫超
(中國醫(yī)學(xué)科學(xué)院北京協(xié)和醫(yī)學(xué)院藥用植物研究所,北京 100193)
生物體由不同形態(tài)、具有特定功能的細胞構(gòu)成,而不同細胞的基因表達模式也是不同的[1]。常規(guī)的植物轉(zhuǎn)錄組學(xué)研究通常是將植物整個器官或組織均質(zhì)化后測序,忽略了細胞的異質(zhì)性[2],雖然有助于在器官或組織水平上解決許多生物學(xué)問題,但無法了解稀有細胞類型或單個細胞的轉(zhuǎn)錄過程。細胞捕獲、測序技術(shù)和生物信息學(xué)的飛速發(fā)展使得單細胞轉(zhuǎn)錄組測序(Single-cell RNA-seq,scRNA-seq)成為可能,并不斷發(fā)展和完善,目前已廣泛應(yīng)用于生物學(xué)和醫(yī)學(xué)領(lǐng)域,并在植物學(xué)研究中顯示出巨大的潛力。在植物中開展單細胞轉(zhuǎn)錄組研究有助于深入理解不同細胞類型在發(fā)育過程中的作用以及細胞間的調(diào)控網(wǎng)絡(luò)[3]。本文對植物單細胞轉(zhuǎn)錄組測序和數(shù)據(jù)分析以及單細胞轉(zhuǎn)錄組測序在植物研究中的應(yīng)用進行了概述。
scRNA-seq技術(shù)發(fā)展迅猛,從最初只能檢測幾個細胞到單次實驗可以同時檢測數(shù)10萬個細胞,實驗效率得到了顯著提高[4]。同時,建庫及測序過程中不同環(huán)節(jié)的改進使得成本不斷降低、有效信息量不斷增加。目前已經(jīng)開發(fā)出多種scRNA-seq技術(shù),不同技術(shù)的適用范圍不同。多孔板法(PCR platebased)和液滴法(Droplet-based)是兩類成功應(yīng)用于植物研究的scRNA-seq技術(shù)(表1)。兩類方法各有特點,可根據(jù)實驗?zāi)康暮椭参飿颖拘再|(zhì)選擇合適的技術(shù)方法[5]。

表1 單細胞轉(zhuǎn)錄分析技術(shù)
對于稀有類型細胞或者細胞量較少的樣本,可以考慮多孔板法。因此,基于多孔板法的scRNAseq技術(shù)適用于研究特定類型或稀有的細胞,如生殖細胞。通常結(jié)合毛細管口吸法、激光顯微切割或流式細胞熒光分選技術(shù)來分選單個細胞[6]。這種方法首先需要將少量的細胞分選到含有PCR引物的64/96孔板中,然后對單個細胞進行獨立構(gòu)建測序文庫并測序[7]?;诙嗫装宓姆椒ㄗ畲蟮膬?yōu)點是捕獲效率高,但由于其細胞通量較低,測序成本高,限制了其大規(guī)模應(yīng)用。目前在植物中成功開展應(yīng)用的有Smartseq2[8]和CEL-seq2[9]。Smart-seq2支 持 全長轉(zhuǎn)錄本測序,靈敏度高,是檢測低表達的轉(zhuǎn)錄本的最佳選擇[10]。CEL-seq2采用體外轉(zhuǎn)錄線性擴增(IVT)的建庫方法,主要優(yōu)勢是減少了PCR指數(shù)擴增所造成的偏差,擴增后DNA的雙端深度測序能夠準確檢測兩條鏈的序列[11]。
基于液滴法的scRNA-seq通過微流控芯片,利用液滴直接分選單個細胞,可以無差別獲得組織中上千個細胞,使得植物單細胞轉(zhuǎn)錄組研究實現(xiàn)了從少量細胞到高通量的飛躍[12-13]。2015年,哈佛大學(xué)的兩個團隊將微流控技術(shù)引入scRNA-seq中,分別開發(fā)出 Drop-seq[14]和inDro[15]兩種技術(shù)。隨后,10× Genomics 公司于2017 年推出一個基于液滴法的商業(yè)化單細胞分析系統(tǒng)Chromium,使得scRNAseq的應(yīng)用得到了迅速發(fā)展。2019年,先后有多篇文章報道利用Chromium 平臺對擬南芥根開展了研究,證明了高通量單細胞轉(zhuǎn)錄組測序同樣可用于研究植物[16-20]。基于液滴法的scRNA-seq都運用了相似的技術(shù)原理,在微流控設(shè)備中,水流中包含懸浮狀態(tài)下的細胞,裂解緩沖液中包含了用條碼(Barcodes)標記的微珠,這兩股流體匯集在一起后穿過油體通道,最終形成一個個油滴包裹的凝膠珠。一旦液滴包裹成功,細胞立即被裂解,釋放出與微珠表面引物結(jié)合的 RNA,在微珠表面反轉(zhuǎn)錄成 cDNA,生成包含成千上萬個單細胞的 cDNA 文庫[21-22]。
相比于傳統(tǒng)轉(zhuǎn)錄組測序,scRNA-seq產(chǎn)生的數(shù)據(jù)量更為龐大復(fù)雜,分析和解釋數(shù)據(jù)也是scRNAseq分析中的重點[23]。scRNA-seq分析的具體步驟可能會由于生物學(xué)問題不同而有所不同,但大多數(shù)分析中使用的核心流程是一致的,包括數(shù)據(jù)預(yù)處理、數(shù)據(jù)的降維和聚類以及數(shù)據(jù)下游分析3部分[24-26](圖1)。

圖1 單細胞轉(zhuǎn)錄組數(shù)據(jù)分析流程
數(shù)據(jù)的預(yù)處理包括數(shù)據(jù)的質(zhì)控、數(shù)據(jù)矯正和整合以及對數(shù)據(jù)的標準化處理3部分[27-30]。細胞異常破裂、死亡、捕獲細胞的位置沒有細胞或者含有多個細胞會導(dǎo)致產(chǎn)生低質(zhì)量數(shù)據(jù),因此在正式分析前需要對原始數(shù)據(jù)進行質(zhì)量控制以剔除這部分數(shù)據(jù)[31]。數(shù)據(jù)整合可以消除實驗過程中的生物因素、技術(shù)因素以及不同批次引起的數(shù)據(jù)偏差,盡可能地展示單個細胞的真實表達情況[32-33]。通過多步過濾的數(shù)據(jù)即可用于構(gòu)建高精度的基因-細胞表達矩陣,用于后續(xù)分析。
scRNA-seq數(shù)據(jù)具有高維性,涉及數(shù)千個基因和大量細胞,當(dāng)在一個高維基因表達空間中比較細胞時,細胞間的距離變得更加均勻,使得區(qū)分群體間或者群體內(nèi)的差異非常困難。首先在數(shù)千個細胞的基因表達量數(shù)據(jù)中,選取其中高度可變的基因(Highly variable genes,HVGs),比使用所有的基因,選擇HVGs更為有效[26,34]。然后采取主成分分析(Principal component analysis,PCA)降低數(shù)據(jù)集的高緯度和復(fù)雜度,PCA可將數(shù)據(jù)投射到較少的獨立的線性維度中,從而捕捉到可能的最大方差。采用t分布隨機領(lǐng)域嵌入(t-Distributed stochastic neighbor embedding,tSNE)或均勻流形近似和投影(Uniform manifold approximation and projection,UMAP)對 細胞進行進一步降維,這兩種都是非線性降維方法,可以有效地將高維度數(shù)據(jù)轉(zhuǎn)換成二維圖像[35-36]。PCA降維后的數(shù)據(jù)傳遞到t-SNE與UMAP進行二維可視化展示,細胞之間的基因表達模式越相似,在t-SNE/UMAP圖中的距離也越接近。接下來可采用k-means算法或圖聚類算法(Graph-based)進行聚類分析,將表達相似的細胞聚在一起,形成不同的細胞亞群[24,37](Cell cluster)。Seurat是用于分析單細胞數(shù)據(jù)的常用軟件,它使用基于圖聚類的算法,通過計算細胞間的差異性,優(yōu)化細胞間聚類關(guān)系距離的權(quán)重值(通過設(shè)定軟件中的閾值),實現(xiàn)對細胞的聚類。
數(shù)據(jù)下游分析包含細胞水平和基因水平的分析[25]。細胞水平的分析又分為細胞類型鑒定和軌跡分析,其中也涉及到基因水平的分析?;蛩椒治霭ú町惐磉_分析、基因集分析和基因調(diào)控網(wǎng)絡(luò)分析。目前,主要有兩種方法用于鑒定細胞類型,一種是人工鑒定方法,綜合利用樣本信息、組織類型、細胞狀態(tài)、表面marker和差異表達基因,并結(jié)合已知數(shù)據(jù)庫的信息,進行細胞類型注釋[38]。CellMarker[39]和panglaodb[40]是兩個常用數(shù)據(jù)庫,提供了人和小鼠細胞注釋集。對于其他物種,則需要根據(jù)報道的文獻來確定標記基因(marker基因)。另一種方法是利用自動化鑒定工具對細胞進行注釋,目前,已經(jīng)開發(fā)出近30種自動化鑒定工具,包 括Scamp[41]、SingleR[42]、cellassign[43]等。自動化工具利用已知類型的細胞樣本的基因表達譜以及marker基因作為參考數(shù)據(jù)集,基于單細胞與參考數(shù)據(jù)集表達譜的相似性,對細胞類型進行自動化注釋。細胞聚類、注釋、重新聚類或子聚類以及重新注釋過程的反復(fù)迭代非常耗時,自動化鑒定方法提高了細胞注釋的效率,但也降低了其準確性。對于較小的數(shù)據(jù)集,可以優(yōu)先考慮人工注釋的方法,隨著單細胞轉(zhuǎn)錄組測序樣本數(shù)和細胞數(shù)的增加,可以結(jié)合多種方法,如首先使用自動化工具進行粗略注釋,然后利用人工注釋對結(jié)果進行補充完善。在分選單細胞的過程中可以捕獲到處于中間狀態(tài)的細胞(從一種狀態(tài)到另一種狀態(tài)的細胞),scRNA-seq提供了一個很好的機會來組裝發(fā)育過程中的演化軌跡。在細胞的演化進程中,細胞的轉(zhuǎn)變可能表現(xiàn)出不同的速率,意味著不應(yīng)隨著時間來評估基因表達的變化,而是應(yīng)該依賴于發(fā)育過程中的進展。擬時(Pseudotime)分析,又稱細胞軌跡(Cell trajectory)分析,根據(jù)測序細胞之間表達模式的相似性對單細胞沿著軌跡進行排序,以此推斷出發(fā)育過程細胞的分化軌跡或細胞亞型的演化過程[44]。Saelens等[45]對45種軌跡推斷方法的準確性、可擴展性、穩(wěn)定性和可用性4個方面進行了比較,評估結(jié)果發(fā)現(xiàn)當(dāng)前軌跡推斷方法之間存在很大的互補性,不同的工具有不同的使用范圍。Monocle是一款常用的擬時分析軟件,其計算細胞的相關(guān)性得到最小生成樹,找到最小路徑,然后把其他的所有數(shù)據(jù)點投射到最小路徑,最終得到細胞分化軌跡圖的算法[46-47]。
基因水平上的分析主要是通過比較細胞亞型之間差異基因的表達和功能富集,從而進一步解釋細胞的異質(zhì)性[48]。差異基因分析實際上是貫穿單細胞研究的重點分析內(nèi)容,亞群特征基因分析、處理組之間的基因動態(tài)變化、分化路徑上的基因動態(tài)變化,本質(zhì)上都是差異基因分析。目前的基因差異表達分析軟件有各自的優(yōu)缺點,Wang等[49]對比了11種基因差異表達分析軟件發(fā)現(xiàn),傳統(tǒng)的基因差異分析工具(DESeq2,edgeR)與單細胞差異分析工具性能表現(xiàn)相當(dāng),尤其在檢測靈敏度上表現(xiàn)良好,但此類軟件的運行時間較長,對于大數(shù)據(jù)量的單細胞轉(zhuǎn)錄組的基因差異分析來說,算法的運行時間通常是一種重要的考慮因素。在單細胞差異表達分析工具中,DEsingle[50]和SigEMD[51]可以同時保證檢測靈敏性和準確性,但是運行效率仍然比較低。另外,MAST(Model-based Analysis of Single-cell Transcriptomics)軟件利用hurdle模型消除dropout(基因在某些細胞完全沒有表達,同時在另外一些細胞有高表達的現(xiàn)象)的影響,在性能和效率上可以達到較好的平衡[25,52]。
基于多孔板法的scRNA-seq可用于研究稀有細胞,Efroni等[8]和Nelms等[9]分別利用Smart-seq2和Cell-seq2捕捉到了愈傷組織和生殖細胞在進入分化階段前的瞬時變化。基于液滴法的scRNA-seq,尤其是Chromium平臺的高細胞通量為植物單細胞轉(zhuǎn)錄組研究帶來了新的突破口,使得研究樣本從少量細胞向組織器官轉(zhuǎn)變??偟膩碚f,scRNA-seq可以通過捕獲單個細胞的基因的表達情況(表2),來揭示細胞的異質(zhì)性,細胞的分化軌跡以及細胞對環(huán)境變化的響應(yīng)機制。

表2 植物單細胞轉(zhuǎn)錄組研究概況
2019年2 月,首篇利用高通量單細胞測序的植物根尖單細胞圖譜文章發(fā)表在Plant Physiology上。Ryu等[16]選擇擬南芥幼苗根尖組織為樣本,利用Chromium平臺,共獲得了7552個細胞的轉(zhuǎn)錄組數(shù)據(jù)。通過Seurat對這些細胞進行降維聚類分析,得到9個主要的細胞亞群,隨后利用86個已知特異性表達的標記基因集對不同的細胞亞群進行注釋,同樣地,利用木質(zhì)部和韌皮部標記基因集區(qū)分了中柱細胞內(nèi)的不同細胞亞型,證實了高通量scRNA-seq在植物研究中的可行性和有效性。Denyer等[17]選用了相同的測序平臺對擬南芥根組織進行了測序,利用相似的有監(jiān)督分類方法注釋細胞類型,并構(gòu)建了含報告基因的轉(zhuǎn)基因擬南芥株系,結(jié)果顯示內(nèi)皮層組織內(nèi)的細胞確實有報告基因綠色熒光蛋白的表達。有監(jiān)督分類方法僅適用于極少數(shù)有參考數(shù)據(jù)集的植物,作者還采用了無監(jiān)督分類方法,通過定義聚簇中特異性的標記基因標準,在聚簇之間的差異基因集中進行篩選,獲取了數(shù)百個自定義的標記基因,并從中挑選了10個特異性高且此前未報導(dǎo)過與根發(fā)育相關(guān)的標記基因,通過報告基因株系進行驗證發(fā)現(xiàn),有8個基因的表達模式與預(yù)測一致。有關(guān)擬南芥根組織的研究結(jié)果表明,利用scRNA-seq數(shù)據(jù)可以鑒別不同細胞類型,如中柱鞘細胞、韌皮部篩管和不同表皮細胞亞型,也能檢測到靜止中心(Quiescent centre,QC)這種數(shù)目稀少的細胞群。
利用擬時序分析可以推導(dǎo)出具有分化/演化關(guān)系的細胞亞群間可能的分化路徑。Shulse等[54]通過Monocle推斷了內(nèi)皮層細胞的發(fā)育過程,結(jié)果顯示發(fā)育早期的細胞亞群沿著兩支軌跡曲線分化。與內(nèi)皮層發(fā)育相關(guān)的798個基因在擬時間序列上呈現(xiàn)早期、中期、晚期3種表達模式,且調(diào)節(jié)內(nèi)皮細胞分化初始階段的相關(guān)基因在擬時間序列的早期階段表達,而晚期表達的基因主要與木質(zhì)素代謝和細胞連接組分合成相關(guān)。對多項擬南芥單細胞的研究,同樣利用Monocle解析了根組織中的表皮[16]、內(nèi)皮層[54]、根毛[56]、分生組織[17]、根冠[19]細胞分化軌跡和各類細胞分化過程中基因的動態(tài)變化。Nelms[9]收集了玉米的144個生殖細胞,通過單細胞分析重塑了玉米雄性細胞進入減數(shù)分裂的發(fā)育過程。在減數(shù)分裂前期,轉(zhuǎn)錄組圖譜發(fā)生了兩次急劇變化,通過比較轉(zhuǎn)錄組圖譜與染色體細胞形態(tài)學(xué)的關(guān)系發(fā)現(xiàn),第一個轉(zhuǎn)錄水平轉(zhuǎn)變發(fā)生在第一次減數(shù)分裂前期的細線期,第二個轉(zhuǎn)變發(fā)生在偶線期,表明減數(shù)分裂期間轉(zhuǎn)錄表達的改變不僅與核事件相關(guān),而且與細胞形態(tài)相關(guān)。通過擬時序分析還能找出驅(qū)動細胞亞群分化的關(guān)鍵基因。分生組織到根毛細胞的發(fā)育過程中的基因表達譜顯示,與根毛發(fā)育相關(guān)的細胞擴張和細胞重組的基因在擬時間序列的中期表達,以此推測這些基因可能是驅(qū)動根毛分化的特定基因。Turco等[55]研究木質(zhì)部細胞分化到終端分化的分子機制,基于全根表達譜數(shù)據(jù)和單細胞數(shù)據(jù),表明了VND7是啟動根細胞向木質(zhì)部細胞急劇轉(zhuǎn)換的關(guān)鍵因子,確定了4個候選VND7下游靶基因。
高通量scRNA-seq技術(shù)的可提供單細胞分辨率的轉(zhuǎn)錄組信息,有助于發(fā)現(xiàn)新的發(fā)育調(diào)控因子。為了進一步研究在根毛細胞發(fā)育過程中基因的相互作用,Denyer等[17]調(diào)取了單細胞數(shù)據(jù)中239個轉(zhuǎn)錄因子的動態(tài)表達數(shù)據(jù),構(gòu)建了精細的基因調(diào)控網(wǎng)絡(luò)(Gene regulatory network,GRN),GRN分 析 結(jié)果顯示了參與根毛發(fā)育過程中的關(guān)鍵因子以及相互作用關(guān)系,進一步將GRN的轉(zhuǎn)錄因子過濾至25個核心組分,發(fā)現(xiàn)了一系列負反饋調(diào)控的轉(zhuǎn)錄因子。Liu等[20]采用scRNA-seq 技術(shù)解析了擬南芥氣孔譜系細胞發(fā)育進程中的轉(zhuǎn)錄組動態(tài)模式,對氣孔譜系細胞早期發(fā)育階段中轉(zhuǎn)錄因子進行了篩選,結(jié)果顯示調(diào)控植物幼苗生長、發(fā)育和應(yīng)激響應(yīng)的重要轉(zhuǎn)錄因子顯著高表達,轉(zhuǎn)錄因子的調(diào)控網(wǎng)絡(luò)顯示BPC、WRKY33作為核心轉(zhuǎn)錄因子不僅參與調(diào)控功能基因,還與其他轉(zhuǎn)錄因子相互作用。此外,Jean-Baptiste等[18]對幼苗進行熱脅迫處理,分析了單細胞水平熱激響應(yīng)轉(zhuǎn)錄調(diào)控網(wǎng)絡(luò)發(fā)現(xiàn),響應(yīng)高溫的熱激基因在不同細胞類型中都有表達,但仍有一些基因在不同細胞類型中存在顯著的差異表達,植物對內(nèi)外源信號的響應(yīng)的細胞異質(zhì)性應(yīng)該廣泛存在。
植物單細胞轉(zhuǎn)錄組研究的最大技術(shù)挑戰(zhàn)是將細胞從適當(dāng)?shù)慕M織中分離出來,并獲得大量的細胞用于高通量分析。植物細胞有細胞壁的保護,必須先制備成原生質(zhì)體才能制備單細胞懸液。目前尚未開發(fā)出可以適用于任何植物的通用的制備原生質(zhì)體的方法,這也是植物單細胞研究樣本單一的原因。因此在制備植物單細胞懸液過程中,可根據(jù)植物組織的特性,優(yōu)化酶解條件以分離原生質(zhì)體。單細胞測序產(chǎn)生的背景噪聲數(shù)據(jù)和不同樣本間產(chǎn)生的批次效應(yīng)是處理單細胞數(shù)據(jù)時的難點。為此,多種生物信息學(xué)工具已被開發(fā)并成功應(yīng)用于scRNA-seq分析。多篇植物單細胞轉(zhuǎn)錄組測序文章證實了高通量scRNA-seq方法的在植物研究中的可行性和有效性,預(yù)示著植物研究進入了單細胞時代。未來植物單細胞技術(shù)發(fā)展的主要趨勢是提高植物單細胞分離效率,實現(xiàn)多樣本多組織研究。近期,有科學(xué)家提出了植物細胞圖譜計劃(Plant Cell Altas)[57],高通量scRNA-seq技術(shù)是其不可或缺的重要一環(huán)??梢灶A(yù)見單細胞ChIP-seq、單細胞ATAC-seq、單細胞Hi-C等單細胞測序技術(shù)也會加入植物單細胞研究的隊列,從而使高精度研究單細胞基因調(diào)控模型成為可能。