熊和麗 沙茜 劉韶娜 相德才 張斌 趙智勇
(云南省畜牧獸醫科學院,昆明 650024)
細胞是機體最基本功能單位,細胞類型和功能由其表達的RNA決定,同一個體細胞的基因組基本相同,但每種細胞類型甚至每個細胞表達的RNA具有唯一性[1]。普通以同質組織或是同類細胞為整體進行的轉錄組測序,其基因表達是整個組織所有細胞的平均水平,掩蓋了細胞的獨特性及異質性,并且在研究復雜生物學機制過程中,目標細胞的表達特征可能被組織其他大量細胞所掩蓋。傳統細胞的分類往往基于細胞結構、功能、位置或是有限的細胞標記,而不是系統性和綜合性的指標,并且由于細胞處于不斷變化過程中,導致難以區分細胞類型和細胞狀態,稀有細胞更無從鑒定[2],而單細胞轉錄組測序通過對單個細胞的所有轉錄本進行測序,可以依據單個細胞的表達譜特征以高精度分辨率鑒定細胞類型和細胞狀態,并且可以鑒定稀有細胞,鎖定目標細胞以進行深入分析,是解析目標表型背后復雜分子細胞機制的有力工具。單細胞轉錄組測序不僅在方法上是對傳統細胞鑒定與分類技術的突破,在功能上也將大力促進細胞生物學的發展。
單細胞轉錄組測序技術是對單細胞的mRNA進行測序的技術。單細胞轉錄組測序得益于高通量測序技術的發展,2009年,Tang等[3]通過對單個細胞mRNA測序方法的改進,檢測到小鼠囊胚單細胞中的5 270個基因,其基因數量遠高于利用微陣列對數百個囊胚細胞的測序數據,首次實現了單個細胞的mRNA高通量檢測,從此開啟了單細胞轉錄組測序時代。隨著單細胞轉錄組測序技術的不斷發展,單細胞轉錄組測序技術也從細胞類樣本延展到組織樣本,測序通量由單個細胞增加到上萬個細胞。至今,單細胞轉錄組測序技術已有十余種,但其操作步驟基本都包括單細胞的分離,單細胞轉錄組文庫構建及測序。
從細胞或組織樣本中分離單個細胞是單細胞轉錄組測序的第一步,單細胞的分離應快速、準確以獲得高質量的單細胞[4]。單細胞的分離首先需要制備單細胞懸液,制備細胞懸液的樣本主要是培養的細胞或各種組織。培養細胞通過機械吹打或酶解的方法制成細胞懸液,組織樣品經過剪碎為小塊再利用酶進行消化制備細胞懸液。由于不同細胞、組織特性的差異,酶的選擇及消化時間有所不同,需要摸索出最佳消化條件以獲得高活性及完整性的細胞。
制備的單細胞懸液根據樣品特點可以采用以下幾種方法分離為單個細胞進行后續的操作,分別是熒光激活流式分選(fluorescent activated cell sorting,FACS)、微流控裝置(microfluidic devices)、微量移液(micro-pipetting)以及激光捕獲顯微切割(laser capture microdissection,LCM)[5]。FACS 具有高通量、低成本、自動化以及高效率的特點,還可根據細胞標記篩選目標細胞,但其要求至少上萬的細胞起始量,不適合用于細胞數量少及珍貴的細胞樣品,并且分選壓力可能造成細胞破壞;微流控裝置利用微流控孔道將細胞分離到微滴或微孔中,可對微量樣品進行處理,通量高,操作可標準化自動化,并且分選成本低,分選過程對細胞造成的破壞小,但微流控孔道對細胞體積大小有一定限制,可能會造成體積大的細胞被丟失,商業化的平臺10×Genomics是利用微滴,而BD Rhapsody是利用微孔的細胞捕獲方法[5-7];微量移液利用毛細玻璃管在顯微鏡下從單細胞懸液或組織中分離單個細胞,操作耗時,通量低,但在顯微鏡下操作可以保證單個細胞的分離及選擇高質量的細胞,適用于細胞數量少或是脆弱的細胞,如早期胚胎細胞,骨髓微環境細胞[5-6];LCM利用激光從組織切片上分離單個目的細胞,其優點是保留了細胞原有的空間位置信息,組織無需酶解,但組織切片的制作可能造成直徑大于切片厚度的細胞丟失或破壞,并且通量低,耗時耗力,對設備要求高[5,8]。
目前的高通量測序平臺只能對DNA分子進行測序,因此單細胞轉錄組測序中mRNA需要先反轉錄為cDNA后再進行擴增測序。由于單個細胞總RNA含量為皮克級,其中mRNA約僅占總RNA的2%-5%,而高通量測序建庫要求納克級DNA,因此需要將起始的cDNA擴增數十萬倍才能構建文庫[9]。分離的單細胞經過細胞裂解后利用oligo(dT)引物對帶有poly(A)尾的mRNA進行反轉錄后擴增,以此避免rRNA和tRNA的干擾,但同時也無法檢測不帶poly(A)尾的各種RNA。目前常用的單細胞轉錄組擴增方法有PCR法和體外轉錄線性擴增[9]。利用PCR法的單細胞轉錄組測序技術如Smart-Seq/Smart-Seq2,10× Chromium,Drop-seq,SCRB-seq,Seq-Well以及sci-RNA-seq,利用體外轉錄線性擴增的技術如CEL-seq2/C1,inDrops,MARS-seq[10-11]。cDNA擴增過程中PCR偏好是單細胞轉錄組測序中基因表達定量的重要影響因素,通過對每條轉錄本添加一段6-10 bp的隨機序列(unique molecular identifiers,UMI)來為每條轉錄本引入特定標記,一段UMI對應一條轉錄本,無論PCR循環多少次,UMI數量不變,以此進行基因表達定量,解決了cDNA的擴增偏好,如CEL-seq,Drop-seq,MARS-seq等方法[10]。但由于引入標記在3′端或5′端,不能測序全長mRNA,因此適用于對基因表達進行定量,不適用于可變剪切的分析。而擴增全長mRNA的方法如Smart-seq/Smart-seq2,通過雙端引物擴增,避免了3′或5′偏好,但仍存在PCR偏好,然而全長mRNA可用于轉錄本注釋、等位基因表達及可變剪切分析[6,10]。擴增的cDNA隨后被片段化并加上接頭序列進行測序。另外,文庫構建過程中通過對每個細胞引入barcode,可以將多個細胞乃至多個樣本混合測序,從而實現單細胞轉錄組測序的高通量,如 10× Chromium,Drop-seq,SCRB-seq,Seq-Well等方法,而不采用細胞barcode的單細胞轉錄組測序技術如 Smart-Seq/Smart-seq2,一次只能測序一個細胞,適合細胞稀少的樣本如干細胞、胚胎細胞或目標細胞的單細胞轉錄組測序。
至今,已有超過10種單細胞轉錄組測序技術被研究報道[11],各種技術的文庫構建方法不同,其測序表現也存在一定差異,Ziegenhain等通過從靈敏度、準確性、測序細胞數及測序成本等幾個方面系統比較 6種 方 法(CEL-seq2/C1、Drop-seq、MARS-seq、SCRB-seq、Smart-seq/C1、Smart-seq2)的測序表現,研究發現Smart-seq2檢測到單個細胞和總細胞的基因數最多,具有最佳的靈敏性,其次是SCRB-seq、Smart-seq/C1、CEL-seq2/C1, 而 Drop-seq和 MARS-seq單個細胞的基因數減少了近50%;CEL-seq2/C1、Drop-seq、MARS-seq、SCRB-seq由于引入 UMIs具有較低的擴增噪音;當細胞數量較大時,Drop-seq具有最好的測序成本優勢,而MARS-seq、SCRB-seq和Smart-seq2在測序少量細胞時具有成本優勢[10]。Ding等對兩種低通量(Smart-seq2和 CEL-seq)和5種高通量(10× Chromium,Drop-seq,Seq-Well,inDrops以及sci-RNA-seq)方法的系統比較,發現Smart-seq2和CEL-seq具有最佳靈敏度,而5種高通量方法中的10× Chromium檢測到的單個細胞的基因數最多;Drop-seq,Seq-Well,inDrops測序成本最低,Smart-seq2測序成本最高[11]。綜合來看,當樣品細胞數量大,研究以鑒定細胞類型和稀有細胞為目的,Drop-seq是較適合的單細胞轉錄組測序方法,若樣品細胞數量少,研究目的是轉錄組注釋,檢測遺傳變異及發現新的轉錄本亞型,Smart-seq2是比較好的選擇[10-11]。
另外,測序細胞數和測序深度是單細胞轉錄組測序實驗設計需要考慮的重要參數。由于單細胞轉錄組測序細胞數受到細胞亞群多樣性,稀有細胞的比率及測序方法的影響,因此很難估計準確的測序細胞數,目前對腫瘤細胞的測序數估計方法是利用公式P(d)= 1-(1-s)n,其中P(d)表示檢測力,s代表亞克隆頻率,n代表測序細胞數量。依據公式,當目的細胞的比率為1%時,測序250個細胞能達到0.9的檢測力,而測序500個細胞達到1.0的檢測力[12]。Ziegenhain 等[10]通過對 CEL-seq2/C1、Dropseq、MARS-seq、SCRB-seq、Smart-seq/C1、Smartseq2六種方法的測序深度與敏感性關系進行研究,發現單個樣本測序reads達1 million reads時,測序靈敏性逐漸穩定,當測序reads從1 million增加到4.5 million時,測序靈敏性沒有明顯改變。Pollen等研究發現若以細胞分類和稀有細胞的鑒定為研究目的,建議單個細胞測序50 000到100 000 reads[13],而Smart-seq2單細胞測序達到約1 million reads 時利于后續等位基因表達及可變剪切分析[14]。
單細胞轉錄組測序通過單個細胞高精度的轉錄表達譜對細胞類型及細胞狀態進行鑒定,發現細胞間差異及變化,分析細胞動態變化過程以及細胞間互作關系,鑒別正常細胞與異常細胞等。
細胞類型的鑒定是深入認識細胞功能的先決條件,而單細胞轉錄組測序最基礎和最重要的應用就是細胞類型的鑒定。17世紀羅伯特·胡克在顯微鏡下首次發現細胞以來,人們對細胞的表征描述及分類的準確度已經大大提高,但人們對細胞的分類多基于細胞形態、功能、位置及有限的分子標記,而非基于系統性或綜合性的指標,因此,到目前人們對細胞類型、狀態的描述及數量的認識仍非常有限[2,15]。細胞類型決定于細胞的轉錄表達譜[1,16],單細胞轉錄組測序通過獲得單個細胞基因表達譜,為細胞類型的鑒定提供了高精度系統性的方法。2020年,浙江大學郭國驥教授團隊發表了利用微孔板單細胞轉錄組測序技術對人體60種組織樣品和7種細胞培養物進行單細胞轉錄組測序研究結果,研究鑒定了人體100余種細胞大類和800余種細胞亞類,遠遠多于傳統認為人體細胞約有300種細胞類型的數量[2,17-18]。哺乳動物神經系統由數以萬計到數十億計的神經元組成,并且具有多種功能,通過單細胞轉錄組測序發現,即使微升級的大腦組織擁有成千上萬種不同類型細胞,甚至傳統認為同質的細胞,其細胞也表現出很大的異質性,單細胞轉錄組測序為復雜神經系統神經元分類提供了強大工具[12,16]。
2016年10月人類細胞圖譜計劃啟動,其基本目標是采用特定的分子表達譜來確定人體的所有細胞類型,并與經典的細胞空間位置和形態的描述連接起來,最終建立綜合性的人類細胞參考圖譜,以促進生命科學、疾病診斷、監測以及疾病精準治療的研究。細胞圖譜構建的關鍵環節是細胞類型的鑒定,因此單細胞轉錄組測序在人類細胞圖譜計劃中發揮著巨大的驅動作用。2020年,Han等[17]繪制了首個人類全細胞圖譜,圖譜涵蓋胚胎和成年期八大系統的細胞,包括100余種細胞大類和800余種細胞亞類。隨著科研人員的大量投入及單細胞轉錄組測序技術不斷發展,目前與人和模式動物相關的多個細胞圖譜構建出來。研究發育相關的細胞圖譜,如人青春期睪丸發育的動態轉錄組細胞圖譜[19]、小鼠小腦胚胎8個發育階段及出生后4個時期繪制小鼠小腦發育細胞圖譜[20];研究免疫器官的細胞圖譜,如人胸腺發育細胞圖譜[21]、斑馬魚淋巴細胞在組織穩態期和免疫攻擊后淋巴細胞的綜合圖譜[22]、乳腺癌微環境中免疫細胞圖譜[23]。2018年,Han等[24]利用微孔板單細胞轉錄組測序技術對小鼠近50種器官組織的40余萬個細胞進行系統性的單細胞轉錄組測序,構建了首個哺乳動物的全細胞圖譜,研究涵蓋了哺乳動物體內的各種主要細胞類型,并對每一種器官內的組織細胞亞型、基質細胞亞型、血管內皮細胞亞群和免疫細胞亞型的基因表達譜進行詳細描述。細胞圖譜的構建提供了大量的細胞類型、標記基因參考,對促進細胞功能及精準醫療研究具有重要意義。
研究發現在同一時期捕獲的同一組細胞中往往同時含有處于不同分化階段的同類細胞,其主要表現為細胞轉錄組的變化[25],因此根據單個細胞轉錄表達譜的相近程度對單細胞變化軌跡進行排序,以此模擬細胞動態變化過程,推導細胞可能存在的分化/演化軌跡,即擬時序分析(pseudotime analysis)[25-26],通過分化軌跡中的基因表達模式的分析可以研究細胞命運決定的調控因子及細胞變化的驅動基因。機體發育的各個時期均存在細胞分化事件,胚胎期單個受精卵發育形成一個完整的生命體,細胞也由全能細胞逐漸分化為具有各種功能的終末細胞;機體出生后以及成年個體也存在祖細胞或干細胞分化的過程,因此單細胞轉錄組測序廣泛應用于發育生物學以研究多能細胞分化過程中其細胞動態變化及細胞命運決定及分化機制。
小鼠胚胎 E6.5-E8.5是原腸胚形成及早期器官形成的關鍵時期,Pijuan等[27]采集E6.5-E8.5 d的9個連續時間點的小鼠胚胎進行單細胞轉錄組測序,構建了從多能細胞到所有主要細胞譜系的細胞分化圖,解析了多能細胞分化為各細胞譜系的發育軌跡和涉及的分子過程;小鼠胚胎E9.5- E13.5時期,胚胎從數十萬個細胞增殖到超過一千萬個細胞,并同時發育形成幾乎所有主要器官系統,Cao等[28]通過對61只小鼠E9.5- E13.5時期5個時間點~200萬胚胎細胞進行單細胞轉錄組測序,研究發現此時期的胚胎主要有38種細胞類型,包括10種主要的胚胎細胞發育分化軌跡和56種涵蓋所有主要器官系統的亞分化軌跡,研究還發現不同發育軌跡趨向形成相同的細胞類型,如肌細胞由兩條發育軌跡會聚形成,興奮性神經元以及抑制性神經元由幾條發育軌跡會聚形成。胰島形成機制研究對治療糖尿病具有重要意義,對小鼠胚胎期胰腺細胞進行單細胞轉錄組測序,通過對內分泌祖細胞分化軌跡分析,發現α細胞首先分化并形成胰島外層,其次β細胞分化以形成胰島內層;通過分化過程中基因表達特征變化分析發現,α細胞的形成與基因Gcg、Gast、Etv1和Pou3f4有關,β細胞的形成與Lns1、Lns2、Lapp和 Pdx1 有關[26]。
機體的正常運轉依賴于細胞間的有序協作[29],傳統研究細胞互作的方法大都需要已知細胞類型,無法研究未知細胞類型間的互作,并且傳統的研究技術諸如同位素標記、免疫熒光等存在檢測通量低,時間人力成本高等缺點,因此細胞間互作是生物學的研究難題。而單細胞轉錄組測序由于單次實現對成千上萬個細胞轉錄組測序,在單個細胞分辨率的基礎上,基于單個細胞的基因表達譜,為細胞間互作研究開啟了新篇章。細胞間互作關系利用單細胞的轉錄組表達譜,計算基因表達量矩陣,基于已有的配體-受體信息數據庫,量化配體-受體的互作強度來進行統計預測[29]。胚胎發育過程中,滋養層與蛻膜的相互作用發生異常會導致妊娠相關疾病的發生,Vento等[30]對妊娠前3個月胎盤以及和其相連的母體血液和蛻膜約70 000個細胞進行單細胞轉錄組測序,同時開發了配體-受體復合物數據庫和統計工具來預測不同細胞類型之間的細胞互作關系,研究通過確定細胞間的互作關系,可以防止有害的先天或適應性的免疫反應,這對胎盤形成及胎盤的正常發育至關重要。為促進腫瘤細胞的生長,腫瘤組織會形成一個包括正常組織的腫瘤微環境,這個微環境包括大量免疫細胞和非免疫細胞如成纖維細胞、血細胞、淋巴內皮細胞,為研究腫瘤微環境中各種細胞間的相互作用,Davidson等[31]通過對腫瘤微環境中細胞進行單細胞轉錄組測序,基于CellPhoneDB數據庫系統統計腫瘤微環境細胞間互作關系網絡,研究發現腫瘤微環境中細胞間存在復雜的相互作用,如表達C3/CXCL12/CSF1的基質細胞與C3AR1、CXCR4和CSFR1陽性的巨噬細胞之間存在基質與免疫細胞的互作,瘤內髓樣細胞群具有通過特定細胞因子受體信號如CXCL10、CCL22、CCL5吸引T細胞的能力,通過PDL1-PD1軸抑制T細胞的功能,并且還存在其他多種免疫抑制機制。
目前,利用單細胞轉錄組測序已有多個模式動物細胞圖譜構建出來,如小鼠全細胞圖譜[24]、小鼠胚胎發育細胞圖譜[27-28]、小鼠內皮細胞單細胞轉錄組圖譜[32],細胞圖譜的構建一方面為細胞類型及分子標記的鑒定提供參考數據庫以促進細胞功能研究,另一方面也為與特定目標細胞群或相關性狀形成的機制研究奠定了基礎。至今,利用單細胞轉錄組測序解析性狀形成機制的研究主要應用于疾病相關的模型動物,如通過果蠅大腦[33]、大鼠限制熱量攝入[34]、靈長類動物心肺[35]、靈長類動物卵巢[36]、小鼠[37]研究衰老機制,利用雞研究褪黑素的減肥機制[38],通過斑馬魚端腦研究阿爾茲海默癥形成機制[39],利用新生仔豬研究囊性纖維化肝膽疾病機制[40],而利用該技術解析各物種性狀相關形成機制的研究相對較少,以下將主要介紹近年來利用該技術解析動物復雜性狀形成機制的相關研究,為單細胞轉錄組技術在該領域的應用提供參考。
Estermann等[41]利用單細胞轉錄組測序對雞胚性腺性別分化過程的研究揭示雞和小鼠之間性腺性別分化的細胞生物學機制存在根本差異,研究刷新了對性腺細胞譜系復雜性的認識,鑒定到轉錄組不同的兩個支持細胞亞群,并從分化出的支持細胞前體衍生了類固醇生成譜系;與其他脊椎動物不同的是,雞胚支持細胞不是源自雞的腔上皮,而是源自間充質來源的PAX2+ / OSR1+ /WNT4 + / DMRT1 +細胞群體;更為重要的是發現PAX2 +細胞從中腎遷移到性腺中。
雞的四肢發育一直是研究脊椎動物肢體發育的遺傳及分子機制的模式動物,為在細胞尺度上闡明雞四肢發育的細胞及分子機制,通過對雞四肢發育的3個關鍵時期的雞胚四肢進行單細胞轉錄組測序,獲得其全基因組水平的轉錄譜的動態變化及相應細胞的動態變化,鑒定到一系列不同細胞類型形成相關的標記基因,從細胞維度解析了雞四肢發育的細胞及分子機制,也為后續研究提供了大量的研究雞四肢形成及多樣性的候選基因[42]。
由于與人具有相似的解剖、生理和基因組特征,豬是人類生物醫學研究非常好的模型[43],早期胚胎發育機制的研究有助于推動豬作為生物醫學模式動物的探索工作。通過對豬早期胚胎各個時期的單卵裂球共106個樣本進行轉錄組測序,揭示了豬早期胚胎發育的轉錄譜隨著胚胎發育而發生的動態變化,確定合子基因組的激活發生在四時期到八時期;鑒定到73個桑椹胚中參與調控卵裂球異質性的關鍵候選基因;最后通過與人、小鼠和牛基因表達調控網絡進行比較,發現豬早期胚胎發育調控網絡可能與小型動物存在巨大差別[44]。
骨骼肌是復雜的異質組織,約占體重的40%,其機械功能和代謝作用對機體健康至關重要[45]。Qiu等[43]通過對瘦肉型和脂肪型豬的肌肉進行單細胞轉錄組測序發現,瘦肉型豬顯著的骨骼肌特征主要表現為對肌細胞生成的促進及對脂肪細胞形成的抑制作用;細胞軌跡分析表明,肌祖細胞分化為衛星干細胞,隨后分化為衛星細胞和成肌細胞,成肌細胞進一步分化為肌細胞;與肥胖型豬相比,瘦肉型豬的肌系細胞更接近于肌源祖細胞的原始階段。
精子形成過程中雄性生殖細胞與體細胞之間的相互作用對于雄性生殖活動是必需的。由于細胞異質性使得很難在不同發育階段描述不同的細胞類型,Yang等[46]通過對成年綿羊睪丸的11 722個細胞進行單細胞轉錄組測序,鑒定到了所有已知的生殖細胞(包括早期精子細胞、晚期精子細胞、圓形精子、細長精子和精子)和體細胞,以及不常見的具有白細胞特征的體細胞。通過不同類型細胞轉錄表達譜分析鑒定到幾個不同階段生殖細胞特異的分子標記,如 EZH2、SOX18、SCP2、PCNA和 PRKCD。 研 究首次全面的研究了精子發生過程中不同階段細胞的轉錄表達譜,促進了對綿羊精子發生及精子發育的全面理解。
陜北白絨山羊是優秀的絨山羊品種,其毛囊發育過程中分子調控機制的研究對毛絨性狀的選育具有重要的指導意義。葛偉通過對單細胞轉錄組測序構建了陜北白絨山羊毛囊發育主要轉錄圖譜;成功鑒定了絨山羊毛囊發育過程中的真皮細胞譜系、表皮細胞譜系、毛乳頭細胞等細胞類型;基于不同細胞類型之間的差異分析,發現了一系列細胞標記基因,如真皮細胞的Lum、Col1a1和Postn,表皮細胞的Sox9、Krt14和Klf5l,毛乳頭細胞的Rspo2、Apod和Sox18等;根據細胞分化軌跡分析,對真皮細胞譜系的真皮聚集、毛乳頭細胞和表皮細胞譜系表皮細胞、毛干細胞和角化細胞的特化過程及細胞特化過程中基因表達特征進行了動態分析。研究結果促進了對絨山羊早期毛囊形態發生過程的認識,為其育種研究提供了重要的理論參考[47]。
細胞是生命體的最基本功能單位,基因功能的實現需要依賴于細胞這一載體,普通轉錄組反映的是所有細胞基因表達的均值水平,不能確定基因與細胞的關系,也忽略了細胞的動態變化及相應的轉錄組變化,因此在解析復雜生物學機制的過程中研究僅從基因及表型兩個維度開展,而單細胞轉錄組測序為生物學機制的解析增加了細胞這一維度,由此對目標性狀的研究可以定位到目標細胞及其相關細胞,分析目標細胞的動態變化及細胞間的相互關系,解析性狀形成的細胞分子機制,可以預見其在動物復雜性狀遺傳機制的解析及疫病防治研究方面將具有廣闊的應用前景,如肌內脂肪細胞、皮下脂肪細胞的發育機制解析將極大促進優質畜禽肉產品的生產;重要畜禽傳染病對宿主細胞的侵襲及損傷機制研究是疫苗及藥物開發的重要理論依據;不同品種免疫細胞類型分析將是抗病育種的一個方向;毛囊及其微環境細胞的發育機制研究將促進毛色育種。另外,單細胞轉錄組測序實質同普通轉錄組測序一樣,都是反映轉錄組的變化,若同其他組學聯合分析將更全面解析生物學機制,如同基因組整合分析可以揭示基因變異對轉錄水平的影響,進而解析性狀的遺傳機制[48],同單細胞染色質可及性(ATAC-seq)聯合分析可以構建DNA到RNA再到表型的調控網絡,鑒定與表型相關性強的核心調控因子[49-50]。