蔡浩洋
(四川大學 生命科學學院 生物資源與生態環境教育部重點實驗室, 四川 成都 610064)
在過去,被廣泛接受的一個觀點是細胞個體特征與群體特征具有一致性.因此,研究人員的關注點在于研究對象的宏觀水平而非其細胞的個體水平.研究者們得到的數據通常是一群細胞中某種信號的平均值,或者是其中占優勢數量的細胞的信號值.然而,近年的研究逐步揭示出單個細胞的個體特征具有明顯的異質性[1-2],繼而研究人員將關注點從群體水平轉移到單細胞水平,單細胞測序技術應運而生.在近10多年里,二代測序、顯微鏡和微流控技術的改進促使具有單細胞分辨率的各種復雜數據集迅速增加[3-4],在腫瘤學、免疫學、發育生物學甚至植物學研究領域,單細胞測序技術已經逐漸普及,極大地推動了不同生物學領域的研究.因而單細胞測序數據呈現指數級的增長,例如張澤民等[5]組建的“新冠肺炎單細胞中國聯盟(SC4)”把單細胞測序技術應用在新冠病毒的研究中,共收集到196個新冠病人的284個樣本,超過25 T近150萬個細胞的單細胞轉錄組測序數據[5].隨著海量的單細胞測序數據的產生,研究人員希望能通過整合和分析這些龐大的數據來挖掘有價值的信息,其中構建功能性數據庫用于存儲和分析這些數據成為一種高效的研究方法[4].迄今為止,單細胞相關數據庫已經超過了20個,但如何有效檢索和利用這些數據庫是研究人員需要面對的重要挑戰.
細胞的功能是由基因表達的不同組合來決定的.自從發現細胞是生命的基本單位以來,研究人員一直試圖根據其性質對細胞類型進行表征和分類[6].最初,細胞分類主要以其定位、形狀和細胞成分為基礎,細胞類型的定義在很大程度上取決于顯微鏡的改進.之后,免疫組織化學、流式細胞熒光分選技術(FACS)和熒光原位雜交(FISH)促進了標記基因(marker gene)在細胞分類中的應用[6].這些技術揭示了形態相似的細胞之間的異質性[7].單細胞基因表達分析的最新進展為大幅提高細胞識別率和分類準確性提供了可能.其中單細胞測序技術最吸引人的應用之一是解碼復雜的細胞異質性,并創建不同組織或器官中所有細胞類型的參考圖譜[8-9].例如,高通量單細胞qPCR[10-12],單細胞流式細胞術[13],單細胞轉錄組測序[14-18]都能以高分辨率研究細胞的異質性.除此之外的其他方法,如單細胞基因組分析[19-22],表觀基因組分析[23-30],原位分析[31-33]等,為在單細胞水平上研究細胞表型和細胞行為提供了可能.
自2009年Tang等[17]發表第一篇關于單細胞轉錄組測序技術的文章以來,這項技術得到了迅速的發展與應用.單純地對幾個細胞進行測序已經不再滿足科研需求,迫切需要一次性對幾千甚至幾萬個細胞同時進行測序.隨后,McCarroll等[34]在《Cell》上發表了基于微滴包裹單細胞和捕獲磁珠技術的Drop-Seq方案,標志著單細胞轉錄組測序進入高通量時代.之后許多大規模低成本的單細胞測序技術被開發出來,例如,Cyto-Seq[35],Smart-seq3[36]等.自此,單細胞測序技術相關實驗中分析的細胞數據量呈指數增長,超過了摩爾定律[37].龐大的數據給研究人員提供了寶貴的資源,同時也提出了挑戰.在美國國家生物技術信息中心(NCBI)上查找近10年跟單細胞測序技術相關的文獻已超過5 000篇(圖1)[38],產生的單細胞測序數據量也逐漸增加.一方面單細胞技術領域的迅猛發展使得單細胞數據量激增,另一方面對于如何處理這些數據的方法也在不斷增加.從Zappia等[39]的分析中可以看到用于處理單細胞數據的工具已超過1 000個,并且還在持續增加中,其中R和Python為主要的分析語言.

圖1 單細胞研究文獻發表數量增長趨勢
自2012年以來,生物學大數據的挖掘和利用逐漸成為生命科學研究的前沿領域,單細胞測序技術的出現進一步加快了海量數據的產生,這些數據滿足大數據的一般特性,即數據量大、速度快、類型多、價值高和真實性高,單細胞相關的大數據為各領域研究人員提供了寶貴的資源和機遇.
面對龐大的單細胞數據,構建功能性的數據庫以統一整合和分析已有數據是一項迫切的需求.目前關于單細胞的數據庫已經超過了20個,涵蓋了轉錄組、基因組和表觀基因組等,所涉及的物種以人和小鼠為主,組織器官超過200種,數據產生平臺或技術包括10X Genomics、Smart-seq2、Fluidigm C1、Drop-seq等.本節主要介紹目前較有代表性的單細胞組學數據庫(以下簡稱為單細胞數據庫).
2.1 不同物種來源的數據庫該類數據庫的數據來源于已經發表的單細胞數據分析文獻,并進行統一標準的處理.這些數據的測序物種包括人、小鼠、斑馬魚、果蠅、擬南芥等.大部分數據庫的數據是以人和小鼠為主,有4個數據庫包含除人和小鼠以外的物種,具體的數據庫信息列在表1中.
2.1.1以人類和小鼠為研究對象的數據庫 1) Mouse Cell Atlas[7].Mouse Cell Atlas數據庫主要收集的測序數據來源于小鼠.目前已經更新到2.0版本,該數據庫利用Microwell-seq對40多種組織器官和超過40萬個細胞進行測序.Microwell-seq是一種高通量低成本的單細胞RNA測序技術,使用該技術獲得小鼠各個組織器官的細胞聚類并做細胞類型定義,構建了小鼠細胞圖譜.并且用戶可根據組織器官進行搜索,展示各群的標志基因,同時網絡圖展示各基因之間的關系.Mouse Cell Atlas數據庫有比較全面的小鼠單細胞測序數據,在小鼠相關研究領域具有重要的地位.
2) scRNASeqDB[40].scRNASeqDB數據庫是一個收集和管理已經公開發表的人類單細胞基因表達數據集的數據庫.該數據庫覆蓋了71個人類細胞系(或細胞類型)以及8 910個樣本.同時數據庫還提供了不同狀態下細胞中基因表達的詳細信息,以及基因表達的可視化圖像、Gene Ontology和pathway等特征.該數據庫有助于研究人員在廣泛的生物學和醫學領域對人類單細胞的基因表達進行研究.
3) CellMarker[41].CellMarker數據庫通過收集已發表的文獻,整理出人的158個組織/亞組織的467個細胞類型的13 605個標志基因,以及小鼠的81個組織、亞組織的389個細胞類型的9 148個標志基因,為人類和小鼠組織中的各種細胞類型提供全面而準確的細胞標記資源.CellMarker數據庫提供交互式界面,用于瀏覽、搜索和下載不同組織的不同細胞類型的標記,給研究人員在定義細胞類型方面提供了寶貴的參考信息.
2.1.2除人和小鼠外以其他物種為研究對象的數據庫 1) Single Cell Portal[42].Single Cell Portal數據庫是由Broad institute建立的,旨在為研究人員掃除單細胞分析障礙,加速單細胞研究.該數據庫所包含的物種除人和小鼠以外還包括斑馬魚、果蠅、原雞、食蟹猴、獼猴、野豬、樹鼩等9個物種.此外,數據庫提供按研究項目和按基因檢索,可通過物種、細胞類型、疾病類型、組織器官等選項搜索,以找到相應的研究項目.每個項目都提供相關的文獻信息,并且可以在可視化界面進行數據挖掘.
2) Single Cell Expression Atlas(SCEA)[43].SCEA數據庫收集整理了來自多個物種和不同實驗條件下的原始單細胞測序數據,使用統一標準的方法重新分析數據,使得數據具有交叉可比性,并且該數據庫將分析結果以用戶友好的界面呈現出來.通過基因搜索,研究人員可以快速了解其感興趣的基因在不同物種的單個細胞水平上的表達模式.SCEA數據庫整合了18個物種的數據,涵蓋了動物、植物、真菌以及原生動物,其中動物包括人類、小鼠、果蠅、血吸蟲等10個物種,植物包括擬南芥、水稻、番茄以及玉米4個物種,真菌包含酵母,原生動物包含伯氏瘧原蟲以及惡性瘧原蟲.
2.2 收集特定研究領域數據的數據庫
2.2.1腫瘤學數據庫 1) CancerSEA[44].癌細胞的高度異質性是癌癥研究和治療中的主要挑戰.單細胞測序技術為以單細胞分辨率破譯癌細胞的各種功能狀態提供了前所未有的機會,且癌癥單細胞測序數據已經大量積累.CancerSEA描繪了一個癌癥單細胞功能狀態的圖譜,涉及來自25種癌癥類型的41 900個癌癥單細胞的14種功能狀態(包括干細胞、侵襲、轉移、增殖、上皮細胞-間充質轉化(EMT)、血管生成、凋亡、細胞周期、分化、DNA損傷、DNA修復、缺氧、炎癥和沉默).數據庫支持以基因名稱、腫瘤類型和功能、基因集3種方式進行搜索,提供了豐富的數據檢索方法.CancerSEA還在泛癌癥、特定癌癥類型和單個癌癥類型單細胞數據集中提供了功能狀態相關的PCG/lncRNA序列.
2) CancerSCEM[45].CancerSCEM數據庫包括了28項研究和20種人類腫瘤類型的208份癌癥樣本,并且對每一個樣本進行了統一標準的分析,包括對數據進行細胞類型注釋、功能基因表達分析、細胞通訊和生存分析等.數據庫采用統一的標準分析,因此可以比較不同癌癥類型之間的細胞成分和許多功能分子的表達,此外友好的界面適合非生物信息學研究人員挖掘有價值的信息.同時該數據庫還提供在線分析功能,可以分析不同細胞類型之間某些基因的表達情況,以及基因之間的相互作用.
3) TISCH[46].TISCH數據庫整合了27種癌癥類型的76個高質量腫瘤數據集中近200萬個細胞的單細胞轉錄組數據,是一個專注于腫瘤微環境的大規模的管理數據庫.數據庫將所收集到的數據統一進行標準分析,允許在不同細胞類型、患者、組織來源、治療,以及不同癌癥類型之間進行系統比較.研究者可以在TISCH數據庫中可視化、搜索和下載多種與腫瘤微環境相關信息,快速全面地進行腫瘤微環境的探索.
2.2.2發育生物學數據庫 1) Human Cell Landscape(HCL)[47].HCL數據庫收集的資源非常豐富,它旨在繪制完整的人類單細胞圖譜.HCL數據庫包括對60種人體組織樣本和7種細胞培養樣本進行Microwell-seq測序分析的數據.數據庫包含了超過70萬個單細胞,鑒定了人體102種細胞類型以及843種細胞亞型,系統性地繪制了跨越胚胎和成年2個時期的細胞圖譜,涵蓋了人體的8大系統.研究者可以在其中根據細胞分型、組織和基因進行搜索,數據庫可以下載單細胞表達矩陣,進行自定義分析.研究者還可以上傳自己的表達矩陣進行在線分析.
2) SCDevDB[48].SCDevDB是一個為研究細胞不同發育期間的單細胞基因表達譜而設計的數據庫.該數據庫收集了10個人類單細胞RNA-Seq數據集,并且將這些數據集拆分成176個發育細胞群,構建了24種不同的發育途徑.研究者可在該數據庫中根據發育的不同時期進行信息篩選,它提供每個發育途徑中差異表達基因的列表,以及可視化分析結果.
2.2.3免疫學數據庫 JingleBells[49].單細胞測序技術的發展加深了對免疫分化和激活過程的理解,JingleBells數據庫將數據劃分為免疫與非免疫類,收集了與120篇免疫相關文獻以及182篇非免疫領域文獻的單細胞測序數據集的原始數據,并用標準的分析流程處理數據,是一個標準化單細胞RNA-seq數據集的存儲庫,可供研究者下載數據用于后續分析.
2.2.4收集其他研究領域數據的數據庫 1) SC2disease[50].SC2disease是一個人工收集并整合數據的數據庫,能為研究者提供各種疾病的各細胞類型的基因表達譜.研究人員使用關于單細胞人類疾病樣本文獻中的數據,并根據疾病、組織和細胞類型整理數據.SC2disease包含946 481條數據,對應341種細胞類型、29種組織和25種疾病.數據庫中的每個條目都包含不同細胞類型、組織和疾病相關健康狀況之間差異表達基因的比較.SC2disease還提供了從基于單細胞的結果和基于全基因組關聯分析(GWAS)的結果得出的疾病的易感基因.
2) KIT(Kidney Interactive Transcriptomics)[51].隨著發表的有關腎臟單細胞文章的增加,研究人員對腎臟單細胞文章進行了整理,構建了一個腎臟單細胞數據集的在線分析數據庫KIT.迄今為止(2021年12月)該數據庫收錄的數據來自于16篇關于腎臟的單細胞文獻和RBK數據庫.KIT數據庫總共收錄了130萬個細胞,超過17種細胞類型,并且提供了根據基因名搜索以及在線分析的功能.

表 1 單細胞組學數據庫及其功能特點

續表1 scRNA-tools--是一個專門收集用于單細胞測序數據分析軟件的數據庫https://www.scrna-tools.org/[52]Single CellExpression Atlas(SCEA)18個物種229項研究,5 978 348個單細胞數據提供非常豐富的數據資源,可通過標記基因來檢索細胞,選擇感興趣的數據集、物種等查看聚類等基本信息https://www.ebi.ac.uk/gxa/sc/home[43]Single CellPortal(SCP)9個物種409項研究,超過1 800萬個單細胞數據庫分為按項目搜索以及按基因搜索,同時可視化相關信息,也可選擇細胞類型、器官、物種、疾病等進行檢索https://singlecell.broa-dinstitute.org/single_cell[42]TISCH人類27種癌癥類型近200萬個細胞是一個關于腫瘤微環境的單細胞數據庫,該數據庫允許在不同細胞類型、患者、組織來源等方面之間進行系統比較,可視化分析結果http://tisch.comp-genomics.org[47]CancerSCEM人類20種人類腫瘤類型,208份癌癥樣本是一個收集腫瘤單細胞測序數據的數據庫,分析了多個公共測序數據中基因的表達情況,還分析了細胞表面受體-配體、細胞間互作網絡等https://ngdc.cncb.ac.cn/cancerscem[45]ScMethBank人類和小鼠29種細胞類型和2種疾病模型是一個收集單細胞全基因組DNA甲基化數據的數據庫,可通過樣本、基因、甲基化區域進行搜索,并有可視化界面https://ngdc.cncb.ac.cn/methbank/scm/[57]
2.3 單細胞數據分析工具數據庫scRNA-tools[52]隨著單細胞測序數據的激增,用于分析單細胞測序數據的工具也呈現出增長的趨勢.scRNA-tools是一個收集單細胞測序數據分析軟件的數據庫.該數據庫記錄了從2016年以來每年新增的分析軟件供研究人員選擇.截止目前已收集了1 124個用于單細胞數據分析的軟件.數據庫提供單細胞測序數據分析工具的詳細信息,用戶可以查詢常用工具的具體信息,還可以通過引用次數對工具進行排序,以及根據分析目的對工具進行分類,從而選擇合適的處理工具.
3.1 數據庫的構建大部分生物學數據庫的主要功能是通過統一方法整合龐大的數據以提供快速檢索信息的平臺.單細胞數據庫的構建一般主要分為收集數據、處理數據以及數據展示3個步驟(圖2).

圖2 數據庫構建基本流程
1) 收集數據.單細胞數據庫中所收集的數據主要來源于已公開發表的文獻中的數據集.在PubMed中以關鍵詞“single-cell sequencing”“single cell”“single cell RNA sequencing”等詞進行檢索然后篩選出符合條件的文獻再從中獲得數據.數據集從GEO、GSEA、ZENODO等網站手動下載.
2) 處理數據.將下載的數據進行數據分析是數據庫構建的核心功能,用不同的分析方法可能會得到不同的數據,使得數據庫面向的用戶群體會大不一樣.單細胞數據庫中數據所使用的單細胞分析流程主要為質控、細胞分群、差異表達以及細胞類型注釋.之后不同的數據庫根據不同的研究問題進行自定義分析,將分析得到的結果的集合有序地存入信息表中(MySQL、MongoDB等).
3) 數據展示.通常數據展示是通過搭建在線的網站以方便用戶搜索并在網站上展示出相關信息.用戶在網站的前端通過關鍵詞(如細胞類型、基因名等)發出請求,后臺程序以關鍵詞在信息表中搜索并且將搜索到的結果在網站前端可視化展示,以供用戶查看.
3.2 數據庫的選擇由于對細胞異質性研究的興起,單細胞技術被廣泛用于回答發育生物學、神經科學、腫瘤學和免疫學的許多基本問題[58].單細胞轉錄組測序技術使得對生物變異進行詳細研究成為可能[59].迄今為止,單細胞數據庫已超過20個,如何選擇合適的數據庫進行信息檢索是研究人員面對的首要問題.
1) 根據研究對象選擇數據庫.研究人員需根據不同的研究對象選擇不同的數據庫進行信息檢索.如研究對象是人類,則可選擇收集人類單細胞數據的數據庫HCL、ScRNASeqDB等,在這些數據庫中能根據細胞類型、組織、器官等關鍵詞搜索相應的標志基因以及基因表達譜.CellMarker作為一個專門收集標志基因的數據庫,也能根據細胞類型搜索標志基因.大部分數據庫都提供可視化的功能,能直觀地顯示研究者所需要的信息.然而,不同的數據庫處理數據的方法可能是不相同的,因此要求研究者基于所研究的問題選擇合適的數據庫進行分析.
2) 根據研究領域選擇數據庫.除了通過研究對象選擇數據庫,還需要根據研究領域選擇合適的數據庫.單細胞技術在腫瘤學、免疫學、發育學等領域上都得到了飛速發展,單細胞數據庫也在這些研究領域收集數據,因此單細胞數據庫也可分為與腫瘤相關的數據庫CancerSEA、CancerSCEM、TISCH,與發育相關的數據庫SCDevDB和免疫相關的數據庫JingleBells,以及其他領域的數據庫(圖3).

圖3 單細胞數據庫分類
專業數據庫和綜合數據庫是2類最常見的數據庫類型,并且各有優勢.例如,scREAD是一個專門針對阿爾茲海默癥而建的單細胞數據庫,對于阿爾茲海默癥的研究很有幫助.在研究腫瘤方面的內容時,盡管HCL、scRNASeqDB等數據庫也能檢索到部分信息,但是選擇腫瘤相關的單細胞數據庫CancerSEA以及腫瘤微環境相關的單細胞數據庫TISCH,可以得到更豐富的信息.
3.3 數據挖掘研究人員可通過對數據庫中的數據進行搜索并進行再次整理,對某一方面的信息進行挖掘.例如,若想研究腫瘤細胞中細胞凋亡的機制,在腫瘤數據庫CancerSEA中搜索跟細胞凋亡有關的信息,數據庫返回的14種癌癥類型里都有細胞凋亡相關的數據,點擊查看更多的信息,可以發現在這些數據集里有一些顯著的差異表達基因,研究者可根據這些基因進行更深層的探索,或者挑選部分基因進行實驗驗證.
總之,單細胞數據庫給研究人員帶來許多便利,這些數據庫集合了各種研究數據以及分析結果,研究者只需在數據庫中進行搜索就能找到重要信息,而無需進行原始數據收集和分析,節省了大量時間.
生物學中最基本的問題之一是哪些類型的細胞以功能協調的方式形成不同的組織和器官.單細胞測序技術的發展使得研究人員可以在單細胞分辨率研究細胞表型和細胞行為,其發展潛力巨大.目前關于單細胞測序數據的數據庫各有優勢,但各數據庫之間有數據交叉重復的部分,會造成一定的信息冗余.不同的數據庫所用的整合數據的方法也不相同.然而,迄今為止,盡管大量的數據集仍在持續產生,但可供研究人員使用的數據庫仍然不夠豐富.綜合數據庫,如scRNASeqDB、PanglaoDB等對文獻中的單細胞表達數據集進行整合,其中大部分來自人類和小鼠樣本.關注除人和小鼠以外物種的數據庫目前只有4個.此外由于收集的數據來源不同、平臺不同、實驗不同等因素,給整合數據帶來了困難,大部分數據庫對于數據的處理一般只包含細胞聚類和差異基因表達譜的初步分析.
目前關于腫瘤的單細胞數據庫如CancerSEA、CancerSCEM等在腫瘤單細胞研究中應用廣泛.盡管CancerSEA是2018年發布的第一個以單細胞分辨率分析癌細胞不同功能的數據庫,但它只包含41 900個癌細胞的14種功能狀態,而沒有考慮腫瘤微環境中的免疫細胞或基質細胞.至于HCL數據庫雖然構建了人類單細胞圖譜,但是完整的細胞圖譜還應該整合更多的信息,如空間信息、多組學數據以及群體分析等.正如CellMarker數據庫被研究人員常用來查找不同細胞類型所對應的標志(marker)基因,SignatureDB能查到關于免疫細胞-B細胞的信息,但這些數據庫中也有冗余信息(例如在CellMarker數據庫里也能查到B細胞的部分信息).不同的數據庫由于收集的數據來自于不同的文獻,數據整理的方法不一致,數據信息也無法完全對應.Mouse Cell Atlas數據庫里能查到關于小鼠的組織器官以及對應的標志基因,但這些信息和CellMarker中的信息并不完全一致.這也給研究人員在篩選合適的數據方面增加了工作量.迄今為止缺少一個整合數據庫的標準準則.因此根據已有數據庫各自的功能特點,期待未來的單細胞測序數據庫應具有以下3條特征.
1) 更具綜合性.新方法的發展和新技術的進步推動了生物學的蓬勃發展.隨著單細胞測序技術應用的持續推廣和更新,單細胞測序數據類型將會越來越多,所涉及的物種種類、組織、器官、細胞和基因也會增加,使數據的整合變得更復雜.數據庫所收錄的數據應該更加全面與綜合.另外,僅僅利用單組學進行研究已經不能滿足研究人員的科研需求,單個組學數據只能解釋某一層面的問題,無法從多個角度進行深入探索.近年來,單細胞多組學整合研究成為新的趨勢,研究人員可以從多個組學的角度驗證和分析數據并結合實驗驗證結果.因此,單細胞數據庫里的數據不再僅僅局限于基因組或轉錄組的數據,還將包括表觀基因組學、代謝組學等更加綜合的單細胞數據.如ATAC-seq數據、蛋白質數據、FISH數據等.
2) 更具時效性.據《單細胞行研報告》[38],自2009年到2019年的10年間,單細胞研究相關文獻發表數量增長了約14倍.尤其是自2013年至2021年,單細胞測序技術發展迅猛,新舊數據的更迭給研究人員選擇適用的數據帶來一定困難.因此,未來的單細胞數據庫應及時更新數據信息,從新產生的大量的數據中及時梳理出有價值的數據以更新數據庫,使數據庫能跟上單細胞研究領域的發展進度,給研究人員提供及時并有價值的信息.
3) 更具健壯性.單細胞數據庫以網站框架為主體,以便科研人員查找信息.海量的數據給網絡服務提出了不小的挑戰,當研究人員在使用在線數據庫進行搜索時,能快速查找到正確的搜索信息并進行展示是關鍵的用戶體驗.目前所發表的單細胞數據庫的構建框架基本是由PHP+MySQL+HTML的形式,但是查詢的數據如何存儲,以何種表格存儲,如何構建查詢方式等,是由構建數據庫的研究人員設計的.面對數據庫中如此龐大的數據,如何設計數據的存儲模式和查詢方式,如何更新數據等問題關系到數據庫整個架構的健壯性.
總之,單細胞研究領域有巨大的發展潛力,有關單細胞數據的數據庫的發展也需要與時俱進.在大數據時代,龐大的數據量給單細胞數據的整合帶來了機遇,同時也帶來了信息篩選的挑戰.能滿足上述3條特征的單細胞數據庫將會極大地促進該領域的研究和發展.