林長松,邵嬌芳,武 劍,汪強虎
(南京醫科大學 江蘇 南京 211166)
近些年興起的單細胞轉錄組測序技術已經成為生物醫藥研究中的一把利劍,在研究腫瘤異質性,發育等方面起著重要的作用,是生物信息學本科生教學中不可或缺的一塊內容。然而單細胞轉錄組測序產生的數據量巨大,從下機數據處理到后續分析也是異常復雜,并且分析環境也多種多樣,極大地增加了教學難度,因此需要老師對整塊教學內容進行有效編排。
單細胞轉錄組測序是一門新興學科,不單單是轉錄組測序的延續,目前國內很少學校開設該課程[1-3]。教學中面臨的兩大問題:①單細胞轉錄組分析環境復雜,涉及眾多R 包和python 軟件包,分析環境難以配置,學生需要耗費大量時間用以配置分析環境,是學習單細胞轉錄組過程中主要的障礙;②涉及眾多知識點,學生容易掌握單個知識點,但難以融會貫通,串成一根主線,分析完整的案例時顯得力不從心;如果老師繼續使用傳統的講授方式,學生無法產生學習興趣,對單細胞轉錄組測序內容難以理解,并且學生不能理解單細胞轉錄組測序這門課設置的目的與意義,無法激發學好一門學科應該有的積極性,因此恰當的教學方式就顯得尤為重要。于是,在此情形下,突破傳統的大課堂,導入其他教學模式是極為必要的。為了解決配置環境方面的問題,引入容器化技術,基于singularity 構建單細胞分析的R 環境容器文件以及shell 環境下的容器文件,徹底解決單細胞轉錄組分析環境的軟件配置難題。在教學方法上,采用問題導向式學習(problem-based learning,PBL)教學方法,將完整的案例穿插在單個知識點的教學中,引導學生運用單細胞轉錄組測序分析方法對科學問題進行探索[4]。
當前部署生物信息分析平臺常借助于容器化技術:
①借助于conda 軟件安裝生物信息分析軟件,可以將單個的生物信息分析軟件安裝在獨立的虛擬環境中,也可以將多生物信息分析軟件安裝在一個conda環境,但conda軟件會安裝額外的環境所需軟件,環境臃腫,安裝時受網速影響很大,另外不便于跨平臺移植使用[5-6];②docker 是一種輕量級的虛擬化技術,在生物信息學中使用廣泛[7]。docker 可為單一的生物信息學分析流程建立一個可移植的容器,并且在該容器內可以放置分析代碼,配置文件,而當前在很多生信公司中使用成熟的代碼進行規范化分析時多使用docker 技術[8-9]。docker hub 網站中也有單細胞分析所需的docker鏡像,但在教學中,有一致命性缺陷,即運行時需要服務器的root 權限,增加了服務器的不安全性,而且不好修改,不便于實際中使用;③近些年隨著超算興起的singularity 軟件,和docker 軟件的功能很類似,卻不需要root 權限,在生信領域具有很廣闊的使用前景。相較于docker,singularity 有獨特的優勢:容易對分析環境進行打包遷徙,和現有系統無縫整合,無須運行daemon 進程,支持多種鏡像和容器文件格式,易于和現有的超算系統整合,國內多個超算平臺已部署singularity 軟件,并且可以使用singularity pull 命令獲取docker 資源。另外,在教學中融入構建singularity 容器的內容,使學生從底層掌握容器構建過程,提高他們的科研技能。
穩定的生物信息學分析軟件環境不僅是教學的需要,同樣也是科研之必需。在教學中采用的策略是:linux 基礎一般的學生掌握容器化軟件的使用,了解容器化軟件的構建流程,而學有余力的學生可以掌握容器化軟件的構建過程,圖1 所示搭建單細胞轉錄組測序分析軟件,具體構建過程如下:①下載純凈版的Ubuntu(版本18.0.6),構建沙盒,設置沙盒的讀寫屬性,安裝常見的庫文件,將linux shell環境中使用的軟件Sratools(sra 文件下載及轉換),Samtools(sam/bam 文件操作),Cellranger(單細胞測序文件比對),cellphonedb(python 環境下的細胞通訊分析軟件),velocyto(python 環境下的RNA 速率分析軟件),pySCENIC(python 環境下的單細胞轉錄調控軟件)軟件安裝在純凈的Ubuntu 操作系統中,打包封裝成是以sif 結尾的singularity 容器文件。②R 包分析環境的構建:在純凈的ubuntu環境中裝R 所需的庫文件,然后裝R-base 軟件(版本4.0.6),接著將單細胞分析的R 包都安裝在該環境下,安裝過程中需要安裝眾多依賴的庫文件,安裝完成后封裝成是以sif 結尾的singularity 文件。該R 包分析環境主要涉及以下R 包軟件:數據讀入整合R 包(Seurat,harmony);雙細胞鑒別R 包(DoubletFinder);細胞亞群識別(scMCA,scHCL,singleR);細胞通訊(iTALK,Nichenet,CellChat);CNV的推斷(inferCNV,copyKAT);軌跡分化(velocyto.R,Monocle2,Monocle3);轉錄調控(SCENIC);功能化分析(clusterprofiler,org.Hs.eg.db,GSVA),以上R 包能夠滿足本科生單細胞轉錄組測序課程的教學。

圖1 單細胞轉錄組測序分析環境的容器化軟件
從教育心理學的定義來看,問題本身可分為結構良好問題和結構不良問題。單細胞轉錄組教學中的案例教學內容問題就屬于后者,適用于PBL 中的案例教學,其被解決的過程和可能的答案常常不具有規律性和穩定性,即新的問題不能按部就班照著舊的問題的解決方法去處理,因此這種教學方式不是枯燥且一成不變地學,而是基于真實情景的問題,以解決問題為起點,從問題出發延伸,從而對知識進行探索、掌握中心分析與理解運用,是一種“高水平學習”[10]。單細胞轉錄組測序技術分析這門課要求學生理清并掌握概念間的各式復雜聯系,學以致用,且因事制宜,運用到具體的科學問題(肺腺癌的異質性)中去。而逐漸掌握的過程也是從案例問題中學習的過程;運用的過程則對應著加強理解的過程,并能檢驗掌握程度。正如實踐是認識的唯一來源,也是目的和歸宿。因此,問題的發現者即學生,是PBL 教學的主體與核心[11]。因此,PBL 教學對于生物信息學專業本科學生將來的學習和工作的能力塑造至關重要。
傳統的教學方法更傾向于授人以“魚”,雖一直提倡學習是學生自己的事,但在現當代的填鴨式教育模式下,老師在教學中處于主體地位,通常是學生學了什么取決于老師教了什么,PBL 教學法則傾向于授人以“漁”,其差別便在于將從教為中心翻轉為了以學生自主學為中心[12]。本課程中老師的作用相當于其中的“根節點”,給學生提供一個綜合的框架或者一個問題,學生根據老師提供的框架和問題,通過自身對資料的查閱來解決問題,其過程本身則更傾向于對問題的探尋,而不是拘泥于那“正確”的答案。由此不難看出,學生在這種學習模式當中占據了主體地位,問題導向式學習的過程也極大地增加了學生學習的自主性和去盲從性,脫離了無意義的“死記硬背”,激發學生的求知欲,活躍其思維,迸發出更多的“頭腦風暴”。
傳統的教學模式中,教師是“灌輸式教育”的主導者,而在PBL 教育模式當中,教師是學生獲得知識的教練,即“教”學生如何自主達到“練”的目的。教師和學生之間構成了一種新型的關系,從只教與學轉變為協作關系。所謂“協作”,即教師與學生的關系是平等的,其通過共同的合作達到所設定的目標。傳統教學當中,教師的身份大多數“替代”了學生一職,鼓勵學生提出問題無錯之有,不恰當的是鼓勵學生提出問題之后,并未鼓勵其自己解決,教師反倒成了“學生”,鉆研出成果之后直接告訴學生,學生只知其結果而不知探求的過程之樂[13]。單細胞轉錄組測序課程中教師應當發揮“教”的長處,滲透了“一葉黃而知天下秋”的教育理念,給學生提供一“點”供其發展為一“面”,并在學生毫無頭緒或與所達目的有所偏差的情況下參與討論,提點其一二,充當學生獲得知識的教練和指導者的同時,給學生最大的發揮空間。至此,一貫盛行的教師應當講滿課程、充分利用好一節課的每一分鐘的觀點則不攻自破,一幅好的畫須“留白”,教學亦如此,在本課程中教師的身份很好地詮釋了“留白”的作用,留白才可供學生發揮。誠然,新的教育模式也需要教師具備更高水平的、多學科的專業知識、專業技能,才能有足夠的能力給予學生幫助,所謂教學相長,應是如此。
采用理論課和實驗課相結合的方式介紹單細胞轉錄組測序的基本知識,讓學生從宏觀角度對單細胞轉錄組測序技術有初步的認識,以及每個細小問題的分析方法。主要涉及數據讀入,整合、雙細胞鑒別;細胞亞群識別;細胞通訊;CNV 的推斷;軌跡分化;轉錄調控;功能化分析。
完整的案例是以Oncogene 雜志中Single-cell RNA sequencing reveals distinct tumor microenvironmental patterns in lung adenocarcinoma 這一文章為基礎,提出的問題為:如何用單細胞轉錄組測序技術探索肺腺癌的異質性。圍繞這一主要問題衍生出子問題:①腫瘤的異質性是什么,如何用分析結果展示;②多樣本數據怎么整合;③如何注釋肺腺癌微環境中多種細胞;④肺腺癌微環境中多種細胞的細胞間通訊如何;⑤如何鑒定肺腺癌腫瘤細胞;⑥細胞內的調控網絡中核心的轉錄因子是哪些?⑦肺腺癌微環境中多種細胞的分化軌跡是什么。立足于原文,但又不限于原文,根據這些子問題對原始數據進行重新分析。
我們將學生分成不同小組,由小組長牽頭,討論以上的子問題,確定分析思路,并將上課時學到的零碎知識點串聯起來,組織代碼,加以分析。在實際運行中遇到的困難在小組群中加以討論。
對于實際分析過程中遇到的學生迷惑的知識點采用集中討論的方式,其中重點突出的問題有“如何鑒定肺腺癌腫瘤細胞”及“分析軌跡分化的多個軟件比較”。通過集中討論的方法有效地解決了學生的困惑,第一個問題是“如何鑒定肺腺癌腫瘤細胞”,經過討論給出的解決方案:鑒定腫瘤細胞類型的方法是借助inferCNV 和標記基因兩種方法。第二個問題是“分析軌跡分化的多個軟件比較”,經過大家討論給出的解決方案:Monocle2,SlingShot 及PAGA等軟件結果需同RNA 速率軟件結果結合,軟件的選擇取決于數據及真實的生物學意義。
以小組為單位展示本小組的分析結果,采用PPT 展示和小論文形式,PPT 展示分析的過程及思路,論文中展示詳細的代碼及處理過程。熟悉該領域的3 位老師對每一小組的匯報結果進行打分,取平均分,該部分占總成績的40%。
單細胞轉錄組測序技術課程中使用基于容器化技術部署生物信息學軟件和問題導向式學習在單細胞轉錄組測序課程教學中的應用案例,從基礎、理論、實踐三方面的學習,提高實際科學問題中的數據分析能力,激發了學生的學習潛能,為他們的數據分析及科研奠定良好的基礎。