錢尤雯 常顏信( 通訊作者)
(海軍軍醫大學第三附屬醫院 上海 200438)
生物信息學(Bioinformatics)是生命科學領域中的新興學科,是生物學、計算機科學、信息工程和統計學的綜合學科、交叉學科,主要內容是使用生物算法和相關的軟件工具采集、處理、分析和解釋生物數據。其研究重點主要包含基因組學(Genomics)和蛋白質組學(Proteomics)兩方面。生物信息學從核酸和蛋白質序列出發,分析序列中表達及結構功能的生物信息,已成為當今許多生物學領域的重要組成部分[1,2]。并且,生物信息學產生了大量新技術,新方法,為尋求復雜疾病的治病靶點,闡明其發病機制提供了幫助[3,4]。
醫學研究生教育擔負著培養高水平醫、教、研人才的重任,是推動國家醫學進步的重要途徑。教育改革形勢下,新政策和新制度的實施對醫學研究生特別是臨床醫學研究生提出了更高的要求和挑戰,不僅要重視臨床技能的培養,科研能力的培養也同樣重要[5]。然而,醫學研究生教育一般學制三年,研究生面臨著理論學習、臨床輪轉和課題研究三重任務。課題研究占據著很大的權重,很多高校畢業均有SCI 論文發表的要求,但醫學研究及論文發表的周期往往較為漫長,高質量地完成研究并成功發表論文成為了研究生教育中的一大挑戰。
生物信息學分析為研究生課題完成提供了較為快捷的手段獲取相應數據,以腫瘤分子生物學研究例,分別從以下方面探討其具體應用:
腫瘤分子生物學研究類課題一般圍繞某個基因展開,完整的研究包含:相關基因在腫瘤中的表達水平、基因在腫瘤中的生物學功能、基因發揮作用的機制、基因與臨床信息的相關性。傳統的研究,一般需要首先獲取一定數目的組織樣本,檢測基因在組織中的表達水平,然后進行細胞水平與動物水平的雙重驗證,獲得包含預后的臨床信息,進行相關性分析,最后多種手段去研究分子機制。其中每一步的實施都是費時費力,而且不一定都會得到符合預期的數據結果。尤其是課題進行過半,若后續結果不盡人意,或迫使學生篡改數據,增加了造假的動機。抑或中止研究,發表較低質量的論文,影響了研究生教學的成果。
而生物信息學的出現使得以上問題得到了很好的解決。在課題設計前,對于研究對象的選擇上可以首先進行生物信息學分析,初步明確靶標基因的表達情況、與臨床信息的相關性、功能的初步探討,避免盲目的實驗。課題設計中,推薦生物信息學分析聯合分子驗證相結合的模式開展研究。目前,腫瘤基因組圖譜數據庫(TCGA,the Cancer Genome Atlas)是全球最大的腫瘤基因組測序數據庫,是腫瘤研究最為常用的數據庫之一,該數據庫提供了多達三十余種最常見的惡性腫瘤的多種組學數據,包括了基因組測序、轉錄組測序、甲基化測序和蛋白質組學等,而且還提供了相對完整的患者臨床基本信息和隨訪數據,是目前研究腫瘤多組學、數據挖掘和泛癌(Pan-cancer)研究的重要研究資料來源[6,7]。首先利用TCGA 數據庫選擇研究基因,進而獲得基因的差異表達信息及預后信息等,如果結果可行,可以進行后續基礎實驗驗證,完成研究并形成論文。如果分析過程中結果不一致,可以適時中止,選擇其他分子進行研究,一定程度上減少了學術不端的發生。而且,進行生物信息學分析所需時間很短,很快即可完成,可根據學期剩余時間決定進行后續驗證的深度。
根據文獻報道的科學前沿問題確定待研究基因。亦可下載TCGA 數據庫中特定腫瘤表達譜數據,利用R 語言進行分析,獲得表達譜及差異表達數據,選擇意向分子。但R 語言一般需要一定的生物信息學及計算機編程基礎,對于臨床研究生而言有相當的難度,有能力者可以自行學習,因為R 分析得到的數據最具說服力,后續可以發表影響力更高的論文[8]。簡單易行的辦法是利用針對TCGA 開發的開放數據庫。在研究基因的選擇上,推薦GEPIA(Gene Expression Profiling Interactive Analysis)及Oncomine[9,10],不用編程,通過人機模式,輸入相關參數即可獲得腫瘤的表達譜,通過比對及文獻檢索,獲得意向分子。然后,在以上兩種數據庫中,同樣可對相關基因在特定腫瘤中進行差異表達分析,可以得到帶有統計分析的、可以直接用于發表的結果圖。由于不需編程基礎,短時間即可完成分析,可以快速得到期望數據。
以往對基因進行臨床相關性分析最為費時費力,首先要積累臨床病例,然后隨訪,數據往往不一定完整。TCGA 數據庫包含有相當完整的包含隨訪信息的臨床數據,而且樣本量一般較大,具有很強的說服力。獲取基因與臨床基本信息相關性,推薦UALCAN[11]數據庫,其基于TCGA 數據庫,可以分析相關基因與患者種族、性別、年齡、腫瘤分期等的相關性,并可進行生存分析等,是一個有效的TCGA 數據在線分析和挖掘的工具。GEPIA 數據庫亦可進行相關基因的預后分析。
功能富集分析可以初步了解某個基因潛在的生物學功能,推薦使用LinkedOmics[12]數據庫,其也是基于TCGA 數據庫的第三方在線分析工具,通過簡單的選擇數據類型,按照提示,即可獲知相關基因最相關的生物學功能、激活的信號通路等數據,為后續研究提供依據。
網絡分析可以了解生物網絡中分子之間的關系,如通過了解蛋白質-蛋白質相互作用網絡,便可得到相關基因發揮特定功能的分子機制。推薦使用GeneMANIA 數據庫和Cytoscape 軟件[13],GeneMANIA 是一個可以分析蛋白間互作網絡的在線工具。Cytoscape 除了可以獲得相關基因的蛋白互作網絡,也可以分析其轉錄調控網絡、網絡聚類模塊、miRNA 調控靶標、競爭性內源RNA 網絡(ceRNA)、通路交互網絡等,為機制的深入研究提供較多信息。
單純的生物信息學分析盡管已經可以發表一定影響力的論文,但是一定程度上缺少說服力。后續的生物學驗證是完成高質量研究生課題研究的必要補充。生物學驗證主要包括在腫瘤組織、腫瘤細胞系、實驗動物中的表達驗證、功能驗證及機制驗證,生物信息學分析聯合生物學驗證提高了研究的、完整性與科學性[14]。
綜上,通過特定的生物信息學分析工具,降低了分析的難度,減少了整體研究的時間,加快了研究生科研的進度與效率。一般來說,選好課題之后,生物信息學分析僅需耗費數個工作日便可完成,結合后續生物學驗證,使得這種模式的研究從確定研究方向到課題結束,大多半年即可完成,為后續文章撰寫及投稿見刊爭取了大量的時間,并一定程度上提高了質量,在研究生教學中具有重要的指導意義。