周立宇 張嬌 石瓊婭 呂長亮
【中圖分類號】R730.4???????????? 【文獻標識碼】A???????????? 【文章編號】2107-2306(2021)15--01
關鍵詞:多組學數據;癌癥;大數據
癌癥是造成死亡人口最高的疾病,在中國,癌癥已經成為人類頭號死因。其特點是細胞的相對不受限制的增殖可以侵入其他正常組織、轉移到遠處的器官。基因突變是癌癥發生的關鍵之一,當人體內某個細胞獲足夠有利于自身的突變時,它將獲得自主增殖、侵入組織和轉移的能力,即癌癥的發生。這種增殖、入侵、轉移的能力也造成了癌癥難以治愈的特性。發現并研究驅動正常細胞突變為癌癥的基因一直是人類在研究癌癥領域中的難題,因為大規模的測序研究受到測序相對較低的效率和較高的成本的限制。隨著生物信息學迅速的發展,測序技術、測序數據的處理、生物信息學軟件都有了很大的進步。人類也發現了許多與癌癥發生、發展相關的基因。例如:彌漫性膠質瘤有幾個基因的異常是常見的,但是在胃癌中,癌癥的相關基因突變的研究卻很少見。人類在這一研究領域中是很有發展空間的。這使得人類治療癌癥的手段也不斷得到發展。例如:乳腺癌的治療包括手術切除、放療、化療、內分泌治療、分子靶向治療、免疫治療。這使得乳腺癌患者的存活率直線上升。
癌癥基因組圖譜(TCGA)項目代表了癌癥基因組學的一項重大進展,旨在通過基因組分析技術的應用來促進對癌癥分子基礎的理解,并最終提高診斷、治療和預防癌癥的能力。TCGA項目已經生成、分析并提供了代表30多種不同類型癌癥的11000多個個體的基因組序列、表達、甲基化和拷貝數變異數據。TCGA等項目的引入,以及下一代測序技術的廣泛使用,無疑將提高我們對癌癥相關基因及其臨床相關性的認識和理解。并且隨著測序成本的較低,使用組學數據指在導臨床實踐中的地位大大提升。這為我們提供了全面和綜合分析的機會,拓寬了我們對癌癥的理解。分析儲存在TCGA中的大量癌癥特異性數據需要特殊的生物信息學方法和技術,以便能夠提取有生物學意義的信息。目前已經開發了各種數據分析和可視化平臺,以幫助快速分析TCGA數據。
腫瘤標志物的獲取需要在多個水平上的分子改變,包括基因組學、表觀基因組學、轉錄組學、蛋白質組學、代謝組學。組學技術現在被用來理解復雜的生物系統,并揭示復雜細胞表型背后的分子特征。隨著生物醫學技術的進步,以及人類對科研技術的提高,我們已經獲得了大規模的多組學數據集。組學技術的發展使我們對癌癥等多種疾病有了更深層次的了解。
基因組學是對生物體全基因組(WGS)的研究。自從DNA被人類發現并解釋清楚后,使當時人們研究的重點從單個基因轉移到整個群體的基因組。在每一次細胞分裂中,基因組中的每個堿基都可能突變,這種概率很小,但不是零。這意味著在成千上萬個細胞不停分裂的過程中會不斷的出現基因突變的現象。這些基因的突變解釋了癌癥的發生。因此癌癥的研究必不可少的要對基因進行研究。經研究發現,癌癥表觀基因組與正常的表觀基因組相比有許多變化,例如癌基因Rras、S100P和黑色素瘤抗原家族A1(MAGEA1)啟動子區域的低甲基化分別激活了它們在胃癌、胰腺癌和肝細胞癌中的基因表達。
轉錄組學是細胞中核糖核酸(RNA)轉錄本的總體,由編碼RNA和非編碼RNA組成。現在以RNA-seq為代表的測序技術幾乎可以獲得所有的轉錄組,RNA-Seq是目前研究基因表達和鑒定新RNA物種的首選方法,RNA-Seq直接揭示了序列同源性,這對于分析未知基因和新的轉錄物異構體至關重要。近年來獲得的大量RNA-seq數據揭示了癌癥組織與正常對應組織之間的差異基因表達模式,為揭示癌癥復雜的分子機制提供了強大的動力。
蛋白質組學是特定細胞、組織或生物樣本中處于精確發育或細胞階段的一整套蛋白質。由于大多數生物過程是由蛋白質控制的,因此精準地測量細胞異常狀態中的蛋白質組變化對于了解細胞工作方式是很有意義的,比如癌癥。正是因為蛋白質直接介導細胞功能,因此了解它們在細胞間的異質性是至關重要的。蛋白質組學是通過蛋白質組學、結構蛋白質組學和蛋白質-蛋白質相互作用分析等方法來研究的。捕獲有關組蛋白修飾的信息將有助于研究細胞的表觀遺傳程序和預測可能的轉錄狀態。當然,由于蛋白質組的高度復雜性和動態范圍,大規模的蛋白質鑒定和定量是具有挑戰性的,導致癌癥的蛋白質組學數據相對較少。
代謝組學是對細胞代謝產物的進行定量分析,并尋找代謝物與生理病理變化的相對關系的研究方式。將代謝組學融入其他組學數據的研究能讓我們對癌癥的病理生理學提供更多的見解。不僅可以用來促進我們對癌癥進展的分子機制的理解,還可以用來預測癌癥患者的存活率。例如:Ren的研究中利用轉錄組學和代謝組學的分析方法來確定前列腺癌的潛在診斷和預后生物標記物,發現某些代謝物,如S-腺苷高絲氨酸(SAH)、5-甲硫腺苷(MTA)和S-腺苷蛋氨酸(SAM)在前列腺癌中明顯增加。
在以往的研究中,往往使用單一組學的數據集來進行臨床結果的預測。但是單一組學的研究往往具有局限性。比如使用單一組學的數據進行疾病的研究時,并不能分析出一些復雜疾病的病理機制。例如:一個細胞的轉錄組與另一個細胞的基因組序列的比較,可能會被細胞之間的體細胞遺傳變異以及細胞狀態和外部環境的變異所混淆。要知道,即使是在有絲分裂過程中剛剛分裂為二的子細胞都可能在基因組、轉錄組和蛋白質組上表現出差異。而運用多組學分析可以揭示不同生物因素之間的聯系,與單一組學分析相比,具有顯著的優勢,讓我們進一步了解復雜疾病的病因和作用機制。目前單細胞的多組學技術已經足夠成熟,這項技術能在同一細胞中獲取多組層信息,這些技術包括基因組學加轉錄組學、表觀基因組學加轉錄組學和轉錄組學結合靶向蛋白質組學的技術。通過分析多個基因組層,可以獲得每個細胞更加完整的信息,這比研究任意單一組學甚至更完整的信息都要有意義,這更好地反映了負責細胞功能之間的相互作用。
當然,多組學數據分析也是存在缺點的。比如:統計大量數據的時候,面對的數據集并不是統一整理好的,其中存在異構數據類型、組學內部和跨組學的丟失數據以及與可伸縮性相關的問題等。在多組學的研究中,由于在獲得數據時出現預算不足、樣本量不夠大等問題的出現,數據的缺失是不可避免的。對于這個問題,已經有許多研究人員提出了解決方案。多組學數據的整合已經揭示了癌細胞系統的一些分子機制,但仍有許多問題仍未得到解答,我們需要結合更多的數據,充分從多組學角度考慮問題,才能推動對于疾病的研究,推動醫學的發展。
總而言之,繼續研究癌癥的過程中,想要發現新的腫瘤標記物乃至于治療措施,都需要多組學研究。多組學研究的方法可以在癌癥基因型和表型之間架起一座橋梁。最終,我們能通過多組學數據的分析,克服腫瘤對藥物免疫表型而提高腫瘤藥物的療效,使其容易受到靶向治療的影響。并改善患者的生活質量。
參考文獻:
[1] Bray F, Ferlay J, Soerjomataram I, et al. Global cancer statistics 2018: GLOBOCAN estimates of incidence and mortality worldwide for 36 cancers in 185 countries[J]. CA Cancer J Clin, 2018,68(6):394-424.
[2] Mo H, Xu B. Progress in systemic therapy for triple-negative breast cancer[J]. Front Med, 2021,15(1):1-10.
[3] Greenhaw B N, Covington K R, Kurley S J, et al. Molecular risk prediction in cutaneous melanoma: A meta-analysis of the 31-gene expression profile prognostic test in 1,479 patients[J]. J Am Acad Dermatol, 2020,83(3):745-753.
[4] Altenbuchinger M, Weihs A, Quackenbush J, et al. Gaussian and Mixed Graphical Models as (multi-)omics data analysis tools[J]. Biochim Biophys Acta Gene Regul Mech, 2020,1863(6):194418.
[5] WATSON J D, CRICK F H. Molecular structure of nucleic acids; a structure for deoxyribose nucleic acid[J]. Nature, 1953,171(4356):737-738.
[6] Wilson A S, Power B E, Molloy P L. DNA hypomethylation and human diseases[J]. Biochim Biophys Acta, 2007,1775(1):138-162.
[7] Li M, Sun Q, Wang X. Transcriptional landscape of human cancers[J]. Oncotarget, 2017,8(21):34534-34551.
[8] Chakraborty S, Hosen M I, Ahmed M, et al. Onco-Multi-OMICS Approach: A New Frontier in Cancer Research[J]. Biomed Res Int, 2018,2018:9836256.
[9] Ren S, Shao Y, Zhao X, et al. Integration of Metabolomics and Transcriptomics Reveals Major Metabolic Pathways? and Potential Biomarker Involved in Prostate Cancer[J]. Mol Cell Proteomics, 2016,15(1):154-163.
[10]??????? Yang T L, Shen H, Liu A, et al. A road map for understanding molecular and genetic determinants of osteoporosis[J]. Nat Rev Endocrinol, 2020,16(2):91-103.
作者簡介:周立宇(1991-),男,漢族,湖南株洲,醫在讀碩士,住院醫師,神經外科學,腦腫瘤、高血壓腦出血、腦外傷,吉首大學醫學院。