康爭春 鄂繼福 朱良亮 閆飛虎 于恩達
結直腸癌(colorectal cancer,CRC)是我國最常見的胃腸道惡性腫瘤之一,雖然目前建立起了包括根治性手術切除、放療、化療、分子靶向治療等綜合治療方法體系,但是部分患者仍然出現治療后復發、轉移,最終導致死亡的情況[1]。結直腸癌遠處轉移是一個包含了多階段、多基因、多因素的極其復雜的過程,其從原發灶脫離、遷移、種植、生長、增殖,形成轉移灶,受到多種基因及信號通路的調控[2]。目前在結直腸癌的發生、發展中,體細胞突變發揮著尤為重要的作用已經成為腸癌科研工作者的共識[3-4]。隨著研究的深入,人們認識到,體細胞突變不僅可以在腫瘤的發生、發展中產生重要影響,而且還對腫瘤的轉移擴散發揮不可忽視的作用[5-6]。因此,探索結直腸原發性癌灶與結直腸轉移性癌灶的分子差異,尋找其中的關鍵的體細胞突變,進而加深加強對結直腸癌轉移的分子調控機制的理解,對于預測發生轉移的結直腸癌轉移相關的標志物,或者可能將其關鍵分子研發為新的治療靶點,具有重要意義。本研究利用來自癌癥體細胞突變目錄(catalogue of somatic mutations in cancer,COSMIC)的全外顯子測序數據,確定了結直腸原發癌灶組織和結直腸轉移性癌灶組織之間顯著差異的體細胞基因突變,并進行功能富集分析,分析了差異基因突變富集的功能和通路。
首先,從癌癥體細胞突變目錄官方網站(COSMIC,https://cancer.sanger.ac.uk/cosmic/)下載COSMIC Mutation Data,其中包含兩類組織樣本,一類組織樣本包含全外顯子測序數據,另一類組織樣本包含目標基因測序數據。從中提取結直腸原發性癌及結直腸轉移性癌全外顯子測序數據。然后,下載COSMIC Sample Features數據,其中包含網站收集樣本的基本信息及臨床病理數據。從中提取結直腸原發性癌及結直腸轉移性癌全外顯子測序的組織樣本的基本信息及臨床病理數據。
利用perl 5.28.0對上述抽提的含有全外顯子測序的結直腸癌組織樣本的基因突變位點進行統計,分別記錄COSMIC ID、突變位點及類型、突變基因、突變組織樣本總數、突變樣本占總樣本比率。并分析高突變率的基因位點。
利用perl 5.28.0整理并統計全外顯子測序數據中19 055個基因突變情況,記錄基因在結直腸原發性癌和結直腸轉移性癌的突變型數目和野生型數目,并在R3.5.0環境下,對每個基因突變分布情況行卡方檢驗或Fisher確切概率法計算其差異是否具有統計學意義。
利用perl 5.28.0整理并統計全外顯子測序數據中174 413個基因突變位點情況,記錄基因位點在結直腸原發性癌和結直腸轉移性癌的突變型數目和野生型數目,并在R3.5.0環境下,對每個基因位點突變分布情況行卡方檢驗或Fisher確切概率法計算其差異是否具有統計學意義,并在manhattan圖中實現可視化。
將具有統計學意義的顯著性差異突變基因通過 DAVID Bioinformatics Resources(https://david.ncifcrf.gov/version 6.8)做GO富集分析,通過KOBAS3.0(http://kobas.cbi.pku.edu.cn/)做 KEGG通路富集分析。高度富集的GO功能或KEGG通路被認為是差異突變基因的潛在功能。
共有2 333例結直腸癌組織樣本納入研究,均含有全外顯子測序數據。其中包含699例結直腸原發性癌組織樣本,58例結直腸轉移性癌組織樣本,21例局部復發結直腸癌組織樣本,1 555例未知類型結直腸癌組織樣本。其中58例結直腸轉移性癌組織樣本中轉移部位為肝臟有22例,肺有3例,腹水2例,腹壁2例,淋巴結1例,卵巢1例,骨盆1例,胃1例,信息缺失25例。
共發現692 684個基因突變位點,基因位點突變率前30的位點分別為COSM476、COSM521、C O S M 5 3 2、CO S M 5 2 0、C OS M 10 6 4 8、COSM252949、COSM763、COSM270052、COSM13127、COSM18852、COSM1180896、COSM2851820、COSM179404、COSM927946、COSM1384188、COSM10659、COSM10660、C O S M 77 5、C O S M7 6 0、C OS M 1 0 7 0 4、COSM329668、COSM516、COSM19695、COSM1458728、COSM269905、COSM10656、COSM13134、COSM1440465、COSM10662、COSM19404等,如表1所示。

表1 突變率top30的基因位點
共發現120個基因突變差異具有統計學意義(P< 0.05),分別為 RHEB、RP11-368J21.2、AGAP10、PRKRIR、NMRAL1、QPCT、TOMM40、PYCR2、SLC18A1、KDR等。 其 中top30基因突變如表2所示。
共發現328個基因突變位點差異具有統計學意義(P<0.05),分別為R H E B|C O S M 5 7 5 7 0 1 2|c.1 6 9 C > T、A O C 3|C O S M 5 7 5 5 0 4 5|c.1 6 3 4 T > C、N M R A L 1|C O S M 1 4 8 0 11|c.7 5 5 C> T、I P M K|C O S M 5 7 5 3 5 0 9|c.1 0 9 6 T > G、E S C O 2|C O S M 1 5 0 4 7 7|c.2 3 9 C > T、T R P V 2|C O S M 1 4 8 2 0 0|c.5 0 G > C、U2SURP|COSM5756177|c.769G> C、G C O M 1|C O S M 1 4 7 9 2 6|c.8 3 0 C > T、A G A P 1 0|C O S M 4 1 5 0 1 9|c.6 8 3 A> G、SACM1L|COSM149368|c.1301A>T等。其中top30基因突變位點如表3所示。如圖1所示,我們可以很容易發現全部差異基因突變位點的染色體位置及差異的P值,紅線代表P值等于0.05。
為了了解差異突變基因在結直腸癌生物學中的作用,我們通過功能通路富集分析對差異突變基因功能進行了富集分析。通過對差異突變基因篩選結果,對差異突變基因進行GO和KEGG功能通路富集分析,推斷差異突變基因潛在的生物學過程。我們發現這些差異突變基因在大量的脫氫酶活性功能如D-阿拉伯糖醇脫氫酶活性、異檸檬酸脫氫酶活性、類固醇脫氫酶活性、乙偶姻脫氫酶活性、葡萄糖酸脫氫酶活性等富集,一些重要的還原酶類,如D苯基香豆素芐基醚還原酶活性富集,細胞周期相關功能如細胞周期停滯,細胞基本生命活動如O-聚糖加工、銅離子結合、G蛋白偶聯受體活性、D-核酮糖形成(NADP+)活性等富集差異具有統計學意義,如圖2所示。通路富集層面,通過KOBAS3.0的KEGG通路富集分析,我們發現在下列通路中差異突變基因有富集:代謝途徑、PI3K-Akt信號通路、細胞周期、細胞粘附分子、癌癥中的轉錄失調、細胞色素P450對異生素的代謝、鉑類耐藥性、粘著力、ECM-受體相互作用、真核生物中的核糖體發生、壽命調節通路、苯丙氨酸代謝、原發性膽汁酸生物合成等,如圖3所示。
結直腸癌作為最常見的消化系統惡性腫瘤對我國人民生命健康造成了嚴重威脅,并且近年來發病率呈現上升的趨勢。盡管目前針對結直腸癌的治療手段日趨完善,更加多樣化、立體化,但是由于結直腸癌是一種分子水平異質性很大的癌癥,其難以預測的復發和遠處轉移仍然是醫務工作者和腫瘤科研工作者面臨的嚴峻難題?!绑w細胞突變學說”在腫瘤發生機制中發揮重要作用目前在很大一部分學者中形成共識,然而近年來,人們發現體細胞突變在腫瘤的轉移擴散中也有著很大的推動作用。因此,挖掘結直腸原發性癌灶與結直腸轉移性癌灶的關鍵體細胞突變,深入理解結直腸癌轉移的調控機制,對于今后結直腸癌的轉移生物標志物甚至結直腸轉移性癌的治療靶點的選擇具有十分重要的意義。
越來越多的學者證明體細胞突變直接影響著結直腸癌是否發生轉移、轉移途徑、轉移方式,乃至轉移的靶器官。BRAF基因突變型的結直腸癌患者發生腹膜轉移和遠處淋巴結轉移的概率遠遠高于其野生型患者[7],KRAS基因突變型的結直腸癌患者則更容易發生肺臟轉移[8],甚至是甲狀腺轉移[9],腦轉移在KRAS基因突變型合并PIK3CA基因突變型的結直腸癌患者中出現機會也更大[10]。然而目前對結直腸癌整體的轉移相關基因突變的認識尚未形成,因此要更全面的挖掘、篩選并整合結直腸癌轉移相關體細胞突變基因。

表3 結直腸原發性癌和結直腸轉移性癌top30差異突變基因位點結果
COSMIC[11]數據庫是目前關于癌癥體細胞突變的最大、最全的數據庫,它主要記錄體細胞突變、突變位點的信息,另外其記錄內容十分詳細,包括組織類型、組織樣品名稱等等,涉及到不同基因、不同腫瘤或細胞系的突變信息。全外顯子測序[12]是指通過序列捕獲技術將全基因組外顯子區域的脫氧核苷酸堿基序列捕獲并進行高通量測序的一種測序技術,其測序精度高,有利于低頻率突變的檢出并且價格相對低廉,目前廣泛應用于體細胞突變檢測領域。本研究主要借助COSMIC公共數據庫,對COSMIC數據庫記錄的結直腸癌患者組織樣本全外顯子測序數據進行分析研究,篩選出了如 RHEB、RP11-368J21.2、AGAP10、PRKRIR 等120個在結直腸原發性癌灶和結直腸轉移性癌灶之間的顯著性差異突變基因,進一步對其突變位點分析,共發現RHEB|COSM5757012|c.169C>T、A O C 3|C O S M 5 7 5 5 0 4 5|c.1 6 3 4 T > C、NMRAL1|COSM148011|c.755C>T等328個基因突變位點差異具有統計學意義,并進一步在manhattan圖中對突變位點進行了可視化。經查閱文獻,部分基因突變在結直腸癌發生、發展、轉移中的重要作用已經得到學者證實,如SLC18A1[13]、KDR[14]、ANAPC1[15]等,但大部分突變基因和突變位點并未發現相關研究。對120個具有顯著差異的突變基因進行GO功能和KEGG通路富集分析,揭示了差異體細胞突變基因的潛在功能,如脫氫酶活性、還原酶活性、細胞周期停滯、O-聚糖加工、銅離子結合等富集差異具有統計學意義。通路富集層面,代謝途徑、PI3K-Akt信號通路、細胞周期、細胞粘附分子、癌癥中的轉錄失調、鉑類耐藥性、ECM-受體相互作用、苯丙氨酸代謝、原發性膽汁酸生物合成等重要通路都有差異突變基因的富集。分析其內在原因可能由于結直腸轉移性癌的組織標本中有相當一部分腸癌肝臟轉移灶造成。顯示了本研究的可靠性及對今后結直腸癌轉移機制研究的參考價值。
綜上所述,我們利用COSMIC數據庫挖掘結直腸原發癌灶與轉移癌灶之間的具有統計學差異的體細胞突變基因并進行功能分析,這些發現有助于幫助我們深入理解結直腸癌在轉移過程中的體細胞突變基本情況,并為將來的機制研究提供參考,并有可能作為診斷結直腸癌轉移的生物標志物和轉移的治療靶點應用于臨床。

圖1 差異基因突變位點的manhattan圖(橫坐標代表染色體位置,縱坐標代表-log10 p,紅線代表P值等于0.05)

圖2 GO功能富集結果

圖3 KEGG通路富集結果