林芳蕊,申俊敏,侯森森,劉莉
(河北大學基礎醫學院,保定 071000)
根據國際癌癥研究中心2020年的數據顯示,結直腸癌發病率居全球第三位,死亡率居全球第二位[1],嚴重威脅人類健康。據報道,雖然結腸癌的5年生存率約為60%,但50歲以下的患者在增加,且年輕患者的結腸癌往往更具侵襲性[2]。由此可見,全球結腸癌的整體形勢仍然較為嚴峻,確定可靠的生物標志物來識別高低風險患者及腫瘤進展尤為重要。
研究顯示,腫瘤微環境在腫瘤進展中起關鍵作用,神經浸潤腫瘤微環境,并通過神經遞質啟動信號通路刺激腫瘤細胞生長和轉移,腫瘤微環境中的神經遞質可影響免疫細胞、內皮細胞和基質細胞,通過與相應的神經遞質受體結合來促進腫瘤進展[3-4]。γ-氨基丁酸(γ-Aminobutyric acid,GABA)是神經系統中重要的抑制性神經遞質,GABA受體在多種腫瘤組織中表達,對腫瘤細胞增殖和遷移發揮調節作用[4]。一般而言,GABA通過GABAA受體刺激腫瘤細胞增殖和遷移,其在乳腺癌、胰腺癌、前列腺癌和肝癌中表達增強[3]。
γ-氨基丁酸A型受體δ亞單位(GABRD)是γ-氨基丁酸A受體的亞單位之一,與腫瘤的發生發展密切相關。在泛癌研究中發現,GABRD在多種腫瘤組織中表達異常。研究顯示,GABRD在肝細胞癌組織中顯著上調[5]。然而,在低級別膠質瘤中,GABRD高表達患者的預后優于低表達患者,GABRD低表達的患者往往預后不良[6]。另外,有報道證實結腸癌組織中存在GABRDmRNA過度表達,GABRDmRNA表達可能是結腸癌患者的一個潛在預后指標[2]。可見,GABRD在癌癥中的作用機制還需要在特定的癌癥類型上進行研究。目前,GABRD在結腸癌中的研究仍然缺乏,且現有研究對其在結腸癌患者治療中的潛在作用尚未得到徹底和系統的確定。基于此,現采用生物信息學的方法分析GABRD在結腸癌中的表達情況,分析其參與的生物學過程及信號通路,探討其在結腸癌中可能的作用機制,并驗證其對生存的影響,進一步明確GABRD與結腸癌發生發展的關系。值得注意的是,在驗證GABRD對結腸癌患者生存影響的同時,進一步探討了GABRD的表達與患者年齡和性別的關系,明確了其在不同性別和年齡段對生存的影響。通過構建PPI網絡,篩選并驗證出了2個具有生存及臨床診斷價值樞紐基因,這些基因可能與GABRD一起參與結腸癌進展,可為結腸癌篩選具有臨床診斷價值的潛在生物標志物提供理論依據,以期為結腸癌的診斷和治療提供新的靶點。
通過UCSC XENA(https://xenabrowser.net/)從TCGA數據庫和GTEx數據庫中下載33種腫瘤類型和正常組織的RNA序列數據和相關臨床數據。使用R軟件3.6.3進行統計分析,分析GABRD基因在泛癌中的表達情況,并分析其在結腸癌配對樣本和非配對樣本中的表達,使用ggplot2程序包進行可視化。
在R軟件中篩選GABRD的共表達基因,設置參數P<0.05,|log2fold change|>1和|log2fold change|>2。篩選完成后,選取P<0.05,|log2fold change|>2的共表達基因繪制熱圖,并使用Cluster profiler程序包對共表達基因進行GO和KEGG富集分析。
通過R軟件pROC程序包分析GABRD基因的受試者工作特征曲線(receiver operating characteristic curve,ROC),評估其臨床診斷價值,使用ggplot2包進行可視化;使用survival程序包繪制Kaplan-Meier圖,用于評估GABRD表達與總體生存期(overall survival,OS)、無進展時間間隔(progress free interval,PFI)和疾病特異性生存期(disease specific survival,DSS)之間的關系。此外,進一步研究了GABRD表達與年齡和性別之間的關系,繪制生存亞組曲線。
在R軟件中使用survival程序包對GABRD的臨床特征進行單、多變量的Cox回歸分析,并根據分析結果構建Nomogram圖及校準曲線,研究不同因素對結腸癌患者生存預后的影響。
通過STRING數據庫(https://cn.string-db.org/)構建GABRD基因的蛋白質互作(protein-protein interaction,PPI)網絡[7],選定基因數為不超過50,物種為人。通過Cytoscape 3.9.0軟件進行PPI網絡的可視化分析,并通過MCODE和Cytohubba插件篩選網絡中的關鍵模塊和樞紐基因。
通過GEPIA數據庫(http://gepia.cancer-pku.cn/)驗證樞紐基因的生存曲線;通過R軟件繪制樞紐基因的ROC曲線,驗證其臨床診斷價值。ROC曲線下的值一般需介于0.5~1。曲線下面積(area under curve,AUC)為0.5~0.7時具有低準確度,為0.7~0.9時有一定準確度,為0.9以上時則具有高準確度[8]。
如圖1所示,GABRD基因在結腸癌、乳腺浸潤癌、肝細胞癌、腎透明細胞癌及膽管癌等17種癌癥樣本中高表達(P<0.001)。如圖2所示,進一步分析GABRD基因在結腸癌樣本中的表達,發現其在配對和非配對樣本中均呈高表達趨勢(P<0.001)。

***表示P<0.001;**表示P<0.01;*表示P<0.05;ns表示非統計顯著性;TPM(transcripts per million)表示每100 000個RNA reads有多少個來自某基因的轉錄本圖1 GABRD基因在泛癌中的表達Fig.1 Expression of GABRD gene in pan-carcinoma

***表示P<0.001;**表示P<0.01;*表示P<0.05;TPM(transcripts per million)表示每100 000個RNA數據有多少個來自某基因的轉錄本圖2 GABRD在結腸癌配對樣本及非配對樣本中的表達Fig.2 Expression of GABRD in paired and unpaired colon cancer samples
66如圖3所示,根據設定的閾值,篩選出P<0.05,|log2foldchange|>1的共表達基因369個,其中包括76個下調基因和293個上調基因。篩選出P<0.05,|log2foldchange|>2的共表達基因29個,其中包括12個下調基因和17個上調基因。如圖4所示,選取P<0.05,|log2foldchange|>2的共表達基因,繪制共表達熱圖。

log2 fold change表示兩樣品組間表達量的比值,對其取以2為底的對數之后即為log2FC圖3 共表達基因火山圖Fig.3 Volcano map of co-expressed genes

***表示P<0.001;**表示P<0.01;*表示P<0.05;FPKM(fragments per kilobase of exon model per million mapped fragments)表示每千個堿基的轉錄每百萬映射讀取的片段圖4 共表達基因熱圖Fig.4 Heat map of co-expressed gene
如圖5所示,GABRD共表達基因的生物學過程方面主要富集在受體配體活動、G蛋白偶聯肽受體活性、肽激素結合及肌肉收縮等方面。如圖6所示,共表達基因富集的信號通路主要包括AMPK、PPAR、非酒精性脂肪肝及脂肪細胞分子信號通路。

圖5 共表達基因GO功能注釋結果Fig.5 GO functional annotation results of co-expressed genes

圖6 共表達基因KEGG通路富集分析結果Fig.6 KEGG pathway enrichment analysis results of co-expressed genes
如表1所示,進一步研究GABRD與結腸癌不同臨床特征之間的關系,發現GABRD表達與結腸癌患者的年齡、M、N、病理分期及生存(OS、DSS)顯著相關,結果具有統計學意義。

表1 GABRD與結腸癌中不同臨床特征的相關性Table 1 Correlation between GABRD and different clinical features in colon cancer
如圖7所示,采用ROC曲線評估GABRD基因在結腸癌中的診斷價值,GABRD在預測中具有高準確性(AUC>0.9)。如圖8所示,繪制1、3、5年時間依賴性ROC曲線,AUC值均>0.6,預測結果具有一定的準確性。

CI為置信區間圖7 GABRD基因ROC曲線Fig.7 ROC curve of GABRD gene

CI為置信區間圖8 GABRD基因時間依賴性ROC曲線Fig.8 Time-dependent ROC curve of GABRD gene
如圖9所示,在R軟件內繪制Kaplan-Meier圖,評估GABRD表達與癌癥預后(OS、DSS和PFI)之間的關系。結果發現GABRD基因高表達患者的OS、DFS、和PFI顯著低于低表達患者,并在第20個月,GABRD高表達患者的OS、DFS和PFI驟降。

HR為風險值圖9 GABRD基因KM生存曲線Fig.9 KM survival curve of GABRD gene
如圖10所示,進一步研究結腸癌樣本中GABRD的表達與患者年齡和性別的關系。發現年齡>65歲的結腸癌患者OS顯著低于年齡≤65歲的患者。如圖11所示,發現男性結腸癌患者OS低于女性患者,尤其在第50個月,男性結腸癌患者的生存率驟降。

圖10 GABRD基因年齡亞組KM生存曲線Fig.10 KM survival curve of GABRD gene age subgroup

圖11 GABRD基因性別亞組KM生存曲線Fig.11 KM survival curve of GABRD gene gender subgroup
如表2所示,單因素回歸分析結果顯示,T3和T4期、N1和N2期、M1期、Stage III和IV期、病患年齡>65歲和OS顯著相關。多因素回歸分析結果顯示,N1期、M1期、Stage III期、病患年齡>65歲和OS顯著相關,結果具有統計學意義。根據Cox回歸分析結果構建出Nomogram圖(C-index:0.783,P<0.001)及校準曲線,可研究性別、TNM分期及年齡等因素對患者生存率的影響,為臨床診治提供指導依據,如圖12、圖13所示。

表2 單、多變量Cox回歸分析Table 2 Univariate and multivariate Cox regression analysis

圖12 Nomogram圖Fig.12 Nomogram figure

圖13 校準曲線Fig.13 Calibration curve
如圖14所示,使用STRING數據庫篩選出50個GABRD的靶向結合蛋白,并由Cytoscape軟件構建出由51個節點和523個連接組成的PPI網絡。使用MCODE插件,篩選出前3個模塊,評分分別為22.880、6.667和4.000,如圖15所示。通過Cytohubba插件,綜合篩選出5個關鍵樞紐基因,分別為SLC6A1、SCN2A、CLCN2、TRAK2和TTYH2。

圖14 GABRD基因構建的PPI網絡圖Fig.14 PPI network diagram constructed by GABRD gene

圖15 PPI網絡中篩選得到的前3個模塊圖Fig.15 The first three modules screened in PPI network
如圖16所示,通過GEPIA數據庫驗證樞紐基因的生存曲線,發現SLC6A1和SCN2A高表達患者的OS顯著低于低表達患者。

logrank P為log rank法檢驗后的P值圖16 通過GEPIA數據庫驗證SLC6A1和SCN2A生存曲線Fig.16 Survival curves of SLC6A1 and SCN2A verified by GEPIA database
如圖17所示,樞紐基因的ROC曲線顯示,SCN2A的AUC值在0.5~0.7,SLC6A1、TTYH2、CLCN2的AUC值在0.7~0.9,具有一定的準確度,TRAK2的AUC值在0.9~1,具有高準確度。

圖17 樞紐基因ROC曲線Fig.17 ROC curve of hub genes
在生存分析中,每隔一段時間對病人進行一次隨訪,記錄(log)病人的數據,根據時間順序將該數據排列(rank),比較兩種治療方法是否有差異,通過檢驗兩種治療方法的隨訪資料的生存函數(survival function,SF)是否顯著不同,這種檢驗方法即為時序檢驗(logrank test)。
GABRD屬配體門控型氯離子通道,是腦內主要抑制性神經遞質γ-氨基丁酸A異源五聚體受體的組成部分,其被證實與癲癇、驚厥等疾病有關[9]。在癌癥方面,目前的研究顯示GABRD在肝癌、結腸癌、低級別膠質瘤及腎透明細胞癌[10]中異常表達,其參與腫瘤發生發展的生物過程,并影響患者預后。
近年來生物信息學的蓬勃發展為蛋白質功能的研究打開新的大門[11]。通過生物信息學的方法,探討GABRD基因在結腸癌中的表達及預后情況。首先,采用R軟件分析GABRD基因在泛癌和結腸癌中的表達,結果顯示GABRD高表達。使用R軟件篩選得到共表達基因369個,發現其在生物學過程方面主要富集在受體配體活動、G蛋白偶聯肽受體活性、肽激素結合及肌肉收縮等方面。G蛋白偶聯受體廣泛表達于不同的細胞類型,參與眾多細胞生物學功能的調控,其激活和失活與惡性腫瘤等多種疾病有關[12]。研究表明,黏附型G蛋白偶聯受體,影響腫瘤細胞增殖、黏附、遷移、侵襲和血管形成等生物學行為[13],這與所探討的結腸癌密切相關,提示GABRD基因可能通過G蛋白偶聯受體參與結腸癌的發生發展。根據KEGG富集分析的結果顯示,共表達基因主要參與AMPK、PPAR及非酒精性脂肪肝等信號通路。AMPK是一種絲氨酸/蘇氨酸激酶,其激活可調節細胞生長、代謝、自噬和癌癥進展[14]。據研究顯示,AMPK可調節雷帕霉素靶蛋白(mTOR)活性,在控制細胞生長、增殖和自噬中起著核心作用[15],激活AMPK信號通路,負調節mTOR活性,可影響結腸癌HCT116細胞增殖,并抑制細胞遷移[16];通過調節AMPK/mTOR/ULK1途徑可促進結腸癌DLD-1細胞的自噬和凋亡[17];通過ROS-ATP-AMPK信號通路可誘導線粒體功能障礙和細胞毒性自噬,從而影響CT26細胞的增殖活性[18]。結果表明,GABRD或可通過AMPK信號通路抑制結腸癌的發展。PPAR存在3種亞型,分別為PPAR-α、PPAR-δ、PPAR-γ。研究證實,PPAR-δ的激活或異常表達可誘導結直腸癌的轉移進展和癌變[19]。AMPK可誘導PPAR-δ S50磷酸化,降低PPAR-δ轉錄活性,減少葡萄糖和谷氨酰胺的攝取,從而降低結腸癌細胞的增殖和腫瘤的生長[19]。研究顯示,PPAR-γ在結腸癌中下調,而且在許多哺乳動物活細胞中,PPAR-γ和經典的Wnt/β-連環蛋白途徑以相反的方式表現,而經典Wnt/β-連環蛋白途徑在結腸癌中上調[20]。同樣,結腸癌的發展與PPAR-γ信號通路傳導的失調密切相關,在結腸癌中激活PPAR-γ/RXRα信號通路,可抑制細胞生長、降低腫瘤侵襲性和減少促炎細胞因子的產生[21]。此外,在人類結直腸腫瘤中,PPAR-α mRNA和蛋白質水平均低于非腫瘤組織,腸道PPAR-α通過調節DNA甲基轉移酶1(DNMT1)和蛋白質精氨酸甲基轉移酶6(PRMT6)可防止結腸癌發生,故激活PPAR-α的藥物可能會被開發用于結腸癌的化學預防或治療[22]。這些研究結果提示GABRD或可通過PPAR信號通路抑制結腸癌的發展。此外,還有研究顯示,一些G蛋白偶聯受體及相關信號通路參與肝臟與腎臟的生理病理過程,并與非酒精性脂肪肝等肝臟疾病及腎臟疾病相關[12,23],這可能與KEGG富集到的非酒精性脂肪肝途徑相關。進一步研究GABRD與結腸癌不同臨床特征之間的關系,發現GABRD表達與結腸癌患者的年齡、M、N、病理分期及生存(OS、DSS)顯著相關。繪制GABRD在結腸癌中的ROC曲線,發現其AUC面積>0.9,在預測中具有高準確性,具有一定的臨床診斷價值。此外,發現GABRD與結腸癌患者的OS、DFS、和PFI密切相關,其高表達均會不同程度的降低患者生存率。此外,還發現GABRD影響生存與患者年齡和性別之間存在關聯,發現年齡>65歲的結腸癌患者OS顯著低于年齡≤65歲的患者,男性結腸癌患者OS低于女性患者,尤其在第50個月,男性結腸癌患者的生存率驟降,推測GABRD基因可能是影響患者生存的不良因素。
通過STRING數據庫篩選出50個GABRD的靶向結合蛋白,結合Cytoscape軟件構建出51個節點和523個連接組成的PPI網絡,并篩選出5個樞紐基因,分別是SLC6A1、SCN2A、CLCN2、TRAK2和TTYH2。通過GEPIA數據庫驗證樞紐基因的生存曲線,發現SLC6A1和SCN2A與結腸癌患者生存顯著相關。SLC6A1、SCN2A、CLCN2、TRAK2和TTYH2的ROC曲線表明,這些基因的AUC值均>0.6,其中TRAK2的AUC值在0.9~1,具有高準確度。通過對樞紐基因的分析,發現SLC6A1和SCN2A基因影響結腸癌患者的生存,并具有臨床診斷價值。SLC6A1是GABA能系統的重要組成部分,其異常表達可能是各種病理條件下GABA能功能障礙的原因[24]。研究表明,SLC6A1是胃癌診斷和治療的潛在標志物,其敲除還可抑制卵巢癌細胞的增殖,過度表達也被證實與前列腺癌的耐藥性和不良預后顯著相關[24-25]。在結直腸癌中,SLC6A1的表達以及年齡和臨床分期可以被視為結直腸癌預后的獨立預測因素,其KEGG富集分析結果顯示,SLC6A1可能通過調節TGFβ和PI3K-Akt信號通路影響臨床進展[26],這為研究提供了理論支持。TTYH2表達的增加也被證明與腎癌和結腸癌有關,其表達上調對人骨肉瘤細胞系的侵襲和遷移也至關重要[27]。雖然TTYH2在影響結腸癌生存中沒有統計學意義,但其HR>1,是影響結腸癌發生發展的危險因素。在以往的報道中,SCN2A可引起多種不同嚴重程度的神經精神綜合征,包括早發的自限性癲癇、早發或遲發的發育性癲癇腦病和智力殘疾[28],CLCN2和TRAK2基因分別與醛固酮增多癥和脂質調節等有關[29-30],其在結腸癌中的作用機制有待進一步探究。
綜上所述,基于生物信息學方法發現,GABRD基因在結腸癌組織中高表達,這會降低結腸癌患者生存率并影響患者預后,可能是結腸癌發生發展過程中的關鍵基因。此外,通過構建PPI網絡,篩選樞紐基因,發現SLC6A1和SCN2A影響結腸癌患者生存,并具有臨床診斷價值,有望成為結腸癌篩查及治療的靶點。
通過生物信息學的方法,確定了GABRD基因在結腸癌中的表達及預后情況,并通過構建PPI網絡篩選出具有生存及臨床診斷價值的樞紐基因,這些基因可能與GABRD共同參與結腸癌的發生發展,可以作為結腸癌的治療靶標和預后標志,為臨床上結腸癌的預防、診斷及治療提供新的選擇。