何毅剛 石 鑫 于建平 王 婧 張亞男 劉宏斌 陳為凱
胃腸道間質瘤(gastrointestinal stromal tumor,GIST)是胃腸道最常見的間質腫瘤之一,約占所有軟組織肉瘤的20%[1]。GIST起源于Cajal的間質細胞并可發生在胃腸道的任何部位,最常見的是胃約占GIST的50%~60%,其次是小腸約30%~35%、結腸和直腸約5%,最后是食管約<1%[2]。近年來,隨著KIT和PDGFRA基因被證實為GIST的可靠分子標志物,確診為GIST的患者數量逐年增加。研究表明,約85%~90%的GIST存在KIT或PDGFRA突變即突變型GIST(MUT-GIST),余下為未發生KIT/PDGFRA突變的GIST即為野生型GIST(WT-GIST)[3]。目前,伊馬替尼作為小分子選擇性酪氨酸激酶抑制劑,已被廣泛應用于GIST的綜合治療中。諸多研究表明,伊馬替尼治療GIST的療效取決于KIT/PDGFRA的基因突變,而對WT-GIST患者療效不佳,且關于WT-GIST患者遺傳改變的相關研究鮮有報道[4]。本研究通過對3個基因表達矩陣進行聯合生物信息學分析,將WT-GIST與MUT-GIST樣本進行對比,旨在探索調控WT-GIST發生、發展的關鍵基因,尋找診斷、治療WT-GIST的潛在分子標志物及靶點,為WT-GIST的診斷及治療提供新依據。
1.材料:基因表達數據來源于GSE17743、GSE20708和GSE132542 3個基因芯片,下載于美國國家生物技術中心(National Center for Biotechnology Information,NCBI)的基因表達綜合數據庫(Gene Expression Omnibus Database,GEO),且均基于GPL570平臺(Affymetrix Human Genome U133 Plus 2.0 Array; Thermo Fisher Scientific, Inc., Waltham, MA, USA)。其中GSE132542數據集包含29個GIST樣本,均為KIT基因突變樣本,由Amirnasr等[5]于2019年提交;GSE17743數據集包含29樣本,其中15個KIT基因突變樣本,11個PDGFRA基因突變樣本,3個WT-GIST樣本,由Ostrowski等[6]于2009年提交;GSE20708數據集包含22個GIST樣本,其中13個KIT基因突變樣本,5個PDGFRA基因突變樣本,4個WT-GIST樣本,由Astolfi等[7]于2010年提交。本研究將3個基因表達矩陣合并后共得到80個樣本的RNA表達數據,將MUT-GIST設為對照組共73個樣本,將WT-GIST設為實驗組共7個樣本。
2.基因表達數據預處理:3個芯片的原始數據下載后,將所得的CLE文件轉換為基因表達矩陣,并利用R軟件(3.4.4版本)的Affy包中的Robust多陣列平均算法對合并矩陣進行歸一化處理;應用Sva包去除批次效應;應用pamr包繪制批次矯正前后基因密度圖及Q-Q plot圖;應用prcomp函數對矩陣進行主成分分析并應用ggplot2包對分析結果進行可視化處理;下載源自官方網站的Affymetrix Human Genome U133 Plus 2.0 Array最新版注釋文件HG-U133_Plus_2,將表達矩陣的探針名稱轉換為基因名稱。如果一個基因被多個探針匹配,則計算該基因的平均表達值。
3.差異基因篩選:應用R軟件(3.4.4版本)的limma包進行MUT-GIST和WT-GIST的DEGs篩選,并對fold change(FC)值進行log2FC計算,以校正后P<0.05和|log2FC|>1為篩選標準,得到兩組間的DEGs,并利用R軟件的pheatmap包繪制DEGs表達熱圖。
4.GO分析及KEGG富集分析:應用DAVID數據庫(6.8版本,https:∥david.ncifcrf.gov/)以P<0.01為篩選標準對DEGs進行GO分析,并應用Cytoscape軟件的BiNGO插件進行可視化網絡的繪制。應用KOBAS數據庫(3.0版本,https:∥kobas.cbi.pku.edu.cn/download.php)以P<0.01為篩選標準對DEGs進行KEGG分析[8,9]。
5.蛋白互作網絡繪制及子網絡篩選:應用SRING數據庫(https:string-db.org)對DEGs進行PPI繪制,對可信指數(confidence scores)≥0.4的網絡進行篩選,并應用Cytoscape軟件進行可視化繪制(圖6),利用cytoHubba插件中的MCC算法,選取前25個基因為HUBs。以默認設置(degree cutoff=2, node score cutoff=0.2, k-core=2, max. depth=100)為篩選標準,應用MCODE插件進行PPI子網絡的篩選。以MCODE評分≥6且節點數≥6為篩選標準篩選子網絡,并將篩選后的子網絡組成基因納入HUBs。最后,利用DAVID和KOBAS數據庫對HUBs進行GO分析和KEGG分析。
1.數據預處理與差異基因的篩選:批次效應處理前后所有基因的表達量均符合正態分布。主成分分析 (PCA分析) 結果表明,數據質量可靠,可進行生物信息學分析(圖1A)。根據篩選標準,與MUT-GIST組比較,WT-GIST組中共鑒定出628個DEGs,其中226個上調基因和402個下調基因,繪制DEGs的火山圖(圖1B)及熱圖(圖2)。

圖1 主成分分析及差異基因火山圖A.主成分分析是通過聚類分析表明樣本之間的相似程度,不同樣本在空間上距離越近,則說明樣本間的差異越小。所有的樣本可根據WT-GIST組和MUT-GIST組基本分開,說明兩組的樣本有可比性;B.MUT-GIST樣本與WT-GIST樣本基因分布的火山圖比較,紅色節點表示上調的DEGs,綠色節點表示下調的DEGs(log2FC≥1和P<0.05),黑色節點代表沒有顯著表達變化的基因

圖2 差異基因層次聚類熱圖A.腫瘤中差異高表達的基因熱圖;B.腫瘤中差異低表達的基因熱圖。水平軸表示樣本,垂直軸表示基因名,紅色代表上調的差異基因,綠色代表下調的差異基因
2.DEGs的GO分析:對226個上調基因和402個下調基因分別進行GO分析。結果顯示,差異基因主要富集于細胞黏附、質膜細胞黏附分子的異嗜性等生物過程,細胞表面、細胞外間隙、細胞外小體等細胞組成以及肝素結合、鈣離子結合、整合素結合等分子功能(圖3)。


圖3 差異表達基因的GO分析結果A.基于3個亞分類差異基因的GO聚類分析,不同顏色代表不同類別的功能聚類,綠色代表生物進程(biological process),藍色代表細胞組分(cellular component),紫色代表細胞功能(molecular function)(P<0.01);B.基于P值差異基因的GO聚類分析,橫坐標為聚類基因數目,縱坐標為具體GO聚類注釋,顏色代表P值,紅色表示最小P值(P<0.01)
3.DEGs的KEGG分析:DEGs主要富集于細胞黏附分子(CAMS)、PI3K-Akt信號通路、瘧疾、神經活性配體-受體相互作用、黑色素瘤、局灶性黏附、ECM-受體相互作用、肌動蛋白細胞骨架調控、cAMP信號通路、Rap1 信號通路、多巴胺能突觸、膽堿能突觸、癌癥通路、百日咳、長期抑郁、酗酒、NF-κB 信號通路、安非他明成癮、內分泌抵抗、RAS信號通路、催乳素信號通路、可卡因成癮、胰島素抵抗、醛固酮合成和分泌、磷脂酶D信號通路、調節脂肪細胞脂解、谷氨酸能突觸、前列腺癌、血小板活化、催產素信號通路、AMPK 信號通路、膠質瘤、晝夜節律、色氨酸代謝、膀胱癌、孕酮介導的卵母細胞成熟、雌激素信號通路、代謝通路、逆行內源性大麻素信號轉導、系統性紅斑狼瘡、便血、胰島素信號轉導途徑、致心律失常性右心室心肌病(ARVC)、Toll樣受體信號通路、乙型肝炎、凝血功能、心機細胞腎上腺素能信號轉導、肌萎縮性側索硬化(ALS)、EGFR酪氨酸激酶抑制劑抗性等信號通路(圖4)。
圖4 基于P值差異基因的KEGG聚類分析橫坐標為聚類基因數目,縱坐標為具體KEGG聚類注釋,顏色代表P值,紅色表示最小P值(P<0.01)
4.蛋白互作網絡繪制及HUBs篩選:本研究以可信指數≥0.4為標準,所得PPI網絡由489個節點和1033條連線構成。于PPI網絡中共得到25個HUBs(圖5)并構建PPI網絡(圖6),包括KLHL41、KBTBD8、FBXO4、KLHL13、FBXO6、FBXL16、CISH、HERC5、NEDD4L、SOCS2、ADCY3、PENK、GRIA2、HIST2H2BE、CCND1、GNAI1、GRIA1、GPR37、PTH1R、HIST1H2AC、HIST1H2BK、OPRK1、HTR7、ADM、ACKR3。GO分析結果表明,HUBs主要富集于“細胞外谷氨酸門控離子通道活性”等(表1)。KEGG分析結果表明,HUBs主要富集于“PI3K-Akt信號通路”、“癌癥通路”等(表2)。
KIT/PDGFRA基因突變是GIST的主要遺傳改變,且為近年來GIST分子靶向治療的唯一有效靶點。然而即便現已依據 SDHB 基因的缺失表達衍生出諸多WT-GIST亞分類,但其尚缺乏臨床指導意義,單一手術切除及重復應用既往獲益靶向藥物的治療模式仍未改變[10]。IGF1R曾被證實在WT-GIST 中特異性高表達并參與調控 PI3K/Akt/mTOR 信號通路,但因其抑制劑在臨床試驗中并未令WT-GIST獲益而失去研究價值[11,12]。目前,關于MUT-GIST與WT-GIST間遺傳差異的研究鮮有報道。本研究通過生物信息學分析對MUT-GIST與WT-GIST間基因表達水平進行探索,尋找WT-GIST的潛在分子標志物及治療靶點,從而為WT-GIST的診斷及治療提供新依據。

圖5 差異基因的蛋白質互相作用網絡圖紅色節點代表上調基因,綠色節點代表下調基因。每個節點的大小表示每個基因鏈接的程度,線表示節點之間的相互作用關系

圖6 關鍵差異基因的蛋白質相互作用網絡圖橙色代表關鍵差異基因,顏色深度代表基于MCC算法計算后的關鍵差異基因排序,綠色代表與關鍵基因具有相互作用關系的基因

表1 關鍵基因的GO分析結果

表2 關鍵基因的KEGG分析結果
本研究中共篩選出628個DEGs,其GO分析的結果顯示,DEGs主要參與Wnt信號通路的調節、生長因子活性的調控、轉化生長因子-β受體信號通路的調控、異型細胞-細胞黏附等重要過程,且主要分布于細胞外的區域。Wnt信號通路通過調節細胞周期、干細胞自我更新和上皮-間質轉化等重要進程,在腫瘤的發生、發展中發揮著重要作用[13,14]。研究表明,Wnt信號通路的激活是GIST發生、發展之必需,Shan等[15]研究發現Wnt通路抑制劑PKF118-310、XAV939、GK007-LK在不同的GIST模型中均具有顯著的抗腫瘤效果。筆者的研究共發現CCND1、SHISA2、SFRP4、CITED1、HIC1、DKK4 6個基因被富集于Wnt信號通路調節功能中(P=0.18)。Shan等研究發現,GIST細胞Wnt信號通路的激活時,CCND1的表達顯著增加。DKK4作為Wnt通路拮抗劑已被廣泛報道,Wang等[16]研究發現,DKK4的表達量在高危險度GIST中顯著上調,同時認為DKK4的表達與GIST預后不良密切相關。但本研究發現DKK4在WT-GIST樣本中顯著降低,這可能與KIT/PDGFRA的突變相關,仍需進一步驗證。SHISA2、SFRP4、CITED1、HIC1是否參與了WT-GIST發生、發展的調控尚未有研究報道,這些基因為WT-GIST的研究提供了新思路。DEGs的KEGG分析結果顯示,在WT-GSIT的發生、發展過程中,DEGs參與了PI3K-Akt、Rap1、細胞外基質受體相互作用 (ECM-receptor interaction)、cAMP等重要信號通路的調節。研究表明,PI3K-Akt信號通路的激活與GIST伊馬替尼耐藥顯著相關,且耐藥后PI3K-Akt-mTOR通路仍發生部分激活[17]。同時,PI3K-Akt的激活還會促進GIST細胞增殖并抑制其凋亡[18]。由此看來,調控PI3K-Akt信號通路的相關基因,將可能成為WT-GIST治療的潛在靶點。
研究還對628個DEGs進行PPI繪制,并從中獲取了KLHL41、KBTBD8、FBXO4、KLHL13、FBXO6、FBXL16、CISH、HERC5等共25個HUBs。PENK是神經遞質腦啡肽的編碼基因,相對分子質量為34kDa,位于人類染色體8q12.1上。它主要分布于細胞基質,也存在于細胞膜、細胞核和線粒體中。PENK是一種神經遞質,編碼一種前體蛋白,其經蛋白水解處理后可產生多種蛋白質。PENK衍生肽作為神經遞質、神經調節劑和神經激素,具有阿片類活性并參與對壓力和疼痛的反應,有助于調節食欲和睡眠。此外,PENK基因還在幾個非神經元組織中表達,包括內分泌腺,如腎上腺髓質、免疫系統細胞和胚胎皮膚間充質細胞。研究表明在胃腸道腫瘤中,PENK的酶產物阿片生長因子,已被證實為腫瘤抑制因子,并且OGF-OGF受體軸在胃腸道腫瘤的生長抑制過程中發揮重要作用[19]。Tang等[20]發現,與高風險度GIST比較,低風險度和中風險度GIST組的PENK顯著高表達,且與GIST的腫瘤直徑、有絲分裂計數顯著相關。同時,PENK還與頭頸部惡性腫瘤等疾病密切相關[21]。本研究發現PENK在WT-GIST樣本中低表達,與GAD1、NEFL、ADCY3、ACKR3、CDH2、OPRK1、GPR37、ADM、GNI1存在相互作用,共同參與調控WT-GIST的發生、發展。
FBXO4屬于F-box蛋白的FBXO亞家族,主要介導靶蛋白泛素化及蛋白酶體降解。FBOX4以兩種不同的方式識別兩種底物cyclin D1和Pin2。FBOX4介導cyclin D1的泛素化依賴于Thr-286殘基的磷酸化及與一種小的熱休克蛋白AB-晶狀體蛋白的相互作用,而Pin2的泛素化不需要磷酸化。FBOX4活性受到抑制后會導致細胞核cyclin D1的累積并發生致癌轉化,這可能是cyclin D1在人類惡性腫瘤疾病中過表達的重要原因[22]。在肝細胞癌中,FBXO4的表達水平顯著低于非腫瘤組織,在Sk-Hep1和NIH3T3兩株肝癌細胞系中,Fbx4β、Fbx4γ、Fbx4δ 3個FBXO4的剪接變異體均在肝癌組織高表達并可促進肝癌細胞增殖和遷移,破壞cyclin D1的降解[23]。本研究中,FBXO4在WT-GIST低表達,與NEDD4L、KBTBD8、FBXL16、FBXO6、CCND1、HERC5、KLHL13、KLHL41存在相互作用關系,其在GIST相關領域尚未有研究報道,或可作為WT-GIST相關研究新的方向。
ACKR3為非典型趨化因子受體-3編碼基因,非典型趨化因子受體屬于A類G蛋白偶聯受體。CXCL12和CXCL11可與之相結合。自ACKR3蛋白作為HIV侵入的輔助受體被首次報道以來,諸多研究發現其可在許多病理生理進程中發揮重要作用。研究表明,ACKR3在炎癥、感染、缺血相關的各種疾病中顯著上調,重要的是,在許多惡性腫瘤如前列腺癌、腎癌、肝癌、子宮頸癌、腦癌、肺癌和乳腺癌中也檢測到了ACKR3的差異表達并參與調控疾病的發生、發展[24]。Gao等[25]研究發現,ACKR3的高表達可促性肺癌細胞增殖、侵襲、遷移從而促進腫瘤生長和轉移。Behnam等[26]研究發現ACKR3的過表達與肺癌患者的不良預后和生存期顯著相關。Li等[27]研究發現,通過LPS-TLR4-MD-2信號通路可上調胃癌細胞中ACKR3的表達,從而提高了胃癌細胞的增殖和遷移能力。胃癌組織中TLR4、MD-2和CXCR7的表達顯著高于癌旁組織。并發現TLR4、MD-2和CXCR7的表達水平與胃癌TNM分期和淋巴結轉移密切相關。本研究同樣發現在WT-GIST樣本中,ACKR3存在顯著差異表達,并可與GNAI1、PENK、GPR37、ADCY1、OPRK1相互作用,參與WT-GIST的調控。可見ACKR3的高表達可能在消化道腫瘤中同樣發揮著重要作用。目前尚未有研究報道ACKR3與WT-GIST的關系,該基因可能成為未來WT-GIST的潛在診斷或治療靶點。
綜上所述,通過生物信息學分析,筆者發現與MUT-GIST樣本比較,在WT-GIST樣本中篩選出了628個DEGs,這些DEGs可能與GIST的發生、發展密切相關。此外,本研究還篩選出了25個HUBs,其中包括PENK、FBXO4及ACKR3等,并對其進行了GO分析和KEGG分析。本研究存在一定局限性,所利用的3個基因芯片均未提供正常胃腸道組織基因表達數據,無法識別GIST組織與正常組織間的差異基因,且研究結果需通過細胞及動物實驗進一步驗證。以上結果可為未來GIST相關實驗研究提供實驗依據和方向,從而為GIST的臨床診斷和治療提供新策略。