于 哲,羅 婧,楊永平
肝癌是一種常見的消化系統(tǒng)惡性腫瘤,全球年新增肝癌病例達84.1萬,死亡約78.2萬,分別排在惡性腫瘤的第6位和第2位[1]。肝細胞癌(hepatocellular carcinoma, HCC)這一病理學(xué)類型占肝癌總體近90%,即使在發(fā)達國家其5年生存率也低于20%。因此,對HCC的早期診治尤為重要。目前,HCC的確診、復(fù)查和預(yù)后判斷仍依賴血清學(xué)、影像學(xué)和組織病理學(xué)檢查。組織病理學(xué)檢查存在有創(chuàng)性,血清學(xué)檢查的有效性稍差,反復(fù)CT或MRI檢查存在著放射性污染和費用貴的問題。因此,亟需更精準的無創(chuàng)性生物標記物用于HCC患者的診斷和預(yù)后判斷。有研究報道,乳腺癌細胞可將外周血單個核細胞(peripheral blood mononuclear cells,PBMC)募集到腫瘤部位,在腫瘤微環(huán)境中將其轉(zhuǎn)化為促進腫瘤發(fā)展的免疫細胞,隨后激活相關(guān)信號通路,改變PBMC的基因表達譜[2]。因此,PBMC基因水平差異的變化往往早于腫瘤周圍的正常組織,提示通過檢測PBMC基因有可能實現(xiàn)對腫瘤更精準的早期診斷或預(yù)后判斷。多組學(xué)結(jié)合生物信息學(xué)工具的聯(lián)合應(yīng)用使我們有望找到HCC潛在的關(guān)鍵基因和治療靶點。本研究通過挖掘公共數(shù)據(jù)庫中HCC患者基因和臨床數(shù)據(jù),探索了HCC患者PBMC與腫瘤組織基因水平變化的相似性,以尋找有潛力的PBMC關(guān)鍵基因,研究關(guān)鍵基因在腫瘤發(fā)展過程中可能的作用及其與預(yù)后的關(guān)系,以期找到診斷HCC的新型標志物,為HCC的早期診斷和預(yù)后判斷提供新指標。
1.1 數(shù)據(jù)檢索 從NCBI-GEO數(shù)據(jù)庫(https://www.ncbi.nlm.nih.gov/geo/)[3]檢索數(shù)據(jù)集,納入標準如下:①同時包含有HCC患者和健康人的PBMC資料數(shù)據(jù);②HCC患者和健康人樣本量均≥10例;③數(shù)據(jù)檢測類型為總RNA。最終選擇GSE49515數(shù)據(jù)集進行深入分析。該數(shù)據(jù)集基于GPL570芯片分析平臺的處理,包含26例PBMC樣本,其中HCC患者10例、健康人10例、胃癌3例和胰腺癌3例。本研究選擇HCC患者和健康人樣本進行研究[4]。此外,在TCGA數(shù)據(jù)庫(https://portal.gdc.cancer.gov/)下載HCC患者基因和臨床數(shù)據(jù),用于分析關(guān)鍵基因在HCC患者腫瘤組織中的表達水平與預(yù)后的關(guān)系。
1.2 數(shù)據(jù)分析 本研究所用各類分析工具如下:應(yīng)用在線分析工具GEO2R(https://www.ncbi.nlm.nih.gov/geo/geo2r/)獲取HCC與健康人間的差異表達基因(differentially expressed genes, DEGs)。當一個探針對應(yīng)多個基因時,說明探針特異性不強,予以刪除;當多個探針對應(yīng)一個基因時,取差異倍數(shù)(fold change,F(xiàn)C)絕對值的最大值。應(yīng)用STRING(https://string-db.org/)[5]完成基因功能與通路的富集分析及蛋白質(zhì)相互作用(protein-protein interaction, PPI)網(wǎng)絡(luò)的構(gòu)建。應(yīng)用軟件Cytoscape 3.7.2[6]及其中的MCODE插件完成PPI網(wǎng)絡(luò)可視化和基因模塊的篩選。應(yīng)用GEPIA(http://gepia.cancer-pku.cn/)[7]完成關(guān)鍵模塊基因的生存分析。GEPIA數(shù)據(jù)庫整合了TCGA和GTEx兩大數(shù)據(jù)庫,可有效驗證基因水平與生存期的關(guān)系。最后,應(yīng)用IBM SPSS Statistics 25結(jié)合TCGA中的臨床數(shù)據(jù)進行單因素和多因素Cox比例風險回歸模型分析。
1.3 基因篩選與富集分析 應(yīng)用GEO2R在線工具篩選HCC患者PBMC中的DEGs,標準為:|logFC|>2,調(diào)整后的P值<0.05;將獲取的DEGs錄入STRING,分析其對應(yīng)的編碼蛋白的相互作用關(guān)系。同時,進行基因本體分子功能(molecular function, MF)、生物學(xué)過程(biological process, BP)、細胞組分(cellular component, CC)和京都基因與基因組百科全書數(shù)據(jù)庫(Kyoto Encyclopedia of Genes and Genomes, KEGG)通路富集分析,構(gòu)建PPI網(wǎng)絡(luò)圖,其中數(shù)據(jù)證據(jù)等級設(shè)置為最高的0.9[8, 9]。將PPI網(wǎng)絡(luò)數(shù)據(jù)文件下載并導(dǎo)入Cytoscape軟件,應(yīng)用其中的MCODE插件尋找關(guān)鍵基因模塊。
1.4 驗證基因水平與預(yù)后的關(guān)系 應(yīng)用GEPIA對關(guān)鍵模塊內(nèi)的DEGs進行生存分析驗證,LogrankP值<0.01的基因被列為關(guān)鍵基因,在TCGA數(shù)據(jù)庫下載的HCC數(shù)據(jù)中提取對應(yīng)關(guān)鍵基因,綜合臨床數(shù)據(jù)對HCC分期進行分層的單因素和多因素Cox比例風險回歸模型分析,獲取與預(yù)后相關(guān)的基因,比對腫瘤與PBMC中與預(yù)后相關(guān)的基因,再確定有預(yù)后判斷價值的基因。
2.1 數(shù)據(jù)分析結(jié)果 由GSE49515分析得到可用DEGs共225個,其中上調(diào)基因105個,下調(diào)基因120個。為了觀察這些DEGs的編碼蛋白質(zhì)間相互作用關(guān)系,在STRING中按預(yù)定設(shè)置上傳此225個基因,去除與其他蛋白質(zhì)無關(guān)聯(lián)的點后,構(gòu)建完成PPI網(wǎng)絡(luò)圖(圖1)。進一步查看DEGs的富集情況,可見:1)DEGs顯著富集于細胞死亡的正向調(diào)控(positive regulation of cell death)、對有機物的反應(yīng)(response to organic substance)和細胞死亡的調(diào)控(regulation of cell death)等基因本體BP;2)DEGs顯著富集于結(jié)合(binding)、信號受體結(jié)合(signaling receptor binding)和有機環(huán)狀化合物結(jié)合(organic cyclic compound binding)等基因本體MF;3)DEGs顯著富集于細胞內(nèi)(intracellular)、細胞質(zhì)(cytoplasm)和細胞器(organelle)等基因本體CC;4)DEGs在KEGG通路中顯著富集于類風濕性關(guān)節(jié)炎(rheumatoid arthritis)、甲型流感(influenza A)、瘧疾(malaria)(表1)。這些結(jié)果充分體現(xiàn)了基因水平變化對細胞增殖的調(diào)控作用,在多種感染和免疫相關(guān)疾病的信號通路富集中也體現(xiàn)了炎癥和免疫反應(yīng)活躍的特點。

圖1 根據(jù)DEGs編碼蛋白間相互作用關(guān)系構(gòu)建的PPI網(wǎng)絡(luò)圖

表1 差異水平基因功能和通路富集分析
2.2 關(guān)鍵基因的篩選 將PPI網(wǎng)絡(luò)的數(shù)據(jù)文件導(dǎo)入Cytoscape中構(gòu)建可視化網(wǎng)絡(luò)圖,應(yīng)用軟件中的MCODE插件篩選關(guān)鍵模塊。該插件可根據(jù)各基因所編碼蛋白間聯(lián)系的證據(jù)強度來篩選聯(lián)系最緊密的基因,進而構(gòu)建出基因模塊。將K-core值設(shè)置為6,可得到兩個關(guān)鍵基因模塊。模塊1和模塊2都包含有8個關(guān)鍵基因(圖2)。分別將兩個模塊的關(guān)鍵基因錄入STRING中進行富集分析。模塊1主要富集于mRNA的剪接、剪接體、癌組織中的轉(zhuǎn)錄失調(diào)等功能和通路;模塊2主要富集于G蛋白偶聯(lián)受體信號通路、白細胞遷移的正向調(diào)控、趨化因子信號通路、細胞因子與細胞因子受體的相互作用和IL-17信號通路等功能和通路,體現(xiàn)了兩個模塊在HCC發(fā)生發(fā)展過程中對細胞轉(zhuǎn)錄、免疫和信號轉(zhuǎn)導(dǎo)等方面起著重要作用。

圖2 篩選得到的關(guān)鍵基因模塊1(左)和模塊2(右)
2.3 判斷基因水平與預(yù)后的關(guān)系 為了判斷HCC腫瘤組織中來自關(guān)鍵模塊的16個關(guān)鍵基因水平與患者總體生存期的關(guān)系,我們在GEPIA在線工具上將16個關(guān)鍵基因分別進行了總生存期驗證,得出其中6個關(guān)鍵基因的高水平與總生存期縮短呈顯著相關(guān),這6個基因名稱分別為GPSM2、PPIL1、POLR2H、CRNKL1、U2SURP和TRA2B。隨后,我們從TCGA數(shù)據(jù)庫下載到包括371例HCC患者基因水平和臨床數(shù)據(jù)的數(shù)據(jù)集,在該數(shù)據(jù)集中,采用射頻消融、無水酒精注射、微波聚束熱療和其他治療者分別為22例、3例、1例和2例,而TNM分期I期、II期、III期和IV期分別為171例、86例、85例和5例。影響肝癌患者生存預(yù)后的大樣本研究表明,住院時長和是否接受手術(shù)治療是患者預(yù)后的獨立保護因素,而TNM分期III期和IV期是患者預(yù)后的獨立危險因素[10]。鑒于上述數(shù)據(jù)中治療方法的有效記錄缺失過多,因此將HCC患者按TNM分期進行分層,利用這6個基因水平數(shù)據(jù)并綜合患者的臨床數(shù)據(jù)進行影響生存預(yù)后的單因素和多因素分析(表3和表4),結(jié)果顯示PPIL1是影響I期HCC患者生存預(yù)后的獨立危險因素(HR=1.061,95%CI:1.005~1.121),GPSM2是影響III期HCC患者生存預(yù)后的獨立危險因素(HR=1.556,95%CI:1.153~2.100),說明GPSM2和PPIL1水平與不同TNM分期的HCC患者生存預(yù)后獨立相關(guān)。最后,通過比對PBMC與腫瘤組織中這6個關(guān)鍵基因的水平,發(fā)現(xiàn)其中GPSM2、TRA2B和U2SURP在PBMC和腫瘤組織中基因水平趨勢相同。總之,腫瘤組織GPSM2高水平與生存預(yù)后縮短相關(guān),且PBMC中GPSM2水平與腫瘤組織趨勢相同,預(yù)示GPSM2可能是未來無創(chuàng)性判斷HCC患者,尤其是III期HCC患者生存預(yù)后的關(guān)鍵指標。

表3 影響HCC患者生存預(yù)后的單因素分析

表4 影響HCC患者生存預(yù)后的多因素分析
HCC的惡性程度極高,雖然早期治療效果較好,但確診時多已錯過最佳的治療時機,療效和預(yù)后差,與其復(fù)雜的發(fā)病機制密切相關(guān)。常用的臨床病理學(xué)、血清學(xué)和影像學(xué)等檢查仍不能達到滿意的診斷敏感度和特異度[11,12]。隨著多種組學(xué)技術(shù)的發(fā)展和聯(lián)合應(yīng)用,在基因?qū)用娴奶剿骺砂l(fā)現(xiàn)致癌基因的過度表達、抑癌基因的低水平表達和基因突變等,尤其對HCC組織DEGs的解析有助于揭示疾病本質(zhì)并為診療新技術(shù)的探索指明方向。
本研究通過深入挖掘GEO和TCGA數(shù)據(jù)庫,綜合應(yīng)用多種在線工具和軟件,對比了HCC患者與健康人PBMC中的DEGs,探索可能與HCC發(fā)生發(fā)展及預(yù)后判斷相關(guān)的關(guān)鍵基因。我們結(jié)合DEGs的基因本體和通路的富集分析揭示可能參與其中的細胞組分和信號通路,構(gòu)建PPI網(wǎng)絡(luò),識別關(guān)鍵模塊,結(jié)合GEPIA生存分析工具和TCGA數(shù)據(jù)的多因素分析驗證確定了6個關(guān)鍵基因,即GPSM2、PPIL1、POLR2H、CRNKL1、U2SURP和TRA2B。它們在分子層面與mRNA的剪接、癌癥基因轉(zhuǎn)錄失調(diào)和多個免疫反應(yīng)信號通路密切相關(guān),且GPSM2和PPIL1與肝癌患者預(yù)后獨立相關(guān)。經(jīng)過比對確定GPSM2、TRA2B和U2SURP這三個關(guān)鍵基因在PBMC中與腫瘤組織中有相似的上調(diào)趨勢。因此,我們認為GPSM2、TRA2B和U2SURP可能是診斷HCC的潛在靶基因,尤其是GPSM2與III期HCC患者預(yù)后獨立相關(guān),更值得我們深入研究。
基因GPSM2編碼蛋白為G蛋白信號調(diào)節(jié)因子2,是在細胞有絲分裂過程中紡錘體定向的決定因素。有體外細胞實驗研究報道,基因GPSM2高水平可促進癌細胞的增殖、遷移和侵襲,同時抑制癌細胞凋亡,可能通過PI3K/AKT通路起致癌基因的作用[13]。近年來,也有研究證實GPSM2的過度表達同樣是非小細胞肺癌和乳腺癌不良結(jié)局的獨立預(yù)后因素[14, 15]。基因TRA2B編碼TRA2β蛋白,屬于富含絲氨酸/精氨酸的剪接因子家族成員,能夠以濃度依賴的方式調(diào)節(jié)基因的選擇性剪接[16]。TRA2B在多種癌癥中過度表達,如女性的乳腺癌、宮頸癌、卵巢癌,男性的前列腺癌和肺癌等[17-20]。TRA2B過度表達是前列腺癌復(fù)發(fā)和不良預(yù)后的重要預(yù)測因子[18]。抑制TRA2B過度表達可降低子宮內(nèi)膜癌細胞增殖和侵襲能力。TRA2B也被認為是骨肉瘤的致癌基因。研究證實來源于骨髓間充質(zhì)干細胞的外泌體中存在miR-206,通過靶向TRA2B基因?qū)崿F(xiàn)抑制骨肉瘤進展。
基因U2SURP又稱SR140,編碼小核糖核蛋白復(fù)合體U2亞基。該亞基富含絲氨酸/精氨酸,是構(gòu)成剪接體的主要部件之一,研究證明其可與鈣穩(wěn)態(tài)內(nèi)質(zhì)網(wǎng)蛋白協(xié)同調(diào)節(jié)RNA監(jiān)視因子的表達,進而在結(jié)直腸癌的發(fā)生過程中起致癌作用。也有研究確定基因U2SURP是與乳腺癌患者生存期密切相關(guān)的剪接體相關(guān)基因。
GPSM2、TRA2B和U2SURP在PBMC中的高水平有可能成為診斷HCC的新型精準生物標志,尤其GPSM2基因與III期HCC患者生存預(yù)后相關(guān),有較大的探索價值。這些關(guān)鍵基因的具體分子機制有待進一步驗證,需要更深入的研究明確其在細胞功能中的作用,闡明分子間的相互作用關(guān)系和信號傳導(dǎo)通路,以期能更好地驗證這些基因在HCC早期診斷和預(yù)后判斷中的價值,甚至在綜合治療中成為新的治療靶點。