于 哲,羅 婧,楊永平
肝癌是一種常見的消化系統惡性腫瘤,全球年新增肝癌病例達84.1萬,死亡約78.2萬,分別排在惡性腫瘤的第6位和第2位[1]。肝細胞癌(hepatocellular carcinoma, HCC)這一病理學類型占肝癌總體近90%,即使在發達國家其5年生存率也低于20%。因此,對HCC的早期診治尤為重要。目前,HCC的確診、復查和預后判斷仍依賴血清學、影像學和組織病理學檢查。組織病理學檢查存在有創性,血清學檢查的有效性稍差,反復CT或MRI檢查存在著放射性污染和費用貴的問題。因此,亟需更精準的無創性生物標記物用于HCC患者的診斷和預后判斷。有研究報道,乳腺癌細胞可將外周血單個核細胞(peripheral blood mononuclear cells,PBMC)募集到腫瘤部位,在腫瘤微環境中將其轉化為促進腫瘤發展的免疫細胞,隨后激活相關信號通路,改變PBMC的基因表達譜[2]。因此,PBMC基因水平差異的變化往往早于腫瘤周圍的正常組織,提示通過檢測PBMC基因有可能實現對腫瘤更精準的早期診斷或預后判斷。多組學結合生物信息學工具的聯合應用使我們有望找到HCC潛在的關鍵基因和治療靶點。本研究通過挖掘公共數據庫中HCC患者基因和臨床數據,探索了HCC患者PBMC與腫瘤組織基因水平變化的相似性,以尋找有潛力的PBMC關鍵基因,研究關鍵基因在腫瘤發展過程中可能的作用及其與預后的關系,以期找到診斷HCC的新型標志物,為HCC的早期診斷和預后判斷提供新指標。
1.1 數據檢索 從NCBI-GEO數據庫(https://www.ncbi.nlm.nih.gov/geo/)[3]檢索數據集,納入標準如下:①同時包含有HCC患者和健康人的PBMC資料數據;②HCC患者和健康人樣本量均≥10例;③數據檢測類型為總RNA。最終選擇GSE49515數據集進行深入分析。該數據集基于GPL570芯片分析平臺的處理,包含26例PBMC樣本,其中HCC患者10例、健康人10例、胃癌3例和胰腺癌3例。本研究選擇HCC患者和健康人樣本進行研究[4]。此外,在TCGA數據庫(https://portal.gdc.cancer.gov/)下載HCC患者基因和臨床數據,用于分析關鍵基因在HCC患者腫瘤組織中的表達水平與預后的關系。
1.2 數據分析 本研究所用各類分析工具如下:應用在線分析工具GEO2R(https://www.ncbi.nlm.nih.gov/geo/geo2r/)獲取HCC與健康人間的差異表達基因(differentially expressed genes, DEGs)。當一個探針對應多個基因時,說明探針特異性不強,予以刪除;當多個探針對應一個基因時,取差異倍數(fold change,FC)絕對值的最大值。應用STRING(https://string-db.org/)[5]完成基因功能與通路的富集分析及蛋白質相互作用(protein-protein interaction, PPI)網絡的構建。應用軟件Cytoscape 3.7.2[6]及其中的MCODE插件完成PPI網絡可視化和基因模塊的篩選。應用GEPIA(http://gepia.cancer-pku.cn/)[7]完成關鍵模塊基因的生存分析。GEPIA數據庫整合了TCGA和GTEx兩大數據庫,可有效驗證基因水平與生存期的關系。最后,應用IBM SPSS Statistics 25結合TCGA中的臨床數據進行單因素和多因素Cox比例風險回歸模型分析。
1.3 基因篩選與富集分析 應用GEO2R在線工具篩選HCC患者PBMC中的DEGs,標準為:|logFC|>2,調整后的P值<0.05;將獲取的DEGs錄入STRING,分析其對應的編碼蛋白的相互作用關系。同時,進行基因本體分子功能(molecular function, MF)、生物學過程(biological process, BP)、細胞組分(cellular component, CC)和京都基因與基因組百科全書數據庫(Kyoto Encyclopedia of Genes and Genomes, KEGG)通路富集分析,構建PPI網絡圖,其中數據證據等級設置為最高的0.9[8, 9]。將PPI網絡數據文件下載并導入Cytoscape軟件,應用其中的MCODE插件尋找關鍵基因模塊。
1.4 驗證基因水平與預后的關系 應用GEPIA對關鍵模塊內的DEGs進行生存分析驗證,LogrankP值<0.01的基因被列為關鍵基因,在TCGA數據庫下載的HCC數據中提取對應關鍵基因,綜合臨床數據對HCC分期進行分層的單因素和多因素Cox比例風險回歸模型分析,獲取與預后相關的基因,比對腫瘤與PBMC中與預后相關的基因,再確定有預后判斷價值的基因。
2.1 數據分析結果 由GSE49515分析得到可用DEGs共225個,其中上調基因105個,下調基因120個。為了觀察這些DEGs的編碼蛋白質間相互作用關系,在STRING中按預定設置上傳此225個基因,去除與其他蛋白質無關聯的點后,構建完成PPI網絡圖(圖1)。進一步查看DEGs的富集情況,可見:1)DEGs顯著富集于細胞死亡的正向調控(positive regulation of cell death)、對有機物的反應(response to organic substance)和細胞死亡的調控(regulation of cell death)等基因本體BP;2)DEGs顯著富集于結合(binding)、信號受體結合(signaling receptor binding)和有機環狀化合物結合(organic cyclic compound binding)等基因本體MF;3)DEGs顯著富集于細胞內(intracellular)、細胞質(cytoplasm)和細胞器(organelle)等基因本體CC;4)DEGs在KEGG通路中顯著富集于類風濕性關節炎(rheumatoid arthritis)、甲型流感(influenza A)、瘧疾(malaria)(表1)。這些結果充分體現了基因水平變化對細胞增殖的調控作用,在多種感染和免疫相關疾病的信號通路富集中也體現了炎癥和免疫反應活躍的特點。

圖1 根據DEGs編碼蛋白間相互作用關系構建的PPI網絡圖

表1 差異水平基因功能和通路富集分析
2.2 關鍵基因的篩選 將PPI網絡的數據文件導入Cytoscape中構建可視化網絡圖,應用軟件中的MCODE插件篩選關鍵模塊。該插件可根據各基因所編碼蛋白間聯系的證據強度來篩選聯系最緊密的基因,進而構建出基因模塊。將K-core值設置為6,可得到兩個關鍵基因模塊。模塊1和模塊2都包含有8個關鍵基因(圖2)。分別將兩個模塊的關鍵基因錄入STRING中進行富集分析。模塊1主要富集于mRNA的剪接、剪接體、癌組織中的轉錄失調等功能和通路;模塊2主要富集于G蛋白偶聯受體信號通路、白細胞遷移的正向調控、趨化因子信號通路、細胞因子與細胞因子受體的相互作用和IL-17信號通路等功能和通路,體現了兩個模塊在HCC發生發展過程中對細胞轉錄、免疫和信號轉導等方面起著重要作用。

圖2 篩選得到的關鍵基因模塊1(左)和模塊2(右)
2.3 判斷基因水平與預后的關系 為了判斷HCC腫瘤組織中來自關鍵模塊的16個關鍵基因水平與患者總體生存期的關系,我們在GEPIA在線工具上將16個關鍵基因分別進行了總生存期驗證,得出其中6個關鍵基因的高水平與總生存期縮短呈顯著相關,這6個基因名稱分別為GPSM2、PPIL1、POLR2H、CRNKL1、U2SURP和TRA2B。隨后,我們從TCGA數據庫下載到包括371例HCC患者基因水平和臨床數據的數據集,在該數據集中,采用射頻消融、無水酒精注射、微波聚束熱療和其他治療者分別為22例、3例、1例和2例,而TNM分期I期、II期、III期和IV期分別為171例、86例、85例和5例。影響肝癌患者生存預后的大樣本研究表明,住院時長和是否接受手術治療是患者預后的獨立保護因素,而TNM分期III期和IV期是患者預后的獨立危險因素[10]。鑒于上述數據中治療方法的有效記錄缺失過多,因此將HCC患者按TNM分期進行分層,利用這6個基因水平數據并綜合患者的臨床數據進行影響生存預后的單因素和多因素分析(表3和表4),結果顯示PPIL1是影響I期HCC患者生存預后的獨立危險因素(HR=1.061,95%CI:1.005~1.121),GPSM2是影響III期HCC患者生存預后的獨立危險因素(HR=1.556,95%CI:1.153~2.100),說明GPSM2和PPIL1水平與不同TNM分期的HCC患者生存預后獨立相關。最后,通過比對PBMC與腫瘤組織中這6個關鍵基因的水平,發現其中GPSM2、TRA2B和U2SURP在PBMC和腫瘤組織中基因水平趨勢相同。總之,腫瘤組織GPSM2高水平與生存預后縮短相關,且PBMC中GPSM2水平與腫瘤組織趨勢相同,預示GPSM2可能是未來無創性判斷HCC患者,尤其是III期HCC患者生存預后的關鍵指標。

表3 影響HCC患者生存預后的單因素分析

表4 影響HCC患者生存預后的多因素分析
HCC的惡性程度極高,雖然早期治療效果較好,但確診時多已錯過最佳的治療時機,療效和預后差,與其復雜的發病機制密切相關。常用的臨床病理學、血清學和影像學等檢查仍不能達到滿意的診斷敏感度和特異度[11,12]。隨著多種組學技術的發展和聯合應用,在基因層面的探索可發現致癌基因的過度表達、抑癌基因的低水平表達和基因突變等,尤其對HCC組織DEGs的解析有助于揭示疾病本質并為診療新技術的探索指明方向。
本研究通過深入挖掘GEO和TCGA數據庫,綜合應用多種在線工具和軟件,對比了HCC患者與健康人PBMC中的DEGs,探索可能與HCC發生發展及預后判斷相關的關鍵基因。我們結合DEGs的基因本體和通路的富集分析揭示可能參與其中的細胞組分和信號通路,構建PPI網絡,識別關鍵模塊,結合GEPIA生存分析工具和TCGA數據的多因素分析驗證確定了6個關鍵基因,即GPSM2、PPIL1、POLR2H、CRNKL1、U2SURP和TRA2B。它們在分子層面與mRNA的剪接、癌癥基因轉錄失調和多個免疫反應信號通路密切相關,且GPSM2和PPIL1與肝癌患者預后獨立相關。經過比對確定GPSM2、TRA2B和U2SURP這三個關鍵基因在PBMC中與腫瘤組織中有相似的上調趨勢。因此,我們認為GPSM2、TRA2B和U2SURP可能是診斷HCC的潛在靶基因,尤其是GPSM2與III期HCC患者預后獨立相關,更值得我們深入研究。
基因GPSM2編碼蛋白為G蛋白信號調節因子2,是在細胞有絲分裂過程中紡錘體定向的決定因素。有體外細胞實驗研究報道,基因GPSM2高水平可促進癌細胞的增殖、遷移和侵襲,同時抑制癌細胞凋亡,可能通過PI3K/AKT通路起致癌基因的作用[13]。近年來,也有研究證實GPSM2的過度表達同樣是非小細胞肺癌和乳腺癌不良結局的獨立預后因素[14, 15]。基因TRA2B編碼TRA2β蛋白,屬于富含絲氨酸/精氨酸的剪接因子家族成員,能夠以濃度依賴的方式調節基因的選擇性剪接[16]。TRA2B在多種癌癥中過度表達,如女性的乳腺癌、宮頸癌、卵巢癌,男性的前列腺癌和肺癌等[17-20]。TRA2B過度表達是前列腺癌復發和不良預后的重要預測因子[18]。抑制TRA2B過度表達可降低子宮內膜癌細胞增殖和侵襲能力。TRA2B也被認為是骨肉瘤的致癌基因。研究證實來源于骨髓間充質干細胞的外泌體中存在miR-206,通過靶向TRA2B基因實現抑制骨肉瘤進展。
基因U2SURP又稱SR140,編碼小核糖核蛋白復合體U2亞基。該亞基富含絲氨酸/精氨酸,是構成剪接體的主要部件之一,研究證明其可與鈣穩態內質網蛋白協同調節RNA監視因子的表達,進而在結直腸癌的發生過程中起致癌作用。也有研究確定基因U2SURP是與乳腺癌患者生存期密切相關的剪接體相關基因。
GPSM2、TRA2B和U2SURP在PBMC中的高水平有可能成為診斷HCC的新型精準生物標志,尤其GPSM2基因與III期HCC患者生存預后相關,有較大的探索價值。這些關鍵基因的具體分子機制有待進一步驗證,需要更深入的研究明確其在細胞功能中的作用,闡明分子間的相互作用關系和信號傳導通路,以期能更好地驗證這些基因在HCC早期診斷和預后判斷中的價值,甚至在綜合治療中成為新的治療靶點。