邢 晨,拜合提亞·阿扎提,馬 軍,木拉提·熱夏提,王玉杰
(新疆醫科大學第一附屬醫院 泌尿外科,新疆泌尿男生殖系統臨床醫學研究中心,新疆 烏魯木齊 830054)
膀胱癌的發病原因目前尚不清楚,主要和吸煙、膀胱結石、以及化學物質接觸有關[1]。2018年全球新發膀胱癌患者約54.9萬例,死亡約20萬例,男性發病率為女性的4倍[2]。經尿道膀胱腫瘤電切術是非肌層浸潤性膀胱癌的標準治療手段。肌層浸潤性膀胱尿路上皮癌、鱗狀細胞癌、腺癌等以根治性膀胱全切除術為主。無論膀胱癌是否發生肌層浸潤,術后多建議常規進行膀胱內灌注治療[3]。本研究擬通過對膀胱癌基因數據庫的檢索以及應用現代高通量生物信息學分析對膀胱癌的發病機制進行深入挖掘,進而尋找到膀胱癌發病的關鍵基因以及分子通路,為新型診療標志物以及藥物治療靶點提供理論依據。
1.1 數據挖掘膀胱癌測序數據來源于GEO數據庫(www.ncbi.nlm.nih.gov/geo)。其中GSE61615包含4例樣本,分別為2例膀胱癌組織和2例癌旁正常對照組組織。GSE100926包含6例樣本,分別為3例膀胱癌組織和3例癌旁正常對照組組織。DAVID(david.ncifcrf.gov/summary.jsp)在線分析軟件對基因進行通用代碼轉換。
1.2 高通量生物信息分析對GSE61615和GSE100926的測序原始數據進行均一化處理,剔除差異表達倍數過大或過小的基因,均一化處理采用R(R i386 3.6.3)語言以及library(limma,3.26.8)包進行處理,R語言腳本詳見(www.ncbi.nlm.nih.g ov/geo/geo2r/? acc= GSE61615和GSE100926)。應用GEO2R對均一化處理后的原始數據進行差異基因處理,共同差異表達基因采用Venn(http://bioinformatics.psb.ugent.be/webtools/Venn/)分析,并應用SangerBox進行可視化處理。基因聚類分析采用MeV數據軟件進行可視化處理。全部差異表達基因輸入DAVID進行信號通路預測,隨后輸入String(string-db.org/cgi/network.pl?)分析軟件獲得蛋白互作關系信息。最后將蛋白互作關系信息輸入cytoscape軟件,應用cytohubba進行關鍵發病基因預測,預測方法選擇Degree評分。
1.3 統計學方法以差異表達倍數的絕對值≥2判別差異基因。DAVID信號通路富集基因最少為2,String蛋白互作標準為聯系>0.4,P<0.05 為差異有統計學意義。
2.1 測序數據均一化處理GSE61615和GSE100926分別含有42407個基因測序的原始數據,數據檢測結果顯示數據間離散度較大(圖1 A)。應用R(R i386 3.6.3)語言以及library(limma,3.26.8)包過濾差異表達倍數過高以及差異表達倍數過低的數據后,結果均一性較好,可供后續進行高通量生物信息學分析(圖1B)。

圖1 GEO數據庫均一化處理
2.2 差異表達基因篩選GEO2R對GSE61615進行分析后顯示263個差異上調表達基因和669個差異下調表達基因,GSE100926包含1176個差異上調表達基因和2008個差異下調表達基因。Venn分析顯示共同差異上調109個,差異下調408個,SangerBox火山圖可視化結果(圖略)。MeV數據軟件對517個共同差異表達分析,顯示基因間具有可聚類性。
2.3 膀胱癌信號通路對517個共同差異表達基因應用DAVID數據庫進行信號轉換,然后輸入DAVID數據庫進行富集分析,結果提示補體與凝血級聯通路,軸突導向,鞘脂信號通路可能是膀胱癌發病的關鍵通路(表1)。

表1 KEGG信號通路分析
2.4 膀胱癌發病基因預測將517個共同差異表達基因輸入STRING進行互作網絡分析,結果顯示482個差異基因有互作關系,互作線為1558條,富集平均評分為6.46。將差異基因互作關系輸入cytoscape軟件后,應用cytohubba計算提示IL-6(72分)為膀胱癌發病最相關基因,其余分別為PTPRC(69分),FCGR3A(52分),CD8A(51分),CSF1R(47分),ITGAX(45分),C1QA(42分),LCP2(41分),FGF2(38分),FCGR2A(37分)。聚類分析提示發病前10位基因間具有可聚類性。
膀胱癌是發病率排名第11位的癌癥。其中尿路上皮腫瘤占膀胱癌的95%,包括乳頭狀瘤、低度惡性潛能的尿路上皮乳頭狀瘤、低級別乳頭狀尿路上皮癌、高級別乳頭狀尿路上皮癌。膀胱癌發病原因目前尚不清晰,高發于50-70歲男性。每年新增43萬例,死亡16.5萬例[4]。膀胱癌的生存率主要和腫瘤TNM分期有關,5年相對生存率從Ⅰ期的98%分別下降到Ⅱ、Ⅲ和Ⅳ期的63%、46%和15%[3]。盡管手術技術有所改進,但局部復發和(或)遠處轉移的比率仍然很高,主要和膀胱癌的分子發病機制尚不明確有關。因此針對膀胱癌發病基因以及通路的研究仍需要更加深入。
生物信息學是21世紀發展的以計算機為工具對生物信息進行儲存、檢索和分析的交叉科學。生物信息學主要研究生命科學,并且是當今生命科學和自然科學的重大前沿領域之一,同時也將是21世紀自然科學的核心領域之一[5]。其研究重點主要體現在基因組學和蛋白質組學兩方面,從核酸和蛋白質序列出發,分析序列中表達的結構功能的生物信息。隨著測序成本的不斷降低,大量的生物學數據呈現指數倍增長。如何利用生物信息學高效的處理海量數據將搶占后基因組時代的先機。
既往有研究利用生物信息分析對膀胱癌的核心基因進行預測,但所得到的結果各不相同[6-7]。原因可能和不同的數據庫之間數據離散度較大有關,而且測序結果受到不同的人種、年齡、性別以及基礎疾病等多方面影響。因此在進行生物信息分析之前,必要的數據矯正勢在必行。本研究通過對膀胱癌測序原始數據進行均一化處理發現,未均一化前,數據間離散度較大(圖1A),而均一化處理后,數據間離散度明顯減少,使得后續生物信息分析結果更加可靠。另外本研究同時選取膀胱癌的2個測序結果進行融合分析,從而避免樣本之間差異造成的數據偏倚,最終鎖定IL-6為膀胱癌的核心發病基因。
IL-6是一種多效性細胞因子,可調節多種病理生理學過程,包括代謝、炎癥和免疫反應[8]。經典信號的激活需要IL-6與其受體(IL-6R)結合,誘導信號轉導分子和轉錄激活因子3(STAT3)的磷酸化,STAT3二聚化并移位到細胞核中進而調節靶基因轉錄。有研究提示IL-6在腫瘤中呈現過度表達,并且在促進腫瘤轉移中起著關鍵的作用[9-11]。在mRNA和蛋白質水平上,IL-6在膀胱癌組織中過度表達,且IL-6水平升高與更高的臨床分期、治療后更高的復發率和更低的生存率相關[12]。既往研究發現IL-6在膀胱癌原代培養細胞以及細胞系(HT1376 and HT1197)中呈現高表達趨勢[13],而在肌層浸潤性膀胱癌組織標本中表達更加豐富[14]。IL-6在臨床上可作為膀胱癌患者宿主免疫的替代標志物[15]。并且過度激活的IL-6可以導致膀胱癌患者免疫功能紊亂[16]。因此IL-6在膀胱癌的發生、發展以及局部侵襲等病理生理過程中發揮重要作用,這與本研究生物信息分析結果類似。而本文是首次通過高通量生物信息學,結合膀胱癌基因測序以及融合分析提出IL-6在膀胱癌發病過程中起著關鍵作用,更加驗證了既往對IL-6在膀胱癌發病過程中的重要作用的猜想。
綜上,本研究通過融合膀胱癌患者基因測序結果以及利用高通量生物信息學分析,預測IL-6在膀胱癌發病過程的核心基因,而補體與凝血級聯通路可能為膀胱癌發病中的信號通路。IL-6可能成為膀胱癌診斷血清標志物以及新的治療靶點。