黃可馨,羅 丹,王慧豐,魏銀鋒,華毅明,謝 博,羅海瓊△,陳慶鋒
(廣西醫科大學 1.信息與管理學院;2.生命科學研究院;3.基礎醫學院,南寧 530021;4.廣西大學計算機與電子信息學院,南寧 530004)
前列腺癌是一種惡性腫瘤,常見于歐美等西方國家。近年來,由于生活水平,醫療水平的提高,飲食結構西化以及前列腺癌早期診斷方法的進步,前列腺癌在我國的發病率及死亡率呈現快速增長的趨勢[1]。前列腺癌發生發展機制的不明確給前列腺癌的治療帶來很大困難,常規的治療手段如內分泌治療、化學治療等方法主要以改善臨床癥狀,提高患者生活質量為主[2]。目前還沒有能從根本上治療前列腺癌的方法。細胞色素P450(cytochrome P450,CYP450)是一種以鐵原卟啉為輔基的B 族細胞色素,因其還原態與一氧化碳(CO)作用后形成的復合物在450 nm 波長處產生特異吸收峰而命名。細胞色素CYP450酶在很多前致癌物和抗癌物質的代謝活化和代謝消除中發揮著重要作用[3]。
近年來,國內外學者運用生物信息學技術對前列腺癌相關數據進行研究,從核酸和蛋白質層面分析蘊含在其中的結構功能信息。迄今為止,作為世界上最大的存儲高通量分子數據的公共數據庫GEO已收錄了205萬個樣本的數據,涉及16億個基因表達豐度數據,涵蓋500多種生物體,廣泛覆蓋各種生物學內容[4]。本研究通過GEO 的基因數據集,篩選在藥物代謝細胞色素P450 通路和細胞色素P450 對外來異物的代謝通路上共同的差異表達基因,并進一步進行生物信息挖掘,為前列腺癌的發生機制的研究提供依據。
1.1 基因表達數據 National Center for Biotechnology Information 又稱NCBI,GEO 數據庫全稱Gene Expression Omnibus,是由美國國立生物技術信息中心NCBI 創建并維護的基因表達數據庫。NCBI-GEO(https://www.ncbi.nlm.nih.gov/geo/)是一個免費的微陣列/基因圖譜公共數據庫。通過GEO數據庫搜索prostate cancer(查詢日期:2020 年10 月16日),篩選來自臨床的樣本,然后就可獲取到臨床的前列腺癌樣本數據。本課題組查找獲得了GSE46602[5]、GSE32571[6]和GSE70768[7]3 個數據集并進行分析。GSE46602、GSE32571 和GSE70768的微陣列數據基于GPL570 平臺、GPL6947 平臺和GPL10558 平臺,其中包括3 個數據集分別為36 例前列腺癌組織(prostate cancer,PCa)和14 例癌旁組織,138例PCa組織和118例良性組織,126例PCa組織和73例良性組織。
1.2 前列腺癌數據的處理 本研究以前列腺癌組織為實驗組,良性組織為對照組,通過GEO2R分析工具對PCa標本與正常前列腺標本之間的差異表達基 因(difference expression genes,DEGs)進行篩選[8]。當P<0.05時具有統計學意義,且該值越小越好。FC(fold change)表示兩樣本間表達量的比值,一般默認取絕對值大于1 為差異基因的篩選標準,因為樣本量較小,所以把范圍縮小到-0.5 到0.5 之間[9]。log2FC小于-0.5的基因是下調基因,在腫瘤組織中屬于低表達,大于0.5就是上調基因,因此將篩選條件調整為P<0.05 且|log2FC|>0.5。通過篩選得到共同表達在藥物代謝—細胞色素P450 通路和細胞色素P450對外來異物的代謝通路的DEGs。
1.3 關鍵基因的篩選 將篩選所得的DEGs 導入String在線數據庫(https://string-db.org/)獲得蛋白質網絡互作圖,運用Cytoscape 3.8.0進行可視化分析,利用Cytoscape 插件MCODE 獲取顯著相互作用模塊,設置參數為MCODE scores>7、Degree cutoff=2、Node score cutoff=0.2、K-score=2、Max.depth=100。
1.4 GEPIA 分析 GEPIA 數據庫是基于利用TCGA 數據做可視化分析的工具,通過獲取TCGA 中DEGs相關臨床數據分析比較關鍵基因在腫瘤組織與正常組織的差異,P<0.01,Fold Change>1,被認為差異有統計學意義。
1.5 UALCAN分析 Gleason分級是一種被廣泛采用的前列腺癌組織學分級的方法,Gleason評分是根據腺體分化程度按5 級評分,分數越高腺體分化程度越低。為驗證基因mRNA 表達與PCa 患者臨床病理參數的關系,利用UALCAN(http://ualcan.path.uab.edu/)分析前列腺癌組織中6 個DEGs 的mRNA表達(查詢日期:2020年10月29日)。采用t檢驗比較轉錄表達差異,以P<0.05 為差異有統計學意義。分析6 個基因的mRNA 表達與前列腺癌Gleason 分級是否有相關性,具有明顯相關性時可以認為基因mRNA 的表達差異與不同Gleason 分級有關,這6個基因在臨床治療中就有意義。
1.6 人類蛋白質圖譜數據庫(the human protein atalas,HPA)分析 在驗證了前列腺癌中DEGs 的mRNA 表達后,學者試圖通過HPA[10](https://www.proteinatlas.org/)探索前列腺癌中6 個DEGs 的蛋白表達(查詢日期:2020 年11 月2 日),利用HPA 篩選獲得在前列腺癌組織中差異表達的蛋白。
1.7 實時熒光定量PCR(RT-qPCR)實驗驗證 本實驗采用羅氏High Pure Viral RNA Kit 提取前列腺癌旁組織正常細胞RWPE-1,以及前列腺癌細胞DU145、C4-2、LNCaP的總RNA,參照反轉錄試劑盒得到cDNA,然后以cDNA 為模板進行RT-qPCR 擴增反應。嚴格按照SYBR Green RT-qPCR試劑盒進行操作,反應體系:SYBR Premix ExTaq Ⅱ(2×)10 μL,cDNA 1 μL,10 μmol/L 上、下游引物各0.8 μL,dH2O 補足體系至20 μL;反應條件為:95 ℃10 min,循環1次;95 ℃15 s,61 ℃60 s,72 ℃10 s,共循環40次。GSTM1、GSTM5、GSTP1以GAPDH為內參,采用2-△△CT法計算GSTM1、GSTM5、GSTP1的相對表達量。根據NCBI 中GSTM1、GSTM5、GSTP1的序列號(Gene ID:2944、Gene ID:2949和Gene ID:2950),利用Primer primer 5.0 軟件進行引物設計,均由上海生工生物公司合成,引物序列見表1。

表1 引物序列
1.8 統計學方法 所有數據采用SPSS 21.0 統計軟件進行統計處理,計量資料以均數±標準差()表示,多組比較采用完全隨機設計的方差分析,以P<0.05為差異有統計學意義。
2.1 前列腺癌中差異表達基因的篩選 本研究選擇3 個基因表達譜系列(GSE46602、GSE32571 和GSE70768),共有300個PCa組織和205個正常前列腺組織。通過GEO2R 工具,對從GSE46602、GSE32571、GSE70768 中提取了5628、5559 和9515個DEGs分析,獲得368個差異表達基因,見圖1。

圖1 差異表達基因維恩圖
2.2 多套公共數據的差異整合分析 本研究選擇3 個基因表達譜系列(GSE46602、GSE32571 和GSE70768),篩選在藥物代謝—細胞色素P450通路和細胞色素P450 對外來異物的代謝通路上共同差異表達的基因。在藥物代謝—細胞色素P450 通路上的差異表達基因有ALDH3B2、FMO5、GSTP1、CYP3A5、GSTM1、GSTM5、GSTM2、AOX1、MGST3,在細胞色素P450 對外來異物的代謝通路上的基因有ALDH3B2、GSTP1、CYP3A5、GSTM1、GSTM5、GSTM2、MGST3。在藥物代謝—細胞色素P450 通路和細胞色素P450 對外來異物的代謝通路上共同表達的差異基因包括ALDH3B2、GSTP1、CYP3A5、GSTM1、GSTM5、GSTM2、MGST3。
2.3 PPI 模塊的分析 通過Cytoscape 獲得顯著相互作用模塊(圖2),包含7個節點、21條邊,7個關鍵基因分別為ALDH3B2、GSTP1、CYP3A5、GSTM1、GSTM5、GSTM2、MGST3。結果顯示,在細胞色素P450相關通路上共同表達的7個DEGs之間具有相互作用的關系。

圖2 PPI模塊的分析結果
2.4 共同差異表達基因的TCGA 數據的驗證 為了進一步驗證以上獲取的P450 相關通路的基因表達,本課題組進一步在TCGA 樣本中進行驗證。GEPIA法即基因表達譜數據動態分析,是一個新開發的用于癌癥和正常基因表達譜分析和交互分析的web服務器[11]。GEPIA是利用TCGA數據做可視化分析中比較著名的一款在線工具,它可以檢測同時富集在藥物代謝—細胞色素P450 通路和細胞色素P450 對外來異物的代謝通路的7 個基因(ALDH3B2、GSTP1、CYP3A5、GSTM1、GSTM5、GSTM2、MGST3)在前列腺癌組織和正常前列腺組織中的表達水平。結果顯示,與正常前列腺組織相比,7個基因中有6 個基因(ALDH3B2、CYP3A5、GSTM1、GSTM2、GSTM5、GSTP1)在正常組織與前列腺癌組織中的表達比較,差異均有統計學意義(均P<0.05),見 圖3,而MGST3基因的表達差異無統計學意義(P>0.05)。

圖3 共同差異表達基因的TCGA數據的驗證結果
2.5 mRNA 表達與臨床病理參數的關系 為了驗證基因的mRNA 表達在前列腺癌治療中的臨床意義,采用Ualcan[12]對6 個基因(ALDH3B2、CYP3A5、GSTM1、GSTM2、GSTM5、GSTP1)的mRNA 表達與前列腺癌Gleason分級是否有相關性進行評估。結果顯示,6個基因的mRNA表達與Gleason分級明顯相關,并且隨著Gleason 評分的升高,除ALDH3B2外,所有mRNA 表達量有不斷降低的趨勢。在6 個基因中,低分化的前列腺癌都傾向于有更低的mRNA 的表達,在Gleason 評分為10 的低分化前列腺癌中尤為明顯,見圖4。

圖4 mRNA表達與臨床病理參數的關系
2.6 蛋白表達 將6 個DEGs 導入人蛋白網絡圖譜,選擇前列腺癌組織,獲得3 個DEGs 在前列腺癌組織中表達的蛋白,包括GSTM1、GSTM5、GSTP1,這些來自前列腺癌臨床數據的蛋白在正常前列腺組織和前列腺癌組織中均有表達,見圖5。GSTM1、GSTM5、GSTP1 均在正常前列腺組織中高表達,而在前列腺癌組織中則可以觀察到它們的中等表達和不表達。由此結果顯示,在前列腺癌患者中GSTM1、GSTM5、GSTP1的蛋白質表達為低表達。

圖5 GSTM1、GSTM5、GSTP1蛋白表達情況
2.7 RT-qPCR 檢測結果 基于運用RT-qPCR 驗證3 個關鍵差異基因(GSTM1、GSTM5、GSTP1)的mRNA表達情況。與前列腺癌旁正常細胞RWPE-1相比,GSTM1和GSTP1在不同的前列腺癌細胞(DU145、C4-2、LNCaP)中mRNA 表達下降。前列腺癌細胞和癌旁正常細胞表達水平比較,差異均有統計學意義(均P<0.05),GSTM5 在DU145 細胞株中的mRNA 表達差異具有統計學意義,而在C4-2、LNCaP 中的mRNA 表達雖然下降但差異并無統計學意義(P>0.05),見圖6。

圖6 RT-qPCR檢測結果
通過NCBI 數據庫收集到前列腺癌的GSE46602、GSE32571、GSE707683 個數據集,共獲得300 份前列腺癌組織數據和205 份正常組織數據。運用GEO2R工具對3個數據集進行分析,得到P<0.05的差異表達基因。運用GEPIA對富集在藥物代謝—細胞色素P450和細胞色素P450對外來異物的代謝通路的7 個基因進行箱式圖分析,其中有6 個基因在前列腺癌中的差異表達具有統計學意義。研究表明,細胞色素P450同工酶被認為是前列腺癌治療和預防的潛在指標[13]。對富集在藥物代謝—細胞色素P450通路和細胞色素P450對外來異物的代謝通路的基因進行研究,有可能獲得前列腺癌治療相關的潛在靶點。根據這6 個基因的Gleason分級研究與臨床病理參數之間的關系,再通過HPA數據庫分析6 個差異表達基因,最后得到有3 個差異表達基因在前列腺癌中表達。采用RT-qPCR 技術驗證前列腺癌細胞株中3 個差異表達基因(GSTM1、GSTP1、GSTM5基因)mRNA的表達水平,結果表明,與RWPE-1 相比,GSTM1和GSTP1差異表達基因在不同的前列腺癌細胞(DU145、C4-2、LNCaP)中基因表達下降(P<0.05),GSTM5差異表達基因雖然在不同的前列腺癌細胞中基因表達下降但差異并無統計學意義(P>0.05)。
GSTM1編碼谷胱甘肽S-轉移酶M 1蛋白,它是前列腺癌的風險因素之一。與正常組織相比,在前列腺癌組織中低表達。通過KEGG 分析得到GSTM1在多個通路富集,主要包括藥物代謝—細胞色素P450,藥物代謝—其他酶,細胞色素P450對外來物質的代謝作用等通路。GSTM1 富集的藥物代謝相關的細胞色素P450通路與前列腺癌有關,并且細胞色素P450 家族的CYP3A4 和CYP3A5 在前列腺癌細胞中的表達降低[14]。由此可猜測GSTM1 有可能在細胞色素P450 代謝通路參與表達并進而影響前列腺癌的發生發展。
GSTP1、GSTM5都可以編碼谷胱甘肽S-轉移酶pi 1,谷胱甘肽S-轉移酶(GST)是一類酶,通過催化許多疏水性和親電子化合物與還原型谷胱甘肽的結合,在排毒中起重要作用,在細胞凋亡,增殖,分化中也起著重要作用。研究顯示,GSTP1的低表達與前列腺癌生物標志物c-myc 的高表達有關,GSTP1的過表達通過靶向c-myc對前列腺癌有保護作用[15]。GSTM5參與前列腺癌的生物學過程,在前列腺癌的進展中起關鍵作用。相比于正常組織,在前列腺癌中GSTP1低表達,屬于下調基因。GEPIA分析顯示GSTP1,GSTM5 在前列腺癌中的差異表達具有統計學意義(P<0.05)。經過RT-qPCR 技術驗證,得出GSTM5 雖然在不同的前列腺癌細胞中基因表達下降但差異無統計學意義(P>0.05)。關于與前列腺癌發生發展機制有關的研究較少,有潛在的研究價值。
基于生物信息學分析的研究發現,GSTM1、GSTP1、GSTM5基因在前列腺癌的發生發展過程中起著重要作用,其在前列腺癌中的低表達預示著它們有望成為前列腺癌的治療靶點。雖然本研究最終得到部分差異表達基因,通過研究差異基因的表達可以初步了解前列腺癌的發生,但是對于研究前列腺癌復雜的發生發展過程還需要繼續進行其他體外實驗驗證,之后才能為前列腺癌的診斷、治療、預后提供確實有效的研究依據。