陳超 童國俊 張建斌 沈亮 何煥鐘
食管癌是因癌癥導(dǎo)致死亡的第六大原因,5年生存率僅為19%,其中晚期食管癌患者5年生存率僅0.9%[1]。近年來,食管腺癌發(fā)病率逐年上升;在西方國家,食管腺癌已成為發(fā)病率最高的食管惡性腫瘤[2]。隨著醫(yī)療水平的發(fā)展,食管腺癌患者的預(yù)后改善仍十分有限。在復(fù)雜的腫瘤微環(huán)境下,傳統(tǒng)的單基因研究因不能揭示腫瘤基因復(fù)雜的信號傳導(dǎo)網(wǎng)絡(luò)而存在很大的局限性。隨著基因芯片、轉(zhuǎn)錄組測序(RNA-seq)技術(shù)的發(fā)展,應(yīng)用生物信息分析實現(xiàn)多個基因表達(dá)及功能研究的方法,為疾病發(fā)生、發(fā)展的機(jī)制探索提供了新思路。本研究提取癌癥和腫瘤基因圖譜計劃(TCGA)數(shù)據(jù)庫中78例具有RNA-seq的食管腺癌標(biāo)本信息,通過加權(quán)基因共表達(dá)網(wǎng)絡(luò)分析(weighted gene co-expression network analysis,WGC原NA)研究腫瘤的RNA-seq數(shù)據(jù),篩選與預(yù)后相關(guān)的模塊及樞紐基因,并根據(jù)表達(dá)譜信息構(gòu)建多個樞紐基因的共表達(dá)網(wǎng)絡(luò)關(guān)系。現(xiàn)將結(jié)果報道如下。
1.1 數(shù)據(jù)來源與預(yù)處理 9例正常食管組織和78例食管腺癌組織的基因表達(dá)數(shù)據(jù)及臨床預(yù)后數(shù)據(jù)均來源于免費(fèi)、開源的TCGA數(shù)據(jù)庫(https://cancergenome.nih.gov/)。將所有樣本的基因名轉(zhuǎn)化為標(biāo)準(zhǔn)基因名;數(shù)據(jù)的標(biāo)準(zhǔn)化處理是以正常食管組織為參照,對腫瘤標(biāo)本數(shù)據(jù)進(jìn)行歸一化處理。
1.2 共表達(dá)網(wǎng)絡(luò)的構(gòu)建和模塊的識別 利用R-3.5.1軟件運(yùn)行“WGCNA”包。為降低運(yùn)算量,筆者篩選出基因表達(dá)量方差大于所有方差四分位數(shù)的基因用于共表達(dá)網(wǎng)絡(luò)的構(gòu)建。采用樣本聚類樹方法,根據(jù)聚類圖剔除離群樣本來保證構(gòu)建穩(wěn)定的共表達(dá)網(wǎng)絡(luò)。構(gòu)建無尺度網(wǎng)絡(luò)使基因共表達(dá)網(wǎng)絡(luò)符合無尺度現(xiàn)象,以無尺度網(wǎng)絡(luò)指數(shù)(R2)=0.9作為滿足無尺度條件的標(biāo)準(zhǔn),同時根據(jù)平均連接度確定軟閾值(茁)。利用拓?fù)渲丿B(TOM)矩陣、相異常度矩陣計算基因與基因間的關(guān)聯(lián)程度[3];對基因構(gòu)建層次聚類樹圖形,采用動態(tài)剪枝法計算基因模塊顏色。計算基因模塊的特征值(ME),引入臨床信息,對ME進(jìn)行分層聚類并繪制樹狀圖,設(shè)置高度值0.25為分割線,合并相似程度較高的基因模塊,再用剪切后的模塊繪制新的聚類樹和模塊圖。
1.3 表觀數(shù)據(jù)的納入和樞紐基因的篩選 讀取、清洗臨床樣本表觀數(shù)據(jù),主要包括性別、年齡、腫瘤級別、生存時間等,將樣本與表達(dá)矩陣進(jìn)行匹配重建樣本聚類樹。計算模塊與表觀數(shù)據(jù)相關(guān)性,繪制模塊內(nèi)基因表達(dá)熱圖,根據(jù)生存時間性狀與模塊特征向量基因的相關(guān)性及P值來挖掘與該性狀相關(guān)的模塊。計算相關(guān)模塊內(nèi)基因顯著性(GS)以及基因在模塊內(nèi)的模塊隸屬度(MM),設(shè)置樞紐模塊中候選樞紐基因3個篩選標(biāo)準(zhǔn),P.GS<0.05。同時計算加權(quán)基因共表達(dá)網(wǎng)絡(luò)的權(quán)重值,篩選出權(quán)重值前200位的基因,與上述候選樞紐基因的交集為共同樞紐基因。
1.4 樞紐基因及共表達(dá)網(wǎng)絡(luò)可視化 將共同樞紐基因及基因共表達(dá)網(wǎng)絡(luò)的權(quán)重信息導(dǎo)入Cytoscape3.7.0軟件,根據(jù)互作網(wǎng)絡(luò)關(guān)系繪制樞紐基因共表達(dá)網(wǎng)絡(luò)圖。
2.1 TCGA數(shù)據(jù)庫中食管腺癌病例基本信息 本研究共納入食管腺癌患者78例,其中男67例,女11例;年齡 28.0~86.6[68.4(58.0,77.1)]歲;生存時間(634依513)d;隨訪時間(603依524)d;國際抗癌聯(lián)盟食管癌TNM分期:玉期10例,域A期9例,域B期16例,芋期33例,郁期10例。
2.2 共表達(dá)網(wǎng)絡(luò)的構(gòu)建與樞紐模塊的選擇 基因表達(dá)量方差大于所有方差四分位數(shù)的基因共9 933個,通過聚類樹刪除離群樣本14例,剩余64例食管腺癌樣本納入下一步分析。根據(jù)R2=0.9、茁=5作為標(biāo)準(zhǔn),當(dāng)茁=5時,無尺度拓?fù)渚W(wǎng)絡(luò)的R2=0.95,見圖1。引入生存時間信息,采用動態(tài)剪切法將樹剪切成不同的模塊,合并相似度較高的模塊,見圖2a(插頁)。通過模塊樣本性狀相關(guān)性熱圖,發(fā)現(xiàn)深藍(lán)色模塊與生存預(yù)后密切相關(guān),相關(guān)系數(shù)(Cor)=0.3,P=0.01,即深藍(lán)色模塊為樞紐模塊,見圖2b(插頁)。樞紐模塊中基因內(nèi)部連接度與MM相關(guān),深藍(lán)色模塊與基因顯著性相關(guān),Cor=0.61,P<0.01,見圖 3。

圖1 WGCNA的茁確定(a:不同茁下計算的無尺度網(wǎng)絡(luò)符合指數(shù);b:不同茁下計算的平均連接度;c:茁=5時連接度分布直方圖;d:茁=5時無尺度網(wǎng)絡(luò)拓?fù)錂z測)
2.3 樞紐基因確定及共表達(dá)網(wǎng)絡(luò)可視化 在深藍(lán)色樞紐模塊中,根據(jù)的標(biāo)準(zhǔn),篩選得到20個候選樞紐基因集A,再根據(jù)基因權(quán)重共表達(dá)網(wǎng)絡(luò)的權(quán)重大小篩選得到32個候選樞紐基因集B,基因集A和B的交集基因有19個,見表1。將19個基因間的權(quán)重信息導(dǎo)入Cytoscape軟件后得到基因間互作網(wǎng)絡(luò)圖,其中基因間共表達(dá)權(quán)重系數(shù)最大的3對基因分別是FOLH1和SCRG1、FOLH1和UGT2B15、FOLH1和SFTB,見圖4。

圖2 動態(tài)剪切樹與模塊樣本性狀相關(guān)性熱圖(a:確定β=5,合并相似度較高的模塊;b:引入生存時間作為樣本性狀,顯示與樣本性狀相關(guān)的模塊)

圖3 深藍(lán)色模塊中GS與MM的關(guān)系(右上角為的基因分布)

表1 19個與臨床預(yù)后相關(guān)的樞紐基因GS、MM和P.GS

圖4 樞紐基因之間的共表達(dá)網(wǎng)絡(luò)關(guān)系圖
胃食管反流、吸煙、肥胖、飲食習(xí)慣是食管腺癌的危險因素[2]。而在危險因素影響下的表觀遺傳異常修飾導(dǎo)致基因轉(zhuǎn)錄水平改變是腫瘤預(yù)后研究的基礎(chǔ)。局限于某個基因或某幾個分子的傳統(tǒng)研究方法不能全面地闡述腫瘤的發(fā)展及預(yù)后。WGCNA在2005年首先被提出,是指根據(jù)基因集的內(nèi)連性和基因集與表型之間的關(guān)聯(lián)鑒定候補(bǔ)生物標(biāo)記基因或治療靶點(diǎn)[4]。相比于傳統(tǒng)的單基因研究,WGCNA利用數(shù)千或近萬個變化最大的基因或全部基因的信息識別感興趣的基因模塊,并與表型進(jìn)行顯著性關(guān)聯(lián)分析。該方法創(chuàng)新性強(qiáng),研究結(jié)果可信度較高。近期亦有不少期刊發(fā)表了利用WGCNA的相關(guān)研究[5-7]。
本研究利用WGCNA處理78例食管腺癌標(biāo)本基因的RNA-seq數(shù)據(jù)及臨床數(shù)據(jù),通過深層次挖掘得到19個樞紐基因,并構(gòu)建了樞紐基因的共表達(dá)網(wǎng)絡(luò)。WGCNA構(gòu)建的預(yù)后相關(guān)的樞紐基因共表達(dá)網(wǎng)絡(luò)圖中,F(xiàn)OLH1與SCRG1、UGT2B15、SFTB等3個基因的共表達(dá)權(quán)重系數(shù)最高,屬于共表達(dá)網(wǎng)絡(luò)圖中的核心基因。FOLH1是一種域型跨膜糖蛋白,其分子量約為100kDa,由750個氨基酸組成[8]。FOLH1主要在前列腺、中樞及外周神經(jīng)系統(tǒng)、腎臟、小腸和腫瘤相關(guān)的新血管系統(tǒng)中表達(dá)[9],可通過谷氨酸代謝來調(diào)節(jié)葉酸的吸收[10]。有研究認(rèn)為FOLH1表達(dá)水平能評估腫瘤患者的預(yù)后,尤其在已發(fā)生腫瘤轉(zhuǎn)移的情況下;同時發(fā)現(xiàn)經(jīng)普通篩查發(fā)現(xiàn)的惡性腫瘤分級與FOLH1表達(dá)亦密切相關(guān)[11]。Chang等[12]稱FOLH1在多種惡性腫瘤的新生血管系統(tǒng)中均有表達(dá),可作為抗腫瘤新生血管生成治療的有效靶點(diǎn)。目前關(guān)于FOLH1在前列腺腫瘤中表達(dá)的研究較多[13-15],亦有FOLH1與乳腺癌[16]、非小細(xì)胞肺癌[17]等腫瘤預(yù)后有關(guān)的報道。然而,關(guān)于FOLH1在食管惡性腫瘤中表達(dá)的研究尚未見報道。根據(jù)WGCNA構(gòu)建的共表達(dá)網(wǎng)絡(luò)分析以及關(guān)于FOLH1的現(xiàn)有研究結(jié)果,筆者認(rèn)為FOLH1可能是食管腺癌中新的預(yù)后相關(guān)分子。
本研究通過WGCNA構(gòu)建加權(quán)基因共表達(dá)網(wǎng)絡(luò),初步篩選得到與食管腺癌預(yù)后相關(guān)的19個樞紐基因及其共表達(dá)網(wǎng)絡(luò)關(guān)系,為食管腺癌的治療提供新靶點(diǎn)。