李經(jīng)蕾,侯 煒
(1.中國中醫(yī)科學院廣安門醫(yī)院,北京 100053;2.北京中醫(yī)藥大學,北京 100029)
肺癌是世界上發(fā)病率和死亡率最高的癌癥類型[1-2]。據(jù)估計,2020年肺癌將占全球癌癥的12%,約1/4 的癌癥死亡由肺癌導致,其中80%~85%的病理類型為非小細胞肺癌(non-small-cell lung cancer,NSCLC)[3-4]。由于肺癌早期癥狀不顯著,許多患者在確診時已處于晚期階段,5 年總體存活率只有19%[3,5]。肺鱗癌(lung squamous cell carcinoma,LUSC)和肺腺癌(lung adenocarcinoma,LUAD)是NSCLC 的兩大亞型。雖然LUSC 的進展速度快于LUAD,但是早期LUSC的5年生存率較高,預后相對較好,因此加強對LUSC 的早期診斷,探索更高效的治療藥物,對患者意義重大。
加權基因共表達網(wǎng)絡分析(weighted gene coexpression network analysis,WGCNA)是從全基因組表達中了解基因功能和基因關聯(lián)的一個重要方法,被用于尋找高度相關的基因模塊,并將基因模塊與臨床特征結合,以篩選網(wǎng)絡中的關鍵基因。這一方法可以用來識別潛在生物標志物或治療靶點[6]。隨著基因組測序技術和生物信息大數(shù)據(jù)的發(fā)展,學者有了更多機會了解腫瘤的發(fā)生發(fā)展機制。研究[7]表明,帶有microRNA(miRNA)反應元件的lncRNA可以作為競爭性內(nèi) 源RNA(competing endogenous RNA, ceRNA) 與mRNA 競爭結合miRNA,從而影響基因的表達水平。ceRNA 的異常調(diào)控與許多腫瘤有關,如肺癌[8]、乳腺癌[9]、胃癌[10]等。
中醫(yī)藥在防治肺癌方面具有獨特優(yōu)勢。但由于中藥成分復雜,靶點多,目前的作用機制尚不清楚。故以網(wǎng)絡藥理學為基礎,利用分子對接技術,從生物學網(wǎng)絡的角度闡釋藥物與靶點的相互作用規(guī)律和機制,這與中醫(yī)藥的整體觀念和辨證論治的理念是一致的?,F(xiàn)代中藥學認為白花蛇舌草味微苦,性甘寒,歸胃、大腸、小腸經(jīng),為清熱解毒良藥。研究表明,自白花蛇舌草提取出的化合物豆甾醇在胃癌[11]、膽管癌[12]中發(fā)揮重要作用,但在LUSC中研究較少。
本研究對腫瘤基因組圖譜(The Cancer Genome Atlas,TCGA)數(shù)據(jù)庫(https://portal.gdc.cancer.gov/)中LUSC-RNAseq 數(shù)據(jù)進行了WGCNA 分析、差異表達分析,以獲得差異共表達基因;通過基因本體(gene ontology,GO)分析、蛋白質(zhì)相互作用網(wǎng)絡(protein protein interaction network,PPI network)分析、生存分析確定關鍵基因;在此基礎上構建LUSC-ceRNA 網(wǎng)絡,通過分子對接,了解豆甾醇作用于LUSC 的機制,為進一步完善中醫(yī)藥治療LUSC 的理論體系奠定基礎。
從TCGA 數(shù)據(jù)庫中下載LUSC-RNAseq 數(shù)據(jù)(截止至2020 年9 月),該數(shù)據(jù)集中共有551 例樣本,包括502 例LUSC 組織和49 例正常組織。利用R 4.0.2-Edger 的reads 中來自于某基因每1 000 個堿基長度的reads 數(shù)(reads per kilobase per million mapped reads,RPKM)函數(shù)(RPKM=樣本映射到特定基因的外顯子上的所有的reads÷樣本的每百萬所有reads 總和×外顯子的長度,以kb 為單位)進行過濾后,共有15 143 個RPKM值的基因接受下一步分析。
共表達網(wǎng)絡促進了基于網(wǎng)絡的基因篩選方法,這些方法可用于識別候選生物標志物和治療靶點。本研究構建了TCGA-LUSC 的基因表達數(shù)據(jù)圖譜,利用R 4.0.2-WGCNA構建基因表達網(wǎng)絡,通過探索樣本間高度相關的基因模塊,將模塊與外部樣本性狀相關聯(lián),將相似的基因表達劃分為不同的基因共表達模塊。為了進一步確定共表達網(wǎng)絡中的功能模塊,計算模塊之間的模塊-特性關聯(lián)和臨床特性信息系數(shù),相關系數(shù)高的模塊被認為是與臨床特征相關的候選模塊,并被選擇用于后續(xù)分析。
為了尋找LUSC 組織與正常組織之間的差異表達基因(differentially expressed gene,DEG)和差異表達lncRNA(differentially expressed lncRNA,DEL),利用R 4.0.2-limma 在TCGA-LUSC 中 篩 選DEG 和DEL(|log2FC|≥2,校正后P<0.05)。重疊DEG和共表達網(wǎng)絡中關鍵模塊的基因獲得信度高的基因,利用R 4.0.2-Venn Diagram將其可視化為Venn圖。
通過R 4.0.2-Cluster Profiler 對Venn 圖中信度高的基因進行GO 分析(P<0.05)。GO 注釋包含生物過程(biological process,BP)、細胞組件(cellular component,CC)和分子功能(molecular function,MF),可以識別所有生物的基因和基因組的生物屬性。
利用STRING 在線工具,構建選定基因的PPI 網(wǎng)絡。選擇得分≥0.9 的基因建立網(wǎng)絡模型,通過Cytoscape(v3.8.0)可視化。通過Cytoscape-CytoHubba 尋找中樞節(jié)點,基于最大團中心性(maximal clique centrality,MCC)算法計算每個節(jié)點的MCC 值,選擇MCC值最高的10個基因作為關鍵基因。
將關鍵基因?qū)隟aplan-Meier Plotter 預后數(shù)據(jù)庫(http://kmplot.com/analysis/),以P<0.05 為標準,篩選與預后相關的基因。
miRWalk數(shù)據(jù)庫(http://mirwalk.umm.uni-heidelberg.de) 是一個綜合性的miRNA 靶基因數(shù)據(jù)庫,涵蓋TargetScan Human、miRDB、miRTarBase 等靶基因數(shù)據(jù)庫信息。利用miRWalk 篩選與關鍵基因相關的miRNA。篩選標準為:關鍵基因須同時與TargetScan Human、miRDB、miRTarBase 三個數(shù)據(jù)庫關聯(lián)?;趕tarBase(http://starbase.sysu.edu.cn/) 預測并篩選與miRNA 關聯(lián)的lncRNAs。通過Cytoscape(v3.8.0)構建ceRNA網(wǎng)絡。
通過中藥系統(tǒng)藥理學數(shù)據(jù)庫與分析平臺(Traditional Chinese Medicine Systems Pharmacology Database and Analysis Platform,TCMSP,http://tcmspw.com/tcmsp.php)檢索中藥“白花蛇舌草”,確定有效生物活性的分子(生物利用率≥30%,類藥性≥0.18);PDB 蛋白質(zhì)結構數(shù)據(jù)庫(Protein Data Bank,PDB,http://www.rcsb.org/pdb)檢索關鍵靶點蛋白,利用AutoDock Vina 對受體蛋白與配體小分子進行分子對接。AutoDock Vina 將結果以一種結合能形式輸出,通過計算受體-配體復合物的空間效果、排斥作用、氫鍵、疏水相互作用以及分子的靈活性等值綜合打分,評估其親和力,最終給出最低結合能(docking score,DS)打分,這是衡量配體是否能與受體分子有效結合的重要指標,通常DS<-7 表示二者結合性強,能值越低,二者的結合效果越強。
使用R 4.0.2-WGCNA,從TCGA-LUSC 中構建了基因共表達網(wǎng)絡,共確定了TCGA 數(shù)據(jù)集中的7 個關鍵模塊(圖1A),通過繪制模塊特征關系熱圖,確定了TCGA-LUSC 中與正常組織和腫瘤組織相關性最高的藍綠色模塊(MEturquoise)為關鍵模塊(圖1B)。

圖1 TCGA-LUSC加權基因共表達網(wǎng)絡分析
從TCGA 數(shù)據(jù)庫中鑒定出DEGs 998 個,DELs 2 217個。共表達網(wǎng)絡中,在TCGA數(shù)據(jù)集的藍綠色模塊發(fā)現(xiàn)了11 472個共表達基因。最終確定了801個信度高的重疊基因(圖2)。
GO分析(圖3)顯示,801個基因的生物過程(BP)主要在染色體分離和有絲分裂核分裂中富集。CC分析結果表明,這些基因主要涉及染色體著絲粒區(qū)域、濃縮染色體、染色體區(qū)域。MF 分析中,鈉離子跨膜轉運蛋白活性、肝素結合、糖胺聚糖結合與這801 個基因相關。

圖2 差異表達基因和共表達模塊中基因的維恩圖
基于PPI 網(wǎng)絡(圖4A),使用CytoHubba 的MCC 算法,從中選擇得分最高的10個基因(圖4B),主要包括CDC20、BUB1、CCNB2、BUB1B、CDK1、CCNB1、KIF2C、NDC80、CDCA8、CENPF基因。

圖3 801個基因的GO分析
通過分析PPI 網(wǎng)絡中10個關鍵基因的預后,繪制了不同表達水平下的Kaplan-Meier(K-M)生存曲線(圖5)。結果顯示10個關鍵基因均與預后相關(P<0.05)。
在miRWalk 數(shù)據(jù)庫中分別檢索10個關鍵基因。依據(jù)“關鍵基因須同時與TargetScan Human、miRDB、miRTarBase三個數(shù)據(jù)庫關聯(lián)”的篩選標準,CDCA8被確定為唯一符合篩選標準的關鍵基因。miRWalk數(shù)據(jù)庫同時篩選出hsa-let-7b-5p 為CDCA8 上游miRNA?;趍iRNA,通過starBase 預測到14 個與之關聯(lián)的lncRNAs(LINC00665、TMPO-AS1、AC090001.1、AF254983.1、AC007996.1、AC006206.1、AC133540.1、AL359924.1、SNHG4、 AC022075.1、 HOXA11-AS、 LINC00885、SLC9A3-AS1、 AL590666.2)。 基 于mRNA、 miRNA、lncRNA構建了LUSC-ceRNA網(wǎng)絡(圖6),通過Cytoscape(v3.8.0)可視化。
AutoDock Vina 結果顯示DS=-8.1 kcal/mol,表明CDCA8蛋白與豆甾醇化合物分子的親和力強。圖7所示氨基酸殘基Lys15、Glu94與配體小分子形成氫鍵相互作用,氨基酸殘基Arg18、Glu40、Ile74、Leu87、Lys90、Val89、Phe86、Phe93 與配體小分子形成疏水相互作用。
雖然LUSC 患者在靶向治療中廣泛獲益,但耐藥性結局難以避免,加之患者早期缺乏明顯癥狀,致使許多患者在晚期時才被確診,故患者預后普遍較差?;贚USC 的診療現(xiàn)狀,我們亟需更高效的生物標志物和更有效的治療藥物,以提升LUSC 早期診斷率和有效治療率。
本研究中,綜合生物信息大數(shù)據(jù)分析,我們在TCGA 數(shù)據(jù)庫中鑒定出801 個信度高的基因。GO 分析表明,這些基因主要富集在染色體相關區(qū)域,且與細胞增殖密切相關。此外,根據(jù)Cytoscape-CytoHubba的MCC 評分,篩選出與LUSC 相關的前10 個基因(CDC20、BUB1、CCNB2、BUB1B、CDK1、CCNB1、KIF2C、NDC80、CDCA8、CENPF),發(fā)現(xiàn)它們與LUSC的生存顯著相關。經(jīng)預測上游miRNA 及關聯(lián)lncRNA構 建 了CDCA8、hsa-let-7b-5p 與14 個lncRNAs 的ceRNA網(wǎng)絡。最后將受體蛋白CDCA8與豆甾醇配體進行分子對接,在一定程度上闡釋了中藥白花蛇舌草治療LUSC的機制,為后續(xù)藥物研究提供了新思路。

圖4 蛋白互作網(wǎng)絡和候選關鍵基因的可視化
細胞分裂在生命過程中起著重要作用[13]。許多研究表明,細胞分裂過程中的任何失調(diào)可能導致惡性腫瘤的發(fā)生[14-15]。CDCA 蛋白家族有8 個成員,即CDCA1~CDCA8。CDCA8 在有絲分裂[16]、交叉染色體分離和分裂的調(diào)控中起著重要作用[17]。CDCA8在大多數(shù)類型的腫瘤組織中高表達,在正常組織中低表達[18]。研究表明,CDCA8在調(diào)節(jié)腫瘤細胞生長過程中具有重要意義[19]。CDCA8的過度表達對肺癌和乳腺癌細胞的生長至關重要[20]。還與胰腺癌[21]、胃癌[22]和腎癌[23]患者的不良預后顯著相關。雖然CDCA8 在LUSC中的作用機制研究較少,但其與患者生存期顯著相關,可以作為腫瘤治療的潛在分子靶點和預后生物標志物,這也為后續(xù)的研究提供了新的方向。hsa-let-7b-5p 已被證實可以作為肺癌預后相關生物標志物[24]。本研究中,14 個lncRNAs 通過競爭占有細胞內(nèi)的hsa-let-7b-5p,緩沖并削減了hsa-let-7b-5p 抑制CDCA8 編碼蛋白的能力,這成為LUSC 發(fā)生發(fā)展機制中的重要一環(huán)。

圖5 關鍵基因的K-M生存曲線

圖6 LUSC-ceRNA網(wǎng)絡

圖7 受體蛋白CDCA8與豆甾醇小分子配體之間的結合模式
由于LUSC 患者早期診斷率低,耐藥結局難以避免,5 年生存率低等困擾仍未解決,中醫(yī)藥逐漸成為治療LUSC 又一選擇。中藥通過多靶點,多途徑協(xié)同影響腫瘤細胞的侵襲、發(fā)展和轉移,但由于中藥成分復雜,作用機制仍不明確。隨著網(wǎng)絡藥理學與計算機科學技術的發(fā)展,闡明中藥作用機制將成為可能。從清熱解毒藥白花蛇舌草中提取出的豆甾醇,已被證實可以通過抑制細胞遷移、細胞周期阻滯、線粒體介導的凋亡等途徑,抑制胃癌的進展[11]。豆甾醇還可通過下調(diào)Jab1 蛋白誘導人膽囊癌細胞凋亡[25]。本研究通過分子對接技術明確了白花蛇舌草中的豆甾醇與LUSC預后相關的CDCA8蛋白親和力強,其可能是白花蛇舌草抗腫瘤的主要物質(zhì)基礎,通過作用于關鍵基因CDCA8,從而干預LUSC 預后。因此豆甾醇有可能開發(fā)成具有抗腫瘤的中藥單體或先導化合物,或推進含豆甾醇的中藥應用于抗腫瘤領域。
綜上所述,本研究最終確定了CDCA8 作為LUSC的預后相關生物標志物。分子對接技術為白花蛇舌草抗腫瘤活性成分的確定和分子機制研究提供了參考,為發(fā)現(xiàn)新型抗腫瘤中藥單體和先導化合物提供了研究方向,也為進一步生物實驗驗證提供了理論依據(jù)。