李耀威 壽堅(jiān) 陳龍
卵巢癌(ovarian cancer,OC)是導(dǎo)致婦科惡性腫瘤患者死亡的主要原因,75%OC病理類(lèi)型系上皮性來(lái)源,卵巢上皮性癌(epithelial ovarian carcinoma,EOC)患者的生存率近年來(lái)未明顯提高[1],鑒定敏感且切實(shí)有效的生物標(biāo)志物對(duì)實(shí)現(xiàn)早期診斷或有效預(yù)測(cè)EOC 患者的臨床預(yù)后有重要的現(xiàn)實(shí)意義。lncRNA是一類(lèi)長(zhǎng)度超過(guò)200個(gè)核苷酸的非編碼RNA,越來(lái)越多證據(jù)表明lncRNA 起著癌基因、抑癌基因或兩者兼?zhèn)涞淖饔茫?-4]。然而,大多數(shù)lncRNA 的表達(dá)模式、生物學(xué)功能和臨床意義仍不甚清楚。本研究對(duì)在OC 患者中表達(dá)異常lncRNA 相關(guān)聯(lián)的蛋白質(zhì)編碼基因(protein coding gene,PCG)進(jìn)行生物信息學(xué)分析,以期對(duì)lncRNA 在參與OC 致病、進(jìn)展、預(yù)后等方面機(jī)制增進(jìn)了解,進(jìn)而為后續(xù)實(shí)驗(yàn)設(shè)計(jì)提供線索。
1.1 獲取OC 組織中與lncRNA 共表達(dá)且差異表達(dá)的基因(1)差異表達(dá)mRNA 芯片數(shù)據(jù)的獲取:①在美國(guó)國(guó)立生物技術(shù)中心(NCBI)的Gene Expression Omnibus(GEO)數(shù)據(jù)庫(kù)中檢索與OC 相關(guān)的mRNA 表達(dá)譜芯片數(shù)據(jù)集(檢索條件:研究類(lèi)型為expression profiling by array、種屬為homo sapiens、病例和對(duì)照樣本數(shù)目均≥10 例、時(shí)間為自建庫(kù)至2022 年12 月31 日),隨后下載符合納入條件的mRNA 表達(dá)譜芯片數(shù)據(jù)集備后續(xù)分析。②R/Bioconductor 中的Limma 軟件包(3.36.5 版)用于識(shí)別OC組織和正常卵巢上皮組織之間的差異表達(dá)基因(DEG)。使用Benjamini 和Hochberg 提出的偽發(fā)現(xiàn)率(FDR)得到調(diào)整后P值糾正偽陽(yáng)性結(jié)果。P<0.05和|log2(FC)|>1 設(shè)置為差異基因的納入標(biāo)準(zhǔn)[注:FC表示差異倍數(shù)(fold change)]。根據(jù)下載的平臺(tái)注釋文件匹配矩陣文件中的原始探針數(shù)據(jù)為基因名稱(chēng),通過(guò)最小P 值選擇同一基因?qū)?yīng)的多個(gè)探針的表達(dá)值作為該基因的表達(dá)值。(2)在OC 組織中與lncRNA 共表達(dá)基因的獲取。①利用關(guān)鍵詞“l(fā)ong non-coding RNA”、“l(fā)ong noncoding RNA”、“l(fā)ncRNA”、“ovarian cancer”、“ovarian carcinoma”、“ovarian neoplasm”、“ovarian tumor”、“ovarian tumors”、“ovarian tumour”、“ovarian tumours”、“ovarian malignancy”通過(guò)計(jì)算機(jī)及手工檢索Medline/PubMed、EMBASE、Web of Knowledge 數(shù)據(jù)庫(kù),檢索時(shí)間從建庫(kù)至2022 年12 月31 日。查找來(lái)源于OC 患者、經(jīng)過(guò)實(shí)驗(yàn)證實(shí)表達(dá)異常且明確已知其序列及結(jié)構(gòu)等注釋信息的lncRNA 納入分析。②利用perl 語(yǔ)言及R 語(yǔ)言平臺(tái)使用皮爾森相關(guān)系數(shù)和z-test 檢驗(yàn)?zāi)繕?biāo)lncRNA 的表達(dá)水平與每個(gè)PCG 之間的相關(guān)性。與目標(biāo)lncRNA 正或負(fù)相關(guān)的PCG 被視為與lncRNA 相關(guān)的PCG(| pearson correlation|> 0.4,P<0.01 為判定標(biāo)準(zhǔn))。(3)通過(guò)Venny 2.1.0 在線工具,取相關(guān)芯片數(shù)據(jù)差異基因(A)與lncRNA 共表達(dá)相關(guān)基因(B)的交集即獲得OC 組織中與lncRNA 共表達(dá)且差異表達(dá)的PCG。
1.2 生物學(xué)功能及通路富集分析 利用在線數(shù)據(jù)庫(kù)DAVID 中GO 和KEGG 進(jìn)行生物功能及通路富集分析,F(xiàn)DR<0.05 判定為有統(tǒng)計(jì)學(xué)意義。
1.3 PPI 網(wǎng)絡(luò)構(gòu)建 及hub gene 確 定 PPI 網(wǎng)絡(luò)由STRING 數(shù)據(jù)庫(kù)構(gòu)建,并使用Cytoscape 進(jìn)行可視化處理。Hub gene 是在生物學(xué)過(guò)程中發(fā)揮至關(guān)重要作用的基因,在相關(guān)通路中,其他基因的調(diào)控常受該基因的影響,PPI 網(wǎng)絡(luò)中degree ≥10 判定為hub gene 的納入標(biāo)準(zhǔn)。
1.4 Module 分析 使用Cytoscape 軟件MCODE 軟件包進(jìn)行module 分析,設(shè)定degree cutoff=2,node score cutoff=0.2,k-core=2,and max.depth=100。使用DAVID對(duì)module 中的DEG 進(jìn)行GO 分析及KEGG 通路富集分析。
1.5 對(duì)hub gene 進(jìn)行生存分析 OncoLnc 是與mRNA、miRNA 或lncRNA 的表達(dá)數(shù)據(jù)相關(guān)聯(lián)的可用于生存分析的在線工具。
2.1 OC 組織中與lncRNA 共表達(dá)且差異表達(dá)基因的獲得(1)OC 組織中差異表達(dá)基因的獲得:由GEO 數(shù)據(jù)庫(kù)獲得GSE14407 和GSE18520 兩個(gè)mRNA 表達(dá)譜芯片數(shù)據(jù)集。GSE14407 和GSE1852 芯片數(shù)據(jù)集分別由12、53 個(gè)上皮性O(shè)C 組織和12、10 個(gè)正常卵巢上皮組織構(gòu)成。從GSE14407、GSE18520 數(shù)據(jù)集中分別識(shí)別出2328 和9590 個(gè)DEG。(2)lncRNA 數(shù)據(jù)的獲得:通過(guò)檢索文獻(xiàn)共獲得9 種lncRNA(分別是LINC01088[5]、SNHG3[6]、SPRY4-IT1[7]、CPS1-IT1[8]、CDKN2BAS1(又 名ANRIL)[9]、MALAT1[10]、FAM215A[11]、LINC00472[11]和HOTAIR[12],以上均已知序列及結(jié)構(gòu)等注釋信息)供作者進(jìn)行生物信息學(xué)分析研究。利用皮爾森相關(guān)系數(shù)和z-test 檢驗(yàn)9 種lncRNA 的表達(dá)水平與每個(gè)PCG 之間的相關(guān)性后發(fā)現(xiàn),9 種lncRNA 共表達(dá)的PCG 數(shù)目(去重后)總和為15,965 個(gè)。(3)利用在線工具venny 將GSE18520、GSE14407 數(shù)據(jù)集所得DEG同與lncRNA 共表達(dá)的PCG 取交集得到與lncRNA 共表達(dá)且屬差異表達(dá)的基因共1,421 個(gè)。
2.2 與lncRNA 共表達(dá)且屬差異表達(dá)基因的生物學(xué)功能分析 GO分析發(fā)現(xiàn)許多共表達(dá)差異基因參與了DNA replication、cell division、cell proliferation、extracellular exosome 及protein binding 等功能富集過(guò)程;KEGG 分析發(fā)現(xiàn)在這些共表達(dá)基因中有49 個(gè)基因參與了pathways in cancer 信號(hào)通路。見(jiàn)表1。

表1 與lncRNA共表達(dá)的差異表達(dá)基因的GO及KEGG分析
2.3 PPI 網(wǎng)絡(luò)構(gòu)建和hub gene 確定及互作分析 經(jīng)PPI網(wǎng)絡(luò)構(gòu)建后,滿足與lncRNA 共表達(dá)且屬差異表達(dá)基因的PPI 網(wǎng)絡(luò)由979 nodes 和5,060 edges 組成。隨后篩選出滿足條件的hub gene 共274 個(gè)。
2.4 Module 確定和功能富集分析 用Cytoscape 軟件中的MCODE 應(yīng)用程序分析互作網(wǎng)絡(luò)后,獲得2 個(gè)重要module,標(biāo)記為module 1 和module 2,分別包括46、35個(gè)nodes 和917、290 個(gè)edges。對(duì)module 1 進(jìn)行GO 分析表明,這些基因參與cell cycle、cell division、ATP binding、nucleoside binding、nucleotide binding、microtubule motor activity 等生物學(xué)過(guò)程;KEGG 分析發(fā)現(xiàn)參與Cell cycle及Oocyte meiosis 信號(hào)通路。對(duì) module 2 進(jìn)行GO 分析表明,這些基因參與modification-dependent macromolecule catabolic process、modification-dependent protein catabolic process、cellular protein catabolic process、protein ubiquitination、ubiquitin-protein ligase activity、actin binding 等生物學(xué)過(guò)程,KEGG 分析表明參與Ubiquitin mediated proteolysis 信號(hào)通路。
2.5 hub gene 表達(dá)水平對(duì)OC 患者總體生存情況的影響 由于hub gene 在生物學(xué)過(guò)程中發(fā)揮至關(guān)重要作用,在相關(guān)通路中,其他基因的調(diào)控常受到hub gene 影響,因此,檢驗(yàn)hub gene 與OC 患者預(yù)后轉(zhuǎn)歸情況有重要臨床意義。利用OncoLnc 評(píng)估了所得的274 個(gè)hub gene與OC 患者預(yù)后相關(guān)性的情況,結(jié)果發(fā)現(xiàn)高表達(dá)水平的CDCA3、IQGAP1、BTRC、UBR4、FBXL3、FGF2、SYT1、TRIM4、REPS1、AGFG1、PCNT、POLK、PTGER3和QKI 與OC 患者的總體生存率(OS)降低顯著相關(guān)(P<0.05);低表達(dá)水平的EXO1、MCM3、POLR2D、ANAPC11、SPC24、KLHL25、LSM4、PUF60 和EIF3M與OC 患者的OS 降低顯著相關(guān)(P<0.05)。
據(jù)相關(guān)統(tǒng)計(jì)表明,大約70%的OC 患者在首次明確診斷時(shí)已屬腫瘤晚期(III 或IV 期),其5 年生存率<30%;然而,能早期(I 或II 期)明確診斷的患者5年生存率高達(dá)70%~90%[13],故開(kāi)發(fā)敏感且可靠的生物標(biāo)志物以早期診斷OC進(jìn)而制定有效防治策略具有重要意義。相關(guān)研究表明異常表達(dá)的lncRNA 與包括OC 在內(nèi)的惡性腫瘤的發(fā)生、耐藥及診斷預(yù)后密切相關(guān)[14-15]。
在本研究中,作者對(duì)已發(fā)表的有關(guān)OC 患者異常表達(dá)lncRNA 相關(guān)文獻(xiàn)進(jìn)行分析,得到目前已知序列及結(jié)構(gòu)等注釋信息的lncRNA 共9 種,隨后通過(guò)與GSE14407、GSE18520 數(shù)據(jù)集取交集獲得在OC 組織中與上述差異lncRNA 相關(guān)的差異表達(dá)基因共1,421 個(gè)。這些差異基因由478 個(gè)上調(diào)基因和943 個(gè)下調(diào)基因組成。這些差異基因在細(xì)胞組成(CC)方面主要富集在細(xì)胞質(zhì)、核質(zhì)、中間體、微管、細(xì)胞骨架、細(xì)胞膜、有絲分裂核分裂、細(xì)胞核和溶酶體膜等部位;在生物學(xué)過(guò)程(BP)方面主要富集在DNA 復(fù)制、細(xì)胞分裂、細(xì)胞增殖和胞外外泌體等過(guò)程;在分子功能(MF)方面主要富集在蛋白質(zhì)結(jié)合過(guò)程。KEGG 分析提示49 個(gè)差異表達(dá)基因(上調(diào)18 個(gè),下調(diào)31 個(gè))參與了Pathways in cancer 通路。隨后,從PPI 網(wǎng)絡(luò)中篩選出hub gene 274個(gè);經(jīng)OncoLnc 在線工具分析這些hub gene 與OC 患者的生存預(yù)后相關(guān)性后發(fā)現(xiàn),14 個(gè)基因的高水平表達(dá)和9 個(gè)基因的低水平表達(dá)與OC 患者的不良OS 結(jié)局密切相關(guān)。
一些hub gene 已在其他實(shí)驗(yàn)研究中得到證實(shí)與患者的不良預(yù)后密切相關(guān)。例如,CDCA3 在各種類(lèi)型癌癥的發(fā)展中起著關(guān)鍵作用[16-17]。本研究提示,CDCA3在OC 患者中表達(dá)水平異常升高,且與OC 患者的不良預(yù)后相關(guān)(P<0.05),提示CDCA3 有望作為腫瘤預(yù)后標(biāo)志物。又如,在先前報(bào)道的OC 研究中,IQGAP1 在OC浸潤(rùn)前期的高表達(dá)水平和彌散性表達(dá)模式與不良預(yù)后顯著相關(guān),表明IQGAP1 可能是OC 的潛在預(yù)后標(biāo)志物。就目前診治水平而言,OC 的預(yù)后仍較差,這與OC 患者明確診斷時(shí)間較晚及患者并發(fā)廣泛的腹膜內(nèi)轉(zhuǎn)移密切相關(guān)。本研究中的預(yù)后分析表明IQGAP1 與OC 的OS不良預(yù)后密切相關(guān)。若進(jìn)一步深入研究其致病性、轉(zhuǎn)移等惡性生物學(xué)行為機(jī)理,則有望指導(dǎo)IQGAP1 高表達(dá)和彌散性表達(dá)患者個(gè)體化隨訪頻率并設(shè)計(jì)出更為有效的治療方法。其他hub gene,如EXO1、POLR2D、BTRC等在本研究中均提示與OC 的不良預(yù)后密切關(guān)系,但這些基因在腫瘤方面的研究報(bào)道甚少,故有進(jìn)一步研究挖掘的潛在意義。
綜上所述,與lncRNA 相關(guān)聯(lián)的hub gene 的異常表達(dá)與OC 患者的不良OS 預(yù)后密切相關(guān),一些hub gene如MCM3、CDCA3、IQGAP1、KLHL25 及SPC24 等在其他實(shí)驗(yàn)研究中也已得到證實(shí),相對(duì)較多的hub gene 與腫瘤的預(yù)后相關(guān)性尚未見(jiàn)于文獻(xiàn)報(bào)道。目前關(guān)于lncRNA及其靶基因協(xié)同作用在OC 的基礎(chǔ)和臨床研究較少,故值得進(jìn)一步探究,因此,本研究對(duì)于開(kāi)展lncRNA 及與之共表達(dá)的相關(guān)基因?qū)C 的診斷、預(yù)后等實(shí)驗(yàn)生物學(xué)研究具有一定的啟示作用。下一步,本課題組將對(duì)篩選的部分差異基因進(jìn)行實(shí)驗(yàn)和臨床雙重驗(yàn)證,并將追蹤更新的芯片數(shù)據(jù)進(jìn)行生物信息學(xué)分析。