黃蓓蓓,李 潔,孔 昕,葉 慶
卵巢癌是最常見的婦科惡性腫瘤,早期癥狀不明顯[1]。已有報道指出,CCNE1等基因在卵巢癌中差異表達,并可能影響腫瘤的發生、發展[2]。但是臨床仍缺乏有效的標志物用于卵巢癌的診斷、治療和預后。隨著測序技術的發展和生物信息學方法的應用,使得基于大樣本量研究卵巢癌中有效的標志物成為可能。本實驗通過對2個獨立的卵巢癌基因芯片數據進行生物信息學分析,結合公共數據集資源篩選出在卵巢癌中發揮作用的核心基因,為探究卵巢癌的分子機制和預后提供靶點。
1.1 數據集通過GEO網站(https://www.ncbi.nlm.nih.gov/geo/)獲得2個高級別卵巢癌的基因芯片數據。數據集GSE18520[3]包括53例晚期高級別原發性卵巢癌樣本和10例正常卵巢表面上皮樣本。數據集GSE26712[4]包括185例晚期高級別原發性卵巢癌樣本和10例正常卵巢表面上皮樣本。
1.2 篩選差異表達基因標準化的表達量矩陣經過對數處理后,對卵巢癌樣本和正常卵巢上皮樣本進行差異分析。2個數據集差異基因的篩選條件均為:|log2(fold change)|>1、P<0.05和矯正后P(FDR)<0.05。選取2個數據集篩選出的差異基因的交集作為后續分析中使用的差異表達基因集。
1.3 差異表達基因的功能富集分析使用Metascape[5]進行差異表達基因的GO功能富集分析。輸入的基因列表是兩個數據集重疊的差異基因。
1.4 核心基因的篩選使用STRING(版本11.5,https://
string-db.org/)對參與到“細胞外基質內”通路內且有表達差異的79個基因進行蛋白間互作分析。使用MCC算法篩選出蛋白互作網絡中排名前10的基因作為核心基因。
1.5 核心基因的蛋白互作分析通過Cytoscape(版本3.9.1)來構建核心基因的蛋白互作網絡。使用MCC打分作為節點基因的重要性指標。
1.6 生存期分析通過Kaplan-Meier Plotter[6]評估不同基因表達分組卵巢癌樣本和總體生存期之間的關聯。使用1 657 例具有生存狀態等臨床信息的卵巢癌樣本。根據基因表達水平對樣本進行三分法,取上四分位的樣本為基因高表達組,下四分位樣本為基因低表達組。
1.7 蛋白表達分析通過Human Protein Atlas[7](http://www.proteinatlas.org/)驗證核心基因的蛋白表達水平。基于染色強度和染色細胞的百分數將蛋白染色結果分為不表達、低表達、中表達和高表達。
1.8 統計學分析P值和FDR值分別采用的是未配對的學生t檢驗和Benjamini-Hochberg(BH)多重檢驗。對數秩檢驗的統計假設檢驗用于比較兩條生存曲線間的顯著性。P<0.05為差異有統計學意義。
2.1 卵巢癌中差異表達基因的篩選為得到卵巢癌差異表達基因,分別對數據集GSE18520和GSE26712進行基因表達的差異分析。GSE18520數據集篩選出3 377個差異基因,其中1 894個基因顯著上調,1 483個基因顯著下調(圖1A)。GSE26712數據集篩選出1 533個差異基因,其中588個基因顯著上調,945個基因顯著下調(圖1B)。對2個數據集篩選的差異基因取交集,獲得540個共同差異表達基因用于后續分析(圖1C)。

圖1 篩選卵巢癌差異表達基因:GSE18520數據集(A)和GSE26712數據集(B)基因表達的火山圖;紅點表示卵巢癌中高表達的基因,藍點表示在正常對照中高表達的基因;C.2個基因集差異表達基因的韋恩圖
2.2 卵巢癌樣本差異表達基因的GO功能富集分析GO富集分析結果顯示,差異基因顯著富集“GO:0031012細胞外基質”“GO:0030855上皮細胞分化”和“GO:0035239管形態發生”等生物學過程(圖2)。其中,P值最顯著的“GO:0031012細胞外基質”過程包含79個差異基因,如APOA1、CTSC、COL4A1、COMP和VCAN等。

圖2 差異表達基因的GO功能富集分析
2.3 卵巢癌中位居前10的潛在核心基因使用STRING對79個差異基因進行蛋白互作網絡構建。通過MCC算法計算各節點基因的重要性,最終篩選出MCC打分位居前10的差異基因作為潛在的核心基因(表1)。

表1 潛在核心基因的表達及MCC打分
2.4 構建卵巢癌中潛在核心基因的蛋白互作網絡使用Cytoscape對排名前10的潛在核心基因進行蛋白互作網絡構建(圖3)。COL4A1是互作網絡中具有關鍵節點作用的基因,具有最高的MCC打分,并與LAMB1、LAMA4、COL15A1、LAMC1和COL4A2基因間有著較強的連接作用。這些基因共同參與了細胞外基質過程,可能與高級別卵巢癌的腫瘤轉移、侵襲等生物學過程相關。

圖3 前10個核心基因的PPI網絡圖:顏色深淺代表基因重要性的MCC打分,顏色越深代表基因核心程度越高
2.5 核心基因表達對卵巢癌預后的影響為評估10個核心基因在卵巢癌中的臨床意義,使用包含1 657例卵巢癌樣本的驗證數據集計算基因表達高低與總生存期的關系。Kaplan-Meier生存曲線分析顯示,有5個基因表達與卵巢癌的預后顯著相關(圖4A~E),分別是COL4A1(P=0.014)、LAMB1(P=0.002 2)、LAMA4(P=0.035)、VCAN(P=2e-06)和COMP(P=9.5e-07)。其中,膠原蛋白COL4A1基因在PPI網絡中的重要性位居首位。經Human Protein Atlas驗證,卵巢癌組織中COL4A1蛋白表達水平顯著高于正常組織(圖5),提示其可能參與腫瘤的發生、發展進程。

圖4 Kaplan-Meier生存曲線分析核心基因COL4A1(A)、LAMB1(B)、 LAMA4(C)、VCAN(D)、COMP(E)的表達與卵巢癌患者預后的關系

圖5 Human Protein Atlas分析COL4A1在正常卵巢組織(A)和卵巢癌(B)組織組織中的表達
卵巢癌是最具侵襲性的婦科惡性腫瘤,確診時通常已發展到晚期[8]。目前,卵巢癌的標準治療仍是手術聯合化療,盡管部分患者治療后病情緩解,但卵巢癌仍然是最致命的婦科腫瘤[9]。最新研究顯示,中國人卵巢癌的5年存活率僅為47.4%[10]。
目前,越來越多的研究致力于探索新型分子標志物對卵巢癌診斷和輔助預后的影響。MSI2是造血干細胞中的重要調節因子,最新研究顯示其蛋白在卵巢癌中過表達,在腫瘤的增殖、侵襲等生物學過程中發揮作用[11]。除此之外,GPSM2、PTP1B和長鏈非編碼RNA UCA1在卵巢癌中均表現出異常表達,可作為腫瘤預后的潛在分子標志物。由于卵巢癌的癥狀模糊且大多分子特征為非特異性,使得腫瘤的篩查
較難。卵巢癌中公認的可作為治療和預后的分子標志物包括癌癥抗原125(CA125)和人附睪蛋白4(HE4)[12]。然而CA125在卵巢癌中缺乏特異性和敏感性。CA125不僅可在良性卵巢組織中表達升高,而且在多達50%的卵巢癌組織中并未檢出表達量的明顯變化[9]。因此,發掘可靠有效的分子標志物將大大推動卵巢癌領域的研究,有利于患者的預后和治療[13]。隨著測序技術和生物信息學分析算法的進步,尋找可靠的有效標志物成為卵巢癌研究領域的迫切需要。
本實驗挖掘了兩項獨立的卵巢癌基因芯片數據,通過基因表達的差異分析篩選出540個在卵巢癌中差異表達的基因。通過對差異基因進行GO功能富集分析發現,大多數基因參與卵巢癌的發生、發展有關的生物學過程,如“GO:0031012細胞外基質”、“GO:0030855上皮細胞分化”和“GO:0035239管形態發生”。通過STRING和Cytoscape對涉及“GO:0031012細胞外基質”通路內的79個基因進行蛋白互作網絡構建,使用MCC算法篩選網絡中關鍵的核心基因。使用Kaplan-Meier Plotter在線數據庫(https://kmplot.com/)獲得1 657例帶有臨床指標信息的卵巢癌樣本進行生存期分析。不同基因表達組的生存期分析結果顯示,COL4A1、LAMB1、LAMA4、VCAN和COMP 5個核心基因與卵巢癌的預后顯著相關。
近年研究顯示,COL4A1通過激活FAK-Src信號促進肝細胞癌的生長和轉移[14]。VCAN 是一種細胞外基質蛋白聚糖,是細胞外基質的重要成分。體外和體內研究結果表明,VCAN與多種腫瘤的復發和不良預后相關,可增強癌細胞的存活、侵襲與轉移[12]。COMP是轉移性乳腺癌患者的生物標志物,與患者的骨和肺轉移、循環腫瘤細胞計數相關[15]。此外,LAMB1在肝細胞癌中可通過PDGFRα介導腫瘤的進展[16]。而LAMA4上調與胰腺癌的高肝轉移潛力和較差的生存期相關[17]。在本實驗中,COL4A1作為蛋白互作網絡排名首位的核心基因,在卵巢癌中表現出了轉錄和蛋白水平的高表達,其高表達水平與不良預后相關。GO功能富集分析顯示COL4A1作為膠原蛋白的成分參與卵巢癌“細胞外基質”等通路,說明其可能影響卵巢癌的轉移、侵襲過程。
綜上,本實驗發現了影響卵巢癌發生、發展的潛在核心基因,為探究卵巢癌的分子機制、治療靶點和預后提供基礎。但這些分子標志物在卵巢癌中的特異性還有待進一步探究,需要更多的數據和實驗支持,有望推動卵巢癌的早期診斷。