黎 越 林丹丹 何曉琴 徐細明
胰腺癌是消化系統常見的惡性腫瘤之一,惡性程度極高,發生率和病死率幾乎相同,5年總生存率不足8%[1]。胰腺癌起病隱匿,早期發現率極低,確診時多處于晚期進展階段。目前胰腺癌的診治現狀不容樂觀,根治性手術切除仍是最有效的方法,但僅有20%的患者可行手術治療,術后易復發和轉移,根治性手術后的患者5年生存率也僅為25%[2]。迄今,胰腺癌的病因和確切的分子機制尚不清楚,可能涉及多個基因的表達異常。因此,尋找胰腺癌的關鍵基因對于確立早期診斷、預后標志物和治療新靶點至關重要。
近年來,隨著高通量技術的發展,基因芯片和基因測序的運用已成為研究腫瘤疾病必要且高效的方法。如今是數據共享時代,各大數據庫中擁有豐富的基因檢測和分析結果,但缺少精確、有效的數據挖掘。本研究利用生物信息學方法對胰腺癌與癌旁正常組織進行差異表達基因篩選并深入分析,旨在為胰腺癌尋找到特異的腫瘤分子標志物和藥物治療靶點。
1.數據獲取:在美國國立生物信息中心(NCBI)的GEO(https:∥www.ncbi.nlm.nih.gov/geo/)數據庫中下載全基因組表達譜數據集GSE15471進行分析,該芯片數據集基于GPL570平臺,共72例樣本,包含36例胰腺癌組織和配對的癌旁正常組織[3]。
2.數據處理及篩選:使用GEO數據庫的在線分析工具GEO2R(https:∥www.ncbi.nlm.nih.gov/geo/geo2r/)進行差異表達基因的篩選。GEO2R利用R語言程序的limma包對基因表達矩陣進行分析并用Benjamini-Hochberg方法將P值調整為錯誤發現率(false discovery rate,FDR)[4]。本研究以胰腺癌組織為實驗組,癌旁正常組織為對照組,以FDR<0.05且|log2FC|>2為標準篩選出顯著差異表達基因,其中FC為fold change即兩組間基因差異表達倍數。
3.差異表達基因的基因本體論及通路分析:DAVID 6.8數據庫(https:∥david.ncifcrf.gov/)擁有龐大的生物信息學資源,可以對基因進行基因本體論(G-ene Ontology,GO)注釋富集和《京都基因與基因組百科全書》(Kyoto Encyclope-dia of Genes and Genomes,KEGG)通路富集分析。將差異表達基因導入DAVID數據庫中,分析結果以P<0.01作為納入標準。
4.差異表達基因的PPI構建及關鍵基因篩選:通過String 10.5數據庫(https:∥string-db.org/)分析得到差異表達基因的蛋白互作網絡圖(protein protein interaction network,PPI network),本研究設定combined score≥0.4,將所得結果導入Cytoscape 3.6軟件中進行可視化分析。利用Cytoscape軟件cytoHubba插件的Betweenness法、Closeness法、Degree法分別篩選出節點中心度排名前20位的基因,再利用韋恩圖(VENNY)篩選出在3種算法中均排名前20的基因為關鍵基因。
5.關鍵基因驗證:利用GEPIA(http:∥gepia.cancer-pku.cn/)數據庫[5]對關鍵基因在胰腺癌和正常組織中的表達再次驗證,并繪制Kaplan-Meier生存曲線,分析關鍵基因表達高低與胰腺癌預后關系。
1.差異表達基因篩選結果:通過對基因芯片GSE15471分析,以FDR<0.05且|log2FC|>2為標準,共篩選到267個顯著差異表達基因,其中232個基因表達上調、35個基因表達下調(表1)。

表1 上調與下調log2 FC排名前10的差異表達基因
FDR(false discovery rate).錯誤發現率;FC(fold change).兩組間基因差異表達倍數
2.差異表達基因的GO功能富集及KEGG通路分析:利用DAVID對267個差異表達基因進行GO功能富集及KEGG通路富集分析,結果以P<0.01為納入標準,按富集基因數目排序,取前10位分析結果。GO分析結果顯示,差異表達基因的分子功能主要包括與鈣離子、肝素、整合素、膠原蛋白、蛋白酶、細胞外基質結合,影響金屬內肽酶、絲氨酸型內肽酶及其抑制劑活性;在細胞組分中,差異表達基因主要作用于細胞外區域、胞外基質、外泌體、內質網、基膜和細胞表面;差異表達基因主要涉及細胞黏附、組成細胞外基質、信號轉導、蛋白水解、炎性反應、膠原分解代謝、免疫反應、氧化還原、形成膠原纖維組織和降解細胞外基質生物學過程。KEGG通路分析顯示,差異表達基因主要與PI3K-Akt信號通路、黏著斑、細胞外基質受體相互作用、癌癥途徑、蛋白質消化吸收、阿米巴病、吞噬、血小板激活、金黃色葡萄球菌感染、補體和凝血級聯反應有關。
3.PPI網絡構建及關鍵基因篩選:將267個基因的String蛋白互作分析結果導入Cytoscape進行可視化(圖1),利用cytoHubba插件度量各節點的中心度,分別用Betweenness法、Closeness法、Degree法計算各節點的中介中心性、接近中心性、點度中心性。3種算法均排前20位的基因為關鍵基因(圖2)。總共篩選出11個關鍵基因,白蛋白(albumin,ALB)、基質金屬蛋白酶2(mat-rix metallopeptidase 2,MMP2)、表皮生長因子(epidermal growth factor,EGF)、C-X-C基序趨化因子配體8(C-X-C motif chemokine ligand 8,CXCL8)、纖維連接蛋白1(fibronectin 1,FN1)、Ⅰ型膠原蛋白α1鏈(collagen type Ⅰ α1 chain,COL1A1)、分泌型磷蛋白1(secreted phosphoprotein 1,SPP1)、基質金屬蛋白酶1(matrix metallopeptidase 1,MMP1)、整合素α2亞基(integrin subunit α2,ITGA2)、Ⅲ型膠原蛋白α1鏈(collagen type Ⅲ α1 chain,COL3A1)、C反應蛋白(C-reactive protein,CRP)。

圖1 差異基因蛋白互作圖粉紅色圖標表示上調基因;藍色圖標表示下調基因;菱形圖標為11個關鍵基因;線條粗細表示差異基因蛋白互作強度

圖2 胰腺癌關鍵基因的篩選篩選出的關鍵基因,圓圈顏色深淺表示算法的評分高低;A.Betweenness法;B.Closeness法;C.Degree法;D.在3種方法中均篩選出的胰腺癌關鍵基因
4.11個關鍵基因的驗證:GEPIA數據庫中有179例胰腺癌組織和171例正常組織,通過分析各關鍵基因的表達情況,與正常胰腺組織比較,ALB、EGF在癌組織中表達明顯下調,MMP2、CXCL8、FN1、COL1A1、SPP1、MMP1、ITGA2、COL3A1、CRP在癌組織中表達明顯上調,此與基因芯片GSE15471分析結果一致(圖3)。生存分析顯示,MMP1、ITGA2基因高表達患者的總生存期低于低表達者,差異有統計學意義(LogrankP<0.05),其他基因的分析結果差異無統計學意義(圖4)。

圖3 GEPIA數據庫關鍵基因MMP1、ITGA2表達量*P<0.05

圖4 關鍵基因Kaplan-Meier生存曲線
近年來,胰腺癌的發生率呈逐年上升趨勢,預計到2030年將位居發達國家因癌癥致死原因的第2位[6]。此外,胰腺癌早期診斷困難、侵襲性強、易復發和轉移,是所有惡性腫瘤中病死率最高的癌癥[7]。但是,目前對于胰腺癌的發病機制仍不明確。因此,從基因水平研究對于胰腺癌的診斷、治療和預后有重要意義。
本研究采用生物信息學方法對胰腺癌GSE15471芯片分析,共找到267個顯著差異表達基因,232個上調,35個下調。GO和KEGG富集分析顯示這些顯著差異基因與細胞代謝、酶活性、免疫反應、炎性反應、癌癥信號轉導等密切相關。蛋白互作分析結果可視化后篩選出11個關鍵基因,利用GEPIA數據庫再次驗證,關鍵基因表達水平與芯片分析結果一致,在胰腺癌中,ALB、EGF表達下調,MMP2、CXCL8、FN1、COL1A1、SPP1、MMP1、ITGA2、COL3A1、CRP表達上調。進一步的生存分析顯示僅MMP1、ITGA2基因的分析結果有統計學意義,MMP1、ITGA2基因是潛在的胰腺癌預后標志物。
ALB、CRP是臨床上常見的血液生化指標,Liu等[8]臨床研究發現,CRP/ALB比值升高與胰腺癌不良預后有關。Pant等[9]研究顯示,血清ALB的高低可作為胰腺癌患者接受貝伐珠單抗治療是否獲益的預測標志物,血清ALB正常的胰腺癌患者將從貝伐珠單抗治療中獲益。EGF基因編碼的表皮生長因子與EGF受體結合,使EGF受體酪氨酸磷酸化,激活下游一系列信號通路,從而導致腫瘤的發生、發展[10]。EGF基因突變使野生型基因減少,突變的EGF基因將編碼產生過多的表皮生長因子,促進胰腺癌的進展[11]。MMP2是基質金屬蛋白酶家族成員,Shen等[12]研究發現,加速MMP2 mRNA的降解能明顯抑制胰腺癌細胞的侵襲能力。CXCL8也被稱為白細胞介素8(interleukin 8,IL-8),是炎性反應的關鍵介質,在中性粒細胞募集和脫顆粒中起重要作用。CXCL8已被證實在胰腺癌中促進腫瘤血管的形成,使癌細胞的增殖和轉移能力增強[13]。Litman-Zawadzka等[14]臨床研究表明,CXCL8作為胰腺癌診斷和預后標志物的敏感度、特異性均高于CA199、CEA。COL1A1基因編碼產生膠原蛋白,是腫瘤微環境的組成成分。巴馬汀通過抑制COL1A1進而抑制谷氨酰胺介導的胰腺癌細胞與星狀細胞的相互作用,提高胰腺癌對吉西他濱的敏感度[15]。
MMP1作為基質金屬蛋白酶家族的重要成員,已被證實與多種腫瘤的發生、發展有關。胰腺癌細胞分泌IL-1α使胰腺星狀細胞產生更多的MMP1,進而使癌細胞的遷移能力增強[16]。最近的研究表明,MMP1與背根神經節的蛋白酶激活受體1(protease-activated receptors1,PAR1)結合激活AKT通路,誘導背根神經節釋放P物質(substance P,SP),SP與胰腺癌細胞的神經激肽受體1(neurokinin 1 receptor,NK1R)作用激活ERK通路,促進胰腺癌細胞的遷移和外周神經侵襲[17]。在肝癌中MMP1表達明顯上調,通過CIC-ETV4-MMP1軸促進癌細胞的增殖和侵襲[18]。卵巢癌細胞分泌的細胞外囊泡中MMP1 mRNA含量顯著增加,這與腹膜轉移密切相關[19]。
ITGA2屬于整合素家族,參與細胞黏附并介導細胞表面的信號傳導。研究證實,ITGA2的高表達與胰腺癌患者的不良預后顯著相關[20]。癌細胞的化療抵抗與遠處轉移和上皮間質轉化有關,在胃癌中HMGA2-FOXL2-ITGA2通路介導胃癌細胞的化療抵抗[21]。
FN1、SPP1、COL3A1基因在胰腺癌中暫未有相關報道,但在肝細胞癌中,FN1與細胞的生長、增殖和血管形成相關[22]。SPP1表達的高低可作為胃癌的生物學標志物[23]。miR-29抑制COL3A1的活性,調節骨肉瘤對甲氨蝶呤的耐藥性并抑制腫瘤生長[24]。
綜上所述,生物信息技術的發展與應用為胰腺癌的機制研究提供了重要的理論參考,有利于發現腫瘤分子標志物和靶向治療位點。生物信息學技術能快速、高效地挖掘大量腫瘤樣本的高通量測序結果,并結合各開放數據庫豐富的臨床資料整合分析數據,從而篩選出關鍵的差異表達基因。但是生信分析差異表達基因是基于各分析軟件系統的特定算法,有一定局限性,篩選出的關鍵基因仍需要體內體外實驗和臨床研究加以驗證。