李威倩,陳奕明,張文婷,蘇瑩珍,帥紅艷,Yu Xin*
(1.大理大學基礎醫學院,云南大理 671000;2.大理大學臨床醫學院,云南大理 671000;3.昆明學院醫學院,昆明 650214)
胰腺癌是發生于消化系統中惡性程度最高的腫瘤〔1〕。目前胰腺癌已成為全球第12 位常見的惡性腫瘤,是全球癌癥病死的第7 大原因,也是中國第6 大癌癥病死原因〔2〕。預計在未來30 年內胰腺癌將成為美國癌癥病死的第2 大原因〔3〕,歐洲與癌癥相關的第3 大病死原因〔4〕。因此,胰腺癌被稱為“癌癥之王”〔1,5〕。根治性手術治療是目前唯一有效的治療方法,但由于胰腺癌發病隱匿,早期難以確診,超過80 %的患者確診時已是晚期,手術治療效果不佳〔6〕。即使對早期胰腺癌患者可行根治性手術并輔以放化療和靶向治療,但大多數患者術后存在局部復發和轉移,術后5 年生存率仍不足10 %〔7-8〕。因此,有必要探索新的方法提高胰腺癌早期診斷率和改善患者的生存及預后。
目前,國內外研究人員逐漸把研究重點放到了分子靶向治療方向,尋找有效的生物標志物既有助于提高胰腺癌的早期診斷率,又有利于探索新的胰腺癌治療靶點,從而提供新的治療思路。隨著高通量基因組技術和基因芯片技術的興起,使針對胰腺癌研究的二次分析成為可能。其中,基因表達綜合(gene expression omnibus,GEO)數據庫(https://www.ncbi.nlm.nih.gov/geo/)收錄了各國研究人員及機構提交的基因表達數據,主要包括基因芯片、高通量測序數據,研究者可以在GEO 數據庫搜索已發表的論文中涉及基因表達檢測的數據。本研究旨在利用生物信息學方法對GEO 數據庫中的胰腺癌基因芯片數據集進行分析,挖掘胰腺癌的差異表達基因(differentially expressed genes,DEGs),并針對DEGs 在人胰腺癌及癌旁組織中的表達水平進行研究,為探索胰腺癌的發病機制和潛在的治療靶點提供新的線索和依據。
1.1 數據資料檢索與收集以“pancreatic cancer”或“pancreatic adenocarcinoma”為關鍵詞,在GEO 數據庫中進行檢索。納入標準:種屬“Homo sapiens”;同時具備腫瘤組織與配對正常組織。經過檢索后選擇平臺GPL15207 上的數據集GSE107610。該數據集中包含胰腺癌組織樣本39 例(GSM2872497~GSM2872551),正常組織樣本2 例(GSM2872552~GSM2872553)。
1.2 DEGs 的確定對數據集GSE107610 中的矩陣數據進行篩選,選取其中的基因ID 號及基因表達水平。利用R 語言中的“Limma”軟件包對上述數據進行分析以確定數據集中的DEGs,設定篩選條件為P<0.05,|log2FC|>1。
1.3 DEGs 的生物信息學分析利用R 語言,對篩選出的DEGs 進行GO 分析和KEGG 通路富集分析。在STRING 數據庫(http://www.string-db.org)中導入DEGs 進行分析,尋找DEGs 對應的蛋白質之間可能存在的相互作用關系,構建蛋白質-蛋白質相互作用(protein-protein interaction,PPI)網絡。將靶蛋白文件導入Cytoscape 軟件,應用“cytohubba”軟件包計算出PPI 網絡中前15 個連通性較高的蛋白質,其對應的基因為核心基因。
1.4 核心基因表達驗證經患者知情同意,選取在大理大學第一附屬醫院行胰腺癌切除術的胰腺癌患者的腫瘤組織及癌旁組織各3 例。為確認癌組織和癌旁組織的病理差異,取部分樣本,在4 %甲醛固定液中固定24 h,流水沖洗30 min,脫水透明、石蠟包埋、4 μm 連續切片,經蘇木精-伊紅染色(hematoxylin and eosin staining,HE 染色)后在光學顯微鏡下觀察組織病理表現。
篩選出4 個核心基因,通過實時熒光定量聚合酶鏈反應(polymerase chain reaction,PCR)檢測核心基因在胰腺癌組織及癌旁組織中mRNA 的表達。取部分組織樣本,使用FastPure Cell/Tissue Total RNA Isolation 試劑盒(Vazyme 公司)提取癌組織及癌旁組織中的總RNA,采用逆轉錄試劑盒(Vazyme公司)進行逆轉錄并進行實時熒光定量PCR 實驗,熒光試劑采用ChamQ Universal SYBR qPCR Master Mix(Vazyme 公司),反應條件:95 ℃10 s,60 ℃30 s。引物序列見表1。

表1 實時熒光定量PCR 引物序列
1.5 統計分析采用GraphPad Prism 8.0 軟件對數據進行統計分析,兩樣本均數的比較采用獨立樣本t 檢驗,P<0.05 為差異有統計學意義。
2.1 DEGs 的篩選對GEO 數據庫中的數據進行二次分析,篩選出與胰腺癌相關聯的潛在分子靶點。對從GEO 數據庫獲得的GSE107610 數據集進行數據分析,篩選該數據集中差異表達水平超過2倍且校正后P<0.05 的基因進行后續研究,其中上調基因17 個,下調基因54 個。見表2。

表2 胰腺癌差異表達基因的篩選
2.2 GO 分析與KEGG 通路富集分析GO 分析主要包括3 個方面:分子功能、細胞組成和生物過程,分別描述了基因產物可能行使的分子功能、所處的細胞環境以及參與的生物過程。KEGG 通路富集分析從分子水平對基因參與的高級功能和信號通路進行分析。GO 分析和KEGG 通路富集分析將微觀的DEGs 總結為宏觀的功能信息,揭示基因及其功能的關系。GO 分析結果表明,在分子功能方面,DEGs 主要集中在調控乙醇脫氫酶、轉運蛋白、視黃醇結合蛋白等的活性;在細胞組成方面,DEGs 主要表達在細胞外間隙、血小板α 顆粒,參與刷狀緣膜、細胞膜的組成成分;在生物過程方面,DEGs 主要參與蛋白質水解、酒精代謝、外源性代謝、消化、免疫應答的調節等生物學過程。見表3。

表3 DEGs 的GO 分析結果
KEGG 通路富集分析顯示,DEGs 主要參與的信號通路為蛋白質的消化和吸收、細胞色素P450參與的藥物和外源性物質代謝、化學致癌作用、谷胱甘肽代謝、視黃醇代謝等。見表4。

表4 DEGs 的KEGG 通路富集分析結果
2.3 PPI 網絡的構建與分析將DEGs 上傳至STRING 數據庫構建PPI 網絡圖。PPI 網絡共包含68 個節點和142 個連接,將獲得的分析數據按綜合分數>0.15 進行篩選后下載。見圖1A。把數據導入Cytoscape 中后通過cytohubba 插件獲得連接度最高的前15 個核心基因:OTC,ACE2,SLC26A3,RBP2,SLC10A2,MEP1B,CES2,CYP3A4,GSTA2,ADH4,CPA2,ADH1A,CELA3A,REG1B,ANPEP。見圖1B。

圖1 DEGs 的PPI 網絡圖與核心基因篩選結果
2.4 核心基因表達驗證選取臨床患者部分胰腺癌組織與癌旁組織樣本進行HE 染色,在光學顯微鏡下觀察,胰腺癌組織樣本較癌旁組織樣本不規則腺體明顯增多,細胞異型性顯著。見圖2A~B。

圖2 胰腺癌組織及癌旁組織的病理形態圖(HE,×200)
選擇CPA2、ANPEP、ACE2、CELA3A 4 個核心基因,用實時熒光定量PCR 對胰腺癌組織及癌旁組織中的mRNA 表達水平進行檢測,結果表明在胰腺癌組織中,CPA2、ANPEP 較癌旁組織顯著降低,差異有統計學意義(P<0.01)。見圖3A~B。CELA3A、ACE2 基因中mRNA 表達水平在胰腺癌組織的表達較癌旁組織明顯增高,差異有統計學意義(P<0.05)。見圖3C~D。

圖3 胰腺癌組織及癌旁組織中的部分核心基因表達情況
胰腺癌是高度惡性的消化系統腫瘤,發病隱蔽,臨床治療效果不佳,5 年生存率低,預后極差〔9〕。胰腺癌的發病機制和如何改善患者預后依舊是臨床及基礎研究領域尚未攻克的難題。本研究通過生物信息學方法探索在胰腺癌的發生、發展中發揮重要作用的核心基因,為發現潛在治療胰腺癌的靶點和早期診斷標志物提供思路。
本研究分析了基因表達譜GSE107610 中的39例胰腺癌組織樣本和2 例正常組織樣本,篩選出71個符合條件的DEGs,其中上調DEGs 17 個,下調DEGs 54 個。GO 分析及KEGG 通路富集分析表明這些DEGs 主要參與調節乙醇脫氫酶活性、蛋白質水解、酒精代謝及消化等過程。胰腺是重要的分泌腺體,其外分泌液中含有胰蛋白酶,對小腸內營養物質的消化(將蛋白質或大的縮氨酸分解成小的縮氨酸)具有關鍵作用〔10-11〕,生物信息學的數據分析結果與胰腺的功能一致。
依據關聯度將篩選出排名前15 的核心基因分為4 個等級,每個等級抽選1 個基因即ACE2、CPA2、CELA3A、ANPEP 進行驗證。在mRNA 水平,胰腺癌組織中CPA2、ANPEP 的表達相較癌旁組織降低,ACE2、CELA3A 的表達較癌旁組織增高。其中胰腺癌組織中ACE2、CELA3A 在mRNA 水平的表達與生物信息學分析結果略有差異,即表現為高表達,這一差異可能受腫瘤分期、病變組織分化程度及種族差異等多種因素影響導致。研究〔12-15〕發現,腫瘤標志物的表達會因腫瘤病變部位及腫瘤分期等不同而發生變化,ACE2、CELA3A 在胰腺癌中的具體變化情況,需要后續對更多臨床樣本進行分析與確認。
ACE2 作為關聯性最強的核心基因,在腎素-血管緊張素系統中起到重要作用〔16〕。Yu 等〔17〕通過研究發現,ACE2 在胰腺中表達并且可以通過抑制p38 MAPK/NF-κB 信號通路保護胰腺。周琳等〔18〕通過構建過表達ACE2 基因的胰腺癌BxPC3 細胞株發現,ACE2 可以抑制腫瘤細胞的增殖。上述研究提示,ACE2 可能在胰腺癌發生過程中發揮抑癌基因的作用,未來可能成為胰腺癌治療的新靶點。
CPA2 屬于金屬蛋白酶家族,由胰腺外分泌腺細胞分泌,參與蛋白質的分解代謝過程〔13〕。但目前鮮有關于CPA2 與胰腺癌的報道,其與胰腺癌的發生、發展是否有關還有待進一步研究。本研究中,通過對CPA2 在組織中的差異表達分析可以看出CPA2 在胰腺癌組織中的表達明顯降低,這表明CPA2 可作為胰腺癌早期診斷的潛在標志物。
ELA3A 在腸道中參與蛋白質的消化和膽固醇的轉運代謝〔19〕。目前,對于CELA3A 與胰腺癌的相關性尚不明確。但研究人員發現,ELA3B 作為CELA3A 的同工酶,在胰腺癌組織中ELA3B 基因的甲基化程度顯著增加,揭示了該基因啟動子區的高度甲基化導致了該基因在胰腺癌組織中的低表達〔20〕。綜上所述,CELA3A 的低表達可能與其DNA 甲基化有關,可以在后續研究中對此機制進行深入探討,利用表觀遺傳學及蛋白翻譯后修飾方法探索胰腺癌新的發生機制,從而提供胰腺癌診斷的新靶點。
ANPEP/CD13 是一種鋅依賴性肽酶,參與各種肽的代謝、血管形成及腫瘤生長〔21〕。ANPEP 已經被證實在多種腫瘤性疾病中呈高表達〔22-24〕,可作為檢測腫瘤進展的標志物。值得注意的是,在某些癌癥如腎癌組織中,ANPEP 的表達較正常組織是降低的〔25〕;在結腸癌患者的腫瘤組織和血漿中,腫瘤組織ANPEP 高表達患者的生存期較長,而血漿ANPEP高表達意味著患者較差的生存期〔26〕。在本研究中,ANPEP 在胰腺癌組織中也有較低的表達,由此說明ANPEP 的表達可能取決于癌癥的類型和部位,后續需要更多臨床數據來確認,但不能否認ANPEP 仍是有前景的癌癥生物標志物,可用于癌癥的早期診斷和治療。
本研究利用生物信息學分析方法對胰腺癌的DEGs 進行了篩選,確定了部分核心基因ACE2、CPA2、CELA3A、ANPEP 與胰腺癌發生、發展有關的分子功能和通路,盡管生物信息學分析方法能夠通過整合數據為探索胰腺癌的發生機制提供一定的思路,但是其真實性和在臨床樣本中的變化依然需要實驗進行驗證,本研究有效地結合了生物信息學方法與臨床樣本分析方法,為探索胰腺癌發生過程中標志物水平變化提供了依據,有望為胰腺癌的早期診斷和治療提供新的思路。隨著后續臨床樣本數據規模的擴大,有效結合生物信息學及臨床結果將更有效地發現胰腺癌的內在發生機制,為更好地尋找胰腺癌的早期診斷甚至是治療方法提供全新思路。