董經茹 白云鶴 何 京 趙紅崢 張金艷 (河北醫科大學第四醫院檢驗科,石家莊 050011)
胰腺癌(pancreatic adenocarcinoma,PAAD)是一種高度致命的惡性腫瘤,近年來在世界范圍內的發病率和病死率都在提高,其高病死率歸因于PAAD生物學、早期診斷困難以及在評估可疑胰腺腫塊方面缺乏標準化的國際指南[1-2]。及時準確地診斷PAAD可以改善其不良預后,但目前PAAD的診治現狀依然嚴峻,大多數患者起病隱匿且早期癥狀不典型在診斷時已為晚期或轉移性疾病,因此PAAD關鍵基因對診斷、治療及提示預后具有重大價值[3]。
半胱氨酸蛋白酶抑制劑(cysteine protease inhibitor,CSTs)通過與半胱氨酸蛋白酶相結合,抑制蛋白酶發生水解反應,其表達的變化影響腫瘤發展的各個階段,包括腫瘤的生長、凋亡以及侵襲、轉移和血管生成[4]。CSTs主要分為3個亞型:Ⅰ型為Stefins,結構最簡單,主要是無二硫鍵的細胞內非糖基化多肽,包括Stefin A(CSTA)和Stefin B(CSTB);Ⅱ型為胱抑素,與Stefins不同的是其包含2個保守的二硫鍵和1個信號序列,使它們能夠分泌到細胞外,主要成員有SN(CST1)、SA(CST2)、C (CST3)、S(CST4)、D(CST5)、E/M(CST6)和 F(CST7)等;Ⅲ型為激肽原,是大型多功能血漿蛋白,包含3個Ⅱ型胱抑素樣結構域[5]。半胱氨酸蛋白酶抑制劑 S(Cystatin S,CST4)又稱唾液酸性蛋白1,是Ⅱ型半胱氨酸蛋白酶抑制劑超家族成員,是由141個氨基酸殘基組成的分泌型蛋白,包含2個特殊的二硫鍵。研究表明,CST4 mRNA和蛋白在胃腸道腫瘤組織和細胞系中表達上調,CST4通過調節ELFN2信號增強胃癌的侵襲力[6-7]。CST4在胃腸道腫瘤的診斷及預后中提供了重要信息,但在PAAD中的意義尚不清楚。因此,本研究應用生物信息學的方法,綜合分析CST4在PAAD中的表達情況,為臨床中PAAD的診斷、治療及預后評估提供新的方向。
1.1 數據獲取與預處理 基因表達匯編(GEO)數據庫(https://www.ncbi.nlm.nih.gov/geo/info/)是由國家生物技術信息中心(NCBI)建立和維護的國際公共存儲庫,用于存放研究界提交的高通量微陣列和下一代序列功能基因組數據集。GEO2R(https://www.ncbi.nlm.nih.gov/geo/geo2r/)是一種基于R的在線分析工具,可幫助用戶分析GEO數據,識別和可視化差異表達基因(DEGs)[8]。本研究選取GEO數據庫中GSE15471和GSE16515基因表達芯片數據集為研究對象。利用GEO2R比較PAAD及癌旁正常組織的基因表達差異,以P<0.05且|log2FC|>1為DEGs的篩選標準。
1.2 CST4 mRNA在泛癌中的表達情況 GEDS(http://bioinfo.life.hust.edu.cn/web/GEDS/)是一個用于搜索和可視化mRNA、miRNA和蛋白質的基因表達數據的綜合資源,可在癌癥類型、正常組織和細胞系中顯示用戶輸入的人類基因表達[9]。在GEDS的mRNA面板輸入CST4,以箱式圖的形式顯示其在癌癥基因組圖譜(TCGA)和腫瘤細胞系CCLE數據庫的表達情況。
1.3 CST4在消化系統腫瘤中的表達分析 TCGA數據庫中某些腫瘤正常對照組織量較少,應用GEPIA2(http://gepia2.cancer-pku.cn/)匹配TCGA和基因型-組織表達(GTEx)數據庫后進一步分析,獲得CST4基因在消化系統腫瘤組織與相應正常組織之間表達差異的箱式圖,以P<0.05作為顯著性標準。
1.4 CST4生存預后分析 Kaplan-Meier plotter(https://kmplot.com/analysis/)是一款在線預后分析網站,常規在線提供了包括GEO、EGA和TCGA腫瘤特定基因的分組生存分析以及RNA測序和miRNA的表達基因的生存分析[10]。利用Kaplan-Meier Plotter數據分析平臺繪制TCGA數據庫中177例PAAD患者CST4 mRNA表達的生存曲線,限定條件分別為總生存期(overall survival,OS)和無復發生存時間(relapse free survival,RFS),生存時間統計最長為60個月。腫瘤病理類型、分期及患者性別等其他條件不做限制,從而評估CST4 mRNA表達與PAAD患者五年總生存率及無復發生存率的關系,結果以P<0.05作為顯著性標準。
1.5 CST4與腫瘤細胞免疫浸潤分析的關系 腫瘤浸潤性免疫細胞作為腫瘤微環境的重要組成部分,與癌癥的發生、發展或轉移密切相關。免疫浸潤分析數據庫 TIMER2(http://timer.cistrome.org/)是用于系統分析各種癌癥類型的免疫細胞浸潤情況的綜合資源[11]。利用TIMER2數據庫的“Gene”模塊,分析PAAD患者CST4表達量與多種免疫細胞浸潤情況的相關性。通過TIMER、CiberSort、CiberSort-ABS、QuanTIseq、XCell、MCP-COUNTER 和 EPIC 算法進行免疫浸潤評估,經純度調整的Spearman等級相關檢驗得到P值和Rho值。數據以熱圖和散點圖的形式可視化,結果以P<0.05作為顯著性標準。
1.6 構建CST4蛋白相互作用網絡及富集分析 蛋白質功能的完整描述需要了解與之特異性結合的所有伴侶蛋白質,功能蛋白互作網絡(STRING,https://string-db.org/)是包含已知和預測的蛋白質相互作用的數據庫,包括從基因組分析、高通量試驗及共表達研究中獲得的物理和功能的關聯[12]。在STRING數據庫的“Protein by name”模塊輸入CST4,選擇物種“Homo sapiens”,獲得CST4蛋白相互作用網絡及GO功能注釋分析結果。將PPI網絡圖導入Cytoscape軟件進行可視化分析,運用cytohubba插件篩選出與CST4相互作用連接度較高的基因。
2.1 PAAD與正常組織中差異表達基因的篩選GSE15471包括36對PAAD和正常組織樣本,GSE16515包括36個腫瘤樣本和16個正常樣本。GEO2R分別對2個芯片進行分析,篩查出差異倍數達2倍以上的顯著DEGs,log2FC>1為上調基因,log2FC<-1為下調基因。通過韋恩圖獲得2個GEO數據芯片DEGs的交集,選定關鍵基因CST4。
2.2 CST4 mRNA在各種腫瘤組織中的表達 應用GEDS分析CST4 mRNA在TCGA不同腫瘤類型中的表達情況,從左至右以中位數為參照,CST4 mRNA表達量依次降低(圖1A)。CST4在PAAD、直腸癌(rectum adenocarcinoma,READ)、結腸癌(colon adenocarcinoma,COAD)、胃癌(stomach adenocarcinoma,STAD)消化系統腫瘤中表達相對較高。同時根據CCLE可知CST4在胰腺細胞系中高表達(圖1B)。

圖1 CST4 mRNA在TCGA(A)和CCLE(B)數據庫各種腫瘤組織的表達Fig.1 Expression of CST4 mRNA in various tumor tissues in TCGA (A) and CCLE (B) database
2.3 CST4在消化系統腫瘤組織的表達差異 加入GTEx數據庫的正常組織作為對照,進一步評估了CST4在消化系統腫瘤與正常對照組織中的表達(圖2)。CST4在胰腺癌和正常胰腺組織中的表達存在顯著差異(P<0.05),腫瘤組織CST4表達水平相對較高。

圖2 CST4 在消化系統腫瘤組織的表達Fig.2 Expression of CST4 in digestive system tumor tissues
2.4 CST4表達與PAAD患者生存預后的關系CST4 mRNA表達水平與PAAD患者的五年總體生存率、無復發生存率相關(P<0.05)。根據CST4 mRNA表達水平的中位數將PAAD患者分為低水平組69例和高水平組108例,CST4高表達患者的OS明顯縮短(圖3A)。無復發生存患者低水平組39例和高水平組30例,高表達組生存率較低(圖3B)。

圖3 CST4 在PAAD中的Kaplan-Meier生存曲線Fig.3 Kaplan-Meier curve of CST4 in PAAD
2.5 CST4表達與PAAD患者免疫細胞浸潤情況的關系 TIMER2數據庫顯示CST4表達與PAAD不同免疫細胞浸潤水平存在潛在聯系(P<0.05)。基于EPIC算法,PAAD中CST4的表達水平與腫瘤相關成纖維細胞(cancer associated fibroblast,CAF)的浸潤水平呈正相關(圖4A);基于XCell算法,與CD4+T細胞免疫浸潤情況呈正相關(圖4B);基于QUANTISEQ算法,與巨噬細胞、中性粒細胞的免疫浸潤存在正相關(圖4C、D)。

圖4 在PAAD中CST4表達與免疫細胞浸潤的關系Fig.4 Relationship between CST4 expression and immune cell infiltration in PAAD
2.6 CST4相關蛋白及GO分析 為進一步了解CST4在人體內的功能機制,應用STRING數據庫構建了CST4相關功能蛋白質-蛋白質相互作用(protein-protein interaction,PPI)網絡(圖5A),發現10個蛋白與CST4相互作用密切,設置最低相互作用分值為0.7。通過Cytoscape軟件進行可視化分析,CST1、CSTA、CSTB、CTSB、CTSL與CST4相互作用連接度較高。根據每個基因的連接度排序,由紅至黃,顏色越深代表其在整個PPI網絡中的作用越顯著(圖5B)。GO功能注釋結果顯示,這些蛋白主要參與生物學過程(biological processes,BP)為蛋白質水解的負調控、半胱氨酸型內肽酶活性的負調控等;主要參與細胞組成(cell composition,CC)為細胞外基質、細胞外泌體等;主要參與分子功能(molecular function,MF)為CATs的活性、蛋白酶結合等。

圖5 CST4蛋白相互作用網絡Fig.5 Protein interaction network of CST4
PAAD具有起病隱匿、早期診斷困難、進展迅速、化學治療不敏感等特點,大多數患者在確診時已喪失治療的最佳時機,因此預后較差[13]。目前,關于PAAD的發病機制尚未闡明,同時缺乏有效的系統治療手段。高通量測序技術及基因芯片技術日趨成熟,深入了解PAAD發生發展過程中潛在的分子機制是改善PAAD患者預后的重要途徑之一[14]。
基因芯片結合生物信息學方法能夠有效分析與PAAD發生發展相關的差異表達基因,并分析DEG在腫瘤中的表達及生物學功能。基于TCGA和GTEx數據庫分析證實了與正常胰腺組織相比,CST4在PAAD組織中表達明顯增高。通過對TCGA數據庫中PAAD患者生存預后信息的分析,可以發現CST4的表達水平明顯影響患者的預后,高表達組的患者五年總體生存率和無復發生存率顯著低于低表達組,這使得CST4有望成為評估PAAD的預后指標。
PAAD的腫瘤微環境包括CAFs、細胞外基質,各種免疫細胞及其釋放的細胞因子,與腫瘤生長、侵襲和轉移等生物學行為密切相關[15]。為了確定CST4的表達與PAAD中免疫細胞浸潤的關系,利用TIMER2對CST4 mRNA表達水平與不同的免疫細胞浸潤含量進行了相關性分析。結果顯示,CST4表達與CAF、CD4+T細胞、巨噬細胞和中性粒細胞的浸潤含量呈正相關。但是,基于不同算法得到的結論不同,每種算法都具有獨特的屬性和優勢。其中EPIC和QuanTISEQ是推薦的通用算法,提供代表細胞的絕對分數[16]。CAF是腫瘤增生基質的細胞成分,會導致纖維化和促結締組織增生,有助于腫瘤的生長、侵襲和轉移[17]。研究表明,CST4在卵巢癌(ovarian cancer,OC)患者中高表達且與不良預后相關,而免疫細胞的浸潤影響了OC患者的生存[18]。因此,推測高表達CST4通過某種機制促進PAAD中免疫細胞的浸潤,影響腫瘤的侵襲及預后。
利用STRING構建CST4蛋白功能互作網絡預測出10種功能蛋白與CST4相互作用,其中CST1、CSTA、CSTB、CTSB、CTSL與CST4關聯密切且已被證實與PAAD的發生和進展有關。CST1、CSTA和CSTB均屬于CSTs家族,CTSB、CTSL為半胱氨酸組織蛋白酶。YANG等[19]研究了Ⅱ型CSTs在PAAD組織中的表達,與正常組織相比,CST1、CST2、CST4、CST6和CST7的表達上調,CST3和CST5 mRNA水平下調。此外,CST1過表達有助于增殖相關蛋白表達、體外集落形成和異種移植物發育等,在PAAD中CST1表達上調促進了細胞的增殖[20]。CSTA在腫瘤組織中上調,達到一定水平可抵消過度表達的腫瘤相關蛋白水解活性。CSTA和CTSB在PAAD的腫瘤組織和腫瘤浸潤性免疫細胞中均有表達,CSTA表達與局部腫瘤組織中的炎癥狀態有關,CTSB的表達與PAAD患者預后和復發有關[21]。研究表明,CSTB在PAAD中表達上調并與腫瘤的轉移相關,高表達時患者總生存率低[22]。CSTB可調節細胞核中CTSL的蛋白水解活性,保護轉錄因子免受水解從而參與轉錄調控[23]。血漿CTSL水平可作為判斷PAAD預后的潛在指標,該蛋白酶在PAAD組織中的表達水平明顯高于癌旁組織,可能是腫瘤侵襲的原因之一[24]。
生物信息學分析是使用計算機系統收集和分析大量生物數據的技術,缺少試驗數據支持驗證,存在一定的局限性。未來可以從臨床角度對CST4與腫瘤病理類型、腫瘤病理分級、術后預后的關系進行分析驗證,也可以從基因的角度敲低CST4后研究PAAD細胞系的侵襲遷移情況。CST4有望成為PAAD診斷治療及患者不良預后評估的潛在靶點,在PAAD發生與進展中的具體機制及生物學作用仍待進一步研究。