汪圣毅,張永紅,閆亞飛,李旭升,程 彥,李永翔
化療(chemotherapy,CTx)可控制非治愈因素,改善無法手術切除胃癌患者的預后[1],可降低循環腫瘤細胞數,降低淋巴結、局部和腹膜的復發,附加藥物可逆轉免疫細胞的功能,抑制胃癌細胞的增殖遷移[2]。但CTx亦使癌細胞發生適應性改變,產生耐受或抵抗,與癌細胞基因表達和相關通路的變化有關。外周髓磷脂蛋白22(peripheral myelin protein 22,PMP22)與CTx抵抗、腫瘤發生有關[3],PMP22表達干預可致下游基因表達變化[4],其上調與胃癌細胞抵抗順鉑的作用有關[5],但其下游機制尚不明確。生物信息學方法可揭示疾病基因模塊和網絡,應用廣泛[6]。該研究采用生物信息學方法,比較短發夾核糖核酸敲減和未敲減PMP22的下游差異表達基因(defferentially expressed genes, DEGs),分析其相關通路,為胃癌CTx抵抗的分子機制研究提供參考。
1.1 細胞、試劑、平臺基因表達數據庫(gene expression omnibus,GEO)GSE(基因表達數據庫系列,GEO series)94714胃癌細胞系MGC-803、慢病毒載體(plasmid lentiviral vector,pLKO.1)購自中科院細胞所。PMP22的短發夾核糖核酸(short hairpin RNA,shRNA)共2個,shRNA1: CCAAACTCAAACC AAACCAAA,shRNA2:CGGTGTCATCTATGTGATCT T,Lipofectamine 3000(美國Invitrogen公司)將含有shRNA1、shRNA2的慢病毒轉染至293T細胞擴增,轉染篩選MGC-803,美國安捷倫公司芯片平臺測試基因表達譜[5]。
1.2 表達譜數據PMP22敲減和未敲減組的差異基因表達譜,取自美國國立生物技術信息中心(national center for biotechnology information,NCBI)的GEO(https://www.ncbi.nlm.nih.gov/geo),由Cai et al[5]提交,樣本為:1:數據庫樣本(GEO sample, GSM)GSM2481329;2:GSM2481330;3:GSM2481331;4:GSM2481332;5:GSM2481333;6:GSM2481334,1~3為A組,PMP22_shRNA2敲減PMP22基因的表達,4~6為B組,未抑制PMP22基因的表達。
1.3 差異基因數據庫R語言(GEO to R, GEO2R)(https://www.ncbi.nlm.nih.gov/geo/geo2r/?acc=GSE94714)定義A、B組別,美國國家標準學會(American national standards institute,ANSI)格式保存所有差異基因至.txt文件,導入Excel 2016篩選,篩選條件:① 校正P<0.01;② 倍數變化(fold change,FC)值≥10或≤-10,計算logFC:log2(A/B)=log2(A)-log2(B),分別為±3.321 928。
1.4 富集和通路分析差異基因于注釋、可視化和綜合發現數據庫(database for annotation, visualization and integrated discovery,DAVID)網站(https://david.ncifcrf.gov/),分析基因本體(gene ontology,GO)的生物過程(biological process,BP)、分子功能(molecular function,MF)、細胞組分(cellular component,CC),分析京都基因和基因組百科全書(kyotoencyclopedia of genes and genomes,KEGG)的通路。選BP、MF、CC中P值最小的前6位,繪制復合條圖。KEGG結果繪制泡泡圖。
1.5 蛋白質相互作用DAVID轉換基因名為官方基因標識,文本正則表達式截取基因名稱,導入互作基因檢索工具(search tool for the retrieval of interacting genes,STRING)數據庫(http://string-db.org/),Homo Sapiens獲蛋白質-蛋白質相互作用(protein-protein interaction,PPI)的網絡。數據導入Cytoscape 3.6.1,分子復合檢測(molecular complex detection,MCODE)插件行模塊分析,單一模塊中的基因導入DAVID 6.8行通路分析。
1.6 關鍵基因篩選PPI數據導入Cytoscape 3.6.1,CytoHubba插件篩選關鍵基因,用最大集團中心性(maximal clique centrality,MCC)的拓撲算法。
1.7 癌癥藥物敏感性基因組學數據庫驗證logFC絕對值由高到低排序,前10位的基因和MCC算法獲得的關鍵基因,導入癌癥藥物敏感性基因組學(genomics of drug sensitivity in cancer,GDSC)數據庫,分析與胃癌CTx敏感性的關聯性。
1.8 統計學處理差異表達基因(DEGs)為GEO中R語言limma包完成分析,數據矩陣線性擬合,本雅米尼·霍赫貝格錯誤發現率(false discovery rate,FDR)校正。
2.1 樣本數據特征數據歸一化的中位數均為5.4,均數為6.21,中位數位于同一水平,標準化特征良好,見圖1。

圖1 樣本基因表達數據的歸一化結果
1:GSM2481329;2:GSM2481330;3:GSM2481331;4:GSM2481332;5:GSM2481333;6:GSM2481334
2.2 差異基因GEO2R結果獲34 183個與GEO ID對應的序列。AdjustedP<0.01,logFC=3.321 928,篩選到368個對應的ID,刪除無基因庫登錄號(gene bank accession number,GB_ACC)的30行。GB_ACC轉換基因名,獲315個DAVID IDs,Excel查重刪除1個重復,vlookup函數將基因名對應至差異篩選表,找回logFC值,countif函數計算獲上調基因283個,下調31個。logFC絕對值最大的前10位見表1。

表1 logFC絕對值前10位的差異表達基因
EEF1A1:真核翻譯延長因子1α1;HSP:熱休克蛋白;ITGB1:整合素亞單位β1;SLC3A2:印記基因家族3成員2;KDM1A:賴氨酸脫乙基酶1A
2.3 GO和KEGG分析富集到BP、MF、CC的基因分別有271、277、283個,為注釋基因的86.3%、88.2%、90.1%,140個基因(44.6%)參與KEGG通路。BP、MF、CC中P值最小的前6位,換算成-log10(P值)為縱坐標,橫坐標各分類的基因計數為右側y軸繪圖,見圖2。CC中富集在核、膜、核質、細胞外外泌體、細胞黏著連接、蛋白復合體等的基因差異顯著,見圖2A;BP中參與細胞-細胞黏附過程的基因P值最低,參與基因數為19,見圖2B;MF中P值最低的為多聚腺嘌呤核糖核苷酸結合,參與基因數目最多的為蛋白質結合,見圖2C。富集前5位的通路為細胞周期、氨基酸的生物合成、無翅型整合位點家族(wingless-type integration site family, Wnt)、轉化生長因子β、半胱氨酸和蛋氨酸代謝通路,見圖2D。
2.4 蛋白質相互作用PPI數據導入Cytoscape,MCODE聚類,節點連接度(degree)值=2,節點(node)評分值=0.2,k-分(core)=2,最大深度(max.depth)=100,獲11個模塊,評分前4的模塊4個,評分分別為9、7、5、4.909,Node數目分別為9、7、7、12,邊(Edge)數目分別為36、21、15、27,見圖3。單個模塊中的基因行通路分析,主要與剪接體、泛素介導的蛋白水解共2個KEGG(P<0.01)和3個反應組(REACTOME)(P<0.05)通路關聯,見表2。

表2 PPI網絡模塊中的基因富集通路
R-HSA:反應組人類通路標識碼
2.5 PPI中的關鍵基因MCC算法計算前10個關鍵基因為:肽基脯氨酰異構酶E(peptidylprolyl isomerase E,PPIE)、不均一核核糖核蛋白A1(heterogeneous nuclear ribonucleoprotein A1,HNRNPA1)、Y盒結合蛋白1(Y-box binding protein 1,YBX1)、不均一核核糖核蛋白K(heterogeneous nuclear ribonucleoprotein K,HNRNPK)、不均一核核糖核蛋白A2B1(heterogeneous nuclear ribonucleoprotein A2/B1,HNRNPA2B1)、死亡盒解旋酶9(DExH-Box helicase 9,DHX9)、U6小核糖核酸相關Sm樣蛋白(U6 snRNA-associated sm-like protein,LSM4)、小核核糖核蛋白多肽N(small nuclear ribonucleoprotein polypeptide N,SNRPN)、多聚谷氨酰胺結合蛋白1(polyglutamine binding protein 1,PQBP1)、熱休克蛋白90α家族A類成員1(heat shock protein 90 alpha family class a member 1,HSP90AA1),評分分別為41 970、40 395、40 372、40 352、40 346、40 341、40 324、40 324、40 321、2 336,顏色排序見圖4。

圖2 基因本體(GO)分析

圖3 PPI網絡的聚類模塊
A:評分第1的9節點網絡結構;B:評分第2的7節點網絡結構;C:評分第3的7節點網絡結構;D:評分第4的12節點網絡結構

圖4 MCC算法的關鍵基因及其相互作用關系
2.6 差異和關鍵基因與藥物敏感性的關系GDSC分析顯示,富含腺嘌呤胸腺嘧啶蛋白質1A交互域(AT-rich interactive domain-containing protein 1A,ARID1A)基因突變與胃腺癌對CTx藥物的敏感性有關,順鉑作用ARID1A突變的胃癌細胞,半抑制濃度(half maximal inhibitory concentration,IC50)值升高(P=0.050 016);卵巢癌、結直腸腺癌ARID1A基因突變時,順鉑作用的IC50值降低,P值分別為0.005、0.047,見圖5。DHX9基因突變與多種癌細胞的藥物敏感性有關,但未見與胃腺癌藥物敏感性的關聯。其他top 10差異基因和MCC篩選的關鍵基因尚無GDSC數據庫資料。
PMP22下游基因主要富集在細胞核、膜、核質、胞外外泌體、黏著連接、蛋白復合體等成分,參與細胞-細胞黏附過程、多聚腺嘌呤核糖核苷酸結合、蛋白質結合,參與細胞周期、氨基酸生物合成、Wnt和轉化生長因子β、半胱氨酸蛋氨酸代謝等通路。PPI網絡模塊主要通過剪接體、泛素介導的蛋白水解、熱休克因子1活化、軸突導向因子3A p21活化激酶依賴性軸突排斥、肌動蛋白動力調節形成吞噬杯、縫隙連接等通路發揮作用,與PPIE、ARID1A等有關。
PMP22敲減后ARID1A上調,順鉑敏感性增強,與ARID1A陽性表達胃癌患者無病生存率提高[7]的結果一致。GDSC分析見胃癌細胞順鉑敏感性與ARID1A突變的關聯P值略大于0.05,可能與突變組的樣本量少有關。DHX9突變與胃腺癌以外的其他多種癌細胞的順鉑敏感性有關。Top10差異基因、關鍵基因中的其他基因,GDSC未見記錄,可能是PMP22下游尚未明確的新基因。
GO和KEGG分析顯示,外泌體、細胞黏著粘附、蛋白質結合功能均與PMP22相關CTx敏感性有關。外泌體傳遞miR-155至敏感細胞介導乳腺癌的CTx抵抗[8]。外泌體合成分泌抑制使去勢抵抗的前列腺癌細胞的CTx敏感性增強。細胞黏著連接因E-cadherin丟失而崩解,腫瘤細胞會避開失巢凋亡,CTx抵抗性增強[9]。細胞黏附生物過程的基因P值最小,表明與CTx抵抗顯著關聯。細胞間黏附分子-1中和抗體減少Jurkat細胞與間充質干細胞的黏附,減少細胞間線粒體轉運,使Jurkat細胞的CTx敏感性增強[10]。分子功能中的蛋白質結合功能,通過結合互作調節CTx敏感性。分化抗原133與磷脂酰肌醇3激酶 (phosphatidylinositide 3-kinases,PI3K)PI3K-p85的直接作用可活化PI3K/PKB(蛋白激酶B)通路,導致胃癌細胞的多種藥物抵抗[11]。通路方面,胃癌細胞CTx抵抗與Wnt通路的關聯性已有報告[12],與本文的KEGG分析結果相似,其余未見文獻報道的通路,如泛素化降解與胃癌CTx抵抗的關系,是未來研究的方向。

圖5 ARID1A基因突變與順鉑敏感性的關系
PPI網絡以系統視角揭示CTx抵抗的機制,本研究構建的PPI網絡中提取4個亞模塊,獲10個關鍵基因,其中的DHX9、應激誘導磷蛋白1(STIP1)基因突變與CTx抵抗或敏感性關聯,GDSC得到驗證,尚無驗證的可能是CTx抵抗相關新基因。PPI模塊涉及的剪接體、泛素介導蛋白水解通路與骨肉瘤[13]、結直腸癌的發生發展相關聯[14],睡美人轉座子突變研究[15]顯示,泛素介導蛋白水解和細胞黏著連接也是胃癌中的失控通路。
本研究顯示了PMP22下游參與CTx抵抗的網絡成員,作為胃癌CTx抵抗的基因標志,為CTx抵抗精準治療的靶點研究提供了參考。