王艷,張宇卉,胡耐博,滕廣帥,周圓,白潔
1天津醫科大學第二醫院血液內科,天津300211;2中國醫學科院血液病醫院
(中國醫學科學院血液學研究所)血液內科
原發性骨髓纖維化(PMF)是骨髓增殖性腫瘤(MPN)的一種常見類型,其發病機制與造血干細胞(HSC)的克隆性增殖關系密切[1],主要表現為脾大、全血細胞進行性減少、骨髓纖維化等。研究[2]顯示,大約20%的PMF患者在確診后的10年內會轉化為急性髓系白血病(AML),預后極差。然而,PMF的發病機制錯綜復雜,其向AML轉化的分子機制目前尚不完全清楚,明確PMF不良預后的分子機制可以為PMF的治療提供新的理論依據。隨著基因芯片技術的發展,基因測序已成為探索疾病分子機制的重要工具[3]。單細胞RNA測序可以檢測每個細胞的RNA表達譜,與傳統的基因芯片技術相比具有更高的分辨率[4]。單細胞測序技術可以檢測到那些傳統基因芯片技術難以檢測到的稀有細胞基因,而這些基因可能具有及其重要生物學意義。本研究通過對GEO數據庫中單細胞測序數據集GSE153319中的HSC進行生物信息學分析,篩選出PMF向AML轉化過程中HSC的差異表達基因及核心基因,為探索PMF預后不良的分子機制及PMF的治療提供新思路。
1.1 數據集的選取以“Primary myelofibrosis and Acute myeloid leukemia”為檢索關鍵詞,從GEO數據庫中檢索符合條件的單細胞測序數據集,最終選取基因芯片GSE153319為研究對象。GSE153319數據集包含1例PMF患者進展為AML過程中三個不同時間點(PMF慢性期、蘆可替尼治療后8個月、AML轉化期)的樣本。
1.2 HSC細胞和高變基因的篩選 利用R語言的Seurat包篩選GSE153319數據集中基因數量200~10 000和線粒體基因占比<5%的細胞,共獲得符合條件的細胞7 717個。為了去除納入研究細胞的批次效應,且最大程度保留細胞的基因表達信息,我們對7 717個細胞進行主成分分析(PCA)和T分布隨機鄰接嵌入(t-SNE)聚類,結果顯示,7 717個細胞被劃分為13個細胞簇,利用Seurat包的FindAllMarkers函數尋找每個細胞簇的特異性基因,并利用SingleR包和既往發表文獻中的細胞標記基因對不同的細胞簇進行注釋,最后利用VlnPlot函數和FeaturePlot函數顯示HSC標記基因在不同細胞簇的表達,最終篩選出HSC。利用R語言對HSC進行PCA降維并可視化其主成分分布,篩選出HSC細胞間高度變化的基因(簡稱高變基因),選取MALAT1、VIM、HLADRA、FOS、JUN、CD74、TSC22D3、TMSB4X、MTRNR2、KLF6等排名前2 000的高變基因用于后續分析。
1.3 PMF向AML轉化過程中HSC差異表達基因的篩選及基因本體(GO)功能富集和京都基因與基因組百科全書(KEGG)信號通路分析 利用R語言的Seurat包Findmarkers函數,設置篩選條件為|log2FC|>0.5且P<0.01,篩選PMF慢性期和AML轉化期HSC的差異表達基因。利用DAVID(https://david.ncifcrf.gov)在線數據庫 和Metascape(https://metascape.org)在線數據庫對PMF向AML轉化過程中HSC差異表達基因進行GO功能富集和KEGG信號通路分析,其中GO功能富集包括生物學過程(BP)、細胞組分(CC)、分子功能(MF)。
1.4 PMF向AML轉化過程中HSC蛋白互作(PPI)網絡圖的構建及核心基因篩選借助STRING10(http://www.string-db.org)在線數據庫構建差異表達基因的PPI網絡圖,并利用Cytoscape軟件的Mcode插件篩選出核心基因簇,通過DAVID數據庫對篩選出的核心基因簇進行GO功能富集,利用CytoHubba插件設置篩選條件為MCC算法【MCC(v)=∑c∈s(v)(|C|-1)!】,篩選出排名前5的基因,即為PMF向AML轉化過程中HSC的核心基因。
2.1 PMF向AML轉化過程中HSC差異表達基因篩選結果 共篩選出98個差異表達基因,與PMF慢性期相比,AML轉化期HSC中有78個上調基因、20個下調基因。上調的基因為FKBP5、RPL3P2、DUSP6、PNMT、ISG20、ARL4C、KLF7、FOS、KLF13、BTG2、RGS2、OSBPL10、MAL、JUNB、AL158827.2、MAN2A1、TIPARP、EGR3、TNFAIP3、TP53INP1、C5orf30、CXCR4、IER2、RHOB、MCL1、SAP30、AP002982.1、RPL5P17、LMNA、TXNIP、SOCS1、RPS2P55、AGPS、MTRNR2L10、AC062028.2、AKR1C2、STK17B、ID1、CD69、MMP7、AC009362.1、DUSP2、PER1、PTGS2、ID3、ZFP36、AC020916.1、GSTM3、CXCL8、EGR1、AREG、AC099340.1、GNAI1、RPL27AP、AC113367.1、SESN1、AC114760.2、NRXN2、RGS1、HIF3A、AKR1C1、ATP2B1-AS1、RASGEF1B、AL031733.2、SOCS3、S100A10、KLF2、MYADM、AL356512.1、AL445433.1、TSC22D3、KLF6、KLF4、ARRDC3、WASF4P、PIK3IP1、KLF9、ZNF595。下調的基因為IFI44L、PABPC1P4、PARP9、STAT2、IFIT3、PTAFR、RPS26P47、IFITM1、CLU、STON2、STAT1、TRIM69、TNFSF13B、IFI6、AC095059.2、DTX3L、HLA-H、OAS1、IRF7、MX1。
2.2 差異表達基因的GO功能富集和KEGG信號通路分析結果 GO功能富集分析結果顯示,上調基因的BP主要富集在RNA聚合酶Ⅱ啟動子轉錄的負調控、炎癥反應的負調控、成纖維細胞生長因子反應、成骨細胞分化的負調控以及血管新生等,CC主要富集在細胞核和細胞質,MF主要富集在DNA結合以及RNA聚合酶Ⅱ核心啟動子的轉錄激活子活性;下調基因的BP主要富集在炎癥反應、干擾素-γ介導的信號通路以及細胞對α干擾素的反應,CC主要富集在細胞質。KEGG信號通路分析結果顯示,上調基因的KEGG信號通路主要富集在TNF信號通路、癌癥相關通路、凋亡相關通路以及Apelin信號通路等。
2.3 PMF轉化為AML過程中HSC核心基因的篩選結果 構建的PMF向AML轉化過程中HSC差異表達基因編碼的PPI網絡圖見圖1。利用Cytoscape的Mcode插件分析獲得2個核心基因簇,基因簇1主要與免疫調控、JAK-STAT信號通路、成纖維細胞生長因子反應以及細胞增殖等關系密切,基因簇2主要與DNA轉錄以及凋亡調控關系密切。根據MCC算法篩選出排名前5的核心基因分別是FOS、EGR1、PTGS2、CXCL8和CXCR4,這5個基因可能是PMF轉化為AML過程中HSC的核心基因。

圖1 PMF向AML轉化過程中HSC差異表達基因編碼的PPI網絡圖
PMF是一種罕見而具侵襲性的MPN,其致病因素為HSC的克隆增殖紊亂,主要表現為全血細胞減少、髓外造血和全身癥狀。目前PMF的治療方式主要為常規對癥治療、靶向藥物治療和HSC移植[5]。常規治療主要通過糖皮質激素、雄激素治療骨髓纖維化相關性貧血[6],對于脾大的骨髓纖維化患者可應用羥基脲[1]。靶向藥物治療主要是指JAK抑制劑在PMF患者中的應用,主要包括蘆可替尼、菲卓替尼等。隨著技術的發展,靶向藥物的研究也取得了突破性進展,從而使得PMF患者的生存期和生存治療都有了較大提升[7-8]。HSC移植是患者接受放化療或聯合免疫抑制劑清除體內腫瘤細胞后,通過回輸HSC以重建造血系統和免疫系統的一種治療方式,是目前唯一可能治愈PMF的方法[9]。然而,由于PMF本身的異質性以及移植后并發癥的存在,使得HSC移植的應用存在一定局限性。目前PMF的治療仍存在很大難度,且一旦轉化為AML,預后極差。本課題組通過檢索GEO數據庫中與PMF不良預后有關的單細胞數據集,利用生物信息學技術,尋找PMF進展為AML的關鍵生物標志物,為PMF的治療提供新的理論依據。
本課題組通過R語言的Seurat包、SingleR包以及既往文獻將單細胞數據集GSE153319中的7 717個細胞劃分為13個細胞簇。既往研究[10]發現,HSC的克隆增殖紊亂是PMF的主要發病機制。因此,本研究通過R語言提取HSC進行差異表達分析,篩選PMF預后不良的關鍵分子機制。通過對差異表達基因進行GO功能富集發現,PMF進展為AML的差異表達基因主要富集在炎癥調控、細胞增殖以及分化等過程中,KEGG信號通路則主要富集在TNF信號通路、癌癥相關通路、凋亡相關通路以及Apelin信號通路等,提示PMF進展為AML的過程中,HSC的增殖、分化功能以及對骨髓微環境免疫調控的功能發生了改變。通過Cytoscape進一步篩選出2個核心基因簇,其中基因簇1主要與免疫調控、JAK-STAT信號通路、成纖維細胞生長因子反應以及細胞增殖等關系密切,基因簇2主要DNA轉錄以及凋亡調控關系密切,進一步驗證了HSC增殖、分化紊亂以及免疫調控在PMF不良預后中的作用。
利用Cytoscape的Cytohubba插件根據MCC算法篩選出排名前5的核心基因,分別是FOS、EGR1、PTGS2、CXCL8和CXCR4。研究[11-12]顯示,FOS和EGR1屬于原癌基因,可以協同作用,共同促進細胞的增殖、分化,在AML的發生發展中發揮重要作用。PTGS2可促進細胞的增殖、分化,在AML患者中的表達水平明顯升高,其表達水平與腫瘤預后密切相關[13]。CXCL8是趨化因子的一種,可以促進HSC的增殖、分化,與AML的發生發展關系密切[14]。CXCR4是趨化因子CXCL12的特異受體,在調控細胞增殖、髓外移行、浸潤、黏附及對化療藥物的耐藥中起重要作用[15-16]。ABDELOUAHAB等[17]學者發現,骨髓纖維化患者的CXCR4通路被過度激活,是PMF診斷的敏感標記物。
綜上所述,本研究通過檢索GEO數據庫中PMF不良預后的單細胞測序數據集,對PMF和AML樣本中的HSC進行生物信息學分析,確定與PMF不良預后相關的差異表達基因。與PMF慢性期相比,AML轉化期HSC中有98個差異表達基因;差異表達基因主要富集在炎癥調控、細胞增殖以及分化等過程中,參與TNF信號通路、癌癥相關通路、凋亡相關通路以及Apelin信號通路等;FOS、EGR1、PTGS2、CXCL8、CXCR4等5個差異表達基因可能是PMF轉化為AML過程中HSC的核心基因。本研究通過分析預測了PMF預后不良的可能發病機制并篩選出參與PMF進展為AML的核心基因,為PMF的診治提供了新的思路。然而,本研究還具有一定的局限性,本研究完全基于對GEO數據庫中的數據進行生物信息學分析,對篩選出的核心基因仍需通過實驗進行進一步驗證。