李 悅,徐煥銘,樊 華
(中國醫科大學附屬第四醫院血液內科,沈陽 110011)
急性髓系白血病(acute myeloid leukemia, AML)是造血系統的一種侵襲性惡性腫瘤,由造血干細胞或造血祖細胞惡性轉化引起。AML 是老年人高發的一種惡性腫瘤性疾病,中位年齡為65~70 歲。但由于其具有獨特的臨床及生物學特點,化療緩解率僅為 45%,5年生存率為10%左右,早期死亡率卻高達30%[1]。近年來,雖然針對白血病的研究取得不斷進展,但仍面臨著嚴峻的挑戰。隨著測序技術的發展,白血病相關基因日益受到人們的關注,其中的長鏈非編碼RNA(long non-coding RNA,IncRNA)成為白血病研究的熱點[2]。lncRNA 可以在多種癌癥中異常表達,并在促進和維持腫瘤的發生發展中發揮重要的作用,顯示了其作為生物標志物和治療靶點的臨床潛力[3]。目前有證據表明lncRNA 的失調可能會導致白血病的發生和進展[4]。lncRNA 可以和microRNA(miRNA)相互作用,作為一種相互競爭的內源性RNA(competing endogenous RNA,ceRNA)來調節靶基因的表達,這在惡性血液病的起源和發展中扮演著重要的角色[5]。由美國政府發起的腫瘤基因組圖譜數據庫(the cancer genome atlas, TCGA)計劃,通過應用基因測序技術,繪制人類全部癌癥的基因組變異。本文下載了TCGA 數據庫中的老年AML 患者數據,利用R 語言進行系統分析,并通過功能富集分析揭示其內在機制及其預后價值。
1.1 資料來源
1.1.1 數據的獲得:通過TCGA 數據庫網站(https://tcga-data.nci.nih.gov/tcga/) 獲 取AML 患 者的RNA 測序數據(RNA- seq)及相對應的臨床數據,用于mRNA 和lncRNA 的差異分析。同時獲得AML miRNA-seq 數據進行miRNA 的差異分析。lncRNA,mRNA 和miRNA 序列數據均來源于Illumina HiSeqRNASeq 和Illumina HiSeqmiRNASeq平臺。
1.1.2 納入和排除標準:首先,篩選出年齡大于60歲的患者標本,其中mRNA 和lncRNA 數據各61 份,miRNA 數據40 份。然后,根據2019 版美國國立綜合癌癥網絡(NCCN)指南[高危層次的分層標準為:①t(8;21)(q22;q22.1);②RUNX1-RUNX1T1 突 變;③inv(16)(p13.1q22)或t(16;16)(p13.1;q22);④CBFBMYH11,NPM1 突變,伴或不伴FLT3-ITD,CEBPA 雙等位基因突變]將收集到的RNA-Seq 數據分為31 例高危老年AML 樣本和30 例低中危老年AML 樣本,同時獲得15 例高危老年AML miRNAs 樣本和25 例低中危老年AML miRNAs 樣本。
1.2 方法
1.2.1 分析差異表達基因:根據Ensembl 數據庫(http://www. Ensembl.org/index.html)中的注釋對差異表達的lncRNA 和mRNA 進行定義和分類。利用R 平臺上的“gplot”和“heatmap”包生成差異表達RNA 的熱圖及火山圖。
1.2.3 構建ceRNA 網絡:從miRcode (http://www.mircode.org/)下載實驗驗證的miRNA -靶基因信息,miRNA-lncRNA 互作數據。為了進一步研究lncRNA 的功能作用,本實驗同時應用Diana tool (http://carolina.imis.athena-innovation.gr/diana_tools/)和TargetScan (http://www.targetscan.org)兩種方法預測miRNA 的假設靶基因。通過這兩種預測方法得到的靶基因的交集,以剩下盡可能少量的預測靶基因進行下一步分析。
1.2.4 構建PPI 網絡及功能富集分析:通過DAVID (http://www.david.abcc.ncifcrf.gov/)進行基因本體論(GO)分析和京都基因與基因組百科全書(KEGG)分析并探討了靶基因的功能作用。為了闡明DEmRNAs 的潛在關系,使用 String (v10.5, https://string-db.org/cgi/input.pl)構建蛋白-蛋白相互作用(PPI)網絡,并用Cytoscape3.6.1 將其可視化。
1.3 統計學分析
1.3.1 差異表達基因分析:利用R 語言中的“edgeR”包進一步分析數據,得到差異表達的lncRNA(differently expression lncRNA, DElncRNA),差異表達的mRNA (differently expression mRNA,DEmRNA)和差異表達的miRNA (differently expression miRNA, DEmiRNA)。設置閾值為|log2 FC|> 2 和P< 0.05。
1.3.2 生存分析:為了確定高危高齡AML 和低中危高齡AML 患者中差異表達的lncRNA 的預后價值,本實驗使用R 語言中的“survival”包對在差異lncRNAs 進行生存分析。使用“survival”進行log-rank 檢驗,繪制Kaplan-Meier 生存曲線。P<0.05 為差異有統計學意義。
2.1 APL 和AML 中 的DElncRNA,DEmiRNA 和DEmRNA 利用R 軟件中的“edgeR”軟件包,設定閾值為|log2 (FC)|> 2 和調整P值< 0.05 后,在31例高危AML 組織和30 例中低危AML 組織中發現了明顯存在差異表達的基因。共有108個DElncRNAs(77 個在高齡高危AML 樣本中上調,31 個在高齡高危AML 樣本中下調),468 個DEmRNAs(342 個在高齡高危AML 組織中上調和126 個在高齡高危AML 組織中下調),和16 個DEmiRNAs(9 個在高齡高危AML 組織中上調和7個在高齡高危AML 組織中下調)。
2.2 108個De lncRNAs 生存分析 見圖1。以Kaplan- Meier 曲線分析方法來檢測DElncRNA 與高齡AML 患者預后情況的相關性,設置P<0.01為篩選標準,最終發現與肝癌預后相關的10個lncRNA。在這10 個DElncRNAs 中,9 個 lncRNA(AC009154.1, AC011124.1, AC093627.2, AC144450.1, AL035691.1, AL355974.2, AL441943.2, LINC00703 和LINC01612)與預后呈負相關性。1個lncRNAs (AC103702.2)與預后呈正相關性。


圖1 10 種DelncRNAs 與總生存率存在顯著相關性的Kaplan- Meier 曲線
2.3 構建ceRNA網絡 根據對108 個DElncRNAs在miRcode 數據庫檢索到的相關的miRNA信息,確定17對相互作用的lncRNAs 和miRNAs。使用DIANA工具和TargetScan數據庫, 從17個miRNAs 尋找靶向mRNA。去除不包括在DEmRNAs 中的靶向mRNAs,并使用Cytoscape v3.5.1 進行可視化。最終篩選得出在兩個數據集中均存在的目標基因,得出有22 個DEmRNAs 包含于ceRNA 網絡。該ceRNA 網絡中共識別了12 個lncRNA 節點(見表1),11 個miRNA 節點,22個mRNA 節點作為差異表達譜。
2.4 ceRNA 網絡中DEmRNA 的功能分析 通過GO 和KEGG 分析進一步探討22 個DEmRNAs 的生物學功能,見表2。這些DEmRNAs 在4 個GO通路分類中得到富集(P< 0.05)。生物學過程中富集量最大的是“胚胎骨骼系統”,分子功能中富集量最大的是“序列特異性DNA 結合蛋白”。

表1 ceRNA 網絡中的差異lncRNA

圖2 468 個DEmRNA KEGG 通路富集結果,A~V 為相對應得條目名稱

表2 22 個DEmRNAs GO 富集結果
KEGG 通路分析獲得出IL12B, COL11A1 顯著富集于“阿米巴病”通路(P≈0.090 6)。同時,也進行了全部468 個DEmRNAs的GO 和KEGG富集分析。結果顯示,這些DEmRNAs 可以在121條GO 通路分類中得到富集(P< 0.05),見表3。生物學過程中富集量排在前3 位的是“信號傳導”、“細胞黏附”、“蛋白質水解”。分子功能中富集量排在前3 位的是“鋅離子結合”、“序列特異性DNA 結合蛋白”、“鈣離子結合”。而在細胞成分中富集量前3 位的為“膜的組成部分”,“胞外區”和“原生質膜的組成部分”。KEGG 通路分析獲得22 條顯著富集的通路,其中“慢性嗎啡中毒”、“尼古丁上癮”和“逆行神經的信號”排在前3 位,見圖2。

表3 468 個DEmRNA 的GO 的富集分析結果
急性髓系白血病是成年人最常見的急性白血病,發病率為每年2 ~4/10 萬人[6]。它主要是老年人的一種疾病,診斷時的中位年齡為72 歲。目前的高強度治療方法下,在年齡相對較大的60 歲以上患者中,只有15%的患者可以達到長期緩解[7]。老年AML 患者的治療相當具有挑戰性,年齡越大,預后越差。
長鏈非編碼RNA 是指長度超過200 個核苷酸,缺乏蛋白編碼能力的RNA 轉錄本[8]。目前,越來越多的研究表明,lncRNA 可能在表觀遺傳學上,轉錄及轉錄后水平調控基因的表達,特別是在腫瘤的發生發展過程中很可能扮演著非常重要的角色[9-10]。毋庸置疑,若能深入研究lncRNA 在高齡高危AML 患者中的發生發展機制,找到適當的lncRNA 作為治療靶點或作為新的個體化治療的標志,對其預防、診斷及治療都有著非常重要的意義。lncRNA 可以在多種癌癥中異常表達,并在促進和維持腫瘤的發生發展中發揮重要的作用,顯示了其作為生物標志物和治療靶點的臨床潛力[11-12]。
本研究獲得了31 例高危老年AML 患者和30 例低中危老年AML 患者組織中的mRNA 和lncRNA差異表達情況,以及相對應的40 例AML 患者的miRNA 差異基因表達情況。然后又通過可視化的軟件Cytoscape 建立了ceRNA 網絡,揭示了三者之間相互作用的關系。生存分析的使用可以了解哪些基因與高齡白血病的生存和預后有關,為下一步的實驗提供依據。目前有證據表明lncRNA 的失調可能會導致白血病的發生和進展[13]。如LEI 等[14]發現高表達lncRNA LOC285758 與AML 患者預后不良有關。LOC285758 可以通過增強致癌關鍵因子HDAC2 的表達來調控AML 細胞株的增殖,從而對AML 細胞株產生影響。而在本研究中參與構建ceRNA 網絡 的12 個 差 異lncRNA 中,SOX21-AS1 是 一 種2 986 bp長的非編碼RNA,與人類染色體13q32.1上的SOX21 具有雙向啟動子。此外,SOX21- as1和SOX21 上游有一個富含CpG 的區域,這意味著它們的轉錄活性可能通過DNA 甲基化來控制[15]。SOX21-AS1 在肝癌、宮頸癌等疾病中均有相關機制報道[16-17],在AML 領域的研究還有待進一步的深入。在ceRNA 網絡中,lncRNA 可以作為miRNA“海綿”,對miRNA 的作用有抑制作用。在本研究得出的ceRNA 網絡中,除lncRNA 外,與12 個lncRNA有較強相互作用關系的miRNA,如hsa-miR-1275, hsamir-139, hsa-mir-30a 等均有對AML 預后有影響的報道。其中OZDOGAN 等[18]的研究項目中證實hsamir-30a,hsa-miR-1275 等異常miRNA 的表達可使MDS 和AML 患者間充質干細胞中DICER1 基因表達減低。部分差異表達的miRNA 提示DICER1 可能參與了MDS 和AML 的發病機制。而mir-139 的異位表達抑制了正常CD34+造血干細胞和祖細胞的增殖,干擾了骨髓細胞的體外分化。在機制上,miR-139 通過抑制翻譯起始因子EIF4G2 發揮其作用,從而降低整體蛋白合成,同時特異性誘導細胞周期抑制劑p27(Kip1)的翻譯。此外,miR-139-5p 表達升高與165 例兒童AML 患者的良好預后相關[19]。而這些miRNA 具體是怎樣受到lncRNA 的影響從而發揮作用,還需深入的研究,這也是下一步研究的方向。
總而言之,本次研究發現lncRNA 分子標簽的預測模型具有較為良好的效能,可以對60 歲以上AML 患者的預后情況進行有效預測。而針對lncRNA 的AML 相關研究對AML 患者的隨訪、治療及預后的判斷有重要意義,這也進一步表明通過干預lncRNA 的表達可能成為高齡高危AML 患者病程發展的方法。