張凱楠, 溫 雯, 高建淑,2, 高鴻亮,2
(1新疆醫科大學研究生學院, 烏魯木齊 830017; 2新疆醫科大學第一附屬醫院消化病二科, 烏魯木齊 830054)
炎癥性腸病(Inflammatory bowel disease,IBD)是一種累及胃腸道的慢性復發性的炎癥性疾病,主要包括潰瘍性結腸炎(Ulcerative colitis,UC)和克羅恩病(Crohn's disease,CD)兩個臨床亞型,其臨床表現為腹痛、腹瀉并伴有黏膿血便、體重減輕及其他不同程度的全身癥狀等[1]。目前治療IBD的主要手段是調節炎癥反應,減輕腸道炎癥癥狀,促進黏膜愈合。在我國,治療IBD的常見藥物有氨基水楊酸制劑、激素、硫嘌呤類藥物和環孢素及生物制劑[2-3]。其中,生物制劑藥物英夫利昔單抗(Infliximab,IFX)通過抑制腫瘤壞死因子-α(Tumor necrosis factor-α,TNF-α)信號通路有效誘導和維持IBD患者的病情緩解,在IBD治療中發揮著重要作用[4]。雖其療效較好,但易出現原發性失應答和繼發性失應答[5]。有報道指出,腸道黏膜的mRNA表達譜與IBD的疾病活動度、內鏡和組織病理學評分密切相關[6],且可作為評估患者預后的標志物[7]。機器學習法是一門涉及統計學、神經網絡、計算機科學等諸多領域的交叉學科,是人工智能技術的核心,其在多組學數據處理領域的應用體現出顯著優勢[8]。
目前,臨床上為評估IFX治療應答及失應答情況常檢測患者英夫利昔單抗谷濃度和抗抗體豐度[9],但該方法用于首次治療后,具有一定的滯后性,導致預測指標無法及時、有效的反饋用藥結果,且不能在患者接受治療前提供有效的信息,以幫助制定用藥方案和及時選擇替補用藥。因此本研究采用機器學習法和轉錄組數據,預測IBD患者對英夫利昔單抗的應答,現報道如下。
1 資料與方法
1.1 一般資料使用高通量基因表達數據庫(Gene expression omnibus,GEO, https://www.ncbi.nlm.nih.gov/geo)下載炎癥性腸病患者首次英夫利昔單抗治療前腸道黏膜的基因表達譜(GES16879)共計43例。其中CD患者為19例,UC患者為24例。患者在首次靜脈輸注5 mg/kg英夫利昔單抗前一周內接受內窺鏡檢查,并取病變結腸組織進行活檢。上述組織使用Affymetrix人類基因組 U133 Plus 2.0 陣列獲取mRNA表達譜。
1.2 分組方法在本研究中,將黏膜愈合作為英夫利昔單抗治療應答情況的判定標準。UC和CD對英夫利昔單抗治療應答被定義為黏膜完全愈合。判定標準:CD的組織學評分降低至少3分,UC的組織學評分為0或1分或Mayo內窺鏡評分降低至0或1分[10-11]。不滿足判定標準的患者被定義為失應答者。最終43名IBD患者中,20例為應答者(8例UC和12例CD), 23例為失應答者(16例UC和7例CD)。
1.3 差異基因獲取與功能分析使用基于R語言的limma[12]軟件包,差異倍數(log2FC)>1.5或<-1.5,且P<0.05為標準篩選差異基因。利用clusterProfiler 4.0[13]軟件包進行差異基因的基因本體論 (Gene ontology,GO)和京都基因和基因組百科全書 (Kyoto encyclopedia of genes and genomes,KEGG)功能富集分析。
1.4 基于機器學習法篩選IBD患者對英夫利昔單抗反應的預測基因分別使用LASSO回歸分析(通過交叉驗證選擇距離最小均方誤差一個標準誤所對應的正則化參數λ作為最合適的λ)[14]和SVM-RFE[15](根據SVM在訓練時生成的權向量來構造排序系數,每次迭代去掉一個排序系數最小的特征屬性,最終得到所有特征屬性的遞減順序的排序)的方法篩選預測基因,求其交集。
1.5 預測模型的構建和效能評估繪制受試者工作特征曲線(ROC)并計算ROC曲線下面積(AUC),使用聯合診斷法,利用Logistic回歸建立聯合診斷模型,ROC曲線進行二次評估。
2.1 失應答者和應答者差異基因集及功能富集分析結果使用limma進行差異基因篩選后共發現182個差異基因,其中上調基因為17個,下調基因為165個(圖1A)。GO富集分析結果顯示,差異基因與對細菌的反應、對脂多糖的反應及中性粒細胞的激活等功能有關;KEGG富集分析結果顯示,差異基因在細胞因子-細胞因子受體的相互作用、IL-17信號通路和病毒蛋白與細胞因子及細胞因子受體的相互作用等通路中發揮作用(圖1B)。

注:A,對英夫利昔單抗應答和失應答的IBD患者的差異基因,其中藍色代表下調,紅色代表上調;B,差異基因的GO和KEGG富集分析。
2.2 預測模型基因的篩選結果LASSO回歸分析共篩選出趨化因子配體22(CCL22)、chordin樣蛋白2(CHRDL2)、環氧化物水解酶4(EPHX4)和白介素10(IL-10)等15個基因(圖2A);SVM-RFE法篩選出BCL2相關蛋白A1(BCL2A1)、CHRDL2、趨化因子配體6(CXCL6)和趨化因子配體8(CXCL8)等22個基因(圖2B)。兩種方法共同篩選出CHRDL2、IL13RA2、MMP10和S100A9等4個基因(圖2C)。

注:A,LASSO回歸變量軌跡圖;B:SVM-RFE交叉驗證圖;C:兩種機器學習方法共同篩選出的差異基因。
2.3 預測模型的建立與性能評估結果上述4個差異基因的AUC分別為S100A9(0.946)、IL13RA2(0.972)、MMP10(0.893)及CHRDL2(0.870)。4個基因聯合診斷模型(Logistics回歸模型=-59.212 2+1.951×S100A9+0.758 1×IL13RA2+1.694 2×MMP10 +4.042 1×CHRDL2,AIC=18.51),其AUC為0.996,靈敏度為95.7%,特異度為100%,見表1、圖3。

表1 各基因對IBD患者對英夫利昔單抗治療反應預測的效能評估

注: A, 4個特征基因的ROC曲線; B, 聯合診斷的ROC曲線。
目前,使用IFX是治療IBD較有效的手段之一為,但其常出現失應答,因此探尋IFX反應的潛在生物標記物至關重要。本研究,利用IBD患者結腸黏膜的mRNA表達譜構建對英夫利昔單抗應答的預測模型。預測接受IFX治療的IBD患者對IFX的應答情況在臨床診療過程中具有重要意義。Roda等[16]報道指出,IBD患者對IFX治療的原發性失應答率為10%~20%,繼發性失應答率為20%~40%。說明不論是首次接受IFX治療的患者,還是既往已接受過IFX治療的患者,其出現治療失應答的概率較大。尤其對于首次用藥患者,若能提前預測其對IFX藥物的應答情況,將有助于臨床醫務人員制定診療方案。此外,IFX藥物價格相對高昂,對患者產生一定的醫療負擔。隨著生物大數據時代的到來,在獲取大通量數據的同時也面臨著數據處理難度增高的問題,而采用機器學習法可從高通量、高緯度的數據中篩選出范圍更精準的數據供下游分析。本研究中,采用機器學習法從21 654個基因中篩選出182個差異基因,主要集中于細胞因子-細胞因子受體的相互作用、白介素17 信號通路等,進一步篩選出4個特征基因用于建模。該方法可降低高通量數據的分析難度,可提升模型臨床轉化應用的能力。此外,基于機器學習法預測IBD患者IFX治療應答情況的相關研究較少。本研究構建的聯合模型AUC為0.996,靈敏度為95.7%,特異度為100%,其性能參數可體現該模型具有良好的預測性能。
本研究構建了一個由4個特征基因構成的預測模型,包括S100A9、IL13RA2、MMP10和CHRDL2。S100A9 是一種鈣和鋅結合蛋白,在調節炎癥過程和免疫反應中起重要作用[17],并且與IBD發生發展密切相關。IL13RA2是IBD患者對英夫利昔單抗治療原發性失應答的最佳預測標志物之一[18]。MMP10也是IBD和結腸癌共有基因之一[19],參與中性粒細胞激活途徑,與炎癥反應密切相關。研究顯示,CHRDL2在結腸癌中高表達[20],但在IBD中的致病機制還有待進一步研究。此外,由于CHRDL2是chordin蛋白家族的成員,屬于一種分泌蛋白[21]。本研究單獨使用CHRDL2表達譜構建預測模型,其AUC為0.87,靈敏度為82.6%,特異度為90%,說明其具有成為IBD患者對IFX治療應答情況的獨立預測指標,并且由于其分泌蛋白的特性,也使其具有無創檢測的潛力,這一發現值得進一步深入研究。雖然本研究基于機器學習法構建出用于IBD患者對IFX的應答情況的預測模型,但本研究亦有不足之處。首先,本研究只進行一個隊列數據的分析,缺少獨立樣本的外部驗證;其次,本研究缺少本地實驗數據對分析結果進行二次驗證。今后,將會針對上述問題進行深入研究,以持續優化和驗證本模型。
綜上,本研究基于機器學習法,構建了一個由4個mRNA組成的模型,可用于預測IBD患者對IFX治療的應答情況,可對該類患者的臨床治療方案擬定提供一定的參考。