張雨綺 林勇



摘? 要: 腫瘤免疫治療應答的預測對腫瘤治療方案設計及治療有著重要的意義。本文引入基于隨機森林的機器學習方法,將病人黑色素瘤組織轉錄組RNA-seq的基因表達譜作為特征,對免疫檢查點阻斷治療的結果進行預測研究。對病人的基因表達譜使用隨機森林算法來構建預測模型,并與Logistic回歸模型和XGBoost模型進行比較。實驗結果表明,隨機森林模型對免疫檢查點阻斷治療的應答能夠進行較準確的預測,并且較Logistic回歸模型和XGBoost模型預測效果更好。
關鍵詞: 黑色素瘤;免疫檢查點阻斷;機器學習;隨機森林;分類預測
中圖分類號: Q789? ? 文獻標識碼: A? ? DOI:10.3969/j.issn.1003-6970.2019.01.021
【Abstract】: Prediction of the response to tumor immunotherapy is of great significance to the design of tumor treatment and treatment. In this paper, random forest machine learning method is introduced, and gene expression profile of patientsmelanoma RNA-seq was taken as characteristics to predict the response to immune checkpoint blockade.Random forest algorithm was used to construct the prediction model for the gene expression profile of patients, and compared with Logistic regression analysis and XGBoost algorithm. The experimental results show that random forest model had a great prediction accuracy to the response to immune checkpoint blockade and was better than Logistic regression model and XGBoost model.
【Key words】: Melanoma; Immune checkpoint blockade; Machine learning; Random forest; Classification prediction
0? 引言
近年來,腫瘤免疫治療已經被公認為是一種安全的腫瘤治療方法,而免疫檢查點阻斷(Immune Checkpoint Blockade,ICB)就是一種新型的免疫治療方法[1]。免疫檢查點是一類可以起激活或抑制作用的分子,腫瘤細胞表面的配體與免疫細胞表面的受體進行結合時,腫瘤細胞會通過免疫檢查點傳遞抑制信號給免疫細胞,使免疫細胞失去活性,從而形成免疫逃逸[2]。ICB就是對腫瘤細胞傳遞出的免疫檢查點進行阻斷,使免疫細胞恢復活性,利用自身免疫系統來消除腫瘤細胞。它與傳統的腫瘤治療方法相比,更加容易產生療效,尤其是在中晚期的黑色素瘤中[3-4]。雖然臨床治療中明確了ICB的可行性, 但約有70%以上的患者仍會治療失敗,而未能從中獲益[5]。Ke Chen[6]等人在基于計算機預測ICB應答的研究一文中指出,研究影響ICB治療能否成功的因素,構建ICB治療應答的預測模型,如何有效地在ICB治療前進行病例篩選,從而為患者設計更為適合的個性化治療方案就顯得尤為重要,文中將可預測ICB治療效果的特征分為五大類,其中一類就是轉錄組水平RNA-seq特征。比如,Galon J[7]等人使用基因表達譜計算出來的特征來對結直腸癌的病人進行免疫治療臨床結果的預測,Pornpimol Charoentong[8]等人使用基因表達譜構建了一個對多種癌癥免疫治療結果進行預測打分的工具。隨著近年來第二代測序技術的不斷成熟和發展,以及對基因的研究越來越深入,人們發現許多疾病的發展與治療都和基因的表達密切相關[9],根據基因表達譜對于腫瘤免疫治療的預測亟待研究。
本文研究病人轉錄組水平RNA-seq數據對ICB治療黑色素瘤效果的預測作用,引入隨機森林算法來構建預測模型。隨機森林算法是一種基于統計學習理論的經典機器學習算法,它將bootstrap重抽樣方法和決策樹算法相結合,并能在構建模型的同時對特征的重要性進行評估,具有較好的性能[10-12]。本文對病人的基因表達譜數據,使用隨機森林構建ICB治療預測模型,引入模擬數據來對模型進行評估。同時也使用了Logistic回歸和XGBoost方法,來對不同算法構建出的模型進行比較。
1? 基于機器學習的免疫檢查點阻斷治療預測方法
本文對免疫檢查點阻斷治療分類預測的整體流程包括特征篩選、特征降維、隨機森林建模和實驗驗證四個部分,如圖1所示。下面對圖中的每一個流程的實現以及實驗數據的處理進行詳細的描述。
1.1? 特征基因的篩選
在構建預測模型時,選取的特征基因越多,計算量越大。為了降低模型計算的復雜度,同時又保證預測的準確性,對特征基因的篩選起著重要的作用。本研究篩選出與免疫相關的基因。根據收集到的文獻,得知免疫治療與人體中與免疫相關的通路都有著緊密聯系[13],所以本研究首先對60例病人基因表達譜的20250個基因進行了匹配篩選。從KEGG(Kyoto Encyclopedia of Genes and Genomes)京都基因與基因組百科全書數據庫中收集了與免疫相關的通路,這些通路中共有619個基因。將60例病人基因表達譜中的基因與這619個免疫相關通路的基因取交集,最后得到了602個共有基因。
1.2? 特征基因的降維
在初步的特征篩選之后,特征基因已經從20250個精簡到了602個,但特征數量仍舊過多。本研究使用R語言中randomForest包中importance()函數來實現特征基因的降維。隨機森林算法相對于其他機器學習算法的一大優勢就在于它可以通過評估所有變量的重要性,從而對特征進行篩選。在建模的過程中,隨機森林算法會為每個特征計算出Mean DecreaseAccuracy準確度平均降低量和MeanDecrease Gini基尼指數平均降低量兩個值,這兩個值都是對特征重要性的評估指標,本文篩選時主要參考的是MeanDecreaseGini。如果一個樣本有K個分類,假設樣本的某一個特征a有n個取值,其某一個節點取到不同樣本的概率為:
基尼指數表示節點的純度,基尼指數越大純度越低。將變量數據打亂,基尼指數變化量的均值可以作為變量的重要程度度量。MeanDecreaseGini通過基尼指數計算每個變量對分類樹每個節點上觀測值的異質性的影響,從而對變量的重要性進行比較,該值越大表示該變量的重要性越大[14]。本研究通過多次迭代來對特征基因進行篩選:首先使用待篩選的基因,在R語言中構建隨機森林分類模型;接著使用importance()函數來查看每個特征的MeanDecreaseGini,并根據MeanDecreaseGini進行排序,篩選出排名靠前的特征來再次建模。重復以上步驟,我們最終從602個特征基因最終篩選出16個來當作特征基因。
1.3? 基于隨機森林的ICB預測方法
隨機森林是一個監督模型,由若干棵決策樹組成,每一棵決策樹的葉子節點都是具有同一種類別的數據。對每一顆輸入待分類的樣本數據,決策樹都會根據內部選擇的最優的分裂節點來生成一條從根節點到葉子節點的唯一路徑,該葉子節點就是這個待分類樣本的分類結果[15-16]。隨機森林算法構建模型的流程如圖2所示。
整個建模過程是在R語言(3.4.4)中使用randomForest包來實現的,具體的步驟如下:首先將病人數據按照80%做訓練集,20%做測試集的比例隨機抽取樣本分成兩組,每組數據包括每個樣本篩選出的16個特征基因和每個樣本的分類。接著將隨機森林算法設置為構建分類器模式,使用訓練集進行模型的構建。然后使用訓練出的預測模型,來對測試集進行預測,并統計每個樣本分類的概率以及分類結果。最后使用預測出的分類概率來繪制ROC便于模型之間的比較,使用預測分類正確的樣本占訓練集樣本總數的比例,計算模型預測的準確率。
1.4? 實驗數據處理
本研究對象包括兩組共60例病人數據,他們由互不相關且相互獨立的病人組成,這些數據均是從GEO(Gene Expression Omnibus)公共數據庫中收集的公共數據,數據全部經過數據庫審核,合法、準確且可以直接使用。這60例病人數據,分別從GSE91061(33例)和GSE78220(27例)兩組研究中收集。其中,GSE91061包括23例PD(progressive disease)無療效病人和10例PRCR(partial response、complete response)有療效病人;GSE78220包括12例PD病人和15例PRCR有療效病人。病人數據包括病人ICB治療前的黑色素瘤腫瘤組織轉錄組RNA-seq測序數據,以及這60例病人接受ICB治療后的療效情況,共計有35例PD無療效病人與25例PRCR有明顯療效病人兩種分類[5,17]。
考慮到真實的病人數據樣本量較小,為了評估本研究的準確性,本研究還額外從癌癥和腫瘤基因圖譜(The Cancer Genome Atlas,TCGA)數據庫中收集了相似的黑色素瘤腫瘤組織的轉錄組RNA-seq測序數據,經過質控篩選后共收集到471例病人樣本,獲得了處理后的病人基因表達譜[18]。將GEO數據庫收集到的兩組以及TCGA數據庫收集到的一組數據的基因表達譜進行了整合,三組數據共有的基因數量為20250個。因為這些病人并沒有接受到ICB治療,所以我們需要對這些病人數據進行模擬響應變量,模擬出他們經過治療后是否有療效。本研究模擬響應變量分為三步:
(1)根據已知響應變量的數據計算聚類中? ?心[19,20]。整理60例已知治療結果的病人數據,根據病人基因表達譜FPKM(Fragments Per Kilobase Million)值,分別求出兩類病人每個基因FPKM值的平均值,將每類病人所有基因的FPKM值平均值構成的高維向量,視為該類別的聚類中心。
(2)計算模擬數據的歐式距離。將收集的471例病人的基因表達譜文件進行整理,根據(1)中算出的聚類中心,使用如下公式分別計算每個病人與PD和PRCR兩種類型的歐式距離:
(3)模擬響應變量。比較471個病人與PD和PRCR兩種類型聚類中心的歐式距離,將該病人的響應變量模擬為歐式距離更小的類型。最終471個病人的響應變量模擬為363個PD(約77%)和108個PRCR(約23%),與實際治療中ICB治療大部分病人沒有療效的情況相吻合。
2? 實驗驗證與結果分析
2.1? 實驗驗證方法
2.2? 實驗結果與分析
2.2.1? 真實數據結果
為了驗證本文模型的有效性,將隨機森林模型與將Logistic回歸分析和XGBoost兩種方法的分類效果進行比較。隨機將60例病人樣本分為48個訓練集樣本和12個測試機樣本,分別使用隨機森林、Logistic回歸分析和XGBoost三種方法進行建模,重復上述方法五次,并對相同分組得到的三種模型,進行準確率和ROC曲線曲線下面積比較。三種模型的準確率的比較如表1所示,三種模型的ROC曲線及AUC的比較如圖3中(a)(b)(c)(d)(e)所示,隨機森林算法五次建模的ROC及平均的AUC如圖3中(f) 所示。從圖3和表1中可以發現,隨機森林算法在
本研究中明顯優于Logistic回歸和XGBoost方法,隨機森林算法構建出的模型預測平均準確率達到84.9%,優于XGBoost的61%和Logistic回歸的60%;隨機森林模型的平均ROC曲線下面積也達到0.914,明顯大于XGBoost和Logistic回歸。
2.2.2? 模擬數據結果
為了測試本研究中隨機森林模型的準確度,同時對額外收集到的471個模擬數據做了三種模型的構建與比較,構建模型時仍是使用篩選出的16個特征基因作為特征。三種模型的準確率比較如表2所示,三種模型的ROC曲線及AUC的比較如圖4中(a)~(e)所示,隨機森林算法五次建模的ROC及平均的AUC如圖4中(f)所示??梢悦黠@看出,隨著樣本量的增加,三種模型準確率之間的差距也在逐漸縮小,但是隨機森林模型的預測準確率仍是略高于XGBoost和Logistic回歸,達到了93.2%;同時三種模型的ROC曲線也十分接近,但是隨機森林模型的ROC曲線下面積也是略大于其他兩種模型,平均AUC達到了0.985,也從側面表明了數據量越大,模型會越準確。
3? 總結與展望
本文創新的使用病人的基因表達譜,基于機器學習理論中的隨機森林算法,實現對ICB治療的療效預測。首先,提出了基于機器學習理論的隨機森林算法篩選特征的方法與模型構建的過程,同時通過文獻調研,縮小了待選基因的范圍;其次,為了彌補數據的不足,引入了相似的病人數據,并根據與聚類中心之間的歐式距離,對響應變量進行了模擬;最后,使用了隨機森林、Logistic回歸和XGBoost三種方法分別對篩選出的特征基因進行訓練,并通過準確率和ROC曲線來對三種模型在真實數據和模擬數據測試集上的預測效果進行比較和評估,驗證了本文構建隨機森林模型的準確性。ICB治療的預測研究有助于醫生在為病人設計治療方法時,可以選擇更為有效的治療手段,也為病人的康復增加一份希望。
在研究的過程中,本人嘗試使用更少的特征基因來對研究數據進行訓練并預測,由于本研究的訓練樣本較少,繼續減少特征數量反而會使模型的準確率下降。因為ICB治療還屬于比較新型的治療方式,國內外的研究中并未有過多的數據和相關的預測研究,本研究只收集到了兩組病人數據。在其中一組病人數據中發現除了本文中提及的PD和PRCR兩類治療結果外,還有第三類治療結果SD(stable disease),但是因為數據量過少且另一組病人數據中并未提及此類,所以本文沒有對SD這類病人進行研究。隨著ICB治療研究的不斷深入和不斷推廣,會有越來越多的病人數據可供研究,在未來的研究中,我們將收集除了基因以外的特征加入模型之中,繼續對三種治療結果的分類預測進行? 研究。
參考文獻
[1] Stambrook PJ, Maher J, Farzaneh F. Cancer Immunotherapy: Whence and Whither[J]. Mol Cancer Res. 2017 Jun; 15(6): 635-650.
[2] 盧伸, 蘇丹. 免疫檢查點阻斷用于腫瘤治療的研究進展[J]. 實用腫瘤雜志. 2016; 31(1): 19-23.
[3] Topalian SL, et al. Mechanism-driven biomarkers to guide immune checkpoint blockade in cancer therapy[J]. Nat.Rev. Cancer. 2016 May; 16(5): 275-87.
[4] Liu XS, Mardis ER.Applications of immunogenomics to cancer[J]. Cell. 2017 Feb 9; 168(4): 600-612.
[5] Hugo W, Zaretsky JM, et al. Genomic and Transcriptomic Features of Response to Anti-PD-1 Therapy in Metastatic Melanoma[J]. Cell. 2016 Mar 24; 165(1): 35-44.
Liu Q, et al. Towards In Silico Prediction of the Immune- Checkpoint Blockade Response.[J]. Trends Pharmacol Sci. 2017 Dec; 38(12): 1041-1051.
Galon J, et al. Type, density, and location of immune cells within human colorectal tumors predict clinical outcome.[J]. Science. 2006 Sep 29; 313(5795): 1960-4.
Charoentong P, et al. Pan-cancer Immunogenomic Analyses Reveal Genotype-Immunophenotype Relationships and Predictors of Response to Checkpoint Blockade. Cell Rep. 2017 Jan 3; 18(1): 248-262.
Cogdill AP, Andrews MC, Wargo JA. Hallmarks of response to immune checkpoint blockade[J]. Br J Cancer. 2017 Jun 27; 117(1): 1-7.
李慧, 李正, 佘堃. 一種基于綜合不放回抽樣的隨機森林算法改進[J]. 計算機工程與科學. 2015;7
全雪峰. 基于奇異熵和隨機森林的人臉識別[J]. 軟件, 2016, 37(02): 35-38
蘇志同, 汪武珺. 基于隨機森林的煅燒工藝參數的研究和分析[J]. 軟件, 2018, 39(4): 148-150
Li Y, et al. A Mini-Review for Cancer Immunotherapy: Molecular Understanding of PD-1/PD-L1 Pathway Translational Blockade of Immune Checkpoints[J]. Int J Mol Sci. 2016 Jul 18; 17(7). pii: E1151.
董師師, 黃哲學. 隨機森林理論淺析[J]. 集成技術. 2013. 1; 2(1): 1-7.
李欣海. 隨機森林模型在分類與回歸分析中的應用[J]. 應用昆蟲學報. 2013, 50(4): 1190-1197.
李玲, 李晉宏. 基于隨機森林修正的加權二部圖推薦算法[J]. 軟件, 2018, 39(1): 110-115.
Riaz N, et al. Tumor and Microenvironment Evolution during Immunotherapy with Nivolumab[J]. Cell. 2017 Nov 2; 171(4): 934-949.e16.
Tomczak K, Czerwińska P, Wiznerowicz M. The Cancer Genome Atlas (TCGA): an immeasurable source of knowledge[J]. Contemp Oncol (Pozn). 2015; 19(1A): A68-77.
吳榮強, 李晉宏. 基于聚類分析的鋁電解槽陽極壓降的分類[J]. 軟件, 2018, 39(3): 166-169.
蒲杰方, 盧熒玲. 基于聚類算法和神經網絡的客戶分類模型構建[J]. 軟件, 2018, 39(4): 130-136.