顧兆偉,張立忠,劉曉峰,譚 先
(1.長春中醫藥大學附屬第三臨床醫院 腦病康復科,長春 130000;2.長春市朝陽區清和社區衛生服務中心,長春 130000;3.空軍杭州特勤療養中心 康復理療科,杭州 310000;4.東北師范大學 信息科學與技術學院,長春 130000)
在高通量測序等生物技術的發展下,精準醫療模式已開始為臨床診療提供新的方法與技術。精準醫療是指與患者分子生物病理學特征相匹配的個體化診斷和治療策略[1]。在對癌癥患者的個體化診斷和治療過程中,精準醫療模式希望通過患者的基因型與基因表達等個體化數據為治療方案提供指導。礙于有限的數據及治療方法,這項工作仍充滿爭議與挑戰[2-3]。
癌癥藥物治療是目前治療癌癥的主要手段之一。通過將患者的個體數據結合系統生物學的研究成果,實現對不同抗癌藥物治療效果的精準預測是癌癥精準醫療的發展趨勢。基于功能性實驗的一些實驗方法存在耗時長(如類器官培養法、循環腫瘤細胞增殖法),成本昂貴和對實驗設備要求高等局限性(如四甲基偶氮唑鹽比色法)[4],而使用生物信息學中基于計算機算法的計算方法可以在僅獲取部分患者基因組信息的前提下,為問題提供新的實驗方法和研究思路。目前已有大量的研究成果證實了使用計算方法預測抗癌藥物作用效果的可行性。
目前研究的數據源多數是使用克隆培養的癌癥細胞系(Cancer cell line)數據。癌癥細胞系有著無限繁殖、易于測序的特點。除了在醫學研究試驗中有著廣泛應用,其多組學概況和細胞增殖實驗數據也被計算實驗所青睞。在上世紀90年代,由美國國家癌癥研究所(National Cancer Institute)發表的NCI-60匯總了多種抗癌藥物對60種癌癥細胞系的作用效果,并在多個計算方法實驗中驗證了使用癌癥細胞系概況數據預測抗癌藥物作用的可行性[5-7]。而近些年發表并不斷更新的CCLE(Cancer Cell Line Encyclopedia,癌細胞系百科全書)[8]、GDSC(Genomics of Drug Sensitivity in Cancer,癌癥藥物敏感性基因組學)[9]和CTRP(Cancer Therapeutics Response Portal,癌癥治療反應門戶網)[10]等為計算方法實驗提供了更為豐富有效的素材。CCLE匯集了多個細胞系對24種抗癌藥物的作用,而GDSC匯集了200余種藥物對1 001個細胞系的作用效果,并且在兩個數據源中也包含了癌癥細胞系的基因表達、編碼基因突變、甲基化和拷貝數(變異)等數據。CTRP也是以小分子藥物和探針對細胞系影響為研究對象的數據庫,相較于前兩者,CTRP更加重視藥物和靶標的關系而非細胞系本身的概況。
除細胞系數據以外,根據研究者研究問題的不同角度,有一些成熟的數據庫可以應用在研究之中。在研究癌癥問題常用的基因表達關系數據中,由美國國立生物技術信息中心(National Center for Biotechnology Information,NCBI)發布的GEO(Gene Expression Omnibus)數據庫[11]常被使用。而在分析單點突變時,單核苷酸多態數據庫dbSNP[12]也常用于作為背景數據庫之一。研究之中常見的數據源還有生物通路如KEGG數據庫[13]和蛋白質組學相關的,如包含蛋白質互作(Protein-protein interaction)關系的數據庫STRING[14]、BioGRID[15]等。在研究非細胞系問題上,以臨床病人樣本為核心的TCGA(The Cancer Genome Atlas)數據庫包含了多樣本、多分型和多角度的相關數據,在本問題中也常被使用。
區別于臨床研究中常用的數學統計方法(如表達相關性研究[16]),計算方法(Computational method)更加強調整體性,有著明確的步驟與輸入輸出(見圖1)。計算方法對抗癌藥物作用效果的預測目的是提供一個臨床前研究模型或系統,一般通過使用患者(或細胞系)的基因型數據作為模型的輸入,以該模型或系統根據患者(或細胞系)基因型所預測出來的單種或多種藥物敏感性作為輸出。根據模型所基于的不同算法類別,可分為三類。

圖1 計算方法的研究流程Fig.1 Research flow of calculation method
在生物的生命活動機制中,網絡這一概念廣泛存在。如蛋白質互作網絡、基因調控網絡(Gene regulatory network),生物通路和共表達網絡(Co-expression network)等。在研究癌癥問題時,將生物數據以網絡的方式建模可以更好地描述患者基因、蛋白間的關系,并應用適用于網絡結構的算法進行分析從而實現預測對抗癌藥物預測的功能。
在目前已有的研究成果中,多是將癌癥細胞系與藥物構建成異質性網絡再結合多組學數據進行分析。Wei[17]等觀察到具有相似基因型的細胞系和結構相似的藥物間的作用關系存在高度關聯,以此為依據構建了一個通過皮爾遜相關系數(Pearson correlation coefficient)來表示細胞系間關系的混合網絡模型。Zhang[18]等根據藥物和細胞系的敏感與抵抗關系構建異質性網絡,再將網絡關聯上基因表達、藥物化學結構相似度等信息,然后在網絡上執行信息流算法(Information flow-based algorithm),求出原始數據中沒有關聯的藥物與細胞系間的打分。Yang[19]等通過將基因組數據整合蛋白質互作網絡和細胞系的功能注釋,開發了一個反應網絡模型來預測藥物反應的工具。Stanfield[20]等提出了一個將基因根據蛋白質互作網絡相連,再將癌癥細胞系數據和基因相連建成異質性網絡的方法。以上均是構建異質性網絡直接預測的研究,也有通過網絡分析細胞系數據得出輔助結論的研究成果。Choi[21]等提出了將癌癥基因組學結合網絡動力學的方法進行分析,通過使用吸引子景觀分析(Attractor landscape analysis)方法,以p53的基因調控網絡為例揭示了其中可能作為藥物靶點的重要基因。Speyer[22]等分析了CTRP上368個小分子藥物對810個細胞系上的影響,通過通路數據和與通路數據對應的差異依賴網絡來發現細胞系對藥物作用的特異性基因。
相較于其他算法,網絡分析方法解釋性相對更強,更符合目前對生物數據的認知。但是礙于構建網絡的數據源并不完備、部分關系未得到檢測且已知的偏向于已被大量研究的基因和疾病[23],由此會使某些潛在驅動基因得不到算法的重視從而影響對藥物反應的預測結果。
機器學習是人工智能領域的重要方法,旨在讓模型從已知的數據特征出發,通過學習得到規律以預測未知數據。在本問題的研究中,應用機器學習方法是主要的研究手段,創新點主要集中于提出新的算法、新的特征或降低預測所需的數據維度。
Riddick[6]等對NCI-60數據使用了隨機森林(Random forest)算法,為機器學習方法在本問題上的應用做出了鋪墊。Menden[24]等使用了基因組數據和藥物的化學性質共同預測藥物敏感性,使用的是人工神經網絡(Artificial neural network,ANN)模型。Supahvilai[25]等提出一種基于推薦系統(Recommender system)思想的方法,根據藥物和細胞系對潛在“藥物基因組”空間的學習,預測未知細胞系的抗癌藥物作用。Zhang[26]等在推薦系統的基礎之上,采用混合內插加權協同過濾(Hybrid interpolation weighted collaborative filtering)的方法。Ruffalo[27]等使用了多任務學習的方法重構了藥物作用網絡,證實了多任務學習在對藥物敏感性預測上的可行性。Wang[28]等使用了DiffRank、GSVA、PLAGE和Z-score四種方法基于通路的活性進行了無監督的學習,該工作減少了預測所需的特征。HUSSAIN[29]等嘗試使用了Apache Spark算法并取得了良好的表現。Knowles[30]等基于貝葉斯非參數方法提出了一個多任務回歸模型。Dhruba[31]等使用了遷移學習解決了CCLE和GDSC在數據源上的差異問題。CHEN[32]等為了融合問題中涉及到的多組學特征,提出了一種雙層選擇的方法。Kim[33]等在樸素貝葉斯(Naive Bayes)模型中使用了蛋白質組學的反相蛋白質矩陣作為特征,為多組學研究提供了參照。以上研究表明機器學習算法在本研究中已取得了一定的成果,但在對問題的定義、特征的選擇等方面仍有一定的研究空間。
深度學習技術是通過增加人工神經網絡算法中的網絡層數,從而加強模型的學習能力。使用深度學習方法,可以讓網絡以原始數據作為訓練樣本自提特征以跳過傳統的特征選擇步驟。近些年深度學習技術在圖像識別、自然語言處理等領域均取得了較大的突破。而在對抗癌藥物作用的預測中,深度學習的各種網絡結構在被研究者嘗試使用并有了一部分的研究成果。Chiu[34]等使用了體細胞突變數據和基因表達數據,通過使用自編碼器(Autoencoder)進行了預訓練,再將預訓練網絡的中間層結果作為特征構建了預測網絡模型。Chang[35]等將基因突變數據結合藥物分子指紋數據使用了卷積神經網絡(Convolutional neural network,CNN)進行預測。Su[36]等使用了深度非網絡模型——深度森林(Deep forest)對CCLE和GDSC上的數據進行了預測。Xia[37]等為了緩解訓練中的梯度消失嘗試了深度殘差網絡(Deep residual network)。
因為不同工作在數據選擇和測試算法上有所差異,所以無法直接評價算法間的優劣程度,但是從算法指標上看深度學習確實在本問題上有所突破,如Xia[37]等的工作在NCI-60數據集上將預測的均方誤差降到了0.015 8;Chang[35]等在工作的比照實驗中使用了SVM算法和隨機森林算法但效果均不如深度學習。而對深度學習算法的研究是熱點與前沿,近年常有大量新改進的和新提出的算法,其網絡設計的基本原理也在被不斷發現。所以雖然目前并沒有太多研究成果,但未來本問題的研究在深度學習方法上將有很大的提升空間。
在研究抗癌藥物作用效果的問題上,相較于傳統的基因檢測和功能性實驗的方法[38-40],使用計算方法有著時間短、成本低的優點。然而使用計算方法仍存在瓶頸。首先,細胞系不同于癌癥患者身上的腫瘤細胞,缺少空間結構、微環境等重要影響因素。其次,癌癥具有異質性,預測的藥物作用結果只能通過患者細胞樣本與細胞系的相似程度,通過計算模型預測患者對某種藥物的敏感或抵抗,這顯然有因誤差而出現錯誤判斷的可能。最后,一些計算模型雖然表現良好,但是其缺乏可解釋性,研究者無法通過其算法的計算機理為解釋癌癥進行指導。
而在精準醫療與癌癥診療結合的路上也并不平坦,因為缺乏產出和通過一些隨機性試驗結果[41]的驗證,癌癥精準醫療的意義曾受到質疑[2-3]。但隨著越來越多有積極意義研究成果的發表,癌癥精準醫療的理念得到了更多的側面驗證,雖然離它的徹底實現研究者們仍任重道遠。
對基于計算方法視角的抗癌藥物作用預測以及整個癌癥精準醫療的發展有如下展望:
1)嘗試前沿計算機算法,與算法發展相輔相成。計算方法的核心是計算機算法,研究者通過嘗試前沿的算法有提高模型表現的可能性。如深度學習是目前生物學信息學方向的應用熱點之一,如上文所述,已經有研究成果證實深度學習可以在對抗癌藥物作用效果預測上取得良好的效果。而隨著研究人員對深度學習算法的不斷創造與改進,在本問題上可以預見會有較大的提升空間。
2)標準化實驗數據,普及精準醫療概念。所參考的文獻證實了可以直接使用計算方法分析標準化后的癌癥臨床數據。而能否獲取更多可以用于計算分析的數據,取決于醫療從業人員是否有意識地采集有一定規范性、可以用于計算實驗的數據。提高醫療從業人員對精準醫療概念的認識可以加快其發展進程。同樣由數據科學家更新發布的數據庫數據也可為計算方法提供更多的實驗數據來訓練更符合實際情況的計算模型。對本問題的研究從早期的NCI-60數據源發展到GDSC和CCLE等大型的數據庫階段,其模型的泛化能力已有了顯著的提高。
3)多角度分析癌癥并設計實驗。對抗癌藥物作用的影響因素有很多,如點突變、染色體變異、基因表達量變化等。一般計算方法只選取其中一種或幾種作為模型的輸入特征,很少有實驗能夠全面綜合多組學和多因素來訓練模型。所以如何融合多角度數據訓練出能多方面觀測患者(或細胞系)基因型的模型是未來可以突破的關鍵點之一。但與此而來的數據量少、不全,特征權重平衡等問題也需要在實驗設計階段有足夠的理論支持。
4)消除臨床實驗與計算實驗的隔閡。一直以來,臨床實驗和計算實驗都不能很好地融合。臨床實驗一般傾向于數據來源和采樣方法的獨特性,而在分析過程中多使用數學統計方法,分析結果僅能揭示現象缺乏直接應用價值。計算實驗強調模型的表現和特征選擇的合理性,最終的實驗結果有一定應用價值但因為缺乏解釋性容易不被臨床所接受。筆者認為,如何能在設計實驗時將臨床與計算兩者結合是本問題乃至整個癌癥精準醫療取得突破進展的關鍵點。如用計算方法將臨床研究結果轉化為臨床前模型和用臨床方法檢驗計算實驗發現的生物標志物等,都值得研究人員嘗試。
綜上所述,計算方法有著一定的局限性,但在抗癌藥物作用的預測問題上有著良好的表現和可以預期的提升空間。如何更好地使用計算方法是癌癥精準醫療未來發展的重點之一。