孫雅婧 李春漾 曾筱茜
四川大學華西醫院華西生物醫學大數據中心,四川成都 610041
新藥的研發基本可分為藥物發現、臨床前開發、臨床研究和審批與上市四個階段。隨著產業革命第四次浪潮的來臨,人工智能已經滲透至科學生活的各個方面,包括新藥研發領域。研究者們希望通過人工智能技術的應用解決新藥研發中研發周期漫長、研發成本高昂等常見問題。本文旨在綜述人工智能多種技術在新藥研發各階段不同的應用,為人工智能在新藥研發場景應用的前景做出分析,為該領域的科研技術人員開展相關研究提供參考。
隨著現代生物醫學理論的不斷演進,現代生物技術的不斷發展,藥物發現在技術上又可以分為幾個步驟:選擇和確定藥物作用的靶點、生物標記、確定先導化合物以及候選藥物的確定等。臨床前開發階段以篩選活性化合物和研究構效關系為主,涵蓋了藥物的成藥性分析、安全性評價和藥物的吸收、分配、代謝、排泄和毒性等藥物動力學指標評價等。臨床研究階段則以藥物重定向、患者招募和臨床試驗為主,包含遴選用藥方案、優化改進藥效試驗等。審批與上市階段是政府藥品主管機構和制藥企業研發部門共同配合完成的最后階段[1-2]。
通常情況下,制藥公司會在藥物開發上花費數千萬到數億美元[3-4],經歷前述四個階段共耗費超過10 年時間。然而能夠通過漫長周期和重重考驗并成功上市的藥物,有研究者統計了2006~2015 年的新藥研發數據,成功率僅為9.6%[5]。
雖然各大制藥企業的銷售額都在不同程度的增長,但遠遠趕不上研發成本的增長速度,在投資回報率下降的同時新藥研發技術的成功率也在持續走低。不過隨著智能研發新藥等突破性技術的發展和成熟,這種下降趨勢或將減緩。本文旨在關注新一代人工智能技術在藥物研發過程的應用。
按照研發產業鏈的不同階段進行劃分,藥物研發中人工智能應用有以下幾類場景:
2.1.1 人工智能縮短科學發現藥物靶點周期 在制藥工業中,對許多不同的性能進行復合優化時,會收集大量的數據集。應用人工智能技術訪問這種針對目標和非目標的大型數據集,系統地用于訓練機器學習模型從而驅動數據集的預測屬性,可以幫助研究者充分理解疾病機制,縮短靶點發現周期。利用不同方法預測激酶活性的研究就是一組很好的應用實例。在不同的激酶項目中,選擇性分析可以生成更大的數據集,這些數據集再被系統地用于算法模型生成。研究者們從一個大而稀疏的數據矩陣中產生模塊分析QSAR[6]、二元貝葉斯QSAR 模型,該矩陣包含作用于92 個不同激酶的13 萬個化合物的數據。這些經過訓練的模型被應用到新的化合物上,生成可以在較少的數據點上預測新激酶的生物活性親和指紋圖譜,再用新的實驗數據迭代地改進模型,從而實現利用機器學習迭代的方法來發現新的激酶抑制劑。另外,有研究表明,隨機森林模型可以成功地結合公開可用的數據集和內部數據集[7],為200 種以上不同的激酶推導出隨機森林模型。DeepMind 近日研發的AlphaFold 工具能夠成功預測43 種蛋白質中25 種3D 結構。人工智能應用于預測蛋白質折疊方式,將解決科學界最棘手的問題之一[8]。晶泰科技開發的“藥物固相篩選與分析系統”基于人工智能技術的深度學習和認知計算能力,能夠在短時間內通過對醫學文獻、臨床試驗數據等非結構化數據進行處理、學習和計算,預測各種晶型在穩定性、熔點、溶解度、溶出速率等方面的差異,以及由此而導致在臨床過程中出現的副作用與安全性問題,在短時間內篩選出穩定性和溶解度最佳的晶型結構[9]。普林斯頓大學化學系和默克公司化學能力與篩選部的研究者們證明了機器學習可以利用高通量實驗獲得的數據來預測多維化學空間中合成反應的性能和化學反應的產率,有望在新藥開發上得到廣泛應用[10]。
2.1.2 候選分子的多維度復合優化選擇 在藥物發現中,臨床候選分子必須滿足一系列不同的標準:該化合物需要對生物靶標具有合適的潛力;具有較強的選擇性用于對抗非預期靶標;表現出良好的理化性質和吸收、分布、代謝、排泄和毒性性質。為了有效地進行化合物設計,在模型的優化過程中應用了大量的計算機方法,特別是一些機器學習技術,如支持向量機[11]、隨機森林[12-13]或貝葉斯學習[14]已經被成功應用。Cyclica開發并驗證了一個名為“Ligand Express”的云計算蛋白質組學篩選平臺(圖1)。該平臺發揮了生物物理學、生物數據和人工智能技術的組合效力,制藥科學家正在積極利用它來更有效地探索藥物發現的新途徑。平臺允許用戶提交感興趣的小分子,在人工智能、基于結構的分子模擬等技術輔助下通過使用云計算,不需要現場龐大的基礎設施,只需要一臺筆記本電腦、互聯網接入和瀏覽器便可完成蛋白質組篩選[15]。中國科學院上海生命科學研究院陳洛南教授團隊利用人工智能的方法確定了一套基于多維數據的復雜疾病的網絡標志物及動態網絡標志物篩選方法[16-17]。
除了前文所述的一些潛在藥物分子發現的過程外,臨床前開發還關注藥物的分子特性、水溶性、毒性、口服吸收潛力等方面的問題,人工智能技術也有部分應用。

圖1 Ligand Express 云計算平臺(Cyclica 公司)
都柏林大學計算機科學與信息學院的研究者將淺層機器學習方法應用于化學信息學問題,并取得了一定的成功。研究利用深度學習方法,特別展示了遞歸神經網絡方法如何應用于預測分子性質的問題。深度學習方法的應用在預測藥物的水溶性,預測分子的作用位點,基因表達數據等方面發揮著作用[18]。
奧地利林茨大學生物信息學的研究發現深度學習在毒性預測方面優于其他許多計算方法,如樸素貝葉斯、支持向量機和隨機森林。通過對包括1.2 萬種環境化學品和藥物專門設計檢測方法來對12 種不同的毒性作用進行測量,結果評估了深度學習在計算毒性預測方面的表現。深度學習自然能夠實現多任務學習,即在一個神經網絡中學習所有的有毒效應,從而學習高信息量的化學特征[19]。
人結直腸癌細胞系(Caco-2)是一種常用的研究藥物小腸吸收的體外模型,用于預測口服藥物的吸收潛力。基于Caco-2 測定數據的計算機預測方法可以提高新藥篩選的高通量有效性。然而,以前開發的預測化合物Caco-2 細胞滲透性的計算模型使用了手工制作的特征,這些特征可能是數據集特有的,并會導致過擬合問題。韓國研究者用深度神經網絡(DNN)方法對原始特征進行非線性變換,生成高級特征,具有較高的判別能力,從而建立了良好的廣義模型,設計出了一種基于DNN 的二進制Caco-2 滲透率分類器,糾正了過擬合問題和非線性激活問題。在預測Caco-2細胞系中不同結構化合物的細胞通透性時DNN 產生的高級特征發揮了更好的作用[20]。
2.3.1 藥物重定向 老藥新用是目前尋找藥物的常用方式,它的實現方式是將市面上已曝光的藥物及人身上的1 萬多個靶點進行交叉研究及匹配。在公共領域,大數據集可以用來推導出預測跨目標活動的機器學習模型[21-24]。例如利用相似性集成方法,將與藥物靶點已知配體二維結構相似性較高的化合物篩選后再做深入研究。這些模型可以應用于藥物的再利用,為現有藥物識別新的靶點。還有研究者利用電子病歷數據檢驗了二甲雙胍降低腫瘤患者的死亡率[25]。
2.3.2 患者招募 新藥審批的必經之路是進行3 個階段的臨床試驗,而臨床試驗順利開展的基礎是找到合適的臨床患者。傳統的試驗管理人員通常是在海量的病例中逐一篩選并通知符合藥物試驗的受試者,費時費力。而依靠深度學習能力,人工智能技術能夠從海量的病歷中自動配對符合條件的患者,提高精準匹配效率,在短時內完成試驗招募入組的基礎工作[26]。
2.3.3 優化臨床試驗 臨床試驗階段在藥品研發過程中屬于后期,一旦失敗引起的成本損失巨大。最主要的失敗原因是藥物治療靶點和疾病關聯不佳引起。運用隨機森林、支持向量機、梯度迭代增強、k 近鄰算法等機器學習方法,對臨床試驗、動物模型、基因關聯分析、通路分析、文本分析等數據進行挖掘,預測治療靶點,有望提高后期臨床試驗的成功率。
同時試驗方案設計、試驗流程管理、試驗數據管理統計分析等藥物臨床研究工作是繁瑣而重要的環節。利用人工智能技術常用的機器學習和認知計算能力,應用到研究設計、流程管理、數據統計分析等諸多方面,可全面提升臨床試驗的效率[26]。
主要集中在藥物研發情報匯總領域,通過自然語言處理技術等完成海量文獻和大型數據集的信息綜合和匯總,為新藥研發人員持續提供藥物研發情報的藥物研發信息數據庫。湯森路透旗下的湯森路透知識產權與科技事業部開發的Thomson Reuters Integrity,PJB Publications LTD.旗下的Pharmaprojects,Venture Valuation VV AG(Swiss)開發的biotechgate 全球性生命科學數據庫等等,國內包括藥智、咸達、丁香園、米內、醫藥魔方、醫藥地理等紛紛在藥品研發、生產檢驗、合理用藥、市場信息方面建立綜合數據庫。例如北京大學醫學部藥品上市后安全性研究中心主要通過對國內主要類型電子醫療數據結構特點調查后使用醫療數據開展藥物流行病學方法學研究,構建主動監測的數據通用模型,以糖尿病治療藥物安全性評價等具體臨床項目為抓手制訂相關藥品上市后研究方法學指南,為藥品上市后安全評價提供理論基礎與科學依據[27]。
人工智能技術的應用雖然在縮短研發周期、縮減新藥研發成本上表現卓越,但與此同時也有許多局限性。
人工智能能夠促進藥物研發的某些階段,但治療靶點驗證、藥物測試和臨床實驗等,均需常規方法完成,仍然面臨難度大、成本高、所需時間長等挑戰。新藥研發規則無法統一,數據結構性差,質量參差不齊。現有數據不明晰,甚至含有錯誤信息,而且充滿了高度不確定性,尤其給以數據集為基礎的深度學習技術的應用帶來巨大挑戰。
人工智能模型基于數據學習,而非因果/規則推理。因此,相比人工智能應用的其他產業,藥物研發不確定性大、試錯成本高、周期長,因此國內涉足企業較少。新藥研發是一個系統工程,生物系統也非常復雜,雙重的不確定性導致人工智能在新藥研發的各個階段表現可能增加新藥研發結果的不確定性。
人工智能通過學習海量數據,找出非常多的相關性信息,但是數據信噪比不能確定。新知識新技術的產生,來源于人類的經驗和實踐對知識的創造性運用和判斷處理,而不單單是全部知識的聚合連接。盲目追尋技術熱點導致給相關性加分的實驗數據和結論質量不明確,有可能產生誤導性的結果。
將人工智能應用于藥物研發,需要健康醫療、生物信息和藥物化合物等優質數據支持,但國內缺乏整合的相關數據庫,尤其是少見病、罕見病;藥物結構數據庫也有待進一步研究建設。人工智能技術的應用面臨的困難和挑戰雖然不少,但總體來看,在藥物研發的未來世界中,利用經過驗證的、相對可靠的虛擬化、人工智能化方法來評估藥物成藥性的各項指標,有望極大程度地降低失敗率。人工智能在利用生物信息學方法開展疾病分子網絡研究、發現治療新靶點;人工智能運用對抗生成網絡、強化網絡等人工智能算法篩選先導物,并開發新的藥物分子;結合計算機模擬,預測蛋白質特性和蛋白質—配體的相互作用,加速研發過程,降低研發成本;從海量論文中攝取所需的分子結構等信息,并且可以自主學習,建立其中的關聯,提供新的思路和想法;結合生物數據庫和個體數據,利用人工智能算法仿真,有助于發現已有藥物的新適應證,促進老藥新用;開發新型有效藥物組合療法,預測藥物在不同亞組人群中的藥代動力學、藥效動力學指標及臨床應用的安全性、有效性,提高現有藥物的使用質效,實現個體化、精準化治療等方面均有進展。
通過前述方法,人工智能應用于新藥研發可以大大縮短篩選候選藥物分子的時間,節約研發成本。目前仍處在人工智能輔助新藥開發的驗證階段,讓人工智能技術驅動對接整個藥物研發始終,至少需要5 年的時間。但是那些較早開始采用人工智能的制藥公司有可能隨時間發展獲得更大的收益。