丁伯祥,胡 健,2,王繼芳
(1.南京海融醫藥科技股份有限公司,江蘇 南京 211100;2.江蘇食品藥品職業技術學院 制藥工程學院,江蘇 淮安 223003)
藥物發現是一個漫長而復雜的過程,大致可分為四個主要階段:(i)目標選擇和驗證; (ii)化合物篩選和優化; (iii)臨床前研究; (iv)臨床試驗。首先,需要確定與特定疾病相關的研究對象。這需要從細胞和遺傳角度對研究目標進行有效評估,主要涉及基因組和蛋白質組學分析以及生物信息學預測。下一步是藥物靶點的鑒定,通過組合化學,高通量篩選和虛擬篩選等方法從分子文庫中鑒定化合物。靶點結構與藥物活性的相關性研究以及計算機模擬結合細胞實驗經常被用于新合成候選藥物的藥效研究中。隨后,使用動物模型進行藥物體內研究,例如藥代動力學研究和毒性試驗。最后,已經成功通過所有臨床前試驗的候選藥物在臨床試驗中按照一定臨床使用原則給予受試者。該步驟一般按順序分為三個階段。第一階段,一定數量受試者參與的藥物安全性測試;第二階段,一定數量特定疾病的患者進行的藥物療效測試;第三階段,大量患者的療效研究。如果候選藥物的安全性和有效性在臨床階段得到確認,則該化合物由FDA等機構審核批準并由研發企業進行商業化。根據目前已有數據估計,通過傳統模式發現新藥的平均成本為26億美元,完整的工作流程可能需要12年以上。
如何降低成本并加快新藥研發速度是所有制藥公司普遍關注的核心問題。 基于AI的方法越來越多地用于藥物研發的各個階段,減少了研發時間和成本。 這些包括在藥物研發相關的細胞生物學研究中使用AI[1],使用量子力學方法計算化合物的性質[2],計算機輔助藥物設計[3],預測目標蛋白質的三維結構,以及一些其他的開發分析[4-7]。一般而言,這些繁瑣的執行過程可以在AI的幫助下實現優化和自動化,從而大大加快藥物研發的過程。
通過圖像分析對細胞類型進行鑒別和使用AI方法進行細胞研究
AI技術已經成功應用于識別包含不同對象或特征的圖像[8]。通過傳統的視覺檢查識別圖像是一項非常繁瑣的任務,并且這種方法對于大數據的分析效率較低,因此,這是應用基于AI技術的理想領域。對于細胞目標分類或診斷,需要訓練AI模型以便根據不同細胞的特征快速、自動地識別細胞類型。例如,為了對乳腺癌細胞進行分類,通過改變圖像對比度將細胞圖像從背景中分割出來[1],接著提取不同類型的紋理特征,使用主成分分析(PCA)來減小提取的特征的指標,然后用基于AI的方法以對不同的細胞類型進行分類。在AI方法進行訓練的過程中,最小二乘法-支持向量機(LS-SVM)方法,統計學習理論,回歸和分類技術[9]是常用的理論和算法,以確保顯示最高的分類準確率(95.34%)[1]。
對于細胞分選,基于AI的圖像分析決策需要在較短的時間內完成,以使機器人有時間準確地分離樣品中的不同細胞類型。 大多數現代圖像激活細胞分選(IACS)設備測量細胞的光學,電學和機械特性,以實現高度靈活和可擴展的細胞分選自動化[1]。 這些儀器允許使用基于AI的卷積深度神經網絡算法(DDN),可以在幾十毫秒內進行高速數字圖像處理和決策。 該方法在人血小板的分選中進行了測試,顯示出優異的特異性和靈敏度。
藥物設計中的一個重要考慮因素是選擇具有一系列所需特性的候選藥物,特別是有關生物利用度,生物活性和毒性的特性。藥物分子的熔點和分配系數(logP)等物理性質極大地影響其生物利用度,因此在設計新藥時也必須考慮這些因素[10]。熔點反映了藥物在水性介質中溶解的容易程度,而logP(水和油之間相對溶解度的量度)常被用作細胞藥物吸收的估計值,考慮到這些性質,AI藥物設計算法中使用的分子表征包括分子指紋,簡化分子線性輸入規范(SMILES)串,受體與配體潛在的結合能量測算,分子碎片或不同類型的化學鍵,3D中的原子坐標,分子周圍的電子密度,或其組合[11]。這些輸入用于DNN訓練階段[12],并且可以由生成階段和預測階段的不同DNN處理,該程序能夠促進AI的強化學習(RL)[3]。在一項典型的研究中,DNN的生成階段需要SMILES輸入,并且經過訓練可以生成化學上可行的SMILES字符串,而預測階段則針對分子的特性進行訓練[3]。雖然這兩個階段最初是用監督學習算法分別訓練的,但是當兩個階段通過獎勵或懲罰特定屬性共同訓練時,偏差可以應用于結果[3]。
生物活性的預測
匹配分子對(MMP)分析研究藥物候選物的單一局部變化及其對分子的分子性質和生物活性的影響,已被廣泛用于定量構效關系(QSAR)研究[13]。在典型的研究中,通過用于從頭設計任務的重合成規則產生MMP。候選分子用靜態核心和兩個片段(描述轉化)進行化學定義[14]。然后對核心和這些片段進行編碼。最后,三種機器學習(ML)方法,即隨機森林(RF)[15],梯度增強機器(GBM)[16]和DNNs[17],以前在沒有MMP的情況下應用,用于推斷到新的變換靜態核心,片段和修改。例如,有模型就五種不同激酶和含溴結構域蛋白的IC50數據進行了訓練,DNN在預測化合物活性方面具有比RF和GBM更好的整體性能[18]。隨著包含大量結構 - 活性關系(SAR)分析的公共數據庫(如ChEMBL和Pubchem)的急劇增加,帶有ML的MMP已被用于預測許多生物活性特性,如吸收,分布,代謝和排泄(ADME),以及藥物的體內作用方式[19-21]。
最近開發了其他方法來預測候選藥物的生物活性。 Tristan等通過將離散的化學物質編碼成連續的潛在載體空間(LVS),用圖形卷積網絡提取藥物靶位點的特征,LVS允許在分子空間中進行基于梯度的優化,從而可以基于結合親和力和其他性質的可區分模型進行預測[22]。
化合物的毒理學特征是藥物開發中的重要參數。毒性的評估及相關結構優化可能是臨床前藥物發現過程中最昂貴,最耗時的階段[23],準確預測化合物的毒性對藥物開發具有重要價值。 DeepTox算法是一種機器學習(ML)算法,在Tox21數據挑戰賽中通過計算方法成功預測了12種環境化學品和藥物中12種不同的毒性作用。專門設計的分析。 DeepTox算法首先將化合物的化學描述標準化,從中計算大量化學描述符并將其用作ML方法的輸入。描述符被分為靜態或動態,靜態描述符包括原子計數,表面積以及化合物中預定義子結構的存在與否,除此之外還計算了存在和不存在的2500個預定義毒性基團特征,以及從標準分子指紋描述符中提取的其他化學特征。動態描述符以預先指定的方式進行計算,盡管可能存在無數個不同的動態特征,但該算法可將數據集保持在可管理的范圍內。DeepTox算法在預測化合物的毒理學方面表現出良好的準確性[24-26]。
靶蛋白的3D結構對于基于結構的藥物發現至關重要,因為新藥物分子通常根據靶蛋白的配體結合位點的3D化學環境設計。傳統上將同源建模和從頭蛋白質設計應用于此目的[27]。隨著基于AI的工具的發展,預測目標蛋白質的3D結構變得更加準確和復雜。在最近的蛋白質結構預測評估中,AI工具AlphaFold用于預測藥物靶蛋白的3D結構,并且表現非常好。僅使用蛋白質一級序列,AlphaFold準確預測了43個結構中的25個。這些結果明顯優于排名第二的算法,它僅僅正確地預測了43個結構中的3個。 AlphaFold依賴于高效訓練的DNN來從主序列中預測蛋白質的性質。它預測了氨基酸對之間的距離和相鄰肽鍵之間的φ-ψ角。然后將這兩個概率組合成分數,該分數用于評估預測的3D蛋白質結構模型的準確性。使用這些評分函數,AlphaFold探索蛋白質結構的微觀結構,以找到與預測相匹配的結構[28]。
QM或QM /分子力學(MM)聯合使用的方法可用于預測藥物發現中的蛋白質-配體(藥物)相互作用[29]。這些方法在原子水平上考慮模擬系統的量子效應,因此提供比傳統MM方法更好的準確度。由于MM方法僅應用基于原子坐標的簡單能量函數,因此基于QM的方法的時間成本遠大于MM方法[30]。因此,AI方法在QM計算中的應用需要在QM的準確性和MM模型的有利時間成本之間進行權衡。已有AI模型從原子坐標進行數據訓練再現QM能量,并且可以達到與MM方法類似的計算速度。 AI主要應用于原子模擬和帶電性質的預測,而DL被用于預測小分子的勢能,從而通過快速ML方法取代對計算要求嚴格精密的量子化學計算[31]。對于大型數據集,已經計算了量子化學衍生的DFT(密度泛函理論)勢能并用于訓練DNN。例如,在對200萬顆隕石晶體的研究中,ML模型的準確度隨著樣本量的增加而提高。在藥物設計及篩選領域,對于在10000個結構上訓練的DFT可以形成能量達到0.1eV /原子的精度,將該模型用于篩選各種性質的先導化合物的類似物,效率明顯提高[32]。
目前,由于新藥研發成本的不斷增加和傳統新藥發現效率的降低,許多研發型制藥公司在藥物開發過程中面臨挑戰。許多令人印象深刻的AI方法和工具不斷涌現并應用到企業一線研發領域,可以使新藥研發過程更具成本效益和時間效率。傳統的高通量篩選庫通常含有約1百萬種化合物,其中每種化合物通常價格為50-100美元。 因此,初始篩選過程可能花費數百萬美元加上幾個月的工作。 隨后的先導化合物優化可能需要數年才能確定臨床前候選藥物。 相比之下,如果在藥物篩選中使用AI / ML方法,在AI的幫助下,虛擬化合物幾天內可以篩選數十億個分子的文庫。 通過使用基于AI的計算預測識別臨床前候選人可能只需要幾個月到一年的時間[33]。
鑒于基于AI的計算方法可能對藥物開發產生巨大影響,世界上科技發展的熱點地區使用AI促進新藥開發的初創企業數量正在快速增長。 此外,自2017年以來,許多制藥公司已大量投資在基于人工智能的研發計劃上,或者加大與人工智能初創企業和學術機構的合作[34]。 人工智能和ML公司Recursion 公司與Takeda公司合作,近期宣布了在篩選針對罕見疾病的新型臨床前化合物方面的突破性成果。 在與Recursion公司合作的一年半時間里,Takeda公司確定了60多種獨特的潛在候選藥物,這些藥物已經在進行臨床前和臨床實驗的評估。 使用AI技術的藥物研發時間表比大約十年的傳統臨床前藥物發現的路徑要快得多。
人工智能工具也被用于藥物發現周期的多個方面,從藥物篩選試驗,預測潛在藥物的物理性質,生物活性和毒性,到蛋白質結構預測。 傳統的實驗結構生物學方法最終獲得目標蛋白的結構數據通常需要數年時間。 相比之下,基于人工智能的結構預測只需要幾個小時到幾天,這使得該過程大大節省了時間成本。 默克已成功使用DL算法在幾天時間內成功預測藥物相關的天然蛋白質折疊[35]。 此外,AI還被用于細胞圖像處理[1],物理生物活性和毒性預測[36-38],QM性質預測[39]等藥物研究的關鍵方面,以進一步提高藥物發現的效率。
然而,藥物發現過程中的某些方面尚未進行深入研究。 例如,準確預測藥物分子與靶蛋白之間的結合親和力仍然具有挑戰性[40]。 目前,由于受制于計算機運算能力及算法設計等若干原因,包括AI在內的計算方法在該領域[41-43]表現不佳。
首先,因為AI是一種數據挖掘方法,可用數據的數量和質量直接影響AI模型的性能[30,34,38,44]。 DNN的成功訓練依賴于大量可供訓練的數據。從一項任務中學習并將其應用于另一項任務的方法可能是解決這一問題的潛在途徑。其次,可用數據的質量有時不足以進行有效的AI學習。 公共數據庫中的實驗數據通常來自不同的實驗對象,且獲取方法及條件也各不相同[45]。 通過不同方法測量的化合物可以產生完全不同的數據,這些數據彼此不可比較。 此外,公共數據庫可能包含多個相互矛盾的數據集。 因此,在執行特定AI方案之前,過濾原始輸入以獲得高質量數據是必不可少的步驟。當然,AI本身也可以通過自動化數據輸入來解決問題[46]。
第三,當將3D原子空間轉移到用于AI計算的2D解釋時,重要的3D目標結構信息,例如靶蛋白的配體結合位點的化學環境,藥物分子的構象和蛋白質的柔性,都會丟失。 作為替代方案,分子動力學(MD)模擬可以在生理條件下對蛋白質和藥物分子的不同構象和狀態進行采樣。 最近的一項研究成功地將AI和MD模擬結合起來研究G蛋白偶聯受體(GPCR)配體特異性,證明了這種方法的潛力[47]。 此外,將信息從MD轉移到AI可能會克服結合親和力預測的局限性以及在不久的將來預測其他分子特性。
最后,重要的是要強調DL方法仍然是中間環節無法實現全程控制的“暗箱”[33]。 在訓練階段,神經網絡僅被賦予具有某種標簽的特定數值的輸入。 這些特征沒有明確規定,甚至神經網絡的開發者也可能不知道在中間階段正在檢驗什么,或者為什么模型得出了特定的結論[38]。 總之,為了加快藥物發現周期,已經做了大量的工作來整合AI工具,但是在AI可以實現藥物發現的全部潛力之前,還需要進一步成功實施這些工具。