張莉
摘要:科學技術是第一生產力,國家的繁榮發展依賴于科技力量的不斷進步。近年來以深度學習為代表的人工智能技術與醫學、藥學等多個領域深度融合。深度學習被應用于蛋白質結構與功能預測、藥物靶點預測、藥物代謝動力學性質預測、藥物有效性及安全性預測以及藥物相互作用預測等多個藥物研發環節,取得了顯著成就,提高研發效率的同時降低臨床前試驗以及臨床試驗相關的成本和風險。通過總結多種深度學習方法在藥物研發各個過程中的具體應用及分析不同深度學習方法在藥物研發中的應用特點,闡述了深度學習在藥物研發中現存的一些問題并做出展望,以期為進一步研究提供借鑒的思路和方法。
關鍵詞:深度學習;藥物研發;研究進展
引言
眾所周知,各種新藥上市前都需要經過臨床前試驗,即上市前研發階段。臨床試驗與臨床醫療有著質的區別。臨床醫療是用已被證明的安全有效的方法解決患者的實際疾病問題而進行的醫療干預。其收益和風險的評估是針對患者本人進行的。而臨床藥物研發則是為獲得可以被普遍承認的結果而進行的干預,受試者會承受潛在的風險,其研究結果是為了增加醫學科學知識,讓未來的患者受益。盡管多年來上市前藥物研發已經形成一整套的程序和法規,然而很少有人系統地評價藥物上市前試驗中存在的問題,本文嘗試對于這個問題進行一些初步探討。
一、人工智能概述
(一)人工智能的主要應用領域
人工智能的主要應用領域包括機器學習、進化計算、圖像識別、自然語言處理、認知計算等。除此之外,其他領域仍在持續性發展中。目前機器學習的主流研究方向也是人工智能的重要應用領域,機器學習可以通過計算獲得經驗來提高系統本身的性能。機器學習可以分為傳統機器學習和高級機器學習,傳統機器學習包括無監督學習和有監督學習等,高級機器學習則包括深度學習、強化學習和遷移學習等。
(二)人工智能的主要發展過程與自身特點
自從1956年人工智能誕生以來,它經歷了從高潮到低潮的各個階段。最近的低潮發生在1992年,當時日本的第五代計算機并未取得成功,其后人工神經網絡熱潮在20世紀90年代初退燒,人工智能領域再次進入低潮期。直到2006年,GeoffreyHin-ton提出了深度學習的概念并改進了模型訓練方法,突破了神經網絡的長期發展瓶頸,人工智能的發展迎來新一輪浪潮。此后,國內外眾多知名大學和知名IT企業開展了深度學習、強化學習、遷徙學習等一系列新技術的課題研究。同時,智能醫療、智能交通、智能制造等社會發展的新需求驅動人工智能發展進入了一個新階段。人工智能基于先進的機器學習、大數據和云計算,在感知智能、計算智能和認知智能方面具有強大的處理能力。它以更高水平接近人的智能形態存在,主要特點包括:①從人工知識表達到大數據驅動的知識學習技術。②從多媒體數據的子類處理到跨媒體交互。③從追求智能機器到高層人機協作。④從關注個人智能到基于網絡的群體智能。⑤從擬人機器人到更廣泛的智能自我處理系統。
二、深度學習在藥物研發中的應用
(一)蛋白質結構與功能
蛋白質的功能研究在生命科學中占據重要的地位,大多數疾病的發生都與蛋白質功能障礙有關。1973年,Anfinsen發現變性的只保留了一級結構的核糖核酸酶可以重新折疊并恢復生物活性,說明代表蛋白質一級結構的氨基酸序列中隱含了蛋白質二級、三級結構的信息。而蛋白質二級結構預測又可為蛋白質三維結構預測和蛋白質功能預測提供重要信息。因此從一級氨基酸序列預測二級結構及蛋白質的性質是藥物研發中的重要任務。盡管近年來X-射線晶體學和冷凍電鏡技術的不斷發展在蛋白質結構解析上獲得突破,但其檢測蛋白質的成本過高,利用DL對蛋白質進行預測顯然是一個更高效的方法。通過對數據庫提供的蛋白質數據特征提取,預測出蛋白質結構與功能,為解決蛋白質結構和功能的預測問題提供了可能的途徑,并在蛋白質結構和功能預測方面取得了較好的結果。
(二)活性藥物靶點的確定
藥物靶點與疾病或生物分子的病理狀態相關,藥物靶點的確定是藥物研究和開發的基礎。傳統的藥物發現主要遵循“一種藥物,一種靶點,一種疾病”的觀念,最近越來越多的研究人員接受了藥物靶點是多種靶蛋白的觀點,并且多種靶蛋白傾向于出現在同一種疾病中。因此,如何快速準確地識別藥物與靶點之間復雜的相互作用已成為藥物開發的關鍵。采用CNN訓練檢測和分類核苷酸與血紅素結合位點,準確度達到了95%,且實驗模型能夠推廣到類固醇結合蛋白和肽酶。DL模型在檢測藥物活性靶點時可以在保證98.2%的準確率的情況下對400萬個數據進行計算。首先對未處理的原始數據進行預處理,標記出已知的藥物靶點相互作用,然后應用已知的標記過的藥物靶點對來訓練分類模型,該模型的10-折交叉驗證的曲線下面積,通過分層抽象學習藥物靶點對的有用特征,在平衡和不平衡數據集(平衡數據集是指各個樣本數量差距不大,而不平衡數據集則相反,在一些模型中數據集是否平衡對預測結果有著不同影響)上的預測性能均比現有方法更好。結合化合物的圖形神經網絡(graphneuralnetwork,GNN)和蛋白質的CNN開發了新的復合蛋白相互作用預測技術。此外,所提出的方法在不平衡數據集上明顯優于現有方法。這表明由端到端GNN和CNN獲得的化合物和蛋白質的數據驅動表示比從數據庫獲得的傳統化學和生物學特征更穩健。采用DL算法DeepWalk基于異構拓撲計算藥物-藥物和靶點-靶點的相似性,基于“牽連犯罪”原則推斷藥物靶點關聯,AUC得分為0.9896。
(三)藥物挖掘
醫學、物理學或材料科學領域的專業論文非常廣泛,但這些專業論文中有大量獨立的專業知識和研究結果,快速且有針對性地組織和連接這些知識和發現的能力對于藥物挖掘是極其重要的。使用人工智能可以從大量的科學論文、專利、臨床試驗信息和非結構化信息中生成有用的信息。通過自然語言處理算法的深度學習優化,分析和理解上下文信息,然后進一步學習、探索、創建和翻譯它所學到的知識以產生獨特結論。該技術通過尋找可能遺漏的連接使以前不可能的科學發現成為可能:可以自動提取藥學與醫學知識,找出相關關系并提出相應的候選藥物,進一步篩選對某些疾病有效的分子結構,使科學家們能夠更有效地開發新藥。2016年BenevolentAI公司曾通過人工智能算法在1周內確定了5種假造藥物,用于治療肌萎縮側索硬化。BenevolentAI使用AI算法建模來確認化合物對睡眠的潛在影響,這是解決帕金森病相關嗜睡癥狀的一大機會。該公司目前的藥物研發產品組合表明,它可以將早期藥物研發的時間縮短4年,并有可能在整個藥物研發過程中將藥物研發的平均效率提高60%。
結語
作為精準醫學的基石,CD在臨床藥物研發中具有重要的作用。作為藥物靶向治療的工具,CD將進一步推動精準醫學在腫瘤、血液疾病、自身免疫疾病等多個領域的發展,真正達到改善治療預后并降低醫療經費的目的。目前,我國伴隨診斷自主研發市場尚處于空白階段,我國應當盡快起草相應的指導性文件,規范藥物的研發和應用,從而使各種藥物的治療方案更有效和更安全。
參考文獻:
[1]張星一,呂虹.人工智能在藥物研發與監管領域的應用及展望[J].中國新藥雜志,2018,27(14):1583-1586.
[2]凌曦,趙志剛,李新剛.人工智能技術在藥學領域的應用:基于WebofScience的文獻可視化分析[J].中國藥房,2019,30(4):433-438.
[3]周凌.大數據在醫藥行業的創新性應用[J].通訊世界,2017(8):289.