張嘉暉
(中國科學(xué)技術(shù)大學(xué)生命科學(xué)學(xué)院,合肥 230027)
蛋白質(zhì)計(jì)算一直以來都是科學(xué)領(lǐng)域中的重要課題,而近年來其與機(jī)器學(xué)習(xí)的結(jié)合,更是極大地推進(jìn)了相關(guān)學(xué)科的發(fā)展.本綜述主要討論了機(jī)器學(xué)習(xí)在四個(gè)重要的蛋白質(zhì)計(jì)算領(lǐng)域內(nèi)的研究進(jìn)展,這四個(gè)領(lǐng)域包括:分子動(dòng)力學(xué)模擬、結(jié)構(gòu)預(yù)測(cè)、性質(zhì)預(yù)測(cè)和分子設(shè)計(jì).分子動(dòng)力學(xué)模擬依賴于力場(chǎng)參數(shù),準(zhǔn)確的力場(chǎng)參數(shù)是分子動(dòng)力學(xué)模擬的必需品,而機(jī)器學(xué)習(xí)可以幫助研究者得到更加準(zhǔn)確的力場(chǎng)參數(shù).在分子動(dòng)力學(xué)模擬中,機(jī)器學(xué)習(xí)也可以從復(fù)雜的體系中以較小的代價(jià)計(jì)算出所需求解的自由能.結(jié)構(gòu)預(yù)測(cè)一般是給定蛋白質(zhì)序列預(yù)測(cè)其結(jié)構(gòu).結(jié)構(gòu)預(yù)測(cè)復(fù)雜度高、數(shù)據(jù)量大,而這恰恰是機(jī)器學(xué)習(xí)所擅長(zhǎng)的.在機(jī)器學(xué)習(xí)的協(xié)助下,近年來科研人員已經(jīng)在單個(gè)蛋白質(zhì)三維結(jié)構(gòu)預(yù)測(cè)上取得了不錯(cuò)的成果.性質(zhì)預(yù)測(cè)則是指通過給定的已知蛋白質(zhì)信息,推斷其可能擁有的性質(zhì),這對(duì)于蛋白質(zhì)的研究也是至關(guān)重要的.更具挑戰(zhàn)性的是分子設(shè)計(jì),雖然近年來機(jī)器學(xué)習(xí)在蛋白質(zhì)設(shè)計(jì)上取得突破,但這一領(lǐng)域還有很大空間值得探索.本綜述將針對(duì)以上四點(diǎn)分別展開論述,并對(duì)蛋白質(zhì)計(jì)算中的機(jī)器學(xué)習(xí)研究進(jìn)行展望.
蛋白質(zhì)(protein)是生命的關(guān)鍵物質(zhì)基礎(chǔ)之一.研究它們對(duì)理解生命體系、探究生命進(jìn)程和治療疾病有著重大意義[1–3].由于時(shí)間與空間尺度、復(fù)雜度和可控性以及實(shí)驗(yàn)成本等原因,只依靠實(shí)驗(yàn)方法對(duì)蛋白質(zhì)進(jìn)行研究是不夠的,用計(jì)算方法對(duì)蛋白質(zhì)的研究可彌補(bǔ)實(shí)驗(yàn)研究的不足[4,5].對(duì)蛋白質(zhì)實(shí)施計(jì)算研究主要有四種目的:研究蛋白質(zhì)的結(jié)構(gòu)、運(yùn)動(dòng)或相互作用細(xì)節(jié)(通常是通過分子動(dòng)力學(xué)模擬)[6];給定蛋白質(zhì)的序列來預(yù)測(cè)其空間結(jié)構(gòu)[7];給定蛋白質(zhì)的序列等信息來預(yù)測(cè)某些重要性質(zhì)[8];以及設(shè)計(jì)滿足一定條件或功能的蛋白質(zhì)[9].這四個(gè)領(lǐng)域在近年來彼此融合,相輔相成,使得蛋白質(zhì)計(jì)算研究達(dá)到了一個(gè)新的高度[10,11],被人們寄予了厚望.然而,因其具有時(shí)間與空間尺度大、復(fù)雜度高和數(shù)據(jù)量大等特點(diǎn),發(fā)展計(jì)算蛋白質(zhì)研究仍然是一項(xiàng)具有挑戰(zhàn)性的任務(wù)[12–16].
另一方面,近年來機(jī)器學(xué)習(xí)(machine learning)的迅速崛起已對(duì)許多領(lǐng)域產(chǎn)生了意義深遠(yuǎn)的影響[17–19].機(jī)器學(xué)習(xí)是人工智能(artificial intelligence,AI)的一個(gè)重要分支,通過使用算法讓計(jì)算機(jī)系統(tǒng)從數(shù)據(jù)中學(xué)習(xí)和改進(jìn),而無需明確編程[17].機(jī)器學(xué)習(xí)利用模型對(duì)輸入數(shù)據(jù)的解析和理解,從而進(jìn)行預(yù)測(cè)、決策或生成,而不僅僅是按照嚴(yán)格定義的任務(wù)指令執(zhí)行[17].機(jī)器學(xué)習(xí)任務(wù)有多種類型,包括監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí).在監(jiān)督學(xué)習(xí)中,算法從標(biāo)記的訓(xùn)練數(shù)據(jù)中學(xué)習(xí),然后將所學(xué)知識(shí)應(yīng)用于新的、未見過的數(shù)據(jù)[20].無監(jiān)督學(xué)習(xí)中,算法通過在沒有事先標(biāo)簽的數(shù)據(jù)中尋找隱藏的結(jié)構(gòu)或關(guān)系來進(jìn)行學(xué)習(xí)[21].半監(jiān)督學(xué)習(xí)介于這兩者之間,當(dāng)部分?jǐn)?shù)據(jù)被標(biāo)記時(shí)就會(huì)使用[22].強(qiáng)化學(xué)習(xí)涉及到一個(gè)智能體,它通過與環(huán)境的交互和反饋來學(xué)習(xí)最佳行為策略[23].深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一種特殊形式,它基于人工神經(jīng)網(wǎng)絡(luò),并借鑒了人腦神經(jīng)元連接的方式[24].深度學(xué)習(xí)可以處理大規(guī)模、高維度的數(shù)據(jù),包括圖片、音頻和文本等,已廣泛應(yīng)用于圖像識(shí)別、自然語言處理、語音識(shí)別以及許多其他領(lǐng)域[25].機(jī)器學(xué)習(xí)正在計(jì)算蛋白質(zhì)研究領(lǐng)域內(nèi)發(fā)揮著越來越重要的作用,這是因?yàn)闄C(jī)器學(xué)習(xí)是一種數(shù)據(jù)驅(qū)動(dòng)的方法,它具有處理大規(guī)模、復(fù)雜性和高維度數(shù)據(jù)的獨(dú)特能力,這使得機(jī)器學(xué)習(xí)在解決傳統(tǒng)蛋白質(zhì)計(jì)算中的一些問題方面具有優(yōu)勢(shì)[26].機(jī)器學(xué)習(xí)與蛋白質(zhì)計(jì)算的結(jié)合可以加速人類理解生命、改造生命的過程.
本綜述介紹機(jī)器學(xué)習(xí)在蛋白質(zhì)的分子動(dòng)力學(xué)模擬(第2 節(jié))、蛋白質(zhì)的結(jié)構(gòu)預(yù)測(cè)(第3 節(jié))、蛋白質(zhì)的性質(zhì)預(yù)測(cè)(第4 節(jié))和蛋白質(zhì)的分子設(shè)計(jì)(第5節(jié))四方面的研究進(jìn)展,并對(duì)機(jī)器學(xué)習(xí)與蛋白質(zhì)計(jì)算結(jié)合進(jìn)行了總結(jié)與展望(第6 節(jié)).首先討論如何使用機(jī)器學(xué)習(xí)技術(shù)優(yōu)化和解析分子動(dòng)力學(xué)模擬,這可以幫助人們更加深入地了解蛋白質(zhì)的動(dòng)態(tài)結(jié)構(gòu).隨后,探討如何利用機(jī)器學(xué)習(xí)進(jìn)行準(zhǔn)確的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè),這對(duì)于理解蛋白質(zhì)的空間結(jié)構(gòu)和功能至關(guān)重要.接下來,探究機(jī)器學(xué)習(xí)在給定蛋白序列情況下對(duì)蛋白性質(zhì)的預(yù)測(cè).第5 節(jié)則聚焦于如何在復(fù)雜的蛋白質(zhì)分子設(shè)計(jì)工程問題上應(yīng)用機(jī)器學(xué)習(xí).蛋白質(zhì)的功能通常通過其動(dòng)態(tài)結(jié)構(gòu)決定,而不僅僅依賴于靜態(tài)結(jié)構(gòu).因此,結(jié)構(gòu)預(yù)測(cè)與動(dòng)力學(xué)模擬的融合正在成為一個(gè)重要的研究方向[10].例如,預(yù)測(cè)出的蛋白質(zhì)結(jié)構(gòu)可以作為動(dòng)力學(xué)模擬的初始結(jié)構(gòu),以探索蛋白質(zhì)的動(dòng)態(tài)行為和活性狀態(tài).借助分子動(dòng)力學(xué)模擬,科學(xué)家們可以更直觀地了解分子間的相互作用,從而優(yōu)化新設(shè)計(jì)的蛋白質(zhì)分子.同時(shí),機(jī)器學(xué)習(xí)方法也被用于動(dòng)力學(xué)模擬的數(shù)據(jù)分析,以指導(dǎo)新分子的設(shè)計(jì)[27].而理解蛋白質(zhì)的結(jié)構(gòu)是設(shè)計(jì)新藥物或調(diào)控其功能的關(guān)鍵,將結(jié)構(gòu)預(yù)測(cè)與分子設(shè)計(jì)相結(jié)合,可以幫助我們更好地理解靶點(diǎn)分子的結(jié)構(gòu)特性,并據(jù)此設(shè)計(jì)出高效的候選藥物[28].最后,設(shè)計(jì)出的蛋白序列必須滿足一些必要的性質(zhì)要求,例如水溶性和免疫原性[29,30].因此機(jī)器學(xué)習(xí)在這四個(gè)領(lǐng)域內(nèi)的應(yīng)用不僅促進(jìn)了各自領(lǐng)域的發(fā)展,也促進(jìn)了這四個(gè)領(lǐng)域走向融合,協(xié)同發(fā)展.結(jié)構(gòu)預(yù)測(cè)、性質(zhì)預(yù)測(cè)、分子設(shè)計(jì)和動(dòng)力學(xué)模擬之間的交叉融合為我們提供了在原子分辨水平全面解析生物現(xiàn)象的可能,使我們能夠在多個(gè)層次上理解和操縱生物系統(tǒng).第6 節(jié)總結(jié)并展望了機(jī)器學(xué)習(xí)與蛋白質(zhì)計(jì)算結(jié)合的未來,強(qiáng)調(diào)了跨領(lǐng)域融合的重要性,并展望了未來可能的研究方向和挑戰(zhàn).筆者認(rèn)為,機(jī)器學(xué)習(xí)算法的進(jìn)步和生物大數(shù)據(jù)的快速增長(zhǎng),將在更深、更廣泛的層面上推動(dòng)這四個(gè)領(lǐng)域的融合與協(xié)同發(fā)展,從而開啟新的科學(xué)發(fā)現(xiàn)和應(yīng)用的可能.
分子動(dòng)力學(xué)模擬是一種通過計(jì)算遵從牛頓運(yùn)動(dòng)定律的多粒子系統(tǒng)(如蛋白質(zhì)體系)的時(shí)間演化,以了解其物理性質(zhì)的重要方法[6].在分子動(dòng)力學(xué)模擬中,分子被視為一組相互作用的粒子,通過數(shù)值仿真這些粒子隨時(shí)間變化的軌跡,可以分析系統(tǒng)的宏觀性質(zhì).給定恰當(dāng)?shù)某跏紬l件和相應(yīng)的相互作用勢(shì)能后,可通過數(shù)值求解牛頓運(yùn)動(dòng)方程實(shí)現(xiàn)模擬.分子動(dòng)力學(xué)模擬在多個(gè)領(lǐng)域有廣泛的應(yīng)用,包括但不限于物理、化學(xué)、生物學(xué)及材料科學(xué).例如,化學(xué)家可以利用分子動(dòng)力學(xué)模擬預(yù)測(cè)反應(yīng)途徑[31];物理學(xué)家則可能深入探究固態(tài)物理的世界[32];生命科學(xué)研究人員能更好地理解蛋白質(zhì)折疊和其他生物大分子的動(dòng)態(tài)行為[6,13,33].盡管分子動(dòng)力學(xué)模擬擁有巨大的潛力,但也需要注意其局限性.首先,分子動(dòng)力學(xué)模擬的可信度取決于力場(chǎng)參數(shù)的準(zhǔn)確性,而實(shí)際上人們很難用傳統(tǒng)方法獲取相對(duì)準(zhǔn)確的力場(chǎng)參數(shù).機(jī)器學(xué)習(xí)的介入,對(duì)這些問題的解決起到了極大的幫助[34,35].其次,對(duì)體系進(jìn)行準(zhǔn)確的自由能計(jì)算是一個(gè)很具挑戰(zhàn)性的任務(wù).本節(jié)將針對(duì)機(jī)器學(xué)習(xí)與上述兩點(diǎn)的結(jié)合,逐條展開論述,介紹相應(yīng)的研究進(jìn)展.
在分子動(dòng)力學(xué)模擬中,力場(chǎng)(force field)是一個(gè)至關(guān)重要的概念.力場(chǎng)指的是一種用于描述和計(jì)算分子系統(tǒng)內(nèi)各原子間相互作用力的數(shù)學(xué)模型[36–38].具體來說,力場(chǎng)包含了各種類型的相互作用項(xiàng),如鍵長(zhǎng)、鍵角、二面角、范德瓦耳斯作用和靜電作用等.每種相互作用項(xiàng)都對(duì)應(yīng)一個(gè)能量函數(shù).力場(chǎng)的總能量為所有相互作用項(xiàng)能量之和.而在分子動(dòng)力學(xué)模擬中,正是通過對(duì)力場(chǎng)給定的能量函數(shù)求導(dǎo),而得到系統(tǒng)在這一時(shí)刻受的力,并據(jù)此得出分子系統(tǒng)在下一時(shí)刻的位置和速度,從而模擬出分子的動(dòng)態(tài)行為.傳統(tǒng)的力場(chǎng)參數(shù)通常由第一性原理(first principles)[39]計(jì)算和實(shí)驗(yàn)數(shù)據(jù)[40]得到,但由于復(fù)雜性、靈活性、適應(yīng)性、時(shí)間效率等因素的制約,越發(fā)地需要機(jī)器學(xué)習(xí)幫助我們獲取和優(yōu)化力場(chǎng)參數(shù)[35,41].
首先,我們指出,數(shù)據(jù)驅(qū)動(dòng)的機(jī)器學(xué)習(xí)方法在蛋白質(zhì)等生物分子研究領(lǐng)域內(nèi)的核心思想和基于第一性原理的量子力學(xué)方法是非常相似的[42].如圖 1 所示,機(jī)器學(xué)習(xí)和量子力學(xué)都經(jīng)歷了從準(zhǔn)確而難以求解到近似而容易求解的蛻變.實(shí)際上,無論是量子力學(xué),還是機(jī)器學(xué)習(xí),如圖 1 的上半部分所示,都在致力于應(yīng)用數(shù)學(xué)工具對(duì)所需預(yù)測(cè)的量進(jìn)行一個(gè)盡可能準(zhǔn)確的預(yù)測(cè),然而那將導(dǎo)致不可承受的計(jì)算量,于是人們分別對(duì)量子力學(xué)和機(jī)器學(xué)習(xí)做了近似,使它們能勝任復(fù)雜體系的計(jì)算(圖 1).而量子力學(xué)和機(jī)器學(xué)習(xí)具體的近似法則,都是從無限到有限,從復(fù)雜到簡(jiǎn)單,這說明了第一性原理計(jì)算和機(jī)器學(xué)習(xí)計(jì)算在原理和方法上的相關(guān)性.具體而言,如果取圖中的m 為能量,那么訓(xùn)練出來的神經(jīng)網(wǎng)絡(luò)便可以作為一個(gè)力場(chǎng)使用.用這種方法所生成的力場(chǎng)一般是平滑可微的,這就使得原子受的力可求,從而為機(jī)器學(xué)習(xí)生成的力場(chǎng)在分子動(dòng)力學(xué)模擬中的應(yīng)用提供了保障.然而,需要注意的是,機(jī)器學(xué)習(xí)生成的力場(chǎng)有時(shí)是不滿足能量守恒約束的,使用機(jī)器學(xué)習(xí)生成能量守恒的分子力場(chǎng)目前仍是一個(gè)具有挑戰(zhàn)性的課題[35].
使用機(jī)器學(xué)習(xí)生成分子力場(chǎng)的一般步驟如下.首先,需要獲取或生成一組訓(xùn)練數(shù)據(jù).這些數(shù)據(jù)應(yīng)包含各種可能的分子構(gòu)型和對(duì)應(yīng)的能量及力.數(shù)據(jù)可能來自實(shí)驗(yàn)測(cè)量、第一性原理計(jì)算或已有的經(jīng)驗(yàn)力場(chǎng)模擬.然后,需要選擇一種特征描述符來表示分子系統(tǒng).特征描述符應(yīng)能夠唯一且有效地描述分子的結(jié)構(gòu).常見的特征描述符包括原子間距離、鍵角、二面角等.接下來,選擇合適的機(jī)器學(xué)習(xí)模型(例如神經(jīng)網(wǎng)絡(luò))并用前兩步獲得的數(shù)據(jù)進(jìn)行訓(xùn)練.在模型訓(xùn)練好之后,進(jìn)行優(yōu)化和驗(yàn)證以確保其泛化能力.優(yōu)化可能涉及調(diào)整模型超參數(shù)、增加訓(xùn)練數(shù)據(jù)等.驗(yàn)證通常通過將模型預(yù)測(cè)結(jié)果與獨(dú)立的測(cè)試數(shù)據(jù)集進(jìn)行比較來完成.最后,可以使用訓(xùn)練好的機(jī)器學(xué)習(xí)模型來生成新的力場(chǎng).這個(gè)力場(chǎng)將被用于更大規(guī)模或更長(zhǎng)時(shí)間尺度的分子動(dòng)力學(xué)模擬.
分子動(dòng)力學(xué)模擬用于定量預(yù)測(cè)的一個(gè)核心任務(wù)是計(jì)算自由能[31,43,44].自由能的定義式為
由(1)式可知,自由能可以理解為反應(yīng)路徑上的加權(quán)平均勢(shì)能.研究體系的自由能或自由能變化對(duì)理解體系的狀態(tài)和反應(yīng)路徑有舉足輕重的作用[45].
對(duì)于生物大分子體系,結(jié)合自由能是一個(gè)經(jīng)典而具有挑戰(zhàn)性的課題[46].Bitencourt-Ferreira 和de Azevedo[47]通過機(jī)器學(xué)習(xí)的方法,對(duì)蛋白質(zhì)-配體的結(jié)合吉布斯自由能(Gibbs free energy)進(jìn)行了預(yù)測(cè).訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò),直接從復(fù)合物的原子坐標(biāo)預(yù)測(cè)出結(jié)合自由能是極其困難的,因此在該項(xiàng)研究工作中,他們采用了AutoDock Vina[48]的評(píng)分作為起點(diǎn)來預(yù)測(cè)蛋白質(zhì)-配體復(fù)合物的吉布斯自由能,即訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò),輸入AutoDock Vina的評(píng)分,輸出預(yù)測(cè)結(jié)合吉布斯自由能.這篇工作的思路雖然簡(jiǎn)單,但確極大地提高了蛋白質(zhì)-配體結(jié)合吉布斯自由能預(yù)測(cè)的準(zhǔn)確性,為結(jié)合蛋白的設(shè)計(jì)與篩選提供了一個(gè)更優(yōu)的平臺(tái).
除了結(jié)合自由能之外,反應(yīng)自由能也是非常重要的研究方向[49].Pan 等[50]完成了一項(xiàng)運(yùn)用機(jī)器學(xué)習(xí)預(yù)測(cè)酶反應(yīng)自由能的工作.該工作中,研究者們結(jié)合了量子力學(xué)與分子動(dòng)力學(xué)(QM/MM)[51],通過構(gòu)建一個(gè)神經(jīng)網(wǎng)絡(luò),將兩者計(jì)算出的體系屬性(電勢(shì)、受力與坐標(biāo))輸入至神經(jīng)網(wǎng)絡(luò)中,并以此還原出體系能量和受力.這么做的好處是,通過少量相對(duì)昂貴的QM/MM 計(jì)算,使用神經(jīng)網(wǎng)絡(luò)擬合出能反映體系的動(dòng)力學(xué)要素的量,并在后續(xù)的工作中以計(jì)算成本較低的神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)進(jìn)行化學(xué)反應(yīng)的模擬.該項(xiàng)工作中,他們使用了雨傘采樣(umbrella sampling)[43]的方法構(gòu)建反應(yīng)路徑并計(jì)算體系沿著反應(yīng)路徑的自由能.
機(jī)器學(xué)習(xí)在蛋白質(zhì)相關(guān)的分子體系的自由能計(jì)算中還有著許多其他的應(yīng)用.2017 年Riniker[52]提出了一種新的端點(diǎn)方法來預(yù)測(cè)溶解自由能和分配系數(shù),主要思路是: 對(duì)分子進(jìn)行分子動(dòng)力學(xué)模擬,在不同環(huán)境(真空和溶劑)中提取一些屬性,如勢(shì)能、體積等;將每個(gè)屬性的分布表示成指紋,使用平均值、標(biāo)準(zhǔn)差和中位數(shù).2020 年Bennett 等[53]結(jié)合分子動(dòng)力學(xué)模擬和機(jī)器學(xué)習(xí)來預(yù)測(cè)小分子的自由能變化,他們使用MD 模擬計(jì)算了15000 個(gè)小分子從水到環(huán)己烷的轉(zhuǎn)移自由能變化,作為機(jī)器學(xué)習(xí)模型的訓(xùn)練數(shù)據(jù).2021 年Bertazzo 等[54]提出了一個(gè)結(jié)合增強(qiáng)采樣、機(jī)器學(xué)習(xí)和定制算法的半自動(dòng)化工作流,以計(jì)算配體-受體結(jié)合的平均勢(shì)能和標(biāo)準(zhǔn)結(jié)合自由能,該方法在主客體系和GSK-3β 蛋白-配體復(fù)合物上得到了驗(yàn)證.這些應(yīng)用不僅在各自所在的特定的科學(xué)研究領(lǐng)域做出了重要貢獻(xiàn),更是推進(jìn)了機(jī)器學(xué)習(xí)在自由能計(jì)算這一大方向的發(fā)展.
在給定初始結(jié)構(gòu)的情況下,第2 節(jié)中討論的分子動(dòng)力學(xué)模擬可以在蛋白質(zhì)的研究中起到強(qiáng)大的作用.然而,在很多情況下,我們僅僅知道蛋白質(zhì)的序列,而并不知道它們的結(jié)構(gòu).這種現(xiàn)象主要被歸結(jié)于檢測(cè)技術(shù)的成熟度、條件苛刻度和對(duì)應(yīng)的時(shí)間成本[55].事實(shí)上,我們知道的蛋白質(zhì)序列信息要遠(yuǎn)遠(yuǎn)多于蛋白質(zhì)結(jié)構(gòu)信息[56].這時(shí),為了通過計(jì)算研究已知序列、未知結(jié)構(gòu)的蛋白質(zhì)的性質(zhì)和行為,就需要對(duì)具有該序列的蛋白質(zhì)進(jìn)行結(jié)構(gòu)預(yù)測(cè).由于蛋白質(zhì)的復(fù)雜度高,使用機(jī)器學(xué)習(xí)預(yù)測(cè)其結(jié)構(gòu)成為近年來的一個(gè)潮流[57].本節(jié)針對(duì)機(jī)器學(xué)習(xí)預(yù)測(cè)蛋白質(zhì)的二級(jí)、三級(jí)和四級(jí)結(jié)構(gòu)分別展開討論.
蛋白質(zhì)的二級(jí)結(jié)構(gòu)是由氫鍵穩(wěn)定的規(guī)則結(jié)構(gòu),這些氫鍵是在蛋白質(zhì)的主鏈之間形成的.研究生物大分子的二級(jí)結(jié)構(gòu)具有重要的意義,因?yàn)槎?jí)結(jié)構(gòu)是構(gòu)成三級(jí)和四級(jí)結(jié)構(gòu)的基本元素,且往往與生物大分子的功能密切相關(guān).而通過已知的一級(jí)結(jié)構(gòu)信息,可以預(yù)測(cè)其可能的二級(jí)結(jié)構(gòu),這對(duì)于理解生物大分子的功能和進(jìn)行分子設(shè)計(jì)都非常重要.
對(duì)于蛋白質(zhì)分子,盡管目前很多三級(jí)結(jié)構(gòu)預(yù)測(cè)模型已經(jīng)表現(xiàn)得足夠好[58–60],但專注于二級(jí)結(jié)構(gòu)預(yù)測(cè)仍然有其重要性和必要性.與三級(jí)結(jié)構(gòu)預(yù)測(cè)相比,二級(jí)結(jié)構(gòu)預(yù)測(cè)的計(jì)算成本較低.對(duì)于大規(guī)模或復(fù)雜的蛋白質(zhì)系統(tǒng),二級(jí)結(jié)構(gòu)預(yù)測(cè)可能是更實(shí)用的選擇;二級(jí)結(jié)構(gòu)是蛋白質(zhì)功能的重要決定因素之一.對(duì)二級(jí)結(jié)構(gòu)的研究可以幫助我們更好地理解蛋白質(zhì)的功能機(jī)制;通過二級(jí)結(jié)構(gòu)預(yù)測(cè),可以更好地理解蛋白質(zhì)氨基酸序列與其結(jié)構(gòu)之間的關(guān)系,這對(duì)于蛋白質(zhì)設(shè)計(jì)和工程也非常重要.
在蛋白質(zhì)分子的二級(jí)結(jié)構(gòu)機(jī)器學(xué)習(xí)預(yù)測(cè)中,人們主要選取三種模式的神經(jīng)網(wǎng)絡(luò): 循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)[61]、卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural neteork,CNN)[62]與混合神經(jīng)網(wǎng)絡(luò)[63](即結(jié)合了循環(huán)神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)).循環(huán)神經(jīng)網(wǎng)絡(luò)方法充分利用了一級(jí)結(jié)構(gòu)的序列特征,通過學(xué)習(xí)序列之間的先后次序,發(fā)現(xiàn)其和蛋白質(zhì)二級(jí)結(jié)構(gòu)間的復(fù)雜關(guān)系,從而進(jìn)行蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)[64,65].而卷積神經(jīng)網(wǎng)絡(luò)則專注于提取序列的局部信息,并對(duì)其進(jìn)行分析、整合,以此來提取所關(guān)注的一段序列與二級(jí)結(jié)構(gòu)間的對(duì)應(yīng)關(guān)系[66].混合神經(jīng)網(wǎng)絡(luò)方法則是在神經(jīng)網(wǎng)絡(luò)中同時(shí)使用了循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),這使得預(yù)測(cè)的準(zhǔn)確性有所提升[67,68].
蛋白質(zhì)的三級(jí)結(jié)構(gòu)預(yù)測(cè)至關(guān)重要,因?yàn)榈鞍踪|(zhì)的三級(jí)結(jié)構(gòu)往往決定了其功能、穩(wěn)定性、與其他分子間的相互作用以及與某些疾病的相關(guān)性等[69].目前主流的機(jī)器學(xué)習(xí)蛋白質(zhì)三級(jí)結(jié)構(gòu)預(yù)測(cè)軟件(例如AlphaFold2[58])的實(shí)際工作流程較為復(fù)雜,這里只介紹其核心思想.AlphaFold2 的結(jié)構(gòu)示意圖如圖 2 所示.從圖 2 可以看出,當(dāng)把序列輸入給模型后,模型首先會(huì)做兩件事情: 從基因數(shù)據(jù)庫中獲取多序列比對(duì)以及從結(jié)構(gòu)數(shù)據(jù)庫中獲取成對(duì)信息模版.在生物信息學(xué)中.多序列比對(duì)[70](multiple sequence alignment,MSA)是一種常用的方法,它可以將3 個(gè)或更多的生物序列(通常是蛋白質(zhì)或核酸)對(duì)齊,以識(shí)別這些序列之間的相似性.通過多序列比對(duì),研究人員能夠識(shí)別保守的序列區(qū)域、協(xié)變區(qū)域,這些區(qū)域在物種間或者基因家族成員間具有高度的相似性、共進(jìn)化性,可能對(duì)蛋白質(zhì)的結(jié)構(gòu)和功能有著至關(guān)重要的意義.簡(jiǎn)而言之,多序列比對(duì)作為輸入,相比于單個(gè)序列而言,多出了額外的與蛋白結(jié)構(gòu)相關(guān)的信息,可以幫助對(duì)蛋白質(zhì)的三維結(jié)構(gòu)進(jìn)行推斷.在圖 2 中,輸入的序列與多序列比對(duì)信息被轉(zhuǎn)化為了一個(gè)多序列比對(duì)表象的矩陣,這個(gè)矩陣可以被粗略地理解為包含了序列進(jìn)化信息.

圖2 AlphaFold2 的結(jié)構(gòu)圖Fig.2.Architecture of AlphaFold2.
另一方面,可以看到二維的成對(duì)矩陣和成對(duì)信息模版被模型轉(zhuǎn)化成了成對(duì)表象矩陣.這個(gè)矩陣包含著豐富的殘基間信息,如殘基間的距離和相對(duì)方向.然后,模型通過基于注意力機(jī)制[71]的evoformer模塊將多序列比對(duì)表象矩陣和成對(duì)表象矩陣的信息結(jié)合起來,反復(fù)更新兩者.最后兩者通過結(jié)構(gòu)模塊,從每個(gè)殘基的局部信息和殘基間信息中通過學(xué)習(xí)提取關(guān)鍵數(shù)據(jù),生成最終的蛋白質(zhì)的每個(gè)原子的三維坐標(biāo).注意,生成過程并不是一次完成的,而是需要反復(fù)迭代三次.
蛋白質(zhì)的四級(jí)結(jié)構(gòu)研究至關(guān)重要,因?yàn)樗鼈儗?duì)生物體的正常運(yùn)作有著重要影響,這有助于深入研究生物大分子的功能和調(diào)控,并對(duì)藥物設(shè)計(jì)做出必要的指導(dǎo)[72,73].蛋白質(zhì)分子間的相互作用主要由以下幾種非共價(jià)作用組成: 氫鍵、離子鍵、范德瓦耳斯力和疏水相互作用[74].生物大分子間的相互作用主要取決于表面基團(tuán)的化學(xué)性質(zhì)、幾何結(jié)構(gòu)、動(dòng)態(tài)結(jié)構(gòu)等因素.要想正確地預(yù)測(cè)蛋白質(zhì)的四級(jí)結(jié)構(gòu),就必須處理大量高維信息,而這正是機(jī)器學(xué)習(xí)所擅長(zhǎng)的.
傳統(tǒng)的蛋白質(zhì)對(duì)接預(yù)測(cè)軟件大多是基于分?jǐn)?shù),例如ZDOCK[75],是使配體遍歷受體附近的每一個(gè)位置和自身的每一個(gè)方向,通過經(jīng)驗(yàn)公式對(duì)每一個(gè)構(gòu)象進(jìn)行打分,最終選定分?jǐn)?shù)最高的幾個(gè)構(gòu)象作為備選答案.然而,這種方法具有著一定的劣勢(shì),例如打分的機(jī)制往往存在很多經(jīng)驗(yàn)項(xiàng),用于擬合的實(shí)驗(yàn)數(shù)據(jù)過少以及計(jì)算速度過慢等.目前雖然已有關(guān)于RNA-蛋白質(zhì)復(fù)合物的四級(jí)結(jié)構(gòu)預(yù)測(cè)軟件Open Complex[76],但相關(guān)文章尚未發(fā)表,因此本小節(jié)主要介紹著名的蛋白質(zhì)四級(jí)結(jié)構(gòu)預(yù)測(cè)軟件Alpha Fold-Multimer[77].
由于極高的復(fù)雜度和更大的搜索空間,蛋白質(zhì)的四級(jí)結(jié)構(gòu)預(yù)測(cè)遠(yuǎn)比三級(jí)結(jié)構(gòu)預(yù)測(cè)要困難.有學(xué)者曾調(diào)整過AlphaFold 的輸入,增加了虛擬的空位或者連接基團(tuán),多鏈蛋白質(zhì)強(qiáng)行轉(zhuǎn)化成單鏈蛋白質(zhì),再進(jìn)行結(jié)構(gòu)預(yù)測(cè)[78–81].其道理在于,雖然四級(jí)結(jié)構(gòu)中的鏈與鏈之間失去了骨架的鏈接,但蛋白質(zhì)鏈間殘基之間相互作用的物理本質(zhì)和同一條鏈上距離較遠(yuǎn)的殘基之間的相互作用的物理本質(zhì)是一樣的.而AlphaFold-Multimer 也是采用了同樣的思想,只不過摒棄了空位和連接基團(tuán)的引入[77].
AlphaFold-Multimer 基本框架和AlphaFold是一樣的,但主要做了如下幾點(diǎn)改變: 第一,對(duì)輸入進(jìn)行了改變,采用了一種針對(duì)多鏈蛋白更加科學(xué)的構(gòu)建多序列比對(duì)的方法,其主要原理是分別生成不同序列的多序列比對(duì),再在此基礎(chǔ)上生成基于基因組的和基于系統(tǒng)發(fā)育的多鏈多序列比對(duì)[82](如圖 3 所示),并對(duì)結(jié)果進(jìn)行整合.第二,對(duì)損失函數(shù)(表征機(jī)器學(xué)習(xí)中預(yù)測(cè)值與真實(shí)值之間的差距)進(jìn)行了修改,考慮了含有相同鏈的蛋白中鏈與鏈之間的交換效應(yīng);修正了AlphaFold 中的幀對(duì)齊點(diǎn)誤差損失的上限以優(yōu)化訓(xùn)練時(shí)的梯度信號(hào);額外增加了鏈質(zhì)心損失以防不同的鏈被預(yù)測(cè)到重疊的位置上.第三,對(duì)訓(xùn)練流程進(jìn)行了改進(jìn),為了緩解計(jì)算資源的局限性,AlphaFold-Multimer 對(duì)蛋白質(zhì)進(jìn)行剪裁,并訓(xùn)練AlphaFold 系統(tǒng)來處理全長(zhǎng)蛋白質(zhì)的裁剪片段,這些裁剪區(qū)域最多可達(dá)384 個(gè)殘基的連續(xù)塊.

圖3 AlphaFold-Multimer 的多序列比對(duì)構(gòu)建方法Fig.3.Construction of MSA used in AlphaFold-Multimer.
生物分子的結(jié)構(gòu)決定了它們的性質(zhì)[83],但絕大多數(shù)情況下,僅憑人類的推理,很難從復(fù)雜的結(jié)構(gòu)信息中提取到重要的依據(jù)來判定生物分子的性質(zhì),因此需要借助機(jī)器學(xué)習(xí)的力量[8,83,84]從復(fù)雜的序列等信息中提取出所需的性質(zhì)信息.由于實(shí)驗(yàn)成本的原因,僅從序列信息推理得到蛋白質(zhì)分子的性質(zhì),是人們長(zhǎng)久以來希望實(shí)現(xiàn)的.在蛋白質(zhì)的種種性質(zhì)中,水溶性、免疫原性和熱穩(wěn)定性尤為重要.本節(jié)將針對(duì)這三點(diǎn)性質(zhì)的預(yù)測(cè)逐一討論.
蛋白質(zhì)的水溶性主要取決于其自身的氨基酸組成和空間結(jié)構(gòu)[85].一般來說,富含親水性氨基酸殘基(如賴氨酸、精氨酸、谷氨酸等)的蛋白質(zhì),水溶性較好,這些親水性殘基能與水分子形成氫鍵,提高蛋白質(zhì)的溶解度;含有較多疏水性氨基酸殘基(如纈氨酸、異亮氨酸、苯丙氨酸等)的蛋白質(zhì),水溶性較差,這些疏水性殘基難以與水分子接觸,使蛋白質(zhì)不溶于水;蛋白質(zhì)的空間結(jié)構(gòu)也影響其溶解性,緊密折疊的球狀蛋白較易溶解,而松散的隨機(jī)卷曲蛋白溶解度較低,這是因?yàn)榫o密結(jié)構(gòu)能使更多親水基團(tuán)暴露于水分子之間.蛋白質(zhì)溶解時(shí),也會(huì)發(fā)生構(gòu)象變化,一些原本隱藏在內(nèi)部的親水基團(tuán)會(huì)暴露出來,提升蛋白質(zhì)的溶解度.雖然以上經(jīng)驗(yàn)會(huì)為預(yù)測(cè)蛋白質(zhì)的水溶性提供一些幫助,但由于蛋白質(zhì)自身的復(fù)雜性,依然需要借助機(jī)器學(xué)習(xí)的力量來完成蛋白質(zhì)水溶性預(yù)測(cè)工作.
DeepSol[86]是一款基于卷積神經(jīng)網(wǎng)絡(luò)的蛋白質(zhì)水溶性預(yù)測(cè)軟件,在這個(gè)軟件中,蛋白質(zhì)序列被當(dāng)作唯一的輸入傳遞給卷積神經(jīng)網(wǎng)絡(luò),而模型的輸出則是一個(gè)大于0 小于1 的實(shí)數(shù),分?jǐn)?shù)越大表示模型認(rèn)為該序列越有可能來自一個(gè)可溶的蛋白質(zhì).EPSOL[87]是近年來另一款具有代表性的蛋白質(zhì)水溶性預(yù)測(cè)軟件,它比DeepSol 的結(jié)果更加準(zhǔn)確,但是也需要輸入更多的信息以幫助其進(jìn)行判斷,例如蛋白質(zhì)的二級(jí)結(jié)構(gòu)和溶劑可及性(solvent accessibility).
預(yù)測(cè)蛋白質(zhì)的水溶性可以幫助我們: 解釋蛋白質(zhì)的物理化學(xué)性質(zhì);指導(dǎo)蛋白質(zhì)的提取和純化;為蛋白質(zhì)的功能研究提供參考;輔助蛋白質(zhì)藥物的藥效學(xué)研究;指導(dǎo)蛋白質(zhì)工程設(shè)計(jì)以及分析蛋白質(zhì)的穩(wěn)定性和折疊行為.這些對(duì)于蛋白質(zhì)研究都是極其重要的.
蛋白質(zhì)的免疫原性[88]指的是某種蛋白質(zhì)所具有的誘導(dǎo)免疫反應(yīng)并激活免疫系統(tǒng)的能力.簡(jiǎn)單來說,就是某些蛋白質(zhì)能夠被人體免疫系統(tǒng)識(shí)別為“外來抗原”,并觸發(fā)體液免疫和細(xì)胞免疫反應(yīng)以清除這種抗原.雖然研究表明,蛋白質(zhì)的免疫原性與密碼子(codon)[89]和翻譯后修飾(post-translational modification,PTM)[90]都有關(guān)系,但其與蛋白質(zhì)本身的關(guān)系依然有跡可循[91],而機(jī)器學(xué)習(xí)正是一個(gè)解釋這種復(fù)雜關(guān)系的極好工具.
2019 年Smith 等[92]訓(xùn)練了一個(gè)機(jī)器學(xué)習(xí)模型(基于線型回歸),基于腫瘤抗原的免疫原性本質(zhì)特征,來預(yù)測(cè)新抗原的免疫原性.在該研究中,學(xué)者在兩種腫瘤小鼠模型中驗(yàn)證了該預(yù)測(cè)模型的效果,證明了它可以用于選擇有治療作用的抗原表位,并在TCGA 全癌癥數(shù)據(jù)集中分析了高免疫原性新抗原與腫瘤微環(huán)境免疫特征的關(guān)聯(lián),發(fā)現(xiàn)在結(jié)腸腺癌和肺腺癌中存在顯著關(guān)聯(lián).最后提供了證據(jù)支持一種預(yù)測(cè)的移碼新抗原能夠驅(qū)動(dòng)抗腫瘤的細(xì)胞免疫反應(yīng),提示移碼抗原也可能成為潛在的治療靶點(diǎn).另一方面,針對(duì)疫苗的免疫原性研究也同樣重要.2020 年Gonzalez-Dias 等[93]總結(jié)和討論了使用系統(tǒng)疫苗學(xué)和機(jī)器學(xué)習(xí)方法來預(yù)測(cè)疫苗免疫原性和不良反應(yīng)的技術(shù),并概述了不同的機(jī)器學(xué)習(xí)算法在這個(gè)框架中的應(yīng)用,如支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)、隨機(jī)森林等,還探討了一些目前在該領(lǐng)域的挑戰(zhàn),如變量混雜的處理、獲取更多高質(zhì)量數(shù)據(jù)的需要等.
通過對(duì)蛋白質(zhì)的免疫原性的預(yù)測(cè)可以評(píng)估蛋白質(zhì)作為候選疫苗、藥物的潛力.對(duì)于代替性蛋白質(zhì)藥物,需要在設(shè)計(jì)的過程中降低其免疫原性,避免集體產(chǎn)生抗體促使藥物失效,也避免機(jī)體產(chǎn)生不必要的免疫反應(yīng).但對(duì)于疫苗,需要提高其免疫原性,以最大程度激發(fā)機(jī)體的免疫反應(yīng).總之,免疫原性的預(yù)測(cè)對(duì)醫(yī)用蛋白質(zhì)有著舉足輕重的作用.
蛋白質(zhì)的熱穩(wěn)定性由很多因素共同決定[94].通常情況下,α-螺旋和β-折疊通常較之無規(guī)律卷曲更熱穩(wěn)定.疏水相互作用也能提高蛋白質(zhì)的熱穩(wěn)定性;氫鍵和離子鍵的數(shù)量越多,越有利于熱穩(wěn)定性;蛋白質(zhì)表面暴露的非極性殘基越多,熱穩(wěn)定性越低;多聚體的形成有利于提高蛋白質(zhì)的熱穩(wěn)定性;蛋白質(zhì)本身的殘基比例也會(huì)影響其熱穩(wěn)定性,例如富含脯氨酸、蘇氨酸的蛋白質(zhì)熱穩(wěn)定性較差.雖然有著很多簡(jiǎn)單的經(jīng)驗(yàn)可以推斷蛋白質(zhì)的熱穩(wěn)定性,鑒于蛋白質(zhì)序列、結(jié)構(gòu)的高度復(fù)雜性,依然需要機(jī)器學(xué)習(xí)來輔助預(yù)測(cè)蛋白質(zhì)的熱穩(wěn)定性.
TemStaPro 是近年來被公開的一款基于深度學(xué)習(xí)預(yù)測(cè)蛋白質(zhì)熱穩(wěn)定性的軟件[95].在這款軟件的架構(gòu)中,開發(fā)者們巧妙地使用了遷移學(xué)習(xí)(transfer learning),直接從復(fù)雜的蛋白質(zhì)語言模型(protein language models,PLM)[96,97]獲得被解碼的信息,并構(gòu)建一個(gè)小型的神經(jīng)網(wǎng)絡(luò)用于預(yù)測(cè)最終的序列熱穩(wěn)定性.該模型可以判斷給定序列在一定溫度以上是否依然具有熱穩(wěn)定性,預(yù)測(cè)結(jié)果是一個(gè)大于0 小于1 的實(shí)數(shù),數(shù)值越大,代表越可能具有熱穩(wěn)定性.
預(yù)測(cè)蛋白質(zhì)在體溫環(huán)境下的穩(wěn)定性和降解情況對(duì)蛋白藥物的設(shè)計(jì)很重要,提高熱穩(wěn)定性可以延長(zhǎng)其體內(nèi)半衰期.除此之外,預(yù)測(cè)和改善工業(yè)用酶的熱穩(wěn)定性,以擴(kuò)展其在工業(yè)生產(chǎn)過程中的適用溫度范圍和使用壽命,可以減少酶的更換和處理成本.
生物分子設(shè)計(jì)是一個(gè)涉及修改自然存在的生物分子或創(chuàng)建新分子以實(shí)現(xiàn)特定功能的科學(xué)領(lǐng)域,而其中最受人矚目的方向之一便是蛋白質(zhì)設(shè)計(jì)[98].分子設(shè)計(jì)的一般流程如下: 第1 步,確定目標(biāo),明確并理解所期望的分子的功能或性質(zhì);第2 步,選取適當(dāng)算法和模型;第3 步,生成候選分子,這一步會(huì)產(chǎn)生大量備選分子;第4 步,篩選和評(píng)估,即通過計(jì)算方法來評(píng)估分子的功能和性質(zhì),篩選出最可能成功的幾個(gè)分子;第5 步,驗(yàn)證和測(cè)試,對(duì)選中的分子進(jìn)行實(shí)驗(yàn),評(píng)估實(shí)驗(yàn)結(jié)果是否達(dá)到預(yù)期;第6 步,優(yōu)化和修改,即基于實(shí)驗(yàn)結(jié)果,對(duì)分子或算法進(jìn)行進(jìn)一步優(yōu)化,必要時(shí),將對(duì)所設(shè)計(jì)的分子進(jìn)行迭代改進(jìn).本節(jié)將從幾個(gè)不同方面介紹蛋白質(zhì)設(shè)計(jì).
要對(duì)蛋白質(zhì)進(jìn)行從頭設(shè)計(jì)不是一件容易的事,因?yàn)榈鞍踪|(zhì)本身結(jié)構(gòu)復(fù)雜,而功能與結(jié)構(gòu)的關(guān)系也復(fù)雜[98].而蛋白質(zhì)設(shè)計(jì),實(shí)際上就是一個(gè)優(yōu)化問題:
因?yàn)槲覀儼压羌芙Y(jié)構(gòu)設(shè)計(jì)和序列設(shè)計(jì)進(jìn)行了拆分,因此可以認(rèn)為它們是最終設(shè)計(jì)出的蛋白質(zhì)的兩個(gè)因素:
因?yàn)楣δ苤苯佑山Y(jié)構(gòu)決定,因此在蛋白質(zhì)從頭設(shè)計(jì)中,人們通常從設(shè)計(jì)蛋白質(zhì)的骨架結(jié)構(gòu)開始[99,100],即在給定的條件下找到最有可能符合該條件的骨架結(jié)構(gòu):
不是所有的骨架都可以被自然氨基酸生成的,要想生成符合自然規(guī)律的骨架,就必須遵守一定的規(guī)則[99].因此,一個(gè)直觀的想法便是,如果能以某種方式,通過機(jī)器學(xué)習(xí)的力量,學(xué)習(xí)到自然存在的蛋白質(zhì)骨架應(yīng)該具有什么樣的特征,那么就可以不斷地向應(yīng)有的特征的方向調(diào)整所生成骨架的相應(yīng)特征,這樣就會(huì)得到符合自然法則的蛋白質(zhì)骨架結(jié)構(gòu).進(jìn)一步地,如果能把自然存在的蛋白質(zhì)統(tǒng)計(jì)意義上的特征表征成一種基于統(tǒng)計(jì)(而非物理)的能量項(xiàng),那么理論上以這個(gè)能量項(xiàng)為基礎(chǔ),就可以通過動(dòng)力學(xué)模擬的方法自發(fā)生成符合自然規(guī)律的蛋白質(zhì)骨架結(jié)構(gòu).SCUBA 模型[99]正是基于此思想.
SCUBA 的核心功能是在與序列無關(guān)的骨架結(jié)構(gòu)空間中,通過尋找能量最低點(diǎn)的方法找到預(yù)測(cè)的最優(yōu)骨架結(jié)構(gòu),而后續(xù)的基于結(jié)構(gòu)的序列設(shè)計(jì)工作則交給其他模型.在SCUBA 這項(xiàng)工作中,研究者們將統(tǒng)計(jì)能量進(jìn)行了拆分,并逐項(xiàng)通過臨近點(diǎn)計(jì)數(shù)-神經(jīng)網(wǎng)絡(luò)的方法進(jìn)行訓(xùn)練以獲得相應(yīng)的連續(xù)可微分的能量函數(shù)[99].臨近點(diǎn)計(jì)數(shù)-神經(jīng)網(wǎng)絡(luò)方法的訓(xùn)練是基于有監(jiān)督學(xué)習(xí)的,其核心思想就是通過神經(jīng)網(wǎng)絡(luò)的強(qiáng)大泛化性將粗糙的統(tǒng)計(jì)散點(diǎn)數(shù)據(jù)轉(zhuǎn)化為連續(xù)可微的能量函數(shù).
另一方面,擴(kuò)散模型(diffusion models)[101]作為一款生成模型,近年來在眾多領(lǐng)域都做出了突出的貢獻(xiàn)[102,103].于是,基于擴(kuò)散模型的蛋白質(zhì)骨架結(jié)構(gòu)從頭設(shè)計(jì)模型也應(yīng)運(yùn)而生[100,104].擴(kuò)散是一個(gè)自發(fā)的熵增過程,在機(jī)器學(xué)習(xí)中的擴(kuò)散,通常是指在訓(xùn)練過程中逐步地為原始數(shù)據(jù)添加噪音,最終將得到一個(gè)純粹的噪音.而擴(kuò)散模型所做的便是通過學(xué)習(xí)每一步擴(kuò)散過程中增加的那一部分噪音與數(shù)據(jù)分布之間的關(guān)系,從而生成一個(gè)逆向的神經(jīng)網(wǎng)絡(luò),逐步預(yù)測(cè)被注入噪音后的數(shù)據(jù)最可能的原來的樣子.這樣,只給定隨機(jī)噪音,逆向神經(jīng)網(wǎng)絡(luò)就能自發(fā)地生成一個(gè)與訓(xùn)練數(shù)據(jù)高度相似的數(shù)據(jù).
RFdiffusion 的核心思想是對(duì)RoseTTAFold[60]進(jìn)行了微調(diào),使之能完成圖中所示的特殊的三維結(jié)構(gòu)預(yù)測(cè)任務(wù).初始時(shí)刻,骨架原子坐標(biāo)是隨機(jī)的.在每一步中,RFdiffusion 會(huì)根據(jù)本步的骨架坐標(biāo),通過微調(diào)后的RoseTTAFold 生成一個(gè)虛擬的預(yù)測(cè)結(jié)果,然后根據(jù)這個(gè)虛擬的預(yù)測(cè)結(jié)果推測(cè)出上一個(gè)擴(kuò)散步驟中被加入的噪音,依此推測(cè)出上一個(gè)擴(kuò)散步驟的骨架坐標(biāo).如此,最終可以得到擴(kuò)散尚未開始時(shí)的骨架原子坐標(biāo).另一方面,人們也一直在嘗試不需要在結(jié)構(gòu)預(yù)測(cè)模型的基礎(chǔ)上進(jìn)行微調(diào)的基于擴(kuò)散模型的蛋白質(zhì)結(jié)構(gòu)生成模型[104,105].其中SCUBA-D[104]模型結(jié)合了生成對(duì)抗模型和擴(kuò)散模型各自的生成質(zhì)量高、創(chuàng)新性大等優(yōu)勢(shì),在蛋白從頭設(shè)計(jì)領(lǐng)域做出了突出的貢獻(xiàn).
在設(shè)計(jì)好蛋白質(zhì)的骨架結(jié)構(gòu)之后,就需要找到可以滿足該骨架結(jié)構(gòu)的序列.需要做的實(shí)際上便是最大化如下概率:
由于蛋白質(zhì)的空間結(jié)構(gòu)復(fù)雜,且序列空間很大,因此借助機(jī)器學(xué)習(xí)的力量對(duì)給定骨架結(jié)構(gòu)的蛋白質(zhì)進(jìn)行序列設(shè)計(jì)是一個(gè)很好的選擇.
在ABACUS[106,107]模型中,學(xué)者們通過遍歷大量已知結(jié)構(gòu)的蛋白,學(xué)習(xí)到了統(tǒng)計(jì)意義上的在特定結(jié)構(gòu)下,某個(gè)位置上是某個(gè)氨基酸的概率以及某兩個(gè)位置上是某兩個(gè)氨基酸的聯(lián)合概率,再通過e=-lnP的方法將統(tǒng)計(jì)意義上的概率轉(zhuǎn)化為統(tǒng)計(jì)意義上的能量.隨后,學(xué)者們將統(tǒng)計(jì)意義上的能量與經(jīng)驗(yàn)化的物理意義上的能量(原子間相互作用等)進(jìn)行加和,得到了最終的能量表達(dá)式.初始的蛋白序列是一條完全隨機(jī)的序列,隨后ABACUS對(duì)序列在序列空間進(jìn)行蒙特卡羅模擬,以能量函數(shù)的變化來判斷是否保留每一步的突變,最終在進(jìn)行足夠多步后,得到一個(gè)足夠好的序列.目前,基于ABACUS 的工作依然在繼續(xù),研究人員正在試圖通過解碼與殘基自身和該殘基相鄰的所有殘基空間結(jié)構(gòu)、相對(duì)位置信息,來還原位置序列的蛋白質(zhì)結(jié)構(gòu)中每一個(gè)殘基的氨基酸類型.
而在ProteinMPNN[108]中,研究者們則使用了圖神經(jīng)網(wǎng)絡(luò)(graph neural networks,GNN)[109]的框架,如圖 4 所示.在該模型中,一個(gè)蛋白質(zhì)骨架結(jié)構(gòu)被理解為一張圖,其中圖的節(jié)點(diǎn)代表著蛋白質(zhì)中的每一個(gè)氨基酸,而每一條邊則代表著氨基酸對(duì)之間的空間信息,這里選用了N,Cα,C,O,Cβ之間的距離.模型由兩部分組成,骨架編碼器負(fù)責(zé)讀取骨架的空間信息,而序列解碼器則負(fù)責(zé)將編碼器處獲得的信息解碼成序列.
傳統(tǒng)的蛋白質(zhì)設(shè)計(jì)方案先對(duì)骨架結(jié)構(gòu)進(jìn)行設(shè)計(jì),再對(duì)蛋白序列進(jìn)行設(shè)計(jì),得到的蛋白序列如(5)式所示,而實(shí)際上,總的結(jié)果相當(dāng)于:
對(duì)比(2)式和(3)式可以發(fā)現(xiàn),這里的搜索空間變少了,而限制條件變多了,因此有
上述討論說明,比起傳統(tǒng)的先設(shè)計(jì)蛋白質(zhì)骨架結(jié)構(gòu),再對(duì)蛋白的序列進(jìn)行設(shè)計(jì)的方案,直接對(duì)蛋白質(zhì)的骨架結(jié)構(gòu)和序列信息進(jìn)行協(xié)同設(shè)計(jì)往往更能設(shè)計(jì)出符合要求的蛋白質(zhì).另一方面,結(jié)構(gòu)序列協(xié)同設(shè)計(jì)也更加靈活,如當(dāng)需要固定被設(shè)計(jì)的蛋白中的某部分骨架結(jié)構(gòu)或某些氨基酸類型時(shí),就可以在協(xié)同設(shè)計(jì)中直接將這些變量固定.而這種任務(wù)常常是在設(shè)計(jì)分子間相互作用下的蛋白質(zhì)[110,111]時(shí)所面對(duì)的.

圖4 ProteinMPNN 模型核心思想示意圖Fig.4.Main idea of ProteinMPNN.
2022 年,Shi 等[112]提出了一款基于協(xié)同設(shè)計(jì)思想的蛋白質(zhì)從頭設(shè)計(jì)機(jī)器學(xué)習(xí)模型.模型結(jié)構(gòu)如圖 5 所示,在該模型中,通過輸入初始被設(shè)計(jì)蛋白的每個(gè)殘基的性質(zhì)(例如二級(jí)結(jié)構(gòu))和殘基間性質(zhì)(例如是否接觸)的信息,使用基于注意力機(jī)制[71]的算法進(jìn)行不斷迭代,最終設(shè)計(jì)出符合要求的蛋白質(zhì).在該模型中,初始序列和骨架結(jié)構(gòu)都是未知的,而模型通過學(xué)習(xí)自然存在的蛋白質(zhì)的結(jié)構(gòu)和序列,可以做到生成最可能在自然界中穩(wěn)定存在的滿足設(shè)計(jì)要求的蛋白質(zhì).然而,Shi 等指出該模型最大的問題是,目前還不確定該模型能否自發(fā)設(shè)計(jì)出超越現(xiàn)有蛋白質(zhì)拓?fù)浣Y(jié)構(gòu)的蛋白.該模型的輸入是一串指定序列局部信息的數(shù)組和一個(gè)指定序列連接信息的矩陣,而這通常就包含了蛋白質(zhì)足夠多的信息.這樣就使得模型有點(diǎn)不那么像是一個(gè)生成模型,反而有些像一個(gè)回歸模型.但毫無疑問的是,這項(xiàng)工作為蛋白質(zhì)結(jié)構(gòu)序列協(xié)同設(shè)計(jì)提供了很好的理論支持.在設(shè)計(jì)蛋白-蛋白相互作用的蛋白質(zhì)時(shí),很多時(shí)候需要協(xié)同地考慮一些接觸位點(diǎn)的空間結(jié)構(gòu)和氨基酸類型,這時(shí),協(xié)同設(shè)計(jì)便會(huì)發(fā)揮其強(qiáng)大的功能.

圖5 蛋白質(zhì)結(jié)構(gòu)序列協(xié)同設(shè)計(jì)的一種機(jī)器學(xué)習(xí)模型示意圖Fig.5.Illustration of a machine learning model of protein structure-sequence co-design.
蛋白質(zhì)計(jì)算與機(jī)器學(xué)習(xí)的結(jié)合在近年來取得了飛速的發(fā)展[113,114],這使得生物學(xué)本身與生物信息學(xué)、生物物理學(xué)和生物化學(xué)等交叉學(xué)科獲得了極大的突破.機(jī)器學(xué)習(xí)對(duì)蛋白質(zhì)計(jì)算領(lǐng)域的介入,使我們可以更好地認(rèn)識(shí)自然,理解自然,進(jìn)而改造自然.本綜述的第2 節(jié)、第3 節(jié)和第4 節(jié)體現(xiàn)了對(duì)自然生命分子和生命過程的認(rèn)識(shí)和理解,而第5 節(jié)則體現(xiàn)了對(duì)自然生命分子和生命過程的改造.正如第1 節(jié)中討論的那樣,認(rèn)識(shí)自然和改造自然不是彼此獨(dú)立的,而是相互交匯的.在認(rèn)識(shí)和理解了一個(gè)生物現(xiàn)象之后,便要對(duì)其向好的方向進(jìn)行改造,而這往往會(huì)讓我們發(fā)現(xiàn)更多需要被認(rèn)識(shí)的新的生物現(xiàn)象.
然而,機(jī)器學(xué)習(xí)在蛋白質(zhì)計(jì)算,尤其是蛋白質(zhì)分子設(shè)計(jì)領(lǐng)域還有著許多需要解決的問題.首先,我們觀察到,通過現(xiàn)有的蛋白質(zhì)骨架從頭設(shè)計(jì)軟件設(shè)計(jì)出的骨架非常傾向于生成剛性結(jié)構(gòu)域,而較少生成對(duì)調(diào)節(jié)蛋白動(dòng)態(tài)性質(zhì)至關(guān)重要的環(huán)(loop)區(qū).另一方面,現(xiàn)有的序列設(shè)計(jì)軟件通常也會(huì)極大程度考慮結(jié)構(gòu)的靜態(tài)穩(wěn)定性而不是動(dòng)態(tài)性質(zhì).因此最終設(shè)計(jì)出的蛋白大多都非常剛性,很難滿足一些特定的要求,例如設(shè)計(jì)出有活性的酶,因?yàn)槊傅幕钚允桥c其動(dòng)態(tài)性質(zhì)息息相關(guān)的[115].未來蛋白質(zhì)設(shè)計(jì)的發(fā)展趨勢(shì)將會(huì)更加注重設(shè)計(jì)蛋白的柔性和活性,盡可能地設(shè)計(jì)出柔軟的“器官”,而不是堅(jiān)硬的“零件”.
放眼未來,人們會(huì)利用機(jī)器學(xué)習(xí)設(shè)計(jì)出更多經(jīng)濟(jì)實(shí)用的藥物.例如,由于mRNA 易于合成且在人體內(nèi)可以長(zhǎng)期地表達(dá)特定蛋白,在近年來已成為最受關(guān)注的新興藥物之一[116].而在分別理解了蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)、蛋白質(zhì)設(shè)計(jì)、RNA 結(jié)構(gòu)預(yù)測(cè)和密碼子優(yōu)化[117]等mRNA 設(shè)計(jì)后,便可以考慮蛋白-mRNA 協(xié)同設(shè)計(jì),即根據(jù)需要的蛋白的功能,將蛋白的功效和mRNA 的翻譯效率協(xié)同考慮,直接設(shè)計(jì)出相應(yīng)的藥用mRNA 序列.雖然這比獨(dú)立設(shè)計(jì)蛋白質(zhì)和RNA 都要困難很多,但在機(jī)器學(xué)習(xí)的幫助下,這個(gè)難題終將被攻克.
比起單個(gè)生物分子,人們往往更加關(guān)注生物分子體系,尤其是生物大分子間的相互作用[57,118].在未來,隨著機(jī)器學(xué)習(xí)算法的提升和硬件性能的提高,人們將可以研究更加細(xì)節(jié)化的生物大分子間相互作用,也能預(yù)言尺度更大、數(shù)量更多的生物大分子間相互作用,從而漸漸實(shí)現(xiàn)從分子到分子間,再從分子間到體系的突破,最終實(shí)現(xiàn)精準(zhǔn)快速的細(xì)胞尺度模擬.
目前機(jī)器學(xué)習(xí)與蛋白質(zhì)計(jì)算的結(jié)合已取得了眾多突破性的進(jìn)展,本綜述主要總結(jié)了機(jī)器學(xué)習(xí)在蛋白質(zhì)的分子動(dòng)力學(xué)模擬、結(jié)構(gòu)預(yù)測(cè)、性質(zhì)預(yù)測(cè)和分子設(shè)計(jì)中的實(shí)現(xiàn),希望能以此為相關(guān)領(lǐng)域研究者提供參考并激發(fā)廣大科研工作者對(duì)本領(lǐng)域的興趣.
感謝中國科學(xué)技術(shù)大學(xué)生命科學(xué)學(xué)院劉海燕老師在寫作過程中給予我充分的幫助和支持.