王雅麗,付友思,陳俊宏,黃佳城,廖浪星,張永輝,方柏山,2,3
(1 廈門大學化學化工學院,福建廈門361005; 2 廈門市合成生物學重點實驗室,福建廈門361005; 3 福建省化學生物學重點實驗室,福建廈門361005; 4 集美大學食品與生物工程學院,福建廈門361021)
1878 年,Kuhne 首次提出了“酶(enzyme)”的概念。隨后,1894 年,Fischer 給出了酶催化“lock and key”模型假設[1],后于1902 年獲得諾貝爾化學獎。Sumner 是首個發現酶可以被結晶的科學家,他于1926 年成功分離和結晶了第一個酶——脲酶[2],胃蛋白酶[3]、煙草花葉病毒核蛋白[4]的高純度蛋白晶體緊隨其后分別被Northrop 和Stanley 制備獲得,三人共同獲得了1946 年的諾貝爾化學獎。晶體結構解析上的突破不僅讓人們對酶的分子結構有了初步的認識,并很快被應用于輔助蛋白序列鑒定。Sanger 在前期研究基礎上,于1952 年成功報道了胰島素A 鏈和B 鏈的完整氨基酸序列[5-6],并于1958 榮獲諾貝爾化學獎。
隨著越來越多的天然酶被分離純化和結晶鑒定[7-8],科學家們又提出了誘導嵌合(induced-fit)[9-10]和keyhole-lock-key 模型[11],進而更好地解釋了不同催化域的酶催化過程。酶氨基酸序列與功能之間的關系也開始被關注。定向進化[12]、隨機突變[13]、定點突變[14]、同源重組[15]等方法被應用到了酶工程中,并獲得了很多表現優異的生物催化劑應用在化學和藥物生物合成、生物傳感器、食品生產、生物降解等領域[16-17]。
早在20世紀末期,計算機便被應用到了酶的預測改造和設計中[18]。Karplus, Levitt 和Warshel 三位教授,因其在復雜化學體系多尺度模型計算上作出的貢獻獲得了2013 年的諾貝爾化學獎。Arnold 憑借在生物酶的定向進化上作出的貢獻,2018 年斬獲此獎。Baker 開發了蛋白結構從頭預測工具Rosetta[19],開啟了蛋白從頭設計的時代[20-21]。最近,Baker因其開發的蛋白從頭設計工具,榮獲了2021年生命科學重大突破獎(Breakthrough Prize in Life Sciences)。
用計算機設計酶,主要圍繞著酶的催化活性、結構穩定性、底物選擇性和可溶性表達以及從頭設計等方面展開[22-23]。早在70 多年前,Pauling[24]就提出天然酶的改造需求,由于蛋白序列空間的開闊性和對蛋白序列與結構之間關系認識的局限性,計算機酶改造工程一直在與時俱進[25]。本文對不同的人工設計酶的設計方法和分子力場、再設計和從頭設計在酶的設計中的相關成果,以及人工智能在酶設計中的方法與案例進行了綜述。
分子力場的核心是用來描述分子結構與系統能量之間關系的勢能公式組合。力場(force field)可以用來計算分子間和分子內的能量,計算酶和底物之間的親和力,預測側鏈的位置[26]。一個經典的經驗力場(empirical force field)能量公式集合了鍵能、鍵角、二面角、非平面二面角、電荷分布涉及的能量。經典模型和其微調模型可以在QM/MM 計算[27]中較為準確地描述生物分子結構。目前大多數在使用的生物分子力場例如GROMOS[28]、CHARMM[29]、AMBER[30]和OPLS[31]等都主要是使用這些子項來計算能量。Rosetta 是一種基于知識的(knowledge-based)力場[32],其中加入了重新統計獲得的勢能和通過實驗獲得的數據作為額外的勢能項。Alford 等[33]對最新的Rosetta 能量函數(REF15)做出了詳細的介紹。
根據對原子定義的范圍,力場又分為全原子力場和聯合原子力場,其中全原子力場里定義了所有的原子,而聯合原子力場則只定義了重原子和極性氫原子,例如CHARMM、AMBER 和Rosetta 均是全原子力場,GROMOS 則是聯合原子力場,而OPLS 力場則包含有全原子和聯合原子兩個版本。Mackerell[26]是CHARMM 力場的開發者之一,他對生物大分子經驗力場做了詳細的介紹和討論。
要實現酶的精準設計,需要能夠準確地設計活性位點的側鏈構象、柔性結構如loop 構象以及反應過渡態中原子方位朝向,還要計算靜電相互作用、分子與溶劑之間的相互作用和熵損失[21]等。力場函數的準確性對酶的設計具有至關重要的作用。精確地描述每個原子的成鍵和位置是科學家向往的理想狀態。時至今日,并沒有一個能夠100%準確描述分子實際能量的力場,很多力場開發工作者也正在為提高力場的準確性而共同努力[34-36]。

圖1 RosettaDesign和IPRO酶的再設計流程[22]Fig.1 The enzyme redesign computational workflow of RosettaDesign and IPRO [22]
Anfinsen[37]提出的熱力學假設——蛋白會朝著能量最低的方向去折疊是計算機設計酶遵循的基本法則。總的說來,酶的計算設計與篩選過程即是一個不斷向系統能量更低的折疊方式進行搜索的過程[38]。
常 用 全 原 子 模 型 設 計 軟 件 包 有RosettaDesign[39]、PoreDesigner[40]、IPRO[41]等。圖1 是以RosettaDesign 和IPRO 為例的一個酶的再設計流程圖[22],步驟依次為:將底物對接進酶(dock)、固定催化活性位點氨基酸(ensure)、鑒定出底物結合位點氨基酸(substrate)、調整附近氨基酸殘基的側鏈位置(adjacent),設計序列(design)、能量最小化(energy minimization)、給設計的酶打分排序(rank)。RosettaDesign 和IPRO 的區別在于,前者在序列設計時利用的是蒙特卡羅法隨機模型,IPRO 則利用了MILP(mixed-integer linear optimization)定向采樣,是一個蛋白設計和優化迭代的過程[41]。
酶的再設計相比酶的從頭設計成功率更高。換而言之,酶的從頭設計的流程更為復雜、難度更大。新酶的從頭設計的流程圖如圖2[42]。在設計之前,需要研究者對反應的過渡態和最簡化的活性位點有一定的認識,這幾個活性位點一般被稱為“theozyme”,這個活性位點的分布要求在底物周邊且有足夠的空間來激發反應。由于反應的過渡態實際只發生在短短的幾個飛秒之內[43-44],這個過渡態一般以已知晶體結構酶的過渡態類似物作為出發點,或者通過QM 計算來合理分布這個簡化模型的過渡態的位置。確定了中心活性位點的位置后,接下來利用RosettaMatch 模塊嘗試將這個最簡化的活性位點置于合適的骨架里[45],然后進行多個循環的序列設計和蛋白優化,對獲得的設計進行排序打分,最后挑選高分的設計進行實驗驗證。
Baker[21]認為計算機從頭設計酶的成功率低有三個原因:①模擬催化活性位點的模型并不準確;②設計的酶在催化位點上的位置與實際的有偏差;③在活性位點設計正確的情況下,也會由于周圍氨基酸的長程靜電和動力學的問題使得催化效率不高或無法進行[21]。Baker 等[33]不斷地優化勢能函數、累積設計與實驗的經驗嘗試來解決這些難題。最近,Baker 等[46]開發一種基于氫鍵網絡的計算方法設計蛋白催化中心的網絡連接,此方法不僅將過渡態的作用網絡考慮在內,也將催化位點周圍的長程氫鍵網絡考慮進來,有望成為設計整裝(fullypreorganized)酶催化劑的起點。
利用計算機設計酶的優勢在于能夠提供數量巨大的變體庫,而如何快速又準確地從庫中篩選目標樣本是一個重要的科學問題[47]。隨著X 射線晶體學[48]、核磁共振的發展[49]和冷凍電子顯微鏡(cryo-EM)進入原子分辨率時代[50],PDB數據庫[51]里已經積累了大量高分辨率蛋白三維結構信息。通過計算機學習現有的數據庫里序列與結構之間的關系,有許多算法被開發出來,從不同的角度來篩選目標蛋白。

圖2 新酶的從頭設計流程示意圖[42]Fig.2 Schematic representation of the de novo design of new enzyme [42]
SCHEMA 是一個可用于結構域重組的打分函數,在替換親本蛋白的同源序列元素時,能夠按蛋白結構的最小破壞度去劃分區塊[52]。SCHEMA 重組算法在酶的重組型改造中能夠幫助預測酶和突變庫的結構穩定性[53],提升序列多樣性、進而超越親本的性質[54]。Arnold等[55]在此基礎上,開發出非連續序列元素的重組方法。
Straub 等[56]利用學習已經解析的蛋白晶體結構里不同氨基酸的側鏈的位置和方向,發展了一種分析勢能,來預測給定蛋白序列的三維折疊構象。Lin等[57]開發的分析勢能學習的是親緣生物的同源蛋白多序列比對的共進化信息,該打分系統能夠評估一個計算獲得的結構和已知結構在折疊中的一致性。DrugScore[47]是一個學習了159個酶與配體復合體結構得到的勢能公式,它可以通過熵值貢獻度等因素來預測和評估配體在酶活性中心的構象。ABACUS2 是Liu 等[58]開發的基于骨架的蛋白結構序列篩選設計工具。TMFoldRec[59]的重點則是預測跨膜分子的折疊。除了上述這些基于學習已有結構開發的分析勢能之外,Rosetta3[60-61]、Osprey[62]、Tinker 8[63]、TransCent[64]和IPRO[41]則是將構象搜索算法和打分算法等融合起來的多功能工具包。此外,還有一些優化模型例如OptGraft[65]和OptZyme[66],前者的思想是將結合位點轉移到已知的骨架上進行酶的改造,后者是利用活性位點過渡態類似物進行酶的再設計。
在實驗驗證中,計算機設計的蛋白和酶,實驗驗證時常存在錯誤折疊和聚集。Fleishman 等[67]針對性地開發一個開源的基于結構和序列的算法能夠提高計算機設計的蛋白異源表達溶解性和穩定性。Goldenzweig等[68]對計算機設計里蛋白穩定性的研究原理的應用做了詳細的闡述。
自然界中的天然酶都是經過漫長的進化而來,其催化位點附近存在有相當復雜相互作用網絡,有不同帶電量的氨基酸巧妙布局來提高質子傳遞效率,這也正是計算機設計的酶成功率低,初始催化活性低的原因。通過學習已知的晶體結構提升篩選算法的準確性、借助人工智能提升蛋白結構預測的準確性,將會大大縮短酶的設計中耗時耗力的實驗室篩選優化過程,能夠提高未來酶設計的速度和精確度。
近些年來,科學家們已經在計算機蛋白設計里做出了很多努力,積累了很多成功的案例。通過計算機設計能提升酶的活性[69-70],改變輔酶特異性[71-73]、底物特異性[74]和立體選擇性[75],研究蛋白間的相互作用設計蛋白抗體[76-77],設計大分子的蛋白自組裝復合體[78-81],設計具有新功能的酶[82-85]。
酶的再設計是在天然酶的基礎上,利用計算機進行再改造的過程。
Ehren 等[86]基于序列和結構信息組合遞歸誘變和機器學習的方法,使Sphingomonas capsulata來源的脯氨酸內切酶(PEP)在模擬胃液條件下對胃蛋白酶的抵抗性增加了200 倍,PEP 的絕對酶活提升了20%。
Khoury 等[71]在前期的實驗中,通過突變實驗改變了木糖還原酶的輔酶特異性,在此基礎上利用一個線性規劃算法綜合范德華力、靜電力、溶劑效應來描述輔酶與輔酶結合能大小,提高酶與NADH 的結合能的同時降低其與NADPH 的結合能。最終對8000 個可能突變體進行采樣后,獲得10 個輔酶NADH 親和性提升的酶,其中有8 個酶的NADPH 依賴性降低了90%以上。
Grisewood 等[74]同樣基于結構指導突變,利用優化算法篩選具有潛力的突變體,最終特異性地提升了Acyl-ACP 硫酯酶水解中鏈(C8~C12) 脂肪酸的選擇性。Wijma 等[75]利用計算機設計催化位點,構建了一個小樣本突變庫,計算篩選后挑選了37個突變體進行實驗驗證,最終獲得了高對映體選擇性生產二元醇的檸檬烯環氧化物水解酶突變體。
在酶的熱穩定性提升上,Janssen 等在多種天然脫鹵酶的改造中運用其提出的FRESCO 策略[87],獲得了很多成功案例[88-89]。
Arnold 等將SCHEMA 應用在beta-內酰胺酶[53]、人源精氨酸酶I和II[90]、真菌來源的木質纖維素酶[91]等的連續序列元素的重組改造中,均獲得優異的突變體。
Li等[92]利用Rosetta設計軟件對芽孢桿菌來源的天冬氨酸酶YM55-1 進行基于已有骨架的再設計,獲得的再設計的酶能夠催化碳-碳雙鍵的不對稱氫胺化,生產中酶的底物耐受濃度高達300 g/L,轉化率、區域選擇性、立體選擇性均超99%。
以天然的酶骨架作為設計基礎,結合前期的實驗數據和理解總結,是計算機介入酶的設計的起點,越來越多地應用于實際酶的改造生產。
從簡單的αβ 折疊[93],到重復單元蛋白(repeat protein)[94]、自組裝的纖維蛋白[78]、跨膜蛋白[95]、白細胞介素模擬物[96],再到最新的SARS-CoV-2 病毒蛋白抑制劑[76],Baker 及其團隊在從頭設計的領域一路披荊斬棘。蛋白序列空間示意如圖3(a),Rosetta 從頭設計方法如圖3(b)。以一個200個氨基酸的天然蛋白為例,應該有20200個可能的氨基酸序列,而在自然進化過程中得到的天然蛋白只是對其中極小的一部分進行采樣,定向進化方法擴大了序列采樣空間,而蛋白的從頭設計就是基于指導蛋白折疊的物理原理探索蛋白全序列的空間??茖W家們希望利用從頭設計的方法設計出自然界沒有的蛋白,進而解決能源和醫療中人類共同面臨的挑戰。
2008 年,Baker 等基于從頭設計的方法,成功設計出接近原子級精確度的非天然酶——Kemp 消除酶[85]和Retro-Aldol 酶[84],這是計算機科學和酶工程的一個重要里程碑。

圖3 蛋白的從頭設計方法[97](a)蛋白序列空間示意圖;(b)結構預測、固定骨架設計、從頭設計方法Fig.3 Methods for de novo protein design[97](a)a schematic of the protein sequence space;(b)structure prediction,fixed-backbone design and de novo protein design methods
圍繞Kemp 消除酶,Khersonsky 等[98-100]又展開了很多的研究來提升其催化效率。選擇Glu、Trp、Ser和His-Asp、Phe、Ser 兩種模式的催化位點,結合多種的骨架設計多輪突變,最終獲得的最優突變體的kcat/Km值大于105L/(mol·s),較原始設計酶提升了5個數量級。Blomberg 等[101]利用Asp、Trp、Ser 三個氨基酸為原始活性位點,將Kemp 消除酶HG3 引入一個已知結構的耐高溫的木聚糖酶(PDB:1GOR)骨架,通過骨架修飾和多次突變,獲得的HG3.17 突變體使得底物(5-nitrobenzisoxazole)的質子傳遞速度提升了6×108倍,獲得的晶體結構也與設計的結構幾乎一致。
Diels-Alder 反應是一個一步完成的環加成有機反應,Siegel 等以Gln、Tyr 為活性位點,在二異丙基氟代磷酸酶(diisopropyl-fluorophosphatase)的骨架上設計出了具有高選擇性和底物特異性的Diels Alderase[102],隨后又用Fodit 進行骨架重構,酶活提升了18倍[103]。?widerek 等[42]對利用計算機設計的具有不同新功能的酶的發展、針對同一個反應不同的研究人員采用的不同算法和活性位點處理方式做了詳細的介紹。
Lapidoth 等[104]將TIM-barrel 骨架按不同的方式進行拼接獲得不同的骨架,再將活性位點引入,通過序列設計、應用可溶性提升算法,分別設計了43個木聚糖酶(glycoside hydrolase 10 xylanases,GH10)和34 個類磷酸三酯內脂酶(phosphotriesterase-like lactonases,PLL),最終獲得21個GH10 和7個PLL設計具有催化活性,其中最優的四個設計的酶活性與其家族的天然酶相當。
金屬離子在天然酶中扮演著重要的作用,自然界中有幾乎半數的酶是結合了金屬的蛋白,所以金屬酶的從頭設計也是從頭設計研究的熱點[105-106]。金屬蛋白的主要特征就是作為一個金屬配體復合體固定在宿主的生物分子上,固定的方式分共價鍵結合和非共價鍵結合,其中共價鍵結合往往是金屬離子通過一個半胱氨酸殘基成鍵[107]。
很多現代蛋白從原始序列印記追溯分析其起源似乎是簡單的多肽。為了探究金屬酶的進化過程,Studer 等[108]從一個具有酯鍵水解功能的多肽MID1出發,通過計算機設計,將MID1改造成能自組裝成同源二聚體結構且擁有兩個鋅離子結合位點的多肽,又利用Gly-Ser-Gly 將二聚體亞基相鄰的N和C 端連接起來,按照計算結果替換離連接肽較遠端的鋅離子結合位點,獲得的變體MID1sc不僅能夠結合一個二價鋅離子,且擁有與初始多肽相似的催化乙酸對硝基苯酯水解的活性。
Bos 等[109]以環戊二烯與氮雜查爾酮類為底物的Diels–Alder反應為基礎,在乳球菌多藥耐藥調節劑LmrR的二聚體界面上引入活性位點,使用半胱氨酸偶聯策略,將銅(Ⅱ)菲咯啉復合物共價錨定在蛋白質的疏水性口袋中。合成的全新人工金屬酶表現出高達97%的對映體選擇性和非對映體選擇性。
以人工金屬蛋白為例,完全從頭設計和基于已知蛋白的再設計的邊界并不是特別地清晰[110]。此外,盡管已經在計算機設計酶上有了很多成功案例,但是酶的設計因其復雜性依然是非常具有挑戰的工作。
2020年12月,AlphaFold2在第14屆國際蛋白質結構預測競賽(CASP14)上向世界展示了人工智能在蛋白結構預測上可與核磁共振或X 射線晶體學、冷凍電子顯微鏡等實驗技術相媲美的高正確率。機器學習(machine learning)是一種實現人工智能的方法,而深度學習(deep learning)是機器學習的子領域。與傳統的以生物物理知識為基礎的計算機設計方法不同,以深度學習[111]為例,在訓練蛋白序列和結構時,不需要對蛋白的結構功能有深入的了解,便能尋找最好的折疊方式,預測蛋白的結構和功能,甚至是構建自然界未有的蛋白。
基于機器學習的酶設計方法流程如圖4 所示[112],一般分為三個步驟。首先,數據準備與拆分,從實驗中獲得的大量數據被合理地統計于表中,之后將數據分為訓練集(training set)與測試集(test set)兩部分;其次,預測方法在訓練集中進行模型訓練;最后,利用測試集數據對模型進行測試與驗證。
機器學習技術目前已經被應用于輔助預測酶結構設計[113],通過從蛋白酶數據中尋找特征模式(pattern model),以提高酶的穩定性、可溶性和活性,以及預測酶底物特異性[114]。

圖4 構建機器學習預測器的工作流程和相關挑戰[112]Fig.4 Schematic workflow of constructing an machine learning predictor and associated challenges [112]
UniRep(unified representation)是Alley 等[115]開發的一種深度學習的方法。計算機通過學習無標簽的氨基酸序列,將提取蛋白的特征值變成一個富含有結構信息、進化信息和生物物理信息的統計表示(statistical representation)。Alley 等認為UniRep在預測自然界中或從頭設計的蛋白的結構穩定性和定量突變體功能上接近最高水準。
Tallorin 等[116]基于機器學習方法開發了一種鑒定酶的特異性短肽(8~20 個氨基酸殘基)底物的方法——POOL(peptide optimization with optimal learning)。POOL 利用迭代機器學習方法,在輸入實驗數據后,數學算法將會選擇具有潛力的短肽底物作為接下來實驗的對象,并且新的實驗數據也會用于未來的算法優化過程。研究人員將該方法應用于鑒定兩類4'-磷酸泛酰巰基乙胺基轉移酶(4'-phosphopantetheinyl transferase, PPTase)的 短 肽 底物,這些短肽底物符合下列標準:可被PPTase 于保守的絲氨酸位點共價修飾來自CoA 的磷酸泛酰巰基乙胺;具備正交性,給定的短肽只能是某一類PPTase 的底物而非另一類的底物。通過POOL 方法,研究人員鑒定出了Sfp 類酶(來源于Bacillus subtilis的表面活性素磷酸泛酰巰基乙胺基轉移酶)及AcpS 類酶(來源于Streptomyces coelicolor的全?;d體蛋白合成酶)的短肽底物,并在纖維素膜陣列上利用形成圖樣(“A”或“S”)的方式證實了兩類酶的短肽底物的良好正交性。
基于蛋白質序列及功能進行訓練的機器學習方法可以在無物理或生物學等先驗知識的情況下,推斷未知蛋白質序列的生物學特性,也能夠預測和發現具有功能的蛋白質。Yang 等[117]提出使用蛋白質嵌入序列(embedding sequence)作為機器學習的輸入數據,使用蛋白質嵌入數據訓練的機器學習模型,輸入數據尺寸與直接使用序列相比減少幾個數量級,但模型的預測能力和準確性可與現有模型相媲美。另外,他們還利用機器學習輔助定向進化來測試更大序列空間的突變,以降低實驗成本[118]。
Yang 等[119]利用深度神經網絡用序列比對的氨基酸殘基共進化信息來推斷距離約束,加上一個Rosetta-constrained 能量最少化程序快速生成模型從而預測蛋白結構,新的trROSETTA 模型能夠實現從頭設計蛋白的結構預測和突變體的影響捕捉。雖然該結構預測模型還沒有涉及功能設計,但是結合傳統的生物物理模型,將會有助于將新功能引入從頭設計的蛋白。
機器學習流程中也存在著相應的困難如圖4,如數據的缺失與錯誤,以及不同實驗來源造成的數據不一致是模型訓練中常見的問題;模型訓練中的過度擬合(over fitting)與擬合不足(under fitting)也是基于機器學習的酶設計方法需要面對的挑戰之一。目前并沒有普適性的機器學習模型,模型的選擇需要根據實際的設計目的而定,或者嘗試多種算法挑選最優模型。
隨著高通量測序與篩選等實驗技術的發展與革新,相當龐大的高質量酶分子相關數據不斷地積累。隨著如深度學習等更復雜的機器學習方法的發展,基于機器學習的預測方法將會更加具有可靠性??煽康臋C器學習方法為人工智能酶設計提供了起點,也為研究酶的結構-功能分子機理提供更多的機會,相信在不久的將來,將能夠實現準確高效的人工智能的酶設計。
酶作為生物催化劑已經被廣泛地應用在包括能源、醫藥、食品在內的許多領域。21 世紀以來,生物信息學和計算機科學的發展,為酶工程提供了全新的改造方法,擴大了酶的改造空間,優質酶的開發所需的時間和經濟成本隨著計算設計精度的提升而降低??梢灶A期未來,計算機硬件的提升和算法的優化,結合生物物理知識將會帶來更精妙高效的酶活性位點的設計方法,解決人工設計的酶初始催化效率不高的瓶頸問題。將來甚至可以根據需求,快速設計精巧的新酶分子,應對人類面臨的醫療、能源等領域的全新挑戰。