


摘 "要:在生命科學領域,蛋白質工程是創造具有改進或新功能蛋白質問題的關鍵。該文總結近幾年深度學習輔助蛋白質工程研究的發展,主要介紹相關的語言模型和生成模型,還從序列和結構的角度介紹相關的研究及目前存在的問題。最后對深度學習輔助蛋白質工程研究的未來發展進行展望。
關鍵詞:深度學習;蛋白質工程;語言模型;生成模型;蛋白質序列;蛋白質結構
中圖分類號:Q816 " " " "文獻標志碼:A " " " " "文章編號:2095-2945(2023)20-0021-05
Abstract: In the field of life science, protein engineering is the key to creating proteins with improved or new functions. This paper summarizes the development of deep learning-assisted protein engineering in recent years, mainly introduces the related language models and generation models, and traces related research and existing problems from the in terms of sequence and structure. Finally, the future development of deep learning-assisted protein engineering research is prospected.
Keywords: deep learning; protein engineering; language model; generate mode; protein sequence; protein structure
20世紀90年代早期,Chen等[1]開創了定向進化(Directed evolution)的方法,用于設計新的和更理想的酶。隨著對高通量(High-throughput screening)藥物篩選的重視程度不斷提高,用于高通量藥物篩選操作設備和檢測儀器都有了長足發展[2-3],但由于序列空間巨大,想要從成千上萬的蛋白質中篩選出功能性突變,仍然需要漫長的篩選周期,甚至需要耗費大量人力,并且人員之間的操作誤差無法避免,無法實現標準化。高通量測序技術的不斷進步為自然序列多樣性提供了前所未有的數據。如何避開漫長的研發周期且更有效地探索出蛋白質序列進化的秘密成為許多研究者感興趣的研究方向。
高性能計算設備的進步,使得深度學習模型在大量數據中建模成為可能。近年來,自然語言處理與計算機視覺領域依托海量的數據發展出各種各樣的深度學習模型[4-6],這些技術的發展極大地推進了人工智能的進程。同樣,交叉學科研究人員已經開始利用深度學習方法來建模大型生物數據集,以促進生物學的發展。深度學習是機器學習中一個重要的研究分支,可以使用不同的架構來實現。深度學習的每一層都能夠逐步提取特征并將其傳遞給下一層,通過對每一層輸入進行加工,以提取數據中更高階的特征,其中使用反向傳播算法改變內部參數來發現大數據集中的復雜結構。以輸入數據是否標記可以將深度學習分為監督學習和無監督學習。深度學習可以將復雜、數量龐大的非結構化數據通過神經網絡提煉成抽象的、高層次的表示。其優點在于可以復用特征,并且隨著層數的加深,可以獲取更加抽象的特征。因此深度學習具有更高的能力和靈活性。
1 相關模型
蛋白質工程旨在原有蛋白質的基礎上創造出具有改進或新功能的蛋白質變體。深度學習的模型為人類理解和改造蛋白質提供了有利的工具。目前數據庫中大量的蛋白質序列為訓練一個蛋白質語言模型提供了數據的支持。實驗表明,語言模型可以應用于一系列的蛋白質理解和設計任務,并且在這方面的研究也取得了很大的成績。蛋白質序列空間中的優化是極具挑戰性的,因為搜索空間很大、離散且非結構化。蛋白質工程的生成性建模試圖對數據的分布進行建模,關鍵是理解和控制該模型學習到的生物物理特性,從而生成與模型訓練相似屬性的新樣本。
1.1 "語言模型
通過幾十年的發展,自然語言處理(NLP)技術已經發展到可以對大量無標簽文本進行自主學習,能夠很好地捕捉到文本信息,并且在知識問答、機器翻譯、情感分析、語音識別等領域得到了充分地應用。而將與NLP相關的模型和技術遷移到具有大量數據的蛋白質序列上來研究其功能也已經被證明具有可行性。如圖1所示。近年來,為更好地理解和解釋蛋白質序列所表現的功能信息,預訓練語言模型越來越多地應用于蛋白質工程。
大型語言模型能夠學習到序列攜帶的各種不同的信息,并且魯棒性和泛化性較強,見表1,不同任務的蛋白質語言模型訓練時往往需要大量的數據作為支持。ESM-1b是一個大容量Transformer語言模型[7],從2.5億個蛋白質序列中的860億個氨基酸學習生物內在特性,其蛋白質的二級結構以及空間結構可以在表示中識別,并且空間中的度量結構符合從物理化學到遠程同源的尺度上的組織原則。蛋白質生成語言模型ProGen[8]利用大約2.8億個的基于分類和關鍵字標簽的蛋白質序列進行無監督序列生成,提供了進化多樣性序列生成。Elnaggar等[9]對來自2億個蛋白質序列的800億個氨基酸訓練了2個自回歸語言模型和2個自動編碼器模型,并且對21億個蛋白質序列的3 930億個氨基酸訓練了一個語言模型(ProtTrans),表明無監督的語言模型可以學習到蛋白質生物物理學的基本特征,并且驗證了語言模型升級到由更多數據支持的更大模型的優勢。UniRep模型[10]通過對未標記的氨基酸序列進行建模,將蛋白質的基本特征提取到語義豐富、結構、進化和生物物理基礎良好的統計表示中,能夠很好地預測天然和從頭設計的蛋白質穩定性。遷移學習利用大量未標記的蛋白質序列進行預訓練,提取到一般蛋白質具有的特征和表示,再利用現存的少量標記數據微調模型,使模型能夠適應特定問題的下游任務。TAPE模型[11]評估了預訓練語言模型在結構預測、遠程同源性檢測以及蛋白質工程上5個任務的嵌入表現,發現并沒有一個模型適合所有的任務。在大而多樣的蛋白質序列數據庫上的預訓練語言模型可以預測蛋白質功能的實驗測量,而無需進一步地監督,可以直接應用于一系列的蛋白質理解和設計任務。雖然大量的蛋白質語言模型證明可以捕獲一般蛋白質序列上下文,但蛋白質數量龐大不代表齊全,所以對于許多特定的、正在設計的蛋白質仍然有一定的挑戰。
1.2 "生成模型
利用深度生成模型從已知的功能蛋白序列中學到進化特性,可以在空間中生成新的蛋白序列,從而獲得尚未開發的功能序列多樣性,并且可以最大限度地減少對大量非功能蛋白序列變體的測試需求。
深度生成模型能夠學習樣本數據的聯合概率分布,捕獲數據分布的底層信息和處理存在隱變量的樣本,同時生成具有訓練數據特性的新樣本。表2列舉了生成模型的一些具體任務。Anand等[12]提出一種利用深度生成模型進行三維結構生成和恢復的新方法,使用生成對抗網絡(GANs)來生成新的蛋白質結構,并且使用訓練過的模型還可以用以預測損壞蛋白質結構的缺失部分。Greener等[13]使用條件變分自編碼器(CVAE)來生成以所需特性為條件的蛋白質序列,將潛在的銅和鈣結合位點添加到非金屬結合蛋白中。Shin等[14]開發了一種自回歸生成模型,在不需要序列比對的情況下,利用天然序列中攜帶的信息了解特定位置氨基酸的限制,通過自回歸似然來建模和設計抗體的互補性決定區。Repecka等[15]設計了一種基于自注意力的生成性對抗網絡變體ProteinGAN,直接從復雜的多維氨基酸序列空間學習蛋白質序列的進化關系和自然蛋白質序列多樣性,并生成具有天然物理性質的高度多樣的新序列變體。Xian等[16]針對缺乏標記的訓練數據,提出了一個條件生成模型,該模型結合了VAE和GAN的優勢,通過無條件的判別器學習了未標記圖像的邊緣特征分布。還通過將其反轉回到像素空間對其進行可視化,以證明學到的特征是可以解釋。
這些利用潛在變量管理的生成過程可以直接用于將生成偏向于序列空間的特定區域,或者通過從目標序列的潛在表示附近采樣,再或者通過促進基于優化的策略,在潛在空間中搜索具有理想屬性的新序列。
2 "蛋白質建模
利用深度學習的網絡結構從蛋白質中有效地學習到蛋白質-功能的映射關系,就必須構建合理的深度學習模型。通常情況下,想要從序列中直接獲得序列-功能的映射關系時,往往需要整個家族或利用多序列比對技術搜索同源序列。這些序列往往攜帶了關于蛋白質家族性質的信息,從這些序列數據中進行表征學習或特征學習可以更好地為下游任務的預測或分類提供表示。設計具有特定功能是蛋白質工程最終的目的,而結構作為決定蛋白質獨特功能的重要信息往往是不能被忽略的。但目前由于三維結構信息的解析難度之大,使得利用深度學習更多的研究導向了對蛋白質三維折疊結構的預測,并且大多蛋白質結構預測的準確性取決于數據庫中可用的同源蛋白質序列的數量。
2.1 "以序列為基礎建模
核酸測序技術的進步產生了大量的蛋白質序列數據,蛋白質數據庫的巨大擴展為新的蛋白質設計方法提供了機會,并且深度學習越來越多地用于蛋白質工程,這些方法尋求從自然序列變異中直接學習序列-功能關系。蛋白質的一個序列即一個信息載體,將所有蛋白質序列看成一個知識庫進行全局學習,就是學習這些信息的共同特征,將這些特征映射到適合的空間,通過這些嵌入可以推斷出一些看不見的序列。
自然序列變異為功能蛋白質中氨基酸序列的結構和生物物理約束提供了豐富的信息來源。受自然語言處理的啟發,蛋白質序列被看作一種文本信息,目前大部分的蛋白質語言模型均是以序列為研究對象。由于目前大量的蛋白質仍然未能解析出三維結構信息,只有少部分蛋白質可以直接通過結構信息進行設計新的蛋白質。Biswas等[17]通過從自然蛋白質序列景觀中提取信息,學習自然的潛在表示,使用最少24個功能分析的突變序列來構建精確的虛擬適應度景觀。Riesselman等[18]借鑒了自然語言處理和語音合成的最新進展,開發了一種利用殘差因果擴張卷積神經網絡架構的生成深度神經網絡驅動的生物序列自回歸模型,該模型可以捕獲到功能約束,并且不依賴于顯式的對齊結構。Ding等[19]利用家族序列在潛在空間中的分布,學習蛋白質適應度景觀,預測了蛋白質突變穩定性,并量化穩定性在蛋白質進化過程中的重要性。表明可在潛在空間序列的分布附近找到具有相似適應性景觀的點,并且通過VAE模型的解碼器得到新變體序列。Hawkins-Hooker等[20]針對未對齊序列和對齊序列分別開發了獨立的VAE模型,表明在多序列比對數據上訓練的版本更可信地再現了家族成員在進化過程中獲得并維持的結構和功能約束的統計特征。Russ等[21]描述了一個過程來學習純粹從進化序列數據中指定蛋白質的約束條件,設計和構建合成基因庫,并使用定量互補分析測試其在體內的活性。基于序列的統計模型足以指定蛋白質,并提供對巨大空間的功能序列的訪問。
很多深度學習的模型已被證明可以學習到蛋白質序列中包含的關于進化、功能、生物化學特征以及生物約束等特征。雖然有監督的方法使得蛋白質的研究取得了非常大的進步,但為這些序列獲得有意義的標簽和注釋需要大量的實驗資源投資,以及需要學習大量相關的專業知識。在蛋白質序列數據上訓練的模型已被證明可以學習有助于各種下游任務的有生物學意義的表示,但其在新蛋白質設計中直接使用的潛力在很大程度上仍未探索。
2.2 "以結構為基礎建模
在自然進化和選擇過程中,蛋白質分子需要在結構的“穩定性”和“可變性”之間達成某種平衡,這種競爭和平衡在蛋白質結構和功能層面上對應著相關的臨界特性,從而展現出蛋白質分子的共有結構特征。同一個家族的蛋白質結構是相似的,同一個蛋白質空間相鄰的氨基酸是互相影響、共同進化的。在氨基酸的相互作用下,蛋白質會自發形成三維結構進而發揮其特有的生物功能。在三維結構中,氨基酸的相互作用維系了蛋白質的三維結構。生物醫學領域的眾多挑戰,包括開發治療疾病的創新療法,依賴于對蛋白質結構和功能的理解。在結構生物信息學中,人們致力于預測蛋白質的功能和結構特性,這些結構特性直接決定了一個獨特的功能。將蛋白質的三維結構作為輸入,深度學習通過在大數據支持下擴大感受野,為高階統計和潛力提供了最簡單、也是最通用的近似和參數化方法。常見的基于結構的蛋白質數據庫包括PDB、SCOP、Pfam、CATH等。
由于結構與功能的要求,蛋白質分子在進化的過程中,蛋白質鏈上2個不同位點的氨基酸類型變化往往存在著關聯,這種關聯是由于氨基酸互補性突變導致的,通常稱為蛋白質的共進化特性[22]。同一個家族的蛋白質結構是相似的,同一個蛋白質空間相鄰的氨基酸是互相影響、共同進化的。關聯較強的殘基對在蛋白質的折疊和執行生物學功能起著非常關鍵的作用,有助于蛋白質分子維持整體結構穩定性并實現特定的生物學功能[23]。因此對蛋白質序共進化位點的預測研究對提高蛋白質結構預測精度,揭示蛋白質分子的功能和進化機制,從而利用生成模型生成更優特性的蛋白質突變體至關重要。2013年De等[24]認為共同進化是進化的重要組成部分,傾向于在蛋白中引入調節蛋白之間關系的協調性改變,有助于維持生態和分子網絡的結構。以協同進化原則為基礎的計算方法,可以對蛋白結構、蛋白功能和蛋白質相互作用進行分析和預測。2015年Braun等結合進化信息和迭代采樣策略進行準確的蛋白質結構預測。蛋白質殘基接觸預測能夠為蛋白質結構預測提供非常有價值的信息。2018年Adhikari等使用兩級深度卷積神經網絡改進蛋白質接觸預測,可以從蛋白質的整個輸入信息中一次性預測出蛋白質中的所有接觸。CASP(Critical Assessment of Protein Structure Prediction)是蛋白質結構預測科學共同體舉辦的競賽,每次競賽優勝者的水平基本代表了當前世界結構預測的最高水準。2019年Li等在 CASP13 中使用深度殘差神經網絡集成多個原始協同進化特征用于接觸圖預測,并通過詳細的數據分析表明端到端訓練管道的強度是由于敏感的MSA構造和協同進化特征集成的先進策略。2020年AlphaFold在CASP14上脫穎而出,其在近2/3的預測結果達到中低分辨率的實驗精度,幾乎解決了單域蛋白質折疊預測問題。之后,David Baker領導的學術團隊開發了RoseTTAFold,其性能幾乎與AlphaFold相當。2021年Li等通過將互補協同進化特征與CASP14中的深度殘差網絡耦合來預測蛋白質殘基間接觸和距離,認為可以提供可靠的距離潛力從頭算蛋白質折疊。
大量的文獻表明,表示空間中的度量結構符合從物理化學到遠程同源的尺度上的組織原則,并且二級和三級蛋白質結構可以在表示中識別。這些表示所捕獲的結構性質在折疊中得到了廣泛的應用。尤其在單域蛋白質折疊,AlphaFold預測的正確性超過了90%,促進了新功能蛋白質的設計。但是對于多結構域蛋白質、四元復合物和蛋白質配體復合物,這些依舊超出了當前系統的范圍。這可能與結構解析的數量有關。因此,研究小樣本甚至零樣本預測模型仍然是一種可行的方案。
3 "結論與展望
無論是蛋白質語言模型更廣泛的兼容性,還是生成模型對目標數據的直接建模,都加快了探索新蛋白質的研究進度。利用大數據和深度學習的優勢,降低領域知識的依賴,不局限于非必要的約束,探索與真實蛋白相似性質的、潛在的、新的蛋白序列。大而多樣的蛋白質序列數據包含了豐富的信息,但利用深度學習的方法更準確地提取到序列中的結構信息是有很大空間。目前,無論是從序列數據還是結構數據入手,許多模型的成功都離不開大量同源序列的支持,少樣本的數據仍然是未來發展的重點。
參考文獻:
[1] CHEN K, ARNOLD F. Tuning the activity of an enzyme for unusual environments: sequential random mutagenesis of subtil-isin E for catalysis in dimethylformamide[J]. PNAS,1993(90):5618-5622.
[2] BLEICHER K H, B?魻HM H J, MULLER K, et al. Hit and lead generation: beyond high-throughput screening[J].Nature re-views Drug discovery, 2003, 2(5): 369-378.
[3] MACARRON R, BANKS M N, BOJANIC D, et al. Impact of high-throughput screening in biomedical research[J].Nature reviews Drug discovery, 2011, 10(3):188-195.
[4] WU Z, JOHNSTON K E, ARNOLD F H, et al. Protein sequence design with deep generative models[J].Current opinion in chemical biology, 2021(65): 18-27.
[5] HIRANUMA N, PARK H, BAEK M, et al. Improved protein structure refinement guided by deep learning based accuracy estimation[J].Nature communications, 2021,12(1):1340.
[6] DING W, NAKAI K, GONG H. Protein design via deep learning[J].Briefings in bioinformatics, 2022, 23(3): bbac102.
[7] RIVES A, GOYAL S, MEIER J, et al. Biological structure and function emerge from scaling unsupervised learning to 250 million protein sequences[J].bioRxiv, 2019(10): 622803.
[8] MADANI A, MCCANN B, NAIK N, et al. Progen: Language modeling for protein generation[J].arXiv preprint arXiv,2004(3497): 2020.
[9] ELNAGGAR A, HEINZINGER M, DALLAGO C, et al. ProtTrans: Towards cracking the language of Life's code through self-supervised deep learning and high performance computing[J].arXiv preprint arXiv,2007(06225).
[10] ALLEY E C, KHIMULYA G, BISWAS S, et al. Unified rational protein engineering with sequence-based deep representation learning[J].Nature methods, 2019, 16(12): 1315-1322.
[11] RAO R, BHATTACHARYA N, THOMAS N, et al. Evaluating protein transfer learning with TAPE[J].Advances in neural information processing systems, 2019:32.
[12] ANAND N, HUANG P. Generative modeling for protein structures[J].Advances in neural information processing systems, 2018:31.
[13] GREENER J G, MOFFAT L, JONES D T. Design of metalloproteins and novel protein folds using variational autoencoders[J].Scientific reports, 2018, 8(1): 16189.
[14] SHIN J E, RIESSELMAN A J, KOLLASCH A W, et al. Protein design and variant prediction using autoregressive generative models[J].Nature communications, 2021, 12(1): 2403.
[15] REPECKA, DONATAS. \"Expanding functional protein sequence spaces using generative adversarial networks.\" [J]. Nature Machine Intelligence, 2021 (4): 324-333.
[16] XIAN Y, SHARMA S, SCHIELE B, et al. f-vaegan-d2: A feature generating framework for any-shot learning[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, 2019: 10275-10284.
[17] BISWAS S, KHIMULYA G, ALLEY E C, et al. Low-N protein engineering with data-efficient deep learning[J].Nature methods, 2021, 18(4): 389-396.
[18] RIESSELMAN A, SHIN J E, KOLLASCH A, et al. Accelerating protein design using autoregressive generative models[J].BioRxiv, 2019: 757252.
[19] DING X, ZOU Z, BROOKS III C L. Deciphering protein evolution and fitness landscapes with latent space models[J].Nature communications, 2019, 10(1): 5644.
[20] HAWKINS-HOOKER A, DEPARDIEU F, BAUR S, et al. Generating functional protein variants with variational autoencod-ers[J].PLoS computational biology, 2021, 17(2): e1008736.
[21] RUSS W P, FIGLIUZZI M, STOCKER C, et al. An evolution-based model for designing chorismate mutase enzymes[J].Science, 2020, 369(6502): 440-445.
[22] 史瑾璇.基于共進化分析的蛋白質網絡統計特征與臨界行為研究[D].揚州:揚州大學,2020.
[23] LI Y, ZHANG C, BELL E W, et al. Deducing high-accuracy protein contact-maps from a triplet of coevolutionary matrices through deep residual convolutional networks[J].PLoS computational biology, 2021, 17(3): e1008865.
[24] DE JUAN D, PAZOS F, VALENCIA A. Emerging methods in protein co-evolution[J].Nature Reviews Genetics, 2013, 14(4): 249-261.