近日,谷歌訓練出一種名為ProtCNN的深度學習模型,其可以用于準確預測蛋白質序列的功能,使更多未知蛋白質序列得到注釋。據了解,這些注釋是基于主流蛋白質家族數據庫Pfam構建的嚴格基準所進行的評估,Pfam數據庫記錄了一系列蛋白質家族及其功能注釋。
該研究的成功,令Pfam數據庫中蛋白質序列的覆蓋范圍擴大了9.5%,超越了過去十年里科學家在此方面的成果,并預測了360種Pfam數據庫未注釋過的人類蛋白質的功能。
相關論文以《使用深度學習來注釋蛋白質宇宙》為題發表在Nature Biotechnology上。

相關論文
伴隨DNA測序成本的降低和宏基因組測序項目的興起,具有蛋白質序列功能注釋作用的高效工具對生物技術的發展愈加重要。
此前,常用的蛋白質序列功能的注釋方法是,在大型標記序列集合上進行成對比對的BLASTp查詢方法和基于signature構建的profile隱馬爾可夫模型。
這些方法雖然是有用的,效率卻相對較低。過去5年里,使用這些方法僅讓Pfam數據庫中蛋白質序列數量增長了不到5%。
為此,谷歌的研究人員對深度學習模型是否可以補充現有方法進行探究,并提供了能夠更廣泛覆蓋蛋白質宇宙的蛋白質序列功能預測模型ProtCNN。

ProtCNN模型性能的表現
在蛋白質序列的比對過程中,測試數據和訓練數據之間會存在相似性,這意味著模型性能必須根據每個保留的測試序列與訓練序列之間的相似性作分層。
通過分析蛋白質序列中的隨機和聚類分裂,這里的序列是使用基于相似性的聚類成員而分配給測試或訓練分裂的,研究人員發現,在注釋保留的測試序列時,ProtCNN模型比當前方法在隨機和聚類分裂中產生的錯誤更少。
為確認模型捕捉到了未對齊蛋白質序列的結構,研究人員使用跨蛋白質家族學習的聯合表示法,一次性學習注釋模型未訓練蛋白質家族的序列。
此外,要為更多蛋白質序列集帶來注釋,還須進行遠程同源性檢測。遠程同源性檢測是指準確分類訓練數據集中并不相似的蛋白質序列。
而將ProtCNN模型與現有方法相結合,則大大提高了遠程同源性檢測的準確性,這對擴大蛋白質宇宙的覆蓋范圍至關重要。

ProtCNN模型的架構
研究結果證實,今后,類似ProtCNN的深度學習模型將是蛋白質序列功能注釋研究中的核心支撐技術。
作為一個以蛋白質序列為研究對象的計算生物學者,來自美國德克薩斯大學西南醫學中心的助理教授叢倩評價該研究道,“我很高興看到優秀的生物科學和計算機科學工作者在這個領域做出的嘗試和貢獻。”
她表示,該研究主要探討了通過序列預測蛋白質功能,相比于當下正在創造歷史的三維結構預測,這一問題對人工智能來說更有挑戰性,并總結了具體原因。
對于蛋白質功能預測困難的原因,叢倩進行了如下總結。
首先,蛋白質功能的可靠數據量并不大,且功能不像結構那樣容易被量化。其次,一般來說相似序列的蛋白質在三維結構上也區別不大,但其功能卻很有可能大相徑庭。最后也是最重要的一點,即嚴格來講,在AlphaFold問世之前,已經沒有嚴格意義上的全新三維結構了。所謂的“新”蛋白質結構都是已知結構的簡單組合,如果人工智能算法掌握了所有已知結構,其將有能力推導出任何一個“新”蛋白質序列的結構。
另外,叢倩補充說,自然界中的蛋白質應該還有很多未發現的新功能,而人工智能算法很難在現有技術框架下預知這類從未見過的功能。

叢倩
不過在谷歌的這項新研究中,其并非在解決預測新功能的問題,而是想要更廣泛、更精確地發現同樣具有某種已知功能的其他蛋白質,這有助于人類快速了解一個新物種中絕大多數蛋白質的作用,如跟人類疾病相關或是具有潛在工業價值的蛋白質。
叢倩稱,她對蛋白質領域的這些研究相當感興趣,但對于人工智能是否在這個領域比傳統方法更可靠的問題,其仍存有疑慮。
她表示,“我曾經有幾個夢想。第一,通過序列準確的預測蛋白質的結構;第二,通過序列準確預測蛋白質之間的相互作用;第三,通過序列準確預測蛋白質的功能。”得益于人工智能的飛速發展,其夢想或是已經實現,或是在不久的將來即將實現。
目前,叢倩所在實驗室的主要目標正是通過解決第二個問題來輔助解決第三個問題。她說,事實上,第三個問題才是真能帶來全新科學發現,也是像她這樣的科學工作者最感興趣的問題,其將會在其項目上嘗試這方面的研究。
叢倩表示,希望未來有更多科學家把注意力放到類似更有挑戰性的問題上,帶領人工智能去探索更難定義、更難量化的領域是我們這代人的歷史使命。(綜合整理報道)(編輯/多洛米)