中國科學院上海藥物研究所研究員鄭明月團隊設計了一種新的化學反應描述語言ReactSeq。該語言可以編碼化學反應中的分子編輯操作,使自然語言處理模型(NLP)在逆合成預測、反應表征檢索、交互問答等方面表現更為出色。近日,相關研究發表于《自然—機器智能》。
近年來,在化學與藥物研發領域,處理化學分子與反應的化學語言模型(CLMs)逐漸興起。由于化學分子缺乏固有的順序表示,CLM利用化學家定義的分子線性編碼學習和生成分子結構,目前最常用的分子線性編碼是簡化分子輸入線輸入系統(SMILES)。
利用ReactSeq,研究人員在不改變基本變換器架構的情況下便能在逆合成預測中實現最先進的性能。同時,ReactSeq具有表示MEO的顯式令牌,可以對人類指令進行編碼和上下文提示。測試結果表明,人類專家的提示可以顯著提高模型的性能,甚至指導語言模型探索新的反應。這些MEO令牌也有利于提取反應表示,還可以產生更加精準且具有內在化學意義的反應表示。
研究團隊表示,這項研究為垂直領域的大語言模型賦予了更多新能力,顯著提升了NLP解決復雜化學問題的能力,為化學領域的人工智能基礎模型開發提供了新思路。