999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

有機合成中化學反應的機器學習

2022-01-09 05:52:26張良順
功能高分子學報 2021年6期
關鍵詞:模型

張良順

(華東理工大學材料科學與工程學院,上海市先進聚合物材料重點實驗室,上海 200237)

化學反應預測及合成路線設計是有機材料制備的關鍵步驟之一,然而,高精確度、高效率地預測有機化合物及其逆合成分析仍是極具挑戰性的問題,如功能基團的保護、化合物組成片段的遴選等。當前,化學反應預測與合成路線設計的方法可以歸納為3 類:基于規則的專家系統、量子力學模擬以及基于機器學習的系統。基于規則的專家系統可以快速、準確地預測相關性質[1],但該系統也存在一些局限,如需要熟悉化學知識的專家、數據難以成倍擴增、難以預報多步新的化學反應等。基于第一性原理的量子力學模擬可以得到精確的預測結果[2],但是該方法的結果與模型、計算參數等緊密相關;此外,該方法計算量巨大,不易于化學反應和逆合成的高通量預測。作為一種新興的方法,機器學習可以快速地、并發地預測有機小分子的物理化學性質[3-5],包括化學反應、自由能、能壘等。但也存在著諸多亟待解決的問題,例如數據集不夠大和完備、數據偏倚、模型仍缺乏物理基礎、獲得的結果還不能深入地被闡釋等。

針對有機小分子的化學合成,本文綜述了機器學習方法在這一領域的進展,包括化學反應數據的收集、化學反應的預測與合成路線的設計等。對于高度復雜的樹脂分子,本文論述了基于機器學習合成路線亟待解決的問題。

1 化學反應數據的收集

目前,化學反應數據主要從科學文獻、網頁和專利中收集[6]。其中,化學專利的文本組織有一定的規律,即首先以合成化合物作為章節的題目,然后是合成步驟的描述,最后是化合物的表征;當化合物合成包括中間物時,每步合成的文本也是單獨章節或段落。這些特征有利于化學反應數據條目的文本挖掘。下面以美國專利局的公開專利(即標識為C07 和C08 的國際專利)為例,簡要說明化學反應數據條目的文本挖掘流程。當含有標識C07 和C08 專利文本讀入以后,判定是否含有多個步驟來區分化學實驗文本和非化學實驗文本,并進行語義分析(如圖1 所示)。具體步驟如下:(1)由專利文本XML 的標識符“heading”或“p”,判定段落的標題。(2)使用樸素貝葉斯分類器判斷段落是否為化學實驗段落。(3)采用 ChemicalTagger 工具包對標題和段落進行標記,把文本歸為化學體和普通短語或詞兩類。(4)對上面兩類分別進行語法分析。化學體的語法分析包括三個方面:結合OSCAR 和OPSIN 工具包,從化學名變換到化學結構,并用SIMILES 和InChI 表達式表示;當化學體為體積、物質的量之比、質量、濃度、pH、產率和物質狀態等時,標識為化學性質;分析化學體的屬性,包括反應物、產物、溶劑或者催化劑等。普通短語或詞的語法分析主要用于識別合成步驟(例如dry,precipitate 和purify 等單詞)。(5)化學反應映射。將化學結構的SIMILES 表達式加載到Indigo 工具包,得到化學反應的原子-原子映射。檢查產物的原子是否全部來自反應物,以此檢驗化學反應是否成立。通過化學計量學計算,進一步完善化學反應。(6)化學反應輸出。采用圖形化和化學標記語言(CML 格式)輸出化學反應。其中,CML 格式包含較完整的信息,即反應物和產物及其SIMILES 表達式、性質和狀態等。

圖1 化學反應數據收錄流程圖Fig.1 Schematic of the dataset collection of chemical reaction

通過上述步驟,可以收集到格式化的化學反應條目。Lowe 等[7]通過對近30 年美國專利的文本挖掘,構建了開源的USPTO 化學反應數據集。另外,也存在一些商業的化學反應數據集[8]。比如,Elsevier 公司對化學文獻進行提取,構建了數據條目更多的Reaxys 化學數據與文獻數據庫,包括化學結構、特性和反應等。

在獲取了化學反應數據集后,可對數據條目的信息進行歸納和總結,例如構建具有精確檢索和模糊檢索功能的數據庫,提取基團間反應模板。其中,應用基于編輯的算法,識別化學反應中參與反應的核心原子,提取基團間反應的特征,建立基團間化學反應的模式,并以SMARTS 規范進行記錄; 對基于同種模式的化學反應進行歸納,建立基團間化學反應模板數據庫。這些數據條目將在機器學習模型中應用。

2 化學反應的預測

對于給定的反應物、試劑、溶劑等,利用機器學習方法預測或預報其相對應的產物和產物分布,稱之為化學反應預測或預報。早期的機器學習研究源于專家推薦反應機理,或者只針對某種特定的化學反應。這類化學反應預報模型在結構上等價于機器學習的回歸模型。

隨著化學反應數據條目的豐富,并結合近來發展的深度學習方法,科研工作者發展了基于化學反應模板的產物預測方法。例如,Wei 等[9]首先在概念上證實了深度學習預測反應產物的可行性。對于給定的反應物和試劑,利用模擬數據生成與之相近的16 種化學反應模板,從而推演出相對應的產物。Segler 等[10,11]采用實驗數據并推廣了這種方法,利用算法生成的近萬種模板推演出產物的可能性分布;接著,對產物進行評價,評價分數最高的化合物被推薦為主產物。需要指出的是,化學模板推演的化合物可能存在多種非等價的產物,如鹵代反應可能存在多個位置選擇。

Coley 等[12]應用前向反應模板生成一系列可能發生的反應類型和產物,然后使用機器學習方法評估候選產物中的主反應和產物(如圖2 所示)。具體步驟為:(1)前向反應枚舉。對于每個原子映射反應的SMILES 表達式,反應核定義為反應物原子的連接發生變化的反應。通過鄰近非映射原子和鍵的重排,此反應核可以衍生其他可能的反應,并用SMARTS 表達式表示。這些衍生反應組成可能的化學反應,產生一系列候選產物。(2)候選產物排序。編輯基反應表述用于描述反應核中原子連接的改變。一個候選的原子映射反應可以解析成4 種編輯類型:原子ɑi失氫;原子ɑi加氫;2 個原子ɑi和ɑj成鍵;2 個原子ɑi和ɑj斷鍵。前兩者含有反應物原子的32 個特征,而后兩者有68 個特征。基于反應可能性與原子或鍵改變的有關事實,設計神經網絡。首先,對于單個編輯類型,建立全連接的神經網絡,使編輯基反應表述轉變到矢量基表述。然后,全部編輯類型的矢量進行加和,傳遞到下一個神經網絡,從而計算出一個標量值。對于一個候選反應,此標量值表示該反應的發生傾向。通過softmax 層,全部候選反應的標量值變換成發生反應的可能性。最大值為最可能發生的反應,對應的產物為主產物。該方法能夠預測大多數產物,但預測準確率依賴于模板質量以及訓練數據量和特征等。

圖2 化學反應預測模型的示意圖(插圖為全連接神經網絡)[12]Fig.2 Schematic of machine-learning model for the prediction of chemical reaction(Inset shows the fully connected network)[12]

雖然上述基于模板的反應預測模型能較高精度地預測主產物,但產物局限于已知模板的預測范圍。這限制了機器學習模型預測或預報新產物的可能性。為了克服此局限,無模板的化學反應預測模型被提出。一類是針對化合物SMILES 表達式的Sequence-to-Sequence(Seq2sep)模型[13,14]。這一模型的思路來自化學反應與機器翻譯之間的可類比。也就是,化學反應對應于反應物和試劑的SIMILES 字符串轉換成不同長度的產物SIMILES 字符串。借鑒機器翻譯的Seq2sep 模型,并融合注意力機制,實現了無模板的化學反應預測。在此基礎上,通過SIMILES 表達式的語法校正等改進方案,可進一步提升化學反應預測的精確度。需要提及的是,Seq2sep 模型的訓練需要極大的化學反應數據集。

利用圖卷積神經網絡,Coley 等[15]提出了另外一類無模板的化學反應預測機器學習模型,如圖3 所示。不同于SIMILES 表達式的格式化輸入,化合物分子以非格式化圖表示,特征包括結構信息(如原子數、質量、芳香性、連接性、鍵態等)以及容易計算的一些幾何和電子信息(如局部電荷、疏水性表面積等)。通過Weisfeller-Lehman 網絡,化合物分子中原子信息嵌入到神經網絡中。而反應物和試劑關系通過全局注意力機制表達。以此作為全連接網絡的輸入,預測原子間的活性或化學反應中心。最高活性的原子被用于枚舉可能的反應產物。通過結構和價態的有效判定后,用Weisfeller-Lehman 差分網絡評價有效產物的分數。最高者為最可能的化學反應產物。相比于其他方法,圖卷積神經網絡具有可物理解釋性。但是,該方法預測產物的精確度非常強地依賴于數據集的選擇。解決方案之一是進一步豐富非格式化的圖表示[16]。

圖3 化學反應預測的圖卷積神經網絡模型[15]Fig.3 Modelling of graph-convolution nerve networks for the prediction of chemical reaction[15]

產物的產率不僅與反應物和試劑有關,還依賴于反應條件(計量比、濃度、溫度和時間等)。從數學角度,產率的提升對應于反應條件的優化問題[17-19]。機器學習模型也適用于化學反應條件的推薦。最有可能與實驗操作相結合的機器學習方法是主動學習方法。對于反應條件,構建能代表產率的代理機器學習模型,采用Bayesian 優化[20],尋找下一個反應條件,優化模型直至達到最優反應條件。

目前,化學反應產物的預測還存在一些亟待解決的問題:其一,化學反應數據集包含產物、反應物和試劑等信息,但與產物預測相關的催化劑、溶劑和溫度等變量的信息不完備。同時,產物通常是產率超過50%的主產物,而副產物的信息也不完備。其二,在機器學習模型中產物的評價分數與合成條件、熱力學態和活化能等無關聯。這阻礙了可合成、熱力學穩定化合物的遴選以及高效合成。其三,化學反應數據條目非常多,導致化學反應預測機器學習模型的計算量巨大。可能解決方案是利用特定的化學反應作為模型訓練的數據子集,同時包含更多的特征量(如表面電荷、偶極矩以及活化能等),從而在增加較小的計算量時提升特定化學反應的預測精度和效率。

3 合成路線的設計

對于給定的有機化合物分子,尋找合成目標分子的可能反應物,以可能反應物分子為次級目標分子,重復上述過程,直至反應物為易獲取分子。這一過程稱之為化合物的合成路線設計。目前,機器學習方法已經應用于合成路線的設計。依據化合物生成規則,合成路線的機器學習方法可分為基于模板和無模板兩類。與基于模板的化學反應預測方法相似,基于模板的合成路線設計需要非常深厚的專業知識,產物逆合成局限于已知模板的合成路線設計范圍。而無模板的機器學習方法能克服上述障礙。下面以無模板合成路線設計為例,闡述機器學習在此領域的拓展。

Liu 等[21]采用Seq2seq 模型預測有機小分子的單步逆合成,如圖4 所示。具體步驟包括:(1)Seq2sep 模型生成反應物。Seq2seq 模型可以從一個序列映射到另一個不等長度序列。模型包括編碼(Encoder)和解碼(Decoder)部分,每部分含有循環神經網絡。Encoder 部分完成產物分子的編碼工作,將不同的輸入編碼轉換成一個定長的向量;Decoder 部分則完成反應物解碼工作,對編碼器的結果進行解碼輸出,即反應物。(2)評估和預測。解碼的輸出為預測的反應物以及log 似然函數值。當log 似然函數值最小時,則認為是最可能的反應物。該模型的預測精度約為65%(Top-5)。通過語法校正,可進一步提升預測精度[22]。

圖4 逆合成反應預測示意圖(插圖為Seq2seq 模型)[21]Fig.4 Schematic of machine-learning model for the retrosynthesis(Inset shows the Seq2seq model)[21]

以上工作只對產物進行了單步逆合成研究。對單步逆合成的多步遞歸,并對反應物進行樹形檢索,可得到產物的合成路線[23]。Schwaller 等[24]組合分子的Seq2seq 模型和圖搜索策略,實現了無人工干預的合成路線設計。Shibukawa 等[25]利用深度優先搜索算法構建化學反應網絡,以此枚舉全部可能的合成路線,利用評價分數篩選可能的合成路線,并以Cetirizine 藥物分子為例證實該思路有效。

需要指出的是,反應物的評價方式有許多[26]。例如,依據SIMILES 文本序列長度,SA_Score 測度可定義為原子數、成環原子數以及手性原子數的函數,但是在實驗中產物合成還與反應物、試劑的可獲取性和脫保護等緊密相關。SCScore 測度考慮到上述真實合成情況。以Reaxy 提取的反應為訓練數據集,神經網絡可用于計算合成復雜度SCScore。通過比較不同的評價方式,證實SCScore 測度對合成復雜性的描述較優異。

4 樹脂分子有機合成的思考

不同于目前研究比較多的簡單分子或天然化合物,樹脂分子的特點有:三維網絡狀、拓撲定義不明確、雜環且高分子量等。其材料性質和功能也與其合成策略緊密相關。目前,機器學習用于樹脂分子的有機合成、分子設計-性質關系的研究仍處于探索期。針對樹脂分子的內在特點,以機器學習視角思考有機合成中亟待解決的問題和可能的方向。

4.1 缺乏豐富的數據

目前,USPTO、Pistochio、Reaxy 等化學反應數據庫包含少量的高分子和極少的樹脂分子的數據條目。原因之一是高分子量化合物的自動合成技術不成熟。另外一個原因是該類化合物分子結構與合成工藝、催化劑等相關。可行的方案是人工干預的數據收集。

4.2 無規范化的表示

存在多種格式表示聚合物分子的結構和拓撲,但適用范圍有限。Pistoia 聯盟的HELM 格式只適用于明確定義的大分子。國際純粹與應用化學聯合會的InChI 格式不支持支化聚合物。CurlySMILES 格式可適用于復雜高分子,但是語法過于復雜。BigSMILES 格式可支持復雜拓撲的聚合物體系[27],但其應用還有待進一步驗證。

4.3 基于圖網絡的有機合成模型

有機分子非常適合于以無結構化的圖表示。圖卷積網絡模型也已經應用于化學反應的預測和合成路線的設計,但是,當訓練數據非常局限或偏倚時,圖卷積網絡模型的預測準確率并沒有優勢。對于樹脂分子的有機合成、分子設計-性質關系的研究,在少樣本情況下實現高準確率和探索與開發是圖網絡模型亟待解決的問題。

4.4 主動學習的運用

機器學習的預測結果需要模擬、實驗等其他方法驗證,或反饋到機器學習模型中[28]。對于無明確拓撲的樹脂分子體系,模擬和實驗的開展需要長時間、合成技巧等。利用主動學習方法自主地選擇最可能的物理化學參數、工藝參數等,將加速有機合成策略或分子設計的優化。

4.5 基于人工智能的合成平臺

結合樹脂分子的合成路線規劃、流動合成系統、機械手輔助的批次合成系統等,通過簡單易得的原材料,經過化學反應,在無人工干預、自主判定最優工藝條件下獲得拓撲定義明確但結構復雜的高分子量化合物[29,30]。

5 總結

本文綜述了機器學習方法在有機小分子化學合成領域的研究進展,包括化學反應數據的收集、化學反應的預測和合成路線的設計等3 個方面。對于三維網絡狀、拓撲定義不明確的樹脂分子,論述了基于機器學習合成路線的亟待解決問題,例如缺乏豐富的數據、無規范化的表示、少樣本的機器學習模型等。

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 91无码人妻精品一区| 国产av色站网站| 国产精品浪潮Av| 久久福利片| 亚洲精品福利网站| 特级精品毛片免费观看| 国产一级在线播放| 好紧太爽了视频免费无码| 99伊人精品| 欧美精品不卡| 国产青青操| 伊在人亞洲香蕉精品區| 一本久道热中字伊人| 久99久热只有精品国产15| 欧美日韩亚洲国产主播第一区| 9啪在线视频| 国产情侣一区| 91精品专区| 青青草国产免费国产| 亚洲无码高清视频在线观看| 日韩毛片基地| 国产网站一区二区三区| 精品免费在线视频| 欧美日韩在线国产| 狠狠做深爱婷婷久久一区| 日本亚洲国产一区二区三区| 黄色三级网站免费| 99久久国产综合精品女同 | 欧美色图第一页| 日本在线国产| 九九九九热精品视频| 成人福利在线看| 久久国产精品娇妻素人| 五月激情婷婷综合| 97视频在线观看免费视频| 亚洲精品欧美日本中文字幕| 亚洲视频欧美不卡| 综合五月天网| 亚洲日本www| 美女毛片在线| 99热亚洲精品6码| 亚洲无码精彩视频在线观看 | 精品无码日韩国产不卡av | 国产精品午夜电影| 亚洲欧美国产高清va在线播放| 国产在线观看人成激情视频| 成年午夜精品久久精品| 亚洲无码在线午夜电影| 国产九九精品视频| 亚洲伦理一区二区| 91激情视频| 欧美午夜视频在线| 亚洲国产中文精品va在线播放| 亚洲男人天堂2020| 伊人久久精品无码麻豆精品 | 久久精品丝袜| 日本在线国产| 嫩草国产在线| 亚洲精品福利网站| 亚洲 欧美 日韩综合一区| 亚洲美女一区二区三区| 美女扒开下面流白浆在线试听| 黄片一区二区三区| 99re在线免费视频| 国产高清不卡| 国产欧美日韩综合在线第一| 香蕉综合在线视频91| 5388国产亚洲欧美在线观看| 色综合综合网| 欧美日韩午夜| 免费无码AV片在线观看国产| 亚洲国产清纯| 中文字幕资源站| 又猛又黄又爽无遮挡的视频网站| 亚洲欧美日韩成人高清在线一区| 一边摸一边做爽的视频17国产| 国产毛片基地| 日韩激情成人| 国产青榴视频在线观看网站| 伊大人香蕉久久网欧美| jizz国产在线| 午夜三级在线|