張 霄, 董 毅, 林賽賽, 傅雨杰, 徐 麗, 趙海濤, 楊 洋,劉 鵬,劉少俊, 張涌新,鄭成航, 3,高 翔, 3, *
(1. 浙江大學 能源高效清潔利用全國重點實驗室, 浙江 杭州 310027;2. 浙江大學 碳中和研究院, 浙江 杭州 310027;3. 白馬湖實驗室, 浙江 杭州 310051)
“十四五”時期我國進入新的發展階段,加快推動能源的清潔高效利用與生態環境的改善治理已成為破解資源環境約束、實現可持續發展的迫切需求[1-2]。催化劑作為能源化學與環境化學的重要媒介,在推動化石能源清潔高效利用[3]、可再生能源規模化應用[4]以及二氧化碳捕集與利用[5]等方向的技術發展起到了關鍵作用。近年來,電催化、熱催化與光催化技術在制取綠氫、合成綠色燃料與提升燃料電池效率等能源領域迎來了重大發展機遇[6-8],也為溫室效應以及大氣污染等環境問題提供了有效解決途徑。因此,催化材料在能源與環境領域中顯現出了廣闊的應用前景。
開發有助于清潔能源高效生產及污染物脫除或循環利用的新型催化材料是解決現有能源與環境問題的關鍵。目前,催化材料的設計已經從組分調節、尺寸控制等宏觀調控延伸到了基于原子/分子水平的精準調控[9],如催化中心配位結構和電子結構調控。以經驗指導為主的傳統催化劑研發模式由于篩選效率低、開發周期長和易陷入局部最優解等缺點,嚴重制約了新型催化材料的研發[10]。數據科學的快速發展為先進催化材料的研發帶來了新的思維模式和技術路徑[11]。通過有機結合催化實驗、基礎物理/化學理論、計算模擬和數據技術,可加速先進催化材料研發、催化反應機理揭示以及催化反應性能識別與催化活性位點預測。這種數據科學結合先驗知識的機器學習研究方法,旨在從數據中提取尚未掌握的知識進而指導開展催化劑研究[12],加快催化劑構效關系的建立、實現催化劑的按需設計以及催化活性位點的定向構建,降低研究難度和開發成本,推動催化材料研發由“經驗+試錯”模式向“知識+數據”融合模式轉變。
通過對機器學習方法在催化材料中的研究熱點進行聚類分析(圖1),可以看到機器學習可對催化材料研發的各個方向進行加速和優化,逐步從催化劑配方的快速篩選、催化材料形貌結構的理性設計深入到對微觀催化活性位點的準確預測以及催化反應機理的清晰揭示。因此,本文將從催化材料的位點預測、配方篩選、構型設計以及路徑優化等方面,綜述機器學習方法在能源與環境催化材料研發中的相關研究進展,重點分析基于不同訓練數據來源所對應的機器學習方法構建以及應用方向,從而為機器學習方法在能源與環境領域的進一步應用提供理論和技術啟發。

圖1 機器學習輔助催化材料研究的關鍵詞共現聚類分析可視化知識圖譜 (數據來源與處理:以“machine learning” and “catalysis”為關鍵詞在Web of Science核心合集中檢索2012-2023年間 的所有文獻;采用VOSviewer軟件進行可視化聚類分析)Fig. 1 The results of cluster analysis coupled with word frequency statistics of keywords in all the publications with “machine learning” and “catalysis” as topics obtained from Web of Science over the past 10 years (conducted by VOSviewer)
精準識別催化活性位點是理解催化機制和合理設計催化劑的基礎。通過計算模擬可以得到催化活性位點原子的配位環境、電子結構、催化反應路徑、過渡態、中間體以及吸附能等信息,利用這些數據可以分析影響催化性能的關鍵反應中間體和速控反應步驟等[13-14]。將機器學習與計算模擬相結合,可在只計算部分催化活性位點樣本相關信息的基礎上預測大量的催化活性位點性能,極大地降低了計算資源需求,加速催化材料的預測和設計,縮短研發周期,降低研發成本。
密度泛函理論(Density Functional Theory,DFT)是研究催化劑表面催化活性的重要理論基礎[13]。為了解決密度泛函理論方法在計算大量多原子體系時計算成本高等難題,Wan等人[15]開發了一種機器學習加速的密度泛函理論計算(DFT-ML)方法,用于預測17種過渡金屬元素的單金屬及雙金屬中心酞菁催化劑的電催化CO2還原性能(圖2)。作者首先使用DFT方法計算了17種單金屬中心以及40種隨機組合雙金屬中心催化劑的CO2還原各基元反應自由能變,以此獲得催化劑的極限電位來表征其催化性能。在此基礎上,建立包含催化劑中心金屬原子半徑、d軌道電子數、電負性等特征值及催化性能的數據庫用于機器學習模型訓練,并使用訓練后的機器學習模型預測了另外249種雙金屬中心酞菁催化劑的催化性能,從而對研究中所包含的單金屬及雙金屬中心酞菁催化劑性能的預測效率提高了約7倍。

圖2 機器學習結合密度泛函理論預測催化活性位點工作流程圖[15]Fig. 2 Flow diagram of accelerated catalytic activity prediction by combining machine learning with density functional theory[15]
基于對反應機理的深入認識,通過計算少量關鍵中間體吸附能等信息獲得催化劑的性能,從而避免計算完整反應路徑中各基元反應的能量變化,可進一步提高機器學習與計算模擬結合方法預測催化活性位點性能的效率[16]。例如,CO是CO2還原反應的關鍵中間體[17],其吸附能常被用于預測催化劑的CO2還原反應性能[18]。Zhong等人[5]從Materials Project數據庫中獲取了244種含Cu金屬間化合物晶體結構,據此列舉了12 229個晶面和228 969個活性位點,然后通過DFT計算方法獲取了其中部分活性位點樣本的CO吸附能作為機器學習預測目標值,并以活性位點元素的原子序數、電負性、單金屬晶面CO吸附能中值等作為特征值進行機器學習模型訓練,再由此獲得所列舉的其他活性位點的CO吸附能,以此預測具有高CO2還原反應活性和多碳產物選擇性的Cu基催化劑(圖3(a))。Xing等人[19]同樣從Materials Project數據庫中獲得了銅基合金的結構,并以CO、COOH和HCOO等不同中間體吸附能作為機器學習目標值預測了生成不同CO2還原產物的銅基合金催化劑。

圖3 機器學習與計算模擬結合預測催化活性位點Fig. 3 Prediction of catalytic active sites by combining ML and computational simulation
機器學習與計算模擬結合方法也被用于高熵合金(High Entropy Alloys, HEAs)等其他體系催化劑的高效預測[21-23]。Pedersen等人[20]使用CoCuGaNiZn和AgAuCuPdPt高熵合金體系中活性位點中心原子的配位環境等特征以及DFT計算所得的反應中間體吸附能等數據訓練機器學習模型,以此預測了所有可能活性位點的CO和H吸附能,最終獲得了不同元素比例HEAs催化劑的CO2/CO還原反應活性及選擇性(圖3(b))。Roy等人[24]也通過機器學習與計算模擬結合方法篩選了用于CO2加氫制甲醇的HEA催化劑體系,并獲得了35種高活性、高選擇性的CO2加氫制甲醇催化劑(圖3(c))。
由于實際催化劑顆粒中存在位于不同晶面、邊緣、缺陷等多種活性位點,機器學習與計算模擬結合方法還可以用于識別單個催化劑納米顆粒中的高性能催化活性位點,以此指導催化劑的可控構筑。Chen等人[25]首先采用分子動力學模擬構建了一個置于碳納米管之上的粒徑為10 nm的金催化劑顆粒,其中包含了11 537個表面金位點,然后依據表面原子結構提取結構描述符,與量子化學計算所獲得的部分表面金位點CO吸附能及HOCO中間體生成能相結合構建機器學習模型訓練數據庫,以此預測所有表面金原子的催化性能,實現了整個金催化劑納米顆粒表面原子催化活性位點的可視化(圖4)。

圖4 機器學習結合多尺度模擬可視化去合金表面二氧化碳還原活性位點[25]Fig. 4 Visually identifying active sites for CO2 reduction on dealloyed gold surfaces by combining machine learning with multiscale simulations[25]
催化劑組成元素及含量、制備方法及條件等多種配方參數與催化劑活性、選擇性、穩定性、抗中毒能力等多種性能指標之間存在強相關性[3]。文獻調查[26]、理論計算[27]和高通量實驗[28]等方法是獲取催化劑相關數據的重要途徑,機器學習可結合不同途徑所得數據指導相關能源與環境應用場景需求下的新型催化劑篩選、制備及反應條件優化。
選擇性催化還原(Selective Catalytic Reduction,SCR)是減少氮氧化物(NOx)排放的有效方法,在催化劑的作用下NOx和還原劑NH3反應生成無害的N2和H2O。高翔等人[3]構建了一種典型的基于文獻調查數據的機器學習預測方法,用于快速篩選低溫SCR催化劑配方以及優化反應條件(圖5)。該方法主要分為四個步驟:(1)基于2 000余篇已發表的相關文獻構建了低溫SCR催化劑組成-性能信息數據庫,并對數據進行預處理;(2)選擇金屬氧化物作為主要研究對象,構建了由催化劑組成、結構等20余個特征變量信息組成的催化劑特征向量;(3)通過對比不同機器學習回歸預測模型的精度,篩選出具有最優預測精度的極端隨機樹回歸模型;(4)利用訓練好的機器學習模型篩選獲得了具有良好低溫脫硝性能的Mn-Ce-M(M=Co、Cu、Fe)催化劑體系。Chen等人[29]采用相似的機器學習與文獻調查相結合的方法,利用遺傳算法實現了MnTi催化劑元素配比及制備條件的優化。相較于上述的金屬氧化物SCR催化劑,沸石類SCR催化劑多用于柴油車后處理等移動源催化脫硝場景中[30]。Bae等人[31]以沸石基底的硅鋁比、金屬組分及含量、制備方法及反應條件等多種特征參數構建特征向量,并以NOx轉化率作為催化劑的性能指標,將數據庫按照沸石類型劃分為β型和ZSM-5型催化劑兩個獨立數據子集進行訓練,使用遞歸式特征消除(Recursive Feature Elimination,RFE)算法從原始特征逐步迭代從而生成機器學習預測模型[32]。上述方法也被應用于CO氧化[33]、CO2加氫制甲醇[34]、甲烷干重整[35]等反應中,并通過模型篩選實現了催化劑配方及反應條件的優化。

圖5 文獻研究數據驅動的機器學習開發催化材料工作流程示意圖[3]Fig. 5 Schematic diagram of machine learning aided catalyst optimization based on literature research data[3]
貴金屬催化劑(如鉑、鈀等)因其高活性和選擇性常被用于燃料電池、電解水產氫系統和空氣電池等能源領域[36]。受限于地球儲量稀少(如鉑地殼含量僅為億分之五)、成本高昂(如鉑200-250元/g),如何提高貴金屬原子的利用效率成為貴金屬催化劑開發的核心問題之一[37-38]。通過機器學習與理論計算相結合,可以低成本、高精度地實現單原子或復雜原子催化劑體系的快速篩選與合成調控。黃勃龍等人采用機器學習與理論計算相結合的途徑構建了一種氧化還原勢壘模型,通過量化描述d/f軌道電荷轉移,實現了對零價原子催化劑錨定的“石墨炔-原子催化劑”組合體系的快速篩選[39],并借助機器學習與理論計算相結合的途徑,對石墨炔基HER原子催化劑進行了全過渡、稀土金屬的有效篩選[40],進一步佐證了理論計算結合機器學習定向篩選原子催化劑體系的可行性。
相較于文獻報道數據存在碎片化和標準格式不統一、理論計算數據容易引入難以消除的系統誤差等限制,自動化高通量實驗技術能夠高效、連續地產生可重復性數據,更好地滿足了機器學習對可用數據的數量、質量和多樣性的高要求,受到越來越多研究者的關注。高通量技術用于催化研究過程如圖6(a)所示[41],主要包括(1)實驗設計;(2)手動或自動制備反應物;(3)構建能夠良好控制制備條件(例如溫度和反應時間等)的反應器;(4)催化劑的平行表征。獲取的高通量實驗數據進一步結合機器學習算法自動反饋指導新實驗條件參數的設計,從而加速催化劑組成、制備方法以及反應條件等關鍵參數的優化[42]。自動化高通量實驗技術的核心是高通量制備與高通量表征。基于高通量制備實驗平臺可實現不同種類催化劑的制備策略,如溶液噴涂結合水熱反應方法常被用于BaxSryCaZTiO3基鈣鈦礦納米粒子等高效氧還原(ORR)催化劑的快速篩選[43];超聲噴霧熱解技術被用于在導電襯底大批量沉積三元Fe-Co-Mn氧化物催化劑[44];高通量成分梯度濺射法被用于制備析氧/析氫反應的Ni-Mo雙金屬合金薄膜催化劑[45];熱沖擊法被用于高熵合金納米顆粒的快速合成[46]。在高通量表征方面常用單通道自動按序表征和多通道同步表征兩種模式。單通道表征一般采用可移動的掃描探頭對催化劑陣列的各項參數進行表征記錄[47],多通道表征一般采用多通道信號獲取設備進行多通道同步表征。兩者均可快速表征不同化學成分催化劑的性能[48]。總體而言,針對具體的催化劑反應體系,在綜合考量實驗效率和實驗成本的前提下,對高通量制備方法和高通量表征手段實現系統性地匹配優化設計是開展高通量實驗研究的前提。

圖6 高通量技術與“機器人化學家”Fig. 6 High-throughput technique and robotic chemist
自動化高通量實驗技術和人工智能的融合也催生了以機器化學家為代表的機器科學家的誕生。例如,Cooper等人[42]通過將高通量實驗與機器學習算法耦合建立了“機器人化學家”平臺(圖6(b)),將其應用于光催化水分解制氫催化劑及反應條件的篩選。該方法使用高精度自動機器人在多種反應條件下對系列催化劑進行批量化測試,基于前一輪實驗的結果,利用貝葉斯優化算法自主選擇實驗參數的優化方向。在篩選過程中,算法對已有數據分析后自主制定下一步篩選策略,在短時間內將光催化水分解制氫性能提高了5倍。趙海濤等人[49]研制了由機器學習、機器人自動化和大數據共同組成的“機器人平臺”(圖6(c)),驗證了從化學原料取樣、機器人輔助合成、機器人原位表征到機器人逆向設計材料的全過程,構建了納米金晶、雙鈣鈦礦納米晶形貌與配方間的關聯機制。這種將高通量實驗與機器學習結合的方法還被應用于甲烷氧化偶聯反應[50-51]及光催化析氧[52]等多種能源與環境催化材料的研發中。
準確的催化劑構效關系是實現催化材料形貌結構理性設計的基礎[53]。原位反應下催化材料的動態結構形成和演化復雜,厘清催化劑的構效關系在實踐中具有挑戰性。在傳統的催化劑研發范式中,由于理論模型的構建往往存在很多近似性假設,所以很難在實驗制備過程中完美地復現所設計的結構。此外,受限于現有表征手段的精確性和靈敏性不足,對催化劑表面結構進行全面地、高精準度地表征也存在一定的困難。如圖7所示,數據機器學習技術的發展使得研究人員可以基于先驗知識和積累的有效數據,開展催化材料動態形貌結構的預測以及反應條件和微環境下的原位模擬[54],從而指導研發具有最佳形貌結構的催化材料。

圖7 基于傳統方法和數據驅動方法的催化劑形貌結構設計工作流程[54]Fig. 7 Workflows for conventional and data-driven methods to design morphology and structure of catalysts[54]
機器學習方法結合人工智能,可以減少人工工作成分,提高實驗設計效率,從而改變研究工作流程,允許理論模型直接來自實驗發現。這將彌合實驗和理論之間的“材料差距”,加深對催化劑形貌結構的理解。研究人員已經開發了自動識別圖像的機器學習應用程序,通過與生成圖像的實驗表征相結合,給出自動化的結構識別,從而節省人力和減少人為錯誤。Krull等人[55]研發了基于機器學習的人工智能框架(DeepSPM),能夠自主連續采集原子精密掃描探針顯微鏡(SPM)圖像(圖8(a))。DeepSPM能夠在多天的掃描隧道顯微鏡實驗中連續采集和分類數據,選擇高質量成像樣本區域并執行測量的算法命令,并根據不同實驗條件管理探針質量。Girod等人[56]使用冷凍透射電子斷層成像方法研究了質子交換膜燃料電池中催化劑層的形貌,并利用深度學習方法輔助完成了圖像復原與組分鑒別。作者以此計算了離聚物的形貌、覆蓋率和均勻性以及鉑催化劑在碳載體上的分布等指標,進而建立了催化劑形貌及傳輸特性與燃料電池性能之間的構效關系。

圖8 機器學習驅動的催化劑形貌結構信息提取Fig. 8 ML-driven information extraction from morphology and structure of catalysts
機器學習方法還可以高效地從催化劑形貌結構表征所獲得的波譜數據中提取信息。例如,X射線吸收譜(XAS)能夠原位檢測和分析金屬納米粒子(NP)結構與其特性(如催化活性)之間的相關性,這對實現高性能催化劑的合理設計具有重要價值。XAS譜的X射線吸收近邊結構(XANES)部分主要反映原子內層電子向未占據空軌道的躍遷,因此對原子的3D排列細節敏感,具有對結構和電子特征的敏感性。阻礙XANES用于納米催化劑定量分析的主要挑戰是缺乏能夠從光譜中提取結構特征的方法。Timoshenko等人[57]利用人工神經網絡揭示了XANES特征和催化劑幾何結構之間的隱藏關系,并使用XANES光譜和監督機器學習完善了金屬催化劑的三維幾何結構。該方法使得從其實驗XANES中求解金屬催化劑結構成為可能,對于催化反應過程中催化劑結構的原位變化追蹤具有重要指導意義(圖8(b))。
深入理解催化反應機制與路徑是設計高效催化劑的關鍵。傳統上,研究人員常基于實驗數據構建微觀動力學模型來闡述反應機理,然而,速率定律的推導及其解釋需要大量的數學近似,容易出現人為錯誤,并且僅限于穩態近似下由幾個基元反應步驟構成的反應網絡。基于機器學習的新理論方法為揭示并優化復雜催化體系的反應機理提供了新的途徑。
乙烯在銀基催化劑上的環氧化反應是一種重要的多相催化反應,圍繞環氧化反應機理與路徑的揭示一直存在爭議。劉智攀等人借助機器學習方法針對此類多相催化反應機理探索開展了大量工作[58-59]。該團隊首先采用隨機表面行走反應抽樣(SSW-RS)方法尋找Ag(100)上的金屬氧雜環(OMC)中間體,該中間體是乙烯環氧化的關鍵中間體。研究發現銀金屬表面上的乙烯氧化有三條低能壘反應途徑,其中最重要的一個是以前完全忽略的羰基金屬環中間體(OMC-DH)的脫氫,如圖9(a)所示。通過計算自由能曲線和微觀動力學模擬,表明無論反應條件如何,脫氫途徑對于Ag(100)和Ag(111)金屬表面上的乙烯氧化總是占主導地位(> 90%)。該團隊還開發了一個用于多相催化體系活性預測的端到端人工智能框架(AI-Cat方法)[59]。如圖9(a)所示,簡單輸入分子和金屬催化劑名稱,可以推算出從輸入分子到低能壘途徑產物的反應能量分布。AI-Cat方法結合了兩個神經網絡模型,一個用于預測反應模式(R-Pat unit),另一個用于提供反應勢壘和能量(K-Info unit),利用蒙特卡羅樹搜索反應網絡中的低能壘路徑。該方法被成功應用于銅表面甘油氫解反應網絡的解析。

圖9 機器學習輔助的銀基催化劑上乙烯環氧化反應機理探究Fig. 9 Machine learning assisted reaction mechanism exploration of ethylene epoxidation on silver-based catalyst
涉及到碳氫化合物的反應網絡往往由于繁多的物種變化而顯得十分復雜。Zachary等人[60]提出了一個使用高斯過程回歸(GPR)的反應網絡優化框架,以研究在實驗相關的操作條件(573 K和1大氣壓的氣相反應物)下,合成氣(CO + H2)在Rh(111)催化劑上的反應。通過量子化學計算的部分中間物質的吸附能訓練GPR模型,從而預測反應網絡中所有中間產物的自由能,結合過渡態比例關系和一個簡單的分類器來確定反應的速控步驟。通過將該方法應用到合成氣在銠(111)上的反應中確定了其最可能的反應機制。Jordi等人[61]證明了一個基于模擬動力學數據訓練的深度學習模型能夠正確地闡明來自時間濃度分布的各種機理。訓練后的模型可以用來分析普通的動力學數據,并依照訓練內容將其按照機理類型分類,在這樣一個強大工具的輔助下,動力學分析將由以前冗長繁雜的動力學模型分析和推導簡化為自動化的準確預測(圖10),增強了合成化學家研究反應機理的能力。

圖10 基于傳統動力學模型和機器學習解析機制的碳氫催化反應網絡研究路徑比較[60]Fig. 10 Comparison of current pipeline for mechanistic elucidation through kinetic analysis versus the use of AI-based mechanistic elucidation[60]
數據驅動的催化材料研究方法可以將實驗、物理/化學理論、計算模擬和數據技術有機結合以指導催化材料的快速設計與優化研究。本文從位點預測、配方篩選、構型設計以及路徑優化等角度討論了機器學習方法在能源與環境催化材料領域的相關研究進展,分析了文獻調查、計算模擬、高通量實驗等不同訓練數據獲取途徑對應的機器學習方法及其適用的催化材料研究應用方向。使用機器學習加速催化材料創新的研究范式已在尋找潛在高活性催化劑組分、分析影響催化性能的關鍵因素等方面展現出獨特價值,有望成為高性能催化材料開發的重要途徑。
在能源與環境催化研究領域,機器學習輔助催化材料開發方法正向著更高效率、更高精度發展,主要方向包括:(1)提高數據收集的效率:開發面向催化研究的ChatGPT類自然語言處理算法,從文字和圖表中快速讀取數據以建立數據庫,并且在催化相關研究工作發表時采用統一的、標準的數據呈現方法,以便快速完成文獻數據收集;(2)深入理解催化反應機理:在能源與環境催化反應體系中建立計算模擬結果和催化活性位點性能之間更準確的關聯,并且開發結合機器學習的高通量智能計算方法,進一步提高機器學習與計算模擬結合方法在新型能源與環境催化材料研究方面的適用性;(3)開發面向多種反應體系的自動化高通量催化劑制備與測試表征平臺:面向包括氣-固、液-固等非均相能源與環境催化反應體系,建立自動化、流程化的催化劑制備與評價解決方案,并且進一步挖掘可方便測量的光學、電學等性質以代表催化劑性能,逐步實現基于“機器科學家”的能源與環境催化材料的高效篩選。