劉忠范
北京大學化學與分子工程學院,北京 100871
氧化物鈣鈦礦析氧反應(OER)描述子的發展---從領域知識到機器學習。
描述子(descriptor)是描述復雜現象的簡單標度。在催化領域,科學家們數十年來一直在尋找簡單而準確的描述子,試圖定量描述復雜的催化現象。這些描述子包括但不限于d能帶中心,吸附自由能,形成焓等。一般來說,催化活性和這些描述子定量上呈現火山圖(volcano curve)的關系。這是因為這些描述子的提出均是基于Sabatier Principle—反應物(中間態)與催化劑之間的吸附能不能太強,也不能太弱1。
Sabatier Principle與火山圖的概念同樣被應用到氧化物鈣鈦礦析氧反應(OER)的研究中。2011年,麻省理工學院Yang Shao-Horn研究組提出了過渡金屬原子eg軌道占據數作為OER描述子,并據此發現Ba0.5Sr0.5Co0.8Fe0.2O3(BSCF)催化劑2。此后,諸如自由能3,Op帶位置4,過渡金屬與O的共價相互作用5等描述子被相繼提出。這些描述子基于人類物理和化學知識的經驗總結,取得了一定的成功。然而,它們都需要密度泛函理論(DFT)計算。而DFT計算不僅耗時耗力,對諸如d帶中心,eg軌道占據數等計算還依賴于計算設置(表面自旋態、3d軌道on-site Coulomb U值選取等)6,從而不可避免地在結果中引入人為因素。因此,傳統的描述子并不利于大規模材料設計與篩選。
近日,蘇州大學能源學院、能源與材料創新研究院尹萬健研究組以氧化物鈣鈦礦OER為例,提出利用符號回歸機器學習方法,跳過DFT計算,直接建立催化活性與材料參數的構效關系7。這里的材料參數指的是組成元素化學配比、離子半徑、電負性、價態、過渡金屬離子d電子數等在教科書中查表可得的基本參數。他們的實驗合作者美國托萊多大學Yanfa Yan教授研究組合成了18種已知的氧化物鈣鈦礦,以產生具有一致性和可比較的數據集。基于該數據集,尹萬健研究組采用符號回歸方法尋找構效關系表達式,然后在這些表達式中選擇一個簡單而準確的描述子μ/t,其中μ(rB/rO)和分別是鈣鈦礦ABO3的八面體因子和容忍因子。它們只是離子半徑的函數,不需要DFT計算,因而更利于大規模材料設計與篩選。
新描述子μ/t表明ABO3中A離子越大,B離子越小,催化活性越高。據此,他們設計用大的堿金屬離子占據A位,小的過渡金屬離子占據B位,以摩爾組分0.25為間隔構造合金,共產生三千多種可能的新材料。并進一步通過新描述子μ/t,同時兼顧元素和組分的多樣性,從中選擇了13種理論催化性能最高的材料進行合成。Yan實驗組成功合成了5種,發現其中4種新材料(Cs0.4La0.6Mn0.25Co0.75O3、Cs0.3La0.7NiO3、SrNi0.75Co0.25O3和Sr0.25Ba0.75NiO3)的催化活性均高于之前的18種,同時也滿足描述子μ/t的規律。同時,該描述子還可以被Shao-Horn研究組2011年Science論文的獨立實驗數據所證實2。尹等的工作評審過程中,審稿人(Reviewer #3)發現自己研究組積累的數據同樣滿足新描述子μ/t的線性規律(審稿意見見原文7鏈接)。這些事實表明描述子μ/t對氧化物鈣鈦礦OER具有普適性。
該工作中簡易描述子μ/t的發現得益于符號回歸機器學習方法的運用。一方面,基于傳統的物理與化學知識,很難建立催化活性與離子半徑的關系;另一方面,雖然機器學習已被廣泛運用于材料、化學等領域,但其“黑箱(black-box)”模型常被認為不能發現新的“物理規律”,而只是對數據采取一種未知方式的統計擬合,限制了其廣泛應用8。特別是對大多數不熟悉機器學習算法的實驗工作者,機器學習指導實驗存在事實上的困難。符號回歸是一種可解釋的機器學習方法9,10,能夠提供目標函數和自變量特征參數之間具體的數學表達式,變機器學習“黑箱”模型為“白箱”(glassbox),為材料設計提供直接指導。盡管潛力巨大,但在材料與化學科學領域的應用目前卻很少。尹萬健等的工作提供了符號回歸在材料領域的一個應用實例,將激發更多的材料與化學研究者關注和利用符號回歸機器學習加速新材料的發現。
上述研究工作近期在NatureCommunications上在線發表7。