孫 婕, 李子昊, 張書宇
(上海交通大學 化學化工學院,上海 200240)
近年來,科研工作者一直在尋找能夠快速、簡捷、高效發現藥物、催化劑、蛋白質等新材料和新反應途徑的自動化合成系統.人工智能(Artificial Intelligence, AI)和機器學習(Machine Learning, ML)的出現使實現這一目標成為可能.ML是AI和計算機科學的一個重要分支,它研究和構建的是一種特殊算法而非某一個特定的算法,能夠讓計算機自身從數據中學習并進行下一步預測[1].ML算法能夠從大量化學數據中尋找規律和聯系,幫助科研工作者做出更合理的判斷和決策, 加快研究過程.ML在化學合成領域[2-3]的應用已經取得許多令人矚目的成果,如分析化學反應進行反應優化[4-6]、逆合成分析尋找產物的最佳合成路徑[7-8]、比較藥物活性輔助藥物設計[9]等.ML正在成為除分子模擬之外的計算化學的新范式.ML為化學合成領域的發展帶來無限生機的同時,也為合成研究帶來了新的難題與挑戰.
ML為計算機系統提供自動學習和增強經驗的能力,并且無需專門編程,被稱為第四次工業革命中最流行的技術[10-11].ML通過訓練算法查找數據之間的相關性,并根據該分析做出最佳決策和預測.基本思路是將實際問題抽象成數學模型,利用數學方法對模型進行求解,最后采用指標對模型進行評估.因此,可以將ML在化學合成領域的應用簡化為如圖1所示的4個步驟:建立反應數據集、特征化數據、訓練模型和分析結果.

圖1 在化學科學中應用ML算法的工作流程
ML模型需要海量數據作為支撐,借助數據進行模型訓練.一般而言,可以借助當前已公開的化學數據庫如SciFinder、Reaxys、USPTO等[12]進行初步篩選,但科研工作者無法直接獲得批量數據.可用數據集往往需要耗費一定時間進行篩選、匯總和整理,科研工作者需將其按照7∶3或8∶2的比例進行劃分,訓練集數據占多數.需要注意的是不能使用所有數據進行模型訓練,也不能使用訓練集數據對模型進行評估.但允許所有數據進行特征化之后再進行數據集劃分.
輸入數據的形式往往影響ML的效果,常見的輸入數據形式主要有向量、矩陣和圖像3種.由于化學數據的特殊性,絕大多數數據無法直接作為模型的輸入,需要進行數據轉換.將原始數據轉換成更適合算法處理的格式,這一過程稱為特征化或特征工程.在化學領域中,使用分子描述符對分子信息進行描述表示.分子描述符是指分子在某一方面性質的度量,既可以是分子的物理化學性質,也可以是根據不同算法推導出來的與分子結構相關的數值指標.選擇出與研究對象最密切相關的描述符對整個ML過程而言十分重要,表1總結了常見的分子描述符.

表1 常見的分子描述符總結(以苯酚乙酯為例)
其中,需要特別注意量子化學描述符,這類描述符一般通過Gaussian、NWChem等軟件計算獲得,能夠較準確地描述分子的化學和物理性質,計算結果具有較高的可靠性.此類描述符不僅是ML的輸入數據形式之一,而且能夠作為化學實驗結果的佐證工具,如張書宇等[15]總結了密度泛函理論(Density Functional Theory, DFT)計算驗證軸向手性苯乙烯合成的機理和方法.首先,他們發現鎳催化對映選擇性三分量自由基傳遞烯烴還原偶聯可以實現軸向手性苯乙烯的合成,可以借助DFT計算尋找反應中的過渡態對整個反應機理進行佐證[17].其次,使用DFT計算非常規遠程雜芳基遷移對非活性烯烴進行異芳基氟烷基化過程中雜芳基遷移后氫原子轉移(Hydrogen Atom Transfer, HAT)的溶劑化自由能,計算結果與實驗數據吻合,與反應機理相印證[18].

數據特征和算法性能決定了ML的有效性和正確率,不同的ML算法產生的結果不同,甚至同一種ML算法結果也會因數據特征而異.算法是ML過程的關鍵,選擇時需從實際問題出發,多方面綜合考慮.目前,根據算法特征將ML分為4類[19]:監督學習(Supervised Learning, SL)、無監督學習(Unsupervised Learning, UL)、半監督學習(Semi-Supervised Learning, SSL)和強化學習(Reinforcement Learning, RL).
SL是目前使用最廣泛的ML方法,用于學習從輸入映射到輸出的函數f(x),f(x)為每個輸入x產生的輸出y或給定x的y上的概率分布[1, 20].當訓練數據為離散型數據時采用分類算法,為連續型數據時采用回歸算法.SL要求訓練數據為帶有“標簽”的數據,常見算法包括支持向量機(Support Vector Machine, SVM)[21-23]、K-均值聚類(K-means Clustering)[24]、線性回歸( Linear Regression, LR)[25]、邏輯回歸( Logistic Regression, LR)[26]等.
UL訓練未標記的數據集,無需人工干預,可以理解為數據驅動的過程[20].UL本質是一個統計手段,其輸入數據沒有被標記且結果未知.該算法的目的不是向計算機施加指令,而是讓計算機自主學習,促進ML向自動、靈活和通用方向發展.如今使用較多的UL算法是聚類算法,聚類是將相似的對象分到不同的組中,或者更準確地說,將一個數據集劃分為子集,從而使每個子集中的數據根據某種定義的距離度量[27].
SSL巧妙地將SL和UL結合在一起.在訓練期間,它使用少量擁有標簽的數據集來指導大量未標簽化數據集進行分類和特征提取.SSL可以解決帶標簽數據不足或無法負擔標記足夠數據的費用而不能進行SL的問題.
RL不要求預先給定任何數據,而是通過接收環境對動作的獎勵(反饋)獲得學習信息并更新模型參數[28].RL的思路非常簡單:如果在一件事中采取某種策略可以取得較高得分,那么就進一步“強化”這種策略,以期取得更好的結果.可以認為,RL是所有形式的ML中最接近人類和其他動物學習的方法,也是目前最符合AI發展終極目標的方法.RL系統一般包括策略、獎勵、價值和環境/模型4個要素.2016年AlphaGo擊敗世界圍棋大師李世石[29]和2018年谷歌訓練機器臂的長期推理能力[30]等是RL應用的最佳佐證.
待模型訓練完,可以將真實實驗數據與預測數據進行對比來評估模型質量,分析模型學習結果能否較好解決實際問題.針對不同問題,需采用不同的模型評估指標,如評估SL中分類模型可以采用準確率(Accuracy)、召回率(Recall)、受試者工作特征曲線 (Receiver Operating Characteristic, ROC)等;評估SL中回歸模型時可以借助平均絕對誤差(Mean Absolute Error, MAE)、均方誤差(Mean Square Error, MSE)、均方根誤差(Root Mean Square Error, RMSE)、決定系數(R2)等.
ML在化學合成領域最早的應用可以追溯至20世紀60年代,Corey等[31]開發了基于規則的計算機輔助合成設計程序(Computer-Aided Synthetic Planning, CASP),該程序輔助化學家快速實現化合物合成,輸入分子結構信息,輸出不同的反應合成方案.在過去的幾十年間,隨著計算機硬件設施的更新和大型化學數據庫的建立,ML在化學合成領域的應用日益廣泛.文獻[32-33]中從化學家的角度介紹ML相關應用,本文從ML算法的角度,介紹化學合成及表征領域中如何使用ML模型.
隨機森林(Random Forest, RF)是一種集成分類算法,由 Breiman[34]提出,使用“并行”決策樹(Decision Tree, DT)的方式,如圖2所示.DT模型是一種以樹結構為依據的分類算法,由節點和分支組成.從樹的根節點開始,依次向下分類.一棵DT有且僅有一個根節點.能夠將一個復雜的決策過程分解成一組更簡單的決策,從而提供一個通俗易懂、易解釋的解決方案是DT模型最大的優勢[35].在RF中,每棵DT生成一個隨機向量,向量之間相互獨立且分布相同,根據一定的投票機制或取平均值得到最佳分類結果.RF由多棵DT組合生成的,因此該算法能夠最大限度地減少過擬合問題,提高預測精度和控制力[36].

圖2 輸入數據形式以分子圖和SMILES字符為例的RF模型
RF作為一種集成算法,具有良好的魯棒性和可靠性,分類效果好,適合作為基線模型進行產率預測.高通量實驗結合DFT計算能夠縮短RF模型建立的時間,使得該模型在化學合成領域得到廣泛應用.RF解決的主要是分類問題,分類問題是數據挖掘處理的一個重要組成部分,目標是根據已知樣本的某些特征,判斷新樣本屬于哪種已知的樣本類.科研工作者通常從預測精確度、計算復雜度、模型簡潔度對多種分類算法進行比較評價.Singh等[35]選擇了5種不同的軸向手性聯萘催化劑共368個不對稱氫化反應和一系列烯烴、亞胺作為訓練數據集生成了一個RF模型,如圖3(a)所示,選擇能夠共享等效或具有共同核心區域的反應參數作為輸入,以對映體過量百分率(ee%)作為輸出值,對輸入化合物進行分類,每種催化劑生成一棵DT,形成RF模型.與其他模型相比,RF模型得到了較高的精度,表明RF模型在識別不對稱催化反應時有良好的應用.Kang等[37]設計了一種RF模型用于預測分子的激發能量和相關振蕩器強度,首先使用RDkit工具包計算出分子的擴展連通性指紋(Extended-Connectivity Fingerprints,ECFP)、MACC鍵等分子描述符作為輸入數據生成許多DT模型,對所有DT的預測結果進行投票選擇評估,生成RF模型.該模型使用了近50萬個DFT數據進行訓練,實驗結果表明RF模型預測振蕩器強度和有機化合物最高強度躍遷激發能的精準度最佳.Li等[38]報道了一種物理有機特征描述符和RF相結合的模型(PhyOrg-RF),對雜環自由基C—H官能團的區域選擇性進行預測.在樣本外測試集中PhyOrg-RF模型實現了94.2%的位點預測精度和89.9%的選擇性預測精度,擁有較好的區域選擇性預測能力,使用其他已公開實驗數據進行測試驗證了PhyOrg-RF具有優異的泛化能力.Ahneman等[39]提出一種基于RF的預測鈀催化Buchwald-Hartwig胺化反應產率的模型,如圖3(b)所示.其中,10 mol%表示催化劑與反應物的物質的量之比為10%.通過高通量實驗生成 4 608 個反應數據,將簡單原子、分子和振動描述符作為訓練集進行模型訓練.該模型的測試集RMSE為7.8%,R2為0.92,該模型未曾出現過擬合現象,能夠以RMSE為11.3%、R2=0.83的精度成功預測反應產率.Tomberg等[16]選擇RF作為分類模型,判斷芳香類化合物的反應位點,與人工神經網絡(Artificial Neural Network, ANN) 、LR和SVM模型相比,RF不僅訓練時間短,而且正確率高達93%.Xu等[40]提出一種將過渡態知識模型與額外樹(Extra Tree, ET)模型相結合的方式,對鈀電催化C-H活化的對映選擇性預測.RF在一個隨機子集內得到最佳分類屬性,而ET完全隨機得到分類屬性,同時具有隨機性和最優性.

圖3 催化劑分類形成RF模型過程和RF作為比較模型的反應產率預測
神經網絡(Neural Network, NN)指包含多個閾值單元的多層網絡,每個閾值單元實現不同的簡單功能,將每個單元的結果進行匯總得到輸出結果,根據優化算法調節整個網絡的參數實現網絡最優.卷積神經網絡(Convolutional Neural Network, CNN)是將卷積核和NN相結合的一種算法.自LeCun等[41]提出LeNet-5多層ANN,CNN逐漸出現在人們視野.CNN由卷積層、池化層和全連接層組成,如圖4(a)所示.卷積層由卷積核組成,用于生成特征圖.根據下式可以求出第k層第n個特征圖中(i,j)處的特征向量:
(1)

CNN主要用于解決SL中的回歸問題.回歸問題研究的是自變量和多個變量之間的關系,用于處理離散型數據.NN受人類大腦的啟發,模仿生物神經元信號相互傳遞的方式,能夠無限逼近非線性模型,在化學合成領域有著出色的表現.首先,CNN借助共享卷積核的方式降低計算復雜度,可以快速處理高維化學數據.Hirohara等[47]設計一種SMILES字符串與CNN相結合的模型(SCFP),用于化學基序檢測.使用TOX21數據集中分子的SMILES字符串,將字符串輸入CNN中,其中卷積操作只在SMILES字符串的一個方向進行,如圖4(b)所示(k1和k2表示濾波器),由受試者工作特征及其曲線面積(ROC-AUC)進行評分.此模型還可以被視作一種分子指紋,在SR-MMP子數據集的化學空間中比ECFP分子指紋表達效果好.選取NR-AR子數據集進行化學基序分析成功檢測出一種類固醇樣化學基序.Wallach等[48]報道了一種基于CNN的模型AtomNet,預測藥物發現應用中小分子的生物活性.AtomNet有兩點優勢:①CNN的強制局部性與化學基團之間相互作用時產生的局部效應相吻合;②將有關配體的信息和相關目標結構的信息相結合,十分適合結構的親和力預測,并且選擇原子在靶位結合點的位置,能夠讓模型發現任意分子特征.選擇文檔理解數據集和評估(DUDE)基準的數據集,評估數據集的AUC及其對數值,AtomNet中 57.8%目標的AUC大于0.9.Hughes等[49]使用702個環氧化反應數據訓練了一種CNN模型,在環氧化位點識別上表現出0.949 的AUC結果,在區分環氧化分子上表現出0.793 的AUC結果.此網絡不僅能夠預測分子的環氧化作用,還能預測分子中的環氧化作用位點.該課題組還將類似的模型應用到了小分子與軟親核試劑的反應預測中,對是否能夠發生反應進行預測,準確率為80.6%,小分子反應位點的預測準確率達到了90.8%[50].
CNN不僅可以對高維數據進行快速降維,在圖像處理如圖譜分析方面也有不可比擬的優勢.Xing等[51]提出一種基于CNN的生物學驅動代謝組學習工作流程SteroidXtract,可實現在非靶向代謝組學數據集中對類固醇化合物二級質譜譜圖(MS2)的自動化快速索取.SteroidXtract是一種高靈敏度、高特異性提取類固醇化合物譜圖的工具,該方法不使用傳統統計驅動的代謝組學習數據處理過程,更加高效簡潔.Zheng等[52]借助CNN得到一種快速獲取高質量核磁共振純位移譜的新方法,如圖5所示.通過在實驗中引入指數采樣來加速PSYCHE純位移譜的獲取,使用CNN對欠采樣的圖譜進行重建,可以在低采樣率的情況下獲得干凈的純位移譜.卷積核的選擇對CNN算法的成敗有著關鍵作用,通常選擇大小為3×3,步長為1的卷積核.此外,也可根據實際應用進行調整,但需注意的是,卷積核尺寸越大、步長越大,得到的特征圖數量越少,提取出的特征數目越少,可能會影響后續預測的準確性.共享卷積核使得CNN算法復雜度大大降低,因此當處理大量高維數據時,推薦使用CNN算法.

圖5 CNN采集核磁共振純移位波譜[52]
幾何深度學習[53]的出現將NN模型擴展到了非歐氏空間.圖神經網絡(Graph Neural Network, GNN)是處理非歐氏空間數據的常用模型,能夠以遞歸形式合并鄰近節點的信息或消息,同時自然地捕獲圖形結構和節點特征[54].GNN通過圖節點之間的消息傳遞捕獲圖中重要信息, 查看相鄰節點上的信息來確定每個節點的最終狀態,以迭代方式傳播相鄰節點信息來學習目標節點的特征,直至到達穩定的固定點.簡單來講,GNN獲取信息的過程可以概括為:聚合—更新—循環,如圖6所示.首先使用某種方法對節點信息f1~f5進行表征描述,使每一個節點學習一個嵌入狀態,這個狀態用來產生所需要的輸出即更新后的節點信息f1,new~f5,new.給定節點和邊的特征即可不斷更新節點狀態并獲得最終輸出.當所有節點的狀態都趨于穩定狀態時,節點的狀態向量都包含了其鄰居節點和相連邊的信息,需要保證整個更新過程收斂.

圖6 GNN信息更新過程
GNN通過信息傳播機制不斷交換鄰域信息以達到更新節點狀態的目的.但GNN不能無限次更新節點的狀態向量,會出現過擬合現象.為解決該問題,2016年Li等[55]提出門控圖神經網絡(Gated Graph Neural Network, GGNN)算法.GGNN引入門控遞歸單元進行循環迭代,能在一定程度上防止過擬合現象.隨著NN的發展,Kipf等[56]提出圖卷積神經網絡(Graph Convolutional Neural Network, GCNN),GCNN使用NN作為更新函數,每層可以使用不同的更新函數,有效提高更新程度.
相比眾多算法的輸入數據形式,GNN的分子圖形式能夠在一定程度上減少化學數據特征的丟失.Duvenaud等[57]開發了一種基于GNN的神經圖指紋,采取可微操作代替圓形指紋的離散操作,單層NN取代哈希結構,具有以下優勢:①在溶解度、藥物功效、有機光伏效率等性能中比固定指紋好;②僅編碼能區分相關特征的部分,使用數據量少;③每個特征都可以被相似但不相同的分子片段激活,可解釋性強.Coley等[58]將預測反應物的性質看作基于圖的任務,輸入反應物分子的分子圖進行訓練,生成Weisfeiler-Lehman神經網絡(Weisfeiler-Lehman Netwrok, WLN),分析反應物圖并預測原子對更改每個新鍵序的可能性,準確率超過85.6%,每個反應耗時約100 ms.同時該課題組還選擇11位人類化學家與該模型進行對比,發現該模型非常適合用于尋找新分子.Saebi等[59]將化學反應表示為分子圖,用GNN和反應化合物的化學性質作為框架預測反應性能.輸入結構和空間特征獲得產量分數,取分數的平均值來生成反應產量預測.驗證Suzuki-Miyaura數據集得到的R2為0.962±0.010.
分子圖表示形式有兩個關鍵優勢是旋轉不變性和平移不變性,在化學合成領域中可以加速計算模型的建立.化學中的計算模型旨在使用基于量子化學的計算來確定給定分子系統的性質和行為[60].Roszak 等[61]開發了一個基于GCNN的酸解離常數(pKa)預測器,實現了在毫秒級時間內準確預測C—H酸的pKa,對13 000個反應的預測達到了90%以上的正確率.直接使用節點嵌入預測pKa所有原子的值進而尋找分子中酸性最強的質子.GCNN可以提供快速準確的原子特異性特征預測.該GCNN模型還在其他實例中展示出90%的預測反應位點正確率,顯示出其在合成規劃中的潛在應用.Wen等[62]設計了BondNet模型,用GNN預測鍵離解能,在自行構造的中性和帶電荷分子的均溶、異溶鍵離解能數據集和PubChem的數據集上,MAE分別為0.022、0.020 eV,顯著低于化學精度 0.043 eV.Grambow等[63]開發了一個基于GNN的模型來預測給定的反應物活化能,并在一個新的、不同的氣相量子化學反應數據集上訓練該模型,結果表明該模型實現了準確的預測并且符合對化學反應性的直觀理解.
UL常用于特征處理,將高維特征進行降維,如主成分分析法(Principal Component Analysis, PCA)[64]對初始特征線性組合生成新特征,將不相關的新特征按方差進行遞減排序,減少特征數量從而加快ML模型建立.Zahrt等[64]采用PCA對數據進行降維,對化合物的高維空間進行降維,保留使數據方差最大化的新維度,選擇代表性子集進行相關預測分析.
RL在逆合成設計中采取不確定性下的決策,不僅比傳統方法處理速度快,而且置信度更高.RL通常以馬爾可夫決策過程為框架[65],獎勵函數為核心,獎勵函數決定了主體通過動作學習實現的目標.獎勵函數可以是離散的也可以是連續的.Segler等[66]設計了一種將蒙特卡洛樹和NN相結合的逆合成分析方法,由計算機輔助合成設計程序(Computer-Aided Synthetic Planning, CASP)生成合成路線,使用蒙特卡洛樹和3個不同的NN進行搜索.從目標分子開始,選擇樹中最有可能的下一個位置,直至到達葉節點.通過擴展策略預測可能出現的葉節點的子節點,并將其添加在樹中,對推出過程進行評估.結果的位置值表示RL更新其樹搜索策略所需要的獎勵,找到解決方案會收到獎勵,找到部分解決方案會收到部分獎勵,未找到方案則會收到懲罰.不斷迭代更新直到達到最大的時間或迭代次數,通過選擇具有最高位置值的斷開路徑來決定最終的合成路線,具體搜索過程如圖7所示,包括選擇最可能的位置、使用擴展程序對節點進行擴展、選擇評估新節點和更新4個階段,其中T1~Tn為所有可能的概率分布,R1~Rk表示完整的反應物.

圖7 蒙特卡洛樹搜索的4個階段[66]
數據集質量直接決定了ML模型訓練的成敗,構建大型數據集是一個耗時且費力的過程,因此這些數據集的共享訪問對整個化學界都很重要.尋找化學數據之間客觀聯系的前提是擁有足夠量的數據,但化學數據并非像圖像數據一樣簡單易得且具有良好的通用性.數據量不足很容易導致ML訓練失敗,無法產生所需結果.在化學合成領域中底物和催化劑的微小改變都會導致合成產物的不同,因此有效數據少之又少.當前開源化學數據集涵蓋的化學類型不多、配體種類并不全面,如廣泛應用于圖像處理領域的ImageNet數據庫[67]和涵蓋諸多量子化學、物理化學信息數據的MoleculeNet數據庫[68],以及收集了大量小分子化合物量化信息的GDB-17[69]及其子庫QM8、QM9等,在模型訓練方面均具有顯著的成效.獲得大量高質量數據,建立完備數據集才有可能最大限度地發揮ML在化學領域的潛力.特別是DeepChem、SchNetPack[70]等軟件的發展,解決高質量數據的問題與計算化學軟件包的發展息息相關.
如今,ML對反應優化、分子合成、機理探索等方面有著不容小覷的影響.但掌握影響ML結果的因素依舊很困難.在進行ML研究時,必須考慮3個關鍵因素[71]:數據、表示和算法.建立一套客觀評價ML的標準是必要的.通過至少一組指標來評估模型,能夠進一步促進ML在化學合成領域的發展,縮小ML在化學合成及表征領域的溝通代溝.例如,文獻[72]中給出了較為可行的方法來比較不同工具對高質量化學數據的準確性.模型評估標準越統一,模型可解釋性越強,更有利于業內外人士進行交流.
長期以來,ML模型復雜度已從線性上升到ANN.ML在化學合成領域應用更廣泛是因為可以借助高通量實驗或模擬研究等方式獲得大量數據,輔助化學家進行產物、產率的預測,減少人力、物力的投入.然而,ML在化學合成中的應用仍然有限.雖然當前NN算法可以無限逼近非線性模型,但需要大量訓練數據作為支撐,并且它能處理的數據空間有限,無法在廣闊的化學空間中做到處處預測精準.一種模型有時只能針對一種特定的化學反應,在一些實際應用中并不能尋找到最佳決策.因此,增強ML模型在化學合成領域的通用性是當務之急.ML自身的可解釋性不強導致研究者需要基于化學知識對模型輸出結果進行解釋,但有時仍會出現不具有物理意義的結果.增強模型的可解釋性既可以幫助研究者更好理解模型的輸出和實際意義,也能幫助研究者更快掌握模型相關信息.
在化學合成領域中,ML特別是SL一直使用黑盒方法,但黑盒方法在可解釋性、通用性、可靠性方面存在缺陷.這些缺陷很有可能會限制ML的應用,有時甚至產生錯誤的預測結果.ML與化學實驗相結合有望生成具有更好可解釋性、更高預測精度、更強通用性的模型.經過化學實驗驗證能夠及時修改訓練模型中的參數設置,以期達到最佳預測結果.
欲使ML方法預測的準確性得到進一步提高,分子描述符轉換時要盡可能減少有效特征損失.描述符對ML的重要性不言而喻,目前建立描述符的方式共有4種:① 使用已有的SMILES字符串、分子指紋、分子圖等;② 借助Python工具包生成描述符,RDkit是常用的工具包,包含分子指紋及其相關性的計算、分子三維表示等模塊;③ 使用Gaussian等量子化學軟件進行DFT計算,計算分子物理化學性質,將物理化學性質進行組合生成描述符;④ 根據反應特點,自行建立描述符. 現在已有的描述符生成方式均基于化學知識生成,如Zahrt等[64]提出一種平均空間占有率的描述符,分析不同催化劑在空間中的分布,有利于后續催化劑篩選.有效的描述符能夠在數據集較小的情況下獲得相對較好的預測結果.未來,研究者可以改進用于獲得描述符的計算方法,采取半經驗方法快捷、高效地生成高質量描述符;或許還可以將化學知識與ML相結合以及將基于化學知識的模型和數據驅動模型相結合生成描述符.
在ML領域,一個基本的定理為“沒有免費的午餐”.換言之,沒有一種算法可以完美地解決所有問題,尤其是對于SL的算法而言,如NN算法不是在任何情況下都比RF算法有優勢,反之亦然.數據集的形式或規模都會對算法產生影響,因此,科研工作者應當根據實際需求選擇合適的算法,即選擇正確的ML任務.不同ML算法的使用范圍和應用示例如表2所示.未來,期望ML算法能夠增強其通用性和可解釋性.

表2 ML在化學合成及表征領域的應用
ML強大的數據處理能力為人們提供了一條更好理解分子性質、結構的新途徑,在化學領域中得到了廣泛應用.在不久的將來, ML算法的快速發展無疑將擴大可用于解決典型化學任務數據處理方法的儲備.目前在化學合成及表征領域,并不存在通用性好、可解釋性強、精度高的模型.無論ML模型效果多么優異,它只能提供相關性,并沒有因果關系.為解決上述問題,每個ML模型特別是需要借此得出結論的,均需要相關化學知識進行嚴格驗證,確保模型沒有出現過擬合等不良現象.如今,ML在化學合成及表征領域應用廣泛,但如何增強模型通用性、建立模型評估標準、完備開源數據集、將ML與實驗相結合以及尋找更好的描述符仍是ML在化學合成及表征領域未來發展的重大挑戰.未來,ML在化學研究中的應用會持續增加,化學工作者有必要了解相關模型背后的理論框架,找到ML和化學知識之間的交叉融合點.相信在不久的未來,以ML為代表的AI技術的引入和貫通應用將對化學合成及表征領域的發展做出不可磨滅的貢獻.