999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于小數據集的機器學習預測酰胺鍵合成轉化率

2025-02-20 00:00:00李興海吳志森張利靜陶勝洋
物理化學學報 2025年2期
關鍵詞:機器學習

關鍵詞:酰胺鍵合成;機器學習;特征描述符;隨機森林算法;小數據集

1 引言

隨著人工智能算法的快速發展,機器學習(ML)正在成為一項日益重要的數字技術1。目前,ML在多個領域得到廣泛應用,特別是在自然語言處理2、醫療診斷3、人臉識別4等方面。近年來,ML在化學領域取得了顯著成就,涵蓋化學反應預測5、逆合成分析6、理論化學計算7和藥物發現8等。例如,Doyle等人9成功訓練了一個隨機森林模型,用于準確預測Buchwald-Hartwig偶聯反應的產率。Norquist等人10使用支持向量機模型在預測釩硒酸鹽晶體制備方面取得了89%的成功率。Grzybowski等人11通過圖卷積神經網絡在毫秒時間尺度上準確預測了C―H酸的pKa值。此外,Jensen等人12采用神經網絡模型篩選化學環境(溶劑、反應物和催化劑)和反應溫度。Denmark等人13使用支持向量機和深度前饋神經網絡算法預測了手性磷酸催化的硫醇與亞胺加成反應的選擇性。此外,Sigman等人14提出了一種數據驅動的工作流程,用于建立預測不對稱催化中對映選擇性的統計模型。這些研究凸顯了ML在合成化學中的關鍵作用。

然而,利用ML預測有機合成過程遇到了各種挑戰。要獲得高度準確的預測結果,通常需要大量數據集用于訓練和測試,有時包括數十萬甚至數百萬的樣本數據。例如,Waller等人5,15基于從Reaxys數據庫收集的350萬條反應數據訓練了一個深度神經網絡模型。Coley等人16使用數百萬條美國專利和Reaxys數據庫的反應數據來訓練人工智能算法。盡管實驗獲得的數據能夠提高準確性和可信度,但快速收集大量準確和有效的數據仍然具有挑戰性。例如,默克制藥公司需要使用專業的高通量反應器和眾多UPLC-MS,才能在一天內完成1536個Buchwald-Hartwig偶聯反應17。

在分子生物學和藥物合成領域,各種高質量和低成本的高通量實驗(HTE)技術在過去十年中已被廣泛采用18–20。例如,在生物化學領域廣泛使用的低成本聚丙烯96孔板,可以耐受各種溶劑并有助于多個反應的篩選。然而,在有限的時間內篩選數萬個反應條件對研究人員來說仍然是一個重大挑戰。因此,為了獲得相對準確預測結果,使用有限的數據集進行ML成為了必要選擇。

在本研究中,我們通過芳香胺與羧酸的反應,結合高通量實驗和ML技術來預測其生成酰胺的轉化率。酰胺鍵在眾多藥物化合物中普遍存在21–23,2017年新批準的藥物中有60%的分子結構中含有酰胺鍵24。一些抗新冠藥物分子,如奈瑪特韋、莫諾拉韋和阿茲夫定,也都含有酰胺鍵25,26。然而,酰胺合成反應仍然面臨著諸多挑戰,包括高生產成本、有限的原子利用率以及多變的反應條件27,28。預測影響酰胺合成的關鍵因素具有重要意義。

本研究在確保反應的摩爾濃度和當量比等條件一致的情況下,采用96孔板進行高通量實驗,以研究芳香胺和羧酸在不同偶聯劑和溶劑條件下的反應結果。獲得了包含1152個反應的小數據集,并成功使用隨機森林算法分析出反應過程中最具影響力的因素。通過小規模地合理調整訓練集,可以顯著提高ML在預測未知芳香胺轉化率方面的準確性,從而能夠通過相對較少的實驗樣本預測未知反應。

2 實驗部分

2.1 高通量實驗采集數據

數據集的質量是影響ML算法分析準確性的關鍵因素。為了獲取酰胺合成反應的實驗數據,我們采用了高通量實驗,來減少文獻數據中不一致的實驗當量比和不同實驗環境對ML模型帶來的潛在系統誤差。在整個實驗過程中,使用96孔聚丙烯(PP)板進行芳香胺和有機酸的酰胺合成。PP對常見的有機溶劑和化學品具有耐受性,為高通量商業反應器提供了一個經濟的替代方案。這顯著降低了高通量實驗的成本。每個孔中可容納約500μL的反應液,從而顯著降低了試劑消耗、成本和對環境的影響。

在酰胺鍵合成中,偶聯試劑、溶劑、反應物的分子結構、酸度等多個因素都起著重要作用。在制藥行業,許多酰胺化反應是在室溫下進行的。因此,我們選擇了活化羧酸的偶聯試劑與芳香胺在室溫下的反應作為ML的測試反應,以研究影響酰胺鍵合成的因素。如圖1A所示,進行了涉及9種芳香胺、12種有機酸、4種有機溶劑、4種偶聯試劑和1種堿性添加劑的微摩爾級高通量酰胺化反應。為了直觀得獲取酰胺合成反應的結果,采用高效液相色譜法測定芳香胺的轉化率。在整個實驗過程中,使用了十二個96孔板來進行1152個反應,包括1039個反應數據和113個未檢測到轉化的結果。反應數據在圖1B中以熱圖形式展示,其中每個方格對應一個單獨的反應條件,結果基于芳香胺的轉化率繪制并以不同顏色顯示,以便進行簡單直觀的比較。整個數據收集過程使用了11.8 g的反應物和5004 mL的溶劑,成本不到600美元(參見補充材料中的表S1)。

2.2 利用DFT提取特征描述符

描述符是ML的基礎,精確確定并選擇與研究對象相關的描述符十分必要29。接下來,我們專注于選擇適當的描述符。使用密度泛函理論(DFT)方法計算的分子描述符為探索化學反應機理提供了寶貴的見解。例如,Aydogdu等人30使用DFT方法計算了磺胺(SAs)的電子性質、全局描述符和局部描述符,確定了SAs與羥基自由基之間的反應機理。Ma等人31將DFT與機器學習相結合,預測銅催化的P―H插入反應中的過渡態和產率。各種量子化學計算程序產生多樣的分子描述符,包括偶極矩、溶解度和軌道能級等32,33。受Doyle等人9的工作和在線教程34的啟發,我們使用Spartan中的DFT、頻率和性質計算,結合Python腳本程序,計算和提取了酰胺合成反應參與物的特征描述符。該軟件計算了與反應相關的分子、原子和振動性質,并生成了包含描述符和轉化率的建模數據表。在選擇振動描述符時,我們考慮了不同原子的運動差異,將每個原子的運動乘以其原子質量,以強調重量在振動中的重要性。然后使用皮爾遜相關系數來確定需要提取和保留的振動向量。在本研究中,僅考慮R2 gt; 0.5且值大于同行同列中任何其他條目的振動模式作為匹配振動,最終被納入建模數據表。提取的與該反應系統相關的描述符總計76個,用于表征每個反應。圖2A說明了芳香胺分子的操作提取過程。補充材料中的第III部分和第IV部分的圖S2、S3提供了詳細的操作過程描述。分子描述符包括軌道能量(EHOMO和ELUMO)、電負性、偶極矩、橢圓度、表面積等。原子描述符包括原子的靜電荷和核磁共振(NMR)位移。振動描述符包括振動頻率和強度。具體而言,芳香胺有30個描述符,羧酸有21個,偶聯試劑有10個,有機溶劑有15個。

2.3 數據歸一化

由于描述符的多樣性,每個描述符采用的評價指標不同,導致描述符量級差異較大。這種差異性在ML模型訓練過程中會顯著影響不同描述符的參數權重設置,較大的值往往占主導地位。因此,在訓練ML模型之前,有必要對輸入數據進行歸一化,確保所有數據分布在[?1, 1]范圍內。這種歸一化使輸入數據處于相同的量級,減輕了異常值的影響。在對輸入數據進行歸一化后,將代表轉化率的輸出數據納入數據矩陣。隨后剔除存在缺失值的行和列,生成用于ML模型訓練的數據集,如圖2B所示。

2.4 數據集劃分

與先前報道的工作相比,本研究中的轉化率數據是在嚴格調控反應條件下通過實驗獲得的,確保了高度的可靠性。然而,1152個反應條目的數據集是相對有限的;因此,在這些限制條件下開發一個有效的ML模型變得至關重要。對于機器學習模型訓練,我們利用獲得的1152個數據點(圖1B)進行訓練和驗證。最初,我們采用標準ML模型訓練方法。第一組數據被隨機分為70%的訓練集和30%的測試集。描述符作為輸入值,而反應轉化率作為輸出值。矩陣的每一行對應一個反應樣本,每一列代表樣本的特定特征或結果標記。在ML模型的輸入和輸出值之間建立了映射關系,以便可以訓練模型并獲得最優模型。隨后基于最佳模型對未知樣本的反應性能進行預測。圖2C說明了建立映射關系和預測未知樣本的基礎ML流程。

2.5 模型訓練與評估

本研究使用R語言進行ML模型訓練和性能評估,選擇了六種算法用于ML模型訓練:線性回歸、k近鄰(kNN)、支持向量機(SVM)、貝葉斯廣義線性模型(GLM)、神經網絡和隨機森林。這些算法在化學合成的ML建模中經常被使用,并展示出了顯著的預測能力9。在訓練過程中,采用十折交叉驗證方法35來提高模型的預測性能。使用決定系數(R2) 36和均方根誤差(RMSE) 37來評估模型性能。通常情況下,具有高R2和低RMSE的ML模型被認為具有優秀的預測性能。經過訓練后,六種算法模型對測試集展現出了不同的預測結果。

3 結果與討論

圖3A說明了線性回歸、貝葉斯GLM和SVM展現出相似的預測性能,R2值約為0.8,RMSE值約為12。相比之下,神經網絡和k近鄰產生了更準確的預測,R2值高達0.9,RMSE值低至8.5。值得注意的是,隨機森林算法展現出優越的預測性能,擁有0.95的R2值和6.15的RMSE值。與kNN相比,隨機森林表現出更好的不平衡數據處理能力和更強的適應性,且不太容易過擬合。多重隨機抽樣方法可能促成了隨機森林模型的優越性,該方法能夠構建多個決策樹模型。通過匯集多個低精度決策樹模型的預測結果,更全面地識別了關鍵描述符,消除了干擾信息的影響,從而產生了具有強大泛化能力的模型。

隨后, 使用不同比例的第一組反應數據(2.5%、5%、10%、20%、30%、50%、70%、80%和90%)作為訓練集來訓練隨機森林模型。如圖3B所示,分別獲得了不同比例下預測性能的評估結果。隨機森林模型即使在訓練樣本較小的情況下也表現出優秀的預測性能。與圖3A中其他模型的訓練結果相比,隨機森林模型僅使用20%的反應數據進行訓練就實現了0.92 的R2值和低至8.55 的RMSE值。這優于使用70%數據訓練的線性回歸、貝葉斯GLM、SVM、kNN和神經網絡模型。值得注意的是,20%的數據集僅包含230個實驗,表明隨機森林模型可以在小規模數據集上實現可靠的預測精度。因此,隨機森林模型對于常規反應優化和底物篩選是可行且有利的。

鑒于隨機森林模型表現出優異的預測性能,我們使用R語言中的隨機森林工具包評估了構建模型的描述符的相對重要性。該模塊在訓練隨機森林模型后確定了特定特征描述符對預測芳香族胺轉化率的相對重要性。描述符重要性通過隨機擾亂描述符值并重新訓練模型時模型均方誤差(MSE)的增加百分比來衡量。圖4A基于MSE的百分比增加展示了訓練后隨機森林模型的前11個關鍵描述符。MSE增加越大,表明該描述符在模型構建過程中越重要。

圖4A表明,芳香胺、羧酸和有機溶劑的描述符對酰胺反應的轉化率有較大的影響。預測反應結果的前六個重要描述符是芳香胺分子的*N1靜電荷和振動強度、有機溶劑的偶極矩和*C2核磁共振位移,以及有機羧酸的EHOMO和橢圓度。先前的研究表明,芳香胺上的取代基類型和有機溶劑的極性對酰胺反應的轉化率有顯著影響38–41。帶有給電子基團的芳香胺通常表現出比帶有吸電子基團的芳香胺更高的反應活性,有利于酰胺鍵的形成。極性較大的有機溶劑更有利于合成酰胺鍵。在羧酸中,脂肪酸比芳香酸更容易形成酰胺鍵,這主要是因為較大的空間位阻效應不利于酰胺合成反應。

利用重要性分析的結果和我們對酰胺合成的認識,我們從芳香胺、羧酸和有機溶劑中選擇了代表性的反應分子。結合這些分子與模型的描述符進行詳細分析。圖4B說明了芳香胺上不同取代基如何影響氨基的*N1靜電荷和芳香胺分子的振動強度。六個描述符的具體數值是通過量化計算得出的。例如,含有給電子基團的間甲苯胺的*N1靜電荷從?0.829增加到?0.837。根據這些數值,芳香胺分子的V6振動強度減少了0.679,這提高了底物的反應活性并促進了酰胺鍵的形成。結合HTE的數據發現,有機溶劑的極性(可通過偶極矩和*C2核磁共振位移推測)隨著偶極矩和*C2核磁共振位移的增加而促進酰胺鍵的形成。諸如脂肪酸和芳香酸,不同結構的羧酸的橢圓度和EHOMO是影響酰胺鍵形成的因素??傮w而言,該模型產生了相對準確和可靠的分析結果。

為了提高機器學習模型的可解釋性,采用了沙普利可加性特征解釋方法(SHAP)和累積局部效應(ALE)方法來分析所選擇的特征描述符(詳細結果可在圖S4、S5中找到)。SHAP圖表明,對酰胺鍵合成影響較大的特征描述符主要是芳香胺分子的*N1靜電荷和振動強度,以及偶聯試劑上的橢圓度和靜電荷。在ALE圖中,影響較大的特征描述符包括芳香胺分子的*N1靜電荷、振動強度和頻率、胺的EHOMO、偶聯試劑的表面積和偶聯試劑分子的體積。這些結果表明,這兩種方法在解釋特征描述符重要性方面與R語言的重要性分析相當,從而驗證了R語言分析結果的可靠性。描述符的相對重要性在識別影響酰胺鍵合成轉化率的關鍵因素方面證明是有用的,為篩選反應條件和討論反應機理提供了重要指導。

基于隨機森林模型及其重要性分析結果,我們旨在使用九種已知芳香胺的反應數據來對未知芳香胺進行預測(圖5)?;诮Y構相似性,選擇了對碘苯胺、對甲苯胺和對氯苯胺作為未知芳香胺(如圖5B所示)。為了獲得隨機森林模型的預測值對應的觀測值,使用四個96孔板進行了總共336個反應,包括316個反應數據點和20個未檢測到轉化率的數據(如圖5B所示)。

預測結果如圖6A (a–c)所示。然而,隨機森林模型對這三種未知芳香胺的轉化率預測并未提供有效的結果。盡管模型對對甲苯胺的預測達到了0.85的高R2值,但RMSE值顯著偏高,為29.32 (圖6A-b)。觀測值與預測值的對比圖顯示所有數據點都位于對角線之上,表明模型對反應轉化率的預測往往低于觀測結果??偟膩碚f,這表明模型在預測反應轉化率時存在顯著誤差。

造成這個結果的因素可能有多個:(1)與其他使用數千或數萬個數據點的研究相比,用于模型訓練的數據量相對有限。僅使用1152個數據點的本研究仍存在巨大的數據缺口。(2)酰胺鍵合成反應的原理可能并不完全遵循相似性原理;不同分子表現出不同的化學活性,即使結構相似的分子在特定反應中也可能表現不同。(3)胺化反應涉及多個參與者,影響芳香胺轉化的因素又多種多樣,不同因素之間可能存在協同效應。因此,分別分析單個因素對轉化率的影響可能會導致一些反應信息的丟失。(4)人為因素可能影響實驗過程。用于構建ML模型的描述符描述了“純化學”信息,如反應物、偶聯試劑、有機溶劑等的結構性質、電荷信息和振動頻率等。ML在預測“純化學”問題方面表現出色。然而,實驗室通常會基于經驗或傳統,在試劑/溶劑的使用方式和典型反應條件的選擇上形成一定的習慣和偏好。這些習慣和偏好有時難以量化為各種“描述符”。

在短時間內快速將實驗數據增加到數萬個會顯著增加研究的時間和經濟成本。為了應對這些挑戰并在不顯著增加實驗數據的情況下提高模型預測準確性,我們嘗試調整數據集的分布。我們將三種未知芳香胺與六種脂肪酸的反應數據添加到訓練集中進行模型訓練,然后使用該模型來預測它們與六種芳香族羧酸的反應。圖6A (d–f)所示的結果表明,這三種芳香胺的R2值均大于0.8,平均值為0.853,RMSE顯著低于之前的結果,平均值為8.3。這表明預測結果有了實質性的改進。類似地,我們嘗試使用未知芳香胺與芳香族羧酸的反應數據來預測它們與脂肪酸的反應性能,這也產生了良好的預測結果,平均R2值為0.887,平均RMSE值為11.63 (圖S6)??偟膩碚f,這兩種處理方法都能提高ML模型的預測準確性,表明將一些與未知分子相關的反應數據添加到訓練集中對提高目標反應的預測準確性至關重要。

為了進一步證實調整訓練集能提高對未知胺分子的預測準確性,采用了獨熱編碼(one-hotencoding)方法進行模型訓練和優化。使用獨熱編碼對四種未知胺的預測評估的平均結果為R2 =0.84,RMSE = 11.48 (圖7A),這一結果與使用基于DFT的分子描述符獲得的結果非常相似(R2 =0.85,RMSE = 8.3)。這表明無論是使用DFT還是獨熱編碼進行調整訓練集,特別是加入未知胺的數據,都能顯著提高模型的預測能力。此外,用于轉化率預測的混合訓練方法(one-hot/DFT-mixing)獲得了平均R2 = 0.86和RMSE = 7.88 (圖7B),這與完全使用基于DFT的分子描述符的性能非常接近,沒有顯著差異,詳細結果可在圖S7中找到。這些結果表明,盡管數據集僅有1152個數據點,未知胺分子的信息對模型預測結果有實質性影響。從實際角度來看,在目標反應的合成過程中,反應體系并非完全是黑箱,納入一些已知信息(如初始原料或目標產物等)可以顯著減少機器學習預測所需的數據量,這對指導有機合成反應具有實際意義。

在訓練數據集方面,我們嘗試在隨機森林模型訓練集中包含芳香胺與不同數量脂肪酸的反應數據,然后使用訓練好的模型來預測三種芳香胺分子與六種芳香族羧酸的反應。如圖6B所示,當添加兩種或更多脂肪酸時,改善效果相對更為顯著。對于添加到訓練集中的兩種脂肪酸,共15種組合,通過將未知芳香胺分子與兩種脂肪酸的反應數據納入訓練集,觀察到R2顯著提升和RMSE的降低(具體信息可在表S2中找到)。隨著訓練集中數據量的增加,R2逐漸提高,RMSE逐漸降低,隨機森林模型的預測性能穩步提升。盡管基于小樣本數據集的隨機森林模型在預測未知反應的轉化率方面存在局限性,但通過添加少量相關分子反應數據,其性能可以顯著提升,使其達到可接受范圍。這種方法僅需要二到三種簡單反應物就能產生數據集,對于預測大量未知反應具有重要意義,可以顯著減少實驗工作量,加快反應研究的進展。

4 結論

通過構建包含1152個數據點的數據集,證明了基于機器學習預測酰胺鍵合成中反應轉化率的可行性。采用六種不同的機器學習算法進行模型訓練,其中隨機森林算法表現出最優異的預測性能,R2值超過0.95。通過適當調整訓練集數據,實現對未知芳香胺反應轉化率的有效預測。對比使用不同分子描述符(如DFT和獨熱編碼)訓練的模型分析表明,在少于2000個數據的小數據集條件下,調整訓練集組成能有效提升機器學習的預測性能。這為機器學習在關鍵分子合成領域的廣泛應用提供了一種新策略。

猜你喜歡
機器學習
基于詞典與機器學習的中文微博情感分析
基于網絡搜索數據的平遙旅游客流量預測分析
時代金融(2016年27期)2016-11-25 17:51:36
前綴字母為特征在維吾爾語文本情感分類中的研究
科教導刊(2016年26期)2016-11-15 20:19:33
下一代廣播電視網中“人工智能”的應用
活力(2016年8期)2016-11-12 17:30:08
基于支持向量機的金融數據分析研究
基于Spark的大數據計算模型
基于樸素貝葉斯算法的垃圾短信智能識別系統
基于圖的半監督學習方法綜述
機器學習理論在高中自主學習中的應用
極限學習機在圖像分割中的應用
主站蜘蛛池模板: 国产成人无码综合亚洲日韩不卡| 亚洲欧美日本国产专区一区| 动漫精品中文字幕无码| 亚洲人视频在线观看| 国产www网站| 国产成人综合亚洲欧美在| 日韩黄色精品| 精品伊人久久久香线蕉| 狠狠做深爱婷婷久久一区| 亚洲美女一级毛片| 国产精品冒白浆免费视频| 欧美亚洲另类在线观看| 3p叠罗汉国产精品久久| 欧美翘臀一区二区三区| 99这里只有精品6| 久久黄色视频影| 亚洲AV无码精品无码久久蜜桃| 欧美高清日韩| 日韩高清成人| 欧美性久久久久| 欧美黄网站免费观看| 成人午夜久久| 亚洲人妖在线| 欧美笫一页| 毛片卡一卡二| 99视频全部免费| 毛片基地视频| 欧美亚洲第一页| 91黄视频在线观看| 黑色丝袜高跟国产在线91| 免费xxxxx在线观看网站| 国产在线麻豆波多野结衣| 国产一在线观看| 亚洲一区二区三区在线视频| 国产va欧美va在线观看| 亚洲日韩精品伊甸| 国产免费看久久久| 九月婷婷亚洲综合在线| 青青青草国产| 国产一级裸网站| 国产欧美精品午夜在线播放| 啪啪啪亚洲无码| 自拍中文字幕| 成人亚洲视频| 高清码无在线看| jizz亚洲高清在线观看| 免费人成视网站在线不卡| 久久综合伊人 六十路| 第一页亚洲| 国产在线高清一级毛片| 国产欧美亚洲精品第3页在线| 777国产精品永久免费观看| 午夜福利网址| 久久久久久久久久国产精品| 人妻丰满熟妇av五码区| 色悠久久久久久久综合网伊人| 中国毛片网| 欧洲高清无码在线| 国产成人做受免费视频| 婷五月综合| 免费又爽又刺激高潮网址 | 成人精品免费视频| 亚洲人成影院午夜网站| 激情無極限的亚洲一区免费| 亚洲最新网址| 亚洲第一视频免费在线| 精品国产aⅴ一区二区三区| 亚洲福利片无码最新在线播放 | 亚洲AⅤ永久无码精品毛片| 黄色污网站在线观看| 国产一级毛片网站| 亚洲国产精品VA在线看黑人| 91久久夜色精品国产网站| 国产欧美亚洲精品第3页在线| 久久综合国产乱子免费| 中文字幕永久在线看| 亚洲αv毛片| 综合色天天| 国产又色又爽又黄| 666精品国产精品亚洲| 狠狠色综合久久狠狠色综合| 欧美伦理一区|