王濤
(淄博新華-百利高制藥有限責任公司,山東 淄博 255005)
離子液體因其迷人的特性而受到工業界和學術界越來越多的關注,2022年有7 685篇關于離子液體的文章出版(數據來自Web of Science)。離子液體是一種低溫溶解的熔鹽,完全由離子組成。第一代離子液體最初是由Paul Walden報道的硝酸乙酯銨。然而,由于其不穩定和爆炸性的缺點,并沒有引起人們的注意。1982年,Wilkes等人[1]使用氯化鋁和1-甲基-3-乙基咪唑合成了一種低黏度和極高電導率的室溫離子液體。但由于其在空氣中易水解,其實際應用有限。1992年Wilkes[2]合成了一種名為1-乙基-3-甲基咪唑四氟硼酸鹽的離子液體([Emim][BF4]),其化學活性很低,可以長時間存在于水和空氣中不發生變質。此后,又有很多特殊性質的離子液體問世,并應用于電化學、液-液平衡、有機合成和催化反應。僅經過20多年,離子液體就從最初發現到現在成為一個重要的科學研究領域,這表明越來越多的研究者對離子液體感興趣。此外,不同科研領域之間的合作也促進了科學家對離子液體特殊性質的研究,包括材料、化學和環境科學。根據不同陰陽離子的結合使得離子液體的結構可以設計,結果上也表現出相差較大的性質和特點,包括黏度、密度、電導率、溶解性、毒性等。理論上,離子液體的種類可以達到千種以上,其中包括一些二元和三元系統。因此,離子液體在不同的應用場景中可以發揮不同的作用,可以根據具體的應用場景設計或調整合適的備選離子液體。
為了理解這種作用和復雜現象,科學家們通過結構-性能關系以及實驗和理論計算方法的緊密結合揭示了潛在的規則。當人們談到離子液體的結構會對其性質造成一定的影響時,通常的研究和理解是通過反復實驗對離子液體進行概念化,并利用研究人員的經驗知識來獲得其性質。制備一些同源離子液體來驗證某種結構或官能團的可能性質,并通過每次實驗的反饋獲得一定的經驗知識。然而,大量的實驗不僅十分耗時,而且由于實驗誤差或人為因素而帶來很大的干擾。因此,如何使預測方法變得簡單而高效是尤為重要的。
早期的結構-性能關系主要用于一些藥物的研究,離子液體的定量結構-性能關系模型研究主要認為陰離子或陽離子的作用通常轉化為離子液體的相應物理性質。離子液體的“血緣”決定其具有不同的性質。根據它們不同的家族,可以尋找一些特定的離子液體個體,如“低熔點”和“寬化學窗口”。然而,僅僅依靠這些來深入了解離子液體的性質是遠遠不夠的。通過將特定結構與精確的屬性結果相關聯以創建數學模型來研究結構-性能關系是一個計算上具有挑戰性的領域。定量結構-性質相關性的研究已廣泛應用于離子液體各種性質預測的研究。定量結構-性能相關性的研究主要是找出離子液體的結構特性與性質之間的關系。通過這種關系可以反轉計算機設計。結構-性能關系已成功應用于離子液體活性系數、熔點、黏度、溶解度和電導率的計算和預測。宏觀性質與微觀結構之間的內在關系可以通過理論上的微觀結構的計算和分析得到。結構-性能關系的獨特性質和結構特性使得設計目標離子液體成為可能。一些典型的熱力學是宏觀經驗方法,可用于研究大結構方向的離子液體。結構-性能關系方法可以處理大量數據,可用于篩選大量可能的離子液體結構,也有望成為目標離子液體的計算機逆向設計的有力工具。而量子力學、分子力學等方法可以深入探索其內在規律。分子動力學可以在動力學方面對其理化性質進行更高程度的研究,特別是在一定研究的基礎上做有針對性的、具體性質的綜合研究。
機器學習(ML)方法廣泛用于化學發現和分子從頭設計,可以發現分子合成空間,可以幫助研究人員從龐大的數據統計中找到最優的合成路徑,指導他們的科學研究。在過去的一段時間里,ML已被用于離子液體性質的預測和一些適合特定過程的離子液體設計。圖1顯示了通過機器學習預測離子液體特性的過程。
圖1 用于預測離子液體特性的機器學習路線圖
分子結構建模是定量構效關系研究中必不可少的關鍵步驟。該模型中使用的分子描述符決定了研究某些定量構效關系的可能性和成功率。如今,存在大量不同的描述符系統來準確“刻畫”分子結構。分子描述符是數學思維和邏輯思考過程相互關聯的結果,它將化學分子符號轉變成計算機可識別的、有規律可循的數字演示結果,為了將數據科學應用于化學分子的表征,計算機必須理解分子結構編碼的信息。分子的輸入和處理通常基于字符串,例如SMILES,InChI和SMARTS。
物理化學描述符是用于表示物質的化學和物理性質的參數。分子描述符,分子的數值表示,定量描述相應的物理和化學性質。因此,研究人員可以根據分子描述符值的相似性來探索具有相似化學和物理性質的分子。描述符可分為基于物理或基于信息。基于物理的參數與實驗推導的參數配對,具有可解釋的優點,使化學家能夠直觀地從模型中獲取額外的物理信息。要計算與靜電勢相關的描述符,第一步是優化分子結構。分子表面的靜電勢與分子之間的靜電相互作用特別密切相關。
與分子結構相關的描述符是根據分子中原子的三維坐標計算的。這些描述符具有豐富的描述性信息,并能夠區分具有相似分子構象和化學結構的分子。分子拓撲參數是分子結構的數學描述符,用于反映分子結構的分支、形狀、大小、雜原子、不飽和鍵等結構特征,從而達到分子結構數字化、信息化的目的。它在建立生物活性、理化性質和藥代動力學特性模型方面起重要作用。最常用的是維納指數、基爾形狀指數、連通性指數和薩格勒布指數。
Mordred是Moriwaki等人[3]在2018年提出的用于描述符計算的軟件程序。該軟件包易于使用,可以快速的計算速度生成大量的分子描述符。Mordred可以計算1 800多個描述符,并在短時間內計算出所有這些描述符。包括RDKit實現的所有描述符。它還可以計算大分子描述符,這是其他軟件無法做到的。此外,人們可以通過使用生成描述符的術語來傳遞參數來使用替代描述符。例如,n元環的描述符計算;默認情況下,您可以計算n=3到n=12。如果需要更多數量的環,例如n=14,則可以通過傳遞大于12的n值輕松完成,而無需修改程序代碼。這些顯著優勢大大提高了描述符的計算能力。
定量結構-活性關系作為一種常用且成功的研究方法,已廣泛應用于化學計量學、藥效學、藥代動力學、毒理學等領域。近年來,定量結構-活性關系作為回歸工具的數學方法得到了迅速發展。因此,在目前報道的定量結構-活性關系模型應用中,對早期定量結構-活性關系模型進行了全面回顧,如多元線性回歸、偏最小二乘回歸法(PLS)、SVM,包括目前主流的神經網絡、綜合學習模型等,模型圖例解釋如圖2。
(a)線性回歸模型;(b)支持向量機;(c)隨機森林;(d)神經網絡
多元線性回歸模型是用于研究因變量和自變量之間關系的數學模型。由于多元線性回歸模型簡單直觀,它已成為最流行的預測模型之一。與機器學習模型相比,多元線性回歸可以在用戶交互和預測結果分析方面提供更多控制。多元線性回歸已應用于能源、新材料、農業、環境、商業等多個方面。
同樣,作為線性監督模型,偏最小二乘可用于通過最小化誤差平方和來找到最佳匹配集。PLS回歸基于多元線性回歸分析加上典型相關分析和主成分分析,提高了PLS的數據優化能力。使用PLS進行回歸建模分析時,即使自變量的多重相關性嚴重,也能區分系統的有用信息和無用噪聲,并且各個變量的回歸系數更容易解釋模型。PLS最初被提出作為解決化學計量學和計量經濟學問題的數學模型。目前已廣泛應用于信息學、機器學習、能源優化等領域。
隨機森林是一種經典的監督學習算法,它由多個決策樹集成而成。隨機森林可用于回歸分析和分類。在大多數實際應用中,當需要運行時性能時,隨機森林算法足夠快,但在某些情況下,其他方法可能更受歡迎。
在過去的幾年中,深度學習模型因其令人滿意的預測能力而成為機器學習的主導力量。他們的學習能力有助于解決研究人員面臨的不同領域的問題。機器學習是人工智能的一個廣泛使用的子領域,旨在解決計算機可以從數據中學習有用信息的問題。深度學習作為機器學習的一個內含部分,是研究樣本數據的內部規則和關系。此外,與機器學習相比,它在學習文本、圖像、聲音等信息方面取得了更大的技術成就。與淺層神經網絡類似,深度神經網絡(DNN)模型是在輸入層和輸出層之間具有多個隱藏層的人工神經網絡,可以模擬復雜的非線性關系。此外,隨著層數的增加,DNN可以執行更復雜的計算,這當然會消耗更多的計算資源。卷積神經網絡(CNN)不同于多層感知器。它采用本地連接和共享權重。一方面,減少的權重數量使網絡易于優化,另一方面,它降低了過度擬合的風險。
Fayyaz等人[4]使用基于支持向量機的模型來估計碳酸丙烯酯溶液中不同離子液體的電導率,該模型可應用于各種操作條件。同時,采用耦合模擬退火算法對模型進行了優化。與文獻中的不同方式相比,該模型的結果更加可靠和準確。在最終的靈敏度分析中,離子液體的溫度、濃度和分子量對離子液體的電導率影響最大。Koi等人[5]比較了由兩種不同算法構建的模型——多元線性回歸和支持向量機回歸,其中真實溶劑的導體狀篩選模型曾經用于產生離子液體陽離子-陰離子對的相互作用電和介電功率。結果表明支持向量機回歸算法生成的模型在預測離子液體電導率方面更可靠。Gharagheizi等人混合了最小矩形幫助向量機和QSPR來識別離子液體電導率的預測。為了開發和確認模型的可靠性,收集了屬于54種離子液體的977個電導率統計數據。同時,使用順序搜索算法來確定分子描述符的最重要子集。最后,經過783條實驗記錄教育后,模型的偏差為1.8%,然后通過97個實驗數據對模型的有效性進行評估,最終結果偏差為2.5%。可以證明該模型可以預測離子液體的電導率。第二年,Gharagheizi等人又開發了其他模型,可以精確預測離子液體的電導率,它被稱為最小矩形幫助向量機群貢獻。除了使用溫度外,該模型還使用了總共22個半陰離子和半陽離子的子結構來區分陰離子和陽離子對離子液體電導率的影響。結果是平均相對偏差(AARD)低于3.3%。Wu等人創建了一個新的船員貢獻方法模型,稱為二階團隊貢獻技術模型,可以獲得純離子液體電導率的高精度估計。該模型利用了二階公司可以提供關于可實現的分子結構的額外主要事實的事實,例如離子液體異構體之間的差異。這個發現現在不僅涵蓋了廣泛的溫度和電導率變化,而且還提到了溫度和離子形狀對電導率的結果,溫度對離子液體的電導率有顯著的影響,離子測量小,電導率隨著烷基鏈長的放大而降低。
隨著離子液體的廣泛應用,其排放到環境中的概率和劑量也在增加。Cao等人[6]在其工作中預測了離子液體對白血病大鼠細胞系的毒性值。實驗記錄與計算事實之間的良好相關性證實,三種新方式的極限學習機(ELM)表明相關系數(R2)的結果最好,AARD%和均方根誤差(RMSE)的結果最低,這驗證了ELM在毒性估計中無與倫比的整體性能。這項研究還意外地發現,離子液體和離子液體陽離子側鏈長度對離子液體的毒性影響巨大,為選擇更多綠色離子液體提供了有用的信息,為離子液體的毒性評估帶來了更可靠的平臺。該概念通過量子化學描述符立即將化學形狀和化學房屋聯系起來。Kang等人[7]采取了不同的策略,使用原子表面碎片貢獻提供了一種預測離子液體毒性的新方法,該方法主要基于片段/基團的西格瑪底面積。在分析了140個實驗數據后,該模型的R2和MSE分別為0.924和0.071。結果表明,通過新技術建立的ASFC模型具有過高的準確性和可靠性,在評估離子液體和其他化合物的各種性質方面具有廣泛的應用潛力。
Abdi等人[8]升級了機器學習在預測離子液體中H2S氣體溶解度方面的驗證過程。在他們的研究中,他們使用了六個額外的高級模型,包括最小二乘支持向量機,MLP和廣義回歸神經網絡模型,并帶來了一個大型實驗數據庫(792個數據點)。結果表明,支持向量機準確預測了H2S在離子液體中的溶解度,其R2和AARD分別為0.997 98和4.03。最終研究發現,H2S在離子液體中的溶解度值不僅與溫度有關,而且與壓力直接相關。Nakhaei-Kohani等人[9]使用兩種特殊技術來獲得碳氫化合物氣體在離子液體中的溶解度。研究人員使用熱力學特性,化學結構和溫度作為輸入參數。最后,與狀態方程的結果相比,機器學習模型具有更高的性能。
Zhao等人[10]使用基于量子化學電荷分布區域的多元線性回歸和ELM數學算法來預測離子液體的熱容。研究人員收集了46種離子液體的2 416個數據,溫度范圍為223~663 K,壓力為大氣壓。結果顯示,兩種機器學習模型的AARD分別為2.72和0.60。這些數據表明,非線性模型(ELM)具有更高的預測水平,因為它能夠確定復雜的非線性關系。Azadfar等人[11]使用分子量和分子結構中H、C、N、O和其他元素的原子數作為輸入變量,成功地創建了一個基于ANN的新模型,可以計算離子液體的熱容。該研究收集了1971年至2021年143種離子液體的7 059份實驗數據,結果中平均絕對百分比偏差僅為1.14%,可以證明該模型具有更好的準確性。
機器學習最近已成為一個廣泛研究的領域,強大的學習能力和快速的計算速度使機器學習算法成為計算科學家非常有用的工具。在過去的幾年中,隨著對離子液體研究的深入,機器學習已被用于研究離子液體性質的定量關系。大多數關于離子液體性質的已發表文獻都討論了機器學習/深度學習在預測其物理性質(熔點、黏度、毒性)或氣體溶解度(硫化氫、二氧化碳、氨氣)中的應用。證明機器學習可以成為幫助科學家做好研究的有用工具。本文收集了一些機器學習和深度學習在離子液體性質預測中的應用文獻,列舉了一些新模型對離子液體性質的預測研究。雖然機器學習可以從大量數據中學習關聯并處理大量數據,但由于數據及其來源的短缺,大量可靠的物理數據仍然需要許多研究人員的努力和配合。