高 月
(1.應急管理部化學品登記中心,山東 青島 266071;2. 中國石油化工股份有限公司青島安全工程研究院 化學品安全控制國家重點實驗室,山東 青島 266071)
活性化合物是不穩定的,易發生劇烈反應使化學能轉化為熱能或者機械能等具有潛在危害的物質。在實際工業生產過程中,在反應器、儲罐、以及運輸中,活性化合物引起過許多嚴重的熱爆炸以及熱失控事故,在全球范圍內造成大量人員傷亡[1]。常見的活性化合物包括有機過氧化物和硝基化合物,有機過氧化物廣泛用作引發劑、交聯劑和氧化劑等,過氧(—O—O—)官能團的存在,使其在受熱或外力作用下易分解釋放出大量的熱,引發劇烈反應,導致熱爆炸[2];硝基化合物因具有硝基(—NO2),性質不穩定,有強氧化性,多硝基化合物有爆炸性,可用作炸藥。熱危害評估對上述活性化合物的安全使用、儲存和運輸具有重要意義。熱穩定性是活性化合物的固有屬性,在諸多評判熱穩定性的參數中,起始放熱溫度(To)、分解熱(-ΔHd)和自加速分解溫度(SADT)是較為重要參數。起始放熱溫度(To)反映熱危害發生的可能性或敏感度,分解熱(-ΔHd)反映熱危害的嚴重性[1],自加速分解溫度(SADT)則是反映活性化合物在運輸條件下熱危害的重要參數[3]。目前,最可靠的測定熱穩定性參數并評估熱危害的方法主要是實驗方法,例如差示掃描量熱法(DSC)、美國SADT測試、絕熱儲存實驗法等。然而,實驗方法存在著成本高、周期長、具有一定危險性的局限性。在快速發展的現代工業中,有必要建立一種簡便、快速、可靠的理論預測方法來彌補實驗方法的不足。當前,將活性化合物的分子結構與其熱穩定性參數進行關聯,并基于兩者的內在聯系預測其熱穩定性方法是重要的理論預測方法,也是研究的熱點。本文主要闡述基于活性化合物分子結構預測熱穩定性的方法及其研究進展。
早在20世紀80年代,美國材料與實驗協會(ASTM)基于Benson的基團貢獻法[4],開發了一款簡單預測活性危害的工具(CHETAH)[5]。1982年,Mohan等[6]針對6種有機過氧化物,論證了CHETAH的活性危害準則(氧平衡、最大分解熱、燃燒熱與分解熱之差)與爆炸性的關聯;2011年,Sato等[7]研究發現CHETAH準則和自反應物質爆炸性之間確實存在相互關聯。但是,CHETAH軟件提供的是物質的最大分解熱,不是實際的實驗測試的分解熱,應用中具有一定局限性。
2007年,為了改善市場上化學品信息的管理,歐盟REACH法規[8](化學品注冊、評估、許可和限制)提出了對生產或進口的化學品理化、毒理、生態毒理性質評估的要求,為幫助企業應對這一要求,ECHA(歐洲化學品管理局)頒布了技術指南[9-10],并提出了考慮測試順序的理化性質通用測試規則。就有機過氧化物而言,其爆炸性質通過聯合國《關于危險貨物運輸的建議書——實驗和標準手冊》[11]推薦的實驗測定,而有機過氧化物的熱穩定性作為爆炸甄別程序中的重要參數同樣是必不可少的。出于安全和技術原因,針對有機過氧化物這類的不穩定物質,實驗測試的實施具有一定的難度,因此,開發預測方法將會極大地加快熱穩定性相關的研究進程,并且幫助企業滿足REACH法規對注冊期限的要求。考慮到REACH法規的要求,Lewis等[12]提倡使用強大的計算機輔助的從頭計算法(abinitio method)技術,來獲取化學品分類的關鍵性質的預測方法,從而替代危險、昂貴的實驗方法。在實驗替代方法中,REACH法規和ECHA技術指南[9-10]中明確推薦定量結構-活性/性質相關性(QSAR/QSPR)方法獲取相關信息。為支持QSPR技術的開發和應用,OECD(經濟合作與發展組織)提出了驗證QSPR模型的5項原則[13],以便對該技術進行監管。
定量結構-性質相關性(QSPR)方法,是通過將分子結構參數與所研究化學品性質的實驗數據之間的內在定量關系關聯,建立分子結構參數和性質之間的構效關系模型,從而基于分子結構信息預測化合物性質的方法[14]。在化合物熱穩定性的QSPR預測領域,早期研究人員采用量子化學計算和QSPR理論相結合的方法建立關聯模型,由于量子化學計算的成本高、耗費時間長,且需要專業人員具備專業知識,采用專業軟件計算,不利于工程人員應用,因此后續研究人員開發了基于簡便算法的QSPR方法,從應用的角度對其進行了改良。
2003年,Saraf等[15]針對量熱法測量的19種硝基化合物的DSC數據,基于量子化學計算,研究分子結構和起始放熱溫度To以及分解熱(-ΔHd)之間的定量關系,采用最小二乘回歸分析方法建立了硝基化合物的To和-ΔHd的QSPR預測模型。該研究中,Saraf等首先基于量子力學的密度泛函理論(DFT),采用Gaussian軟件計算獲得表征分子結構的分子描述符,建立的To預測模型的平均絕對累積誤差為6%。由于在該過程中,優化分子結構需要花費超級計算機CPU時間約1 h,因此,Saraf等又采用AM1半經驗量子化學計算方法快速獲得相關的分子描述符,以此建立的To預測模型的平均絕對累積誤差為7%,但所需成本相對較低。
2008年,Fayet等[16]針對22種硝基芳香族化合物,基于DFT計算獲得5個電性相關的分子描述符,建立-ΔHd的QSPR線性預測模型。該研究中,Fayet等對比了5個描述符對-ΔHd的單一相關性,最終建立的多元線性回歸方程的決定系數R2為0.86。隨后,2010年,在前期研究的基礎上,Fayet等[17]又利用DFT和AM1這2種方法分別計算擴充了分子描述符的種類和數量并建模,對比發現AM1模型節省計算時間,但是DFT模型描述符與熱穩定性的相關性更直接。2011年,Fayet等[18]將研究對象擴充為77種硝基芳香族化合物,依然采用DFT計算獲得分子描述符,最終建立7種變量的多元線性回歸方程,模型的決定系數R2為0.77,預測系數Rext2為0.70。
2011年,Lu等[19]針對16種有機過氧化物,采用偏最小二乘法(PLS)和多元線性回歸方法(MLR)分別建立To和-ΔHd的預測模型。除了常規的全局、局部以及DFT分子描述符,建模中還采用了濃度、過氧官能團數量等其他附加描述符。該研究中,由于數據有限,16種有機過氧化物全部用作訓練集,未進行外部驗證,僅對模型進行了內部交叉驗證;與MLR預測模型相比,PLS分析獲得To的13元線性預測模型,和-ΔHd的5元線性預測模型,具有更強的實驗數據相關性、更好的預測能力。
由于上述熱穩定性的QSPR研究中,獲取分子描述符的方法均采用量子化學計算,在進行工業水平的應用推廣上受限,因此后續研究人員研究開發了更簡便、計算成本更低的分子描述符。
2013年,Fayet等[20]在研究硝基芳香族化合物-ΔHd的QSPR預測方法過程中,嘗試使用Codessa軟件計算簡單2D結構的分子描述符,包括反映分子構成的最簡單的組成描述符,以及拓撲描述符,所有分子描述符都不需要經過復雜的量子化學計算。依據42種硝基芳香族化合物的數據庫,分別基于組成描述符、拓撲描述符以及組成和拓撲混合描述符,建立了3個-ΔHd線性預測模型,其中基于組成描述符以及組成和拓撲混合描述符的2個預測方程的預測性能和穩健性,均優于僅基于拓撲描述符的預測模型,說明-ΔHd受硝基官能團數量等組成描述符的影響較大;另外,與Fayet等之前研究的基于量子化學計算的預測模型相比,基于混合組成和拓撲描述符的預測模型的預測能力與之相似,而不需要昂貴、費時、復雜的計算。
2014年,張尹炎等[1]針對63種硝基芳香族化合物和16種有機過氧化物,采用遺傳算法結合多元線性回歸的方法(GA-MLR)分別建立To的預測模型。由于前人量子化學計算分子描述符的局限性,為了研究更便于工業應用的預測模型,采用分子描述符計算軟件DRAGON 2.1獲得更簡單、成本更低的描述符,例如拓撲描述符、組成描述符、原子中心碎片、官能團等,然后利用GA-MLR方法篩選與To具有最優定量關系的描述符,并分別建立硝基芳香族化合物和有機過氧化物的To預測模型。采用內部交叉驗證和外部驗證硝基芳香族化合物的To預測模型的預測能力和適用性,而有機過氧化物預測模型由于選用物質少,所有數據用作訓練集,只進行了內部交叉驗證。驗證結果表明,與Saraf等[15]和Lu等[19]建立的模型相比,采用簡便分子描述符建立模型的預測能力更好。
2014年,潘勇等[21]采用GA-MLR方法建立了41種不同類型有機過氧化物的SADT預測模型。由于有機過氧化物的SADT實驗數據難以獲取,因此,建模的數據樣本來自不同的文獻,當存在不同數據源中相同物質的SADT數據不同時,則采納最新的數據。與上述To的預測研究相類似,潘勇等采用計算軟件DRAGON 5.4獲取分子描述符,利用GA-MLR方法篩選與SADT具有最優定量關系的描述符,并建立了有機過氧化物SADT的6元線性預測模型,驗證了模型具有良好的預測能力和穩定性,同時,采用均值效應(ME)法研究分子描述符對預測模型的貢獻程度。
經過長期的理論研究和線性方法建模的探索,許多學者開始采用非線性建模方法來深入探索分子結構與化合物性質之間的復雜關系。在諸多的非線性建模方法中,支持向量機(SVM)方法因其嚴格的理論基礎和適用于小樣本等明顯優勢,成為了QSPR研究領域中適用性很強的建模方法[22-23]。目前,已有學者將SVM方法應用于熱穩定性的QSPR預測研究中。2017年,馬繼濤等[2]以46種有機過氧化物及其SADT數據作為研究數據樣本,采用最佳多元線性回歸(B-MLR)和SVM方法建立預測模型,SVM模型的性能優于B-MLR模型,以此證明有機過氧化物SADT與分子結構間存在較強的非線性關系。同年,Wang等[24]基于50種有機過氧化物,采用SVM方法建立了SADT的非線性預測模型,并驗證了模型具有很好的擬合能力、穩定性和外部預測能力。2018年,何培等[25]在前期的SADT預測研究基礎上,將有機過氧化物的樣本量擴展至71種,數據來源于不同的參考文獻。與大部分熱穩定性預測研究的建模方法不同,在該研究中,分別采用MLR和SVM方法建立有機過氧化物的SADT預測的線性和非線性模型,對比了MLR模型和SVM模型的預測結果。經過驗證,SVM模型在預測能力、穩健性和適用性方面比MLR更優越。
早期熱穩定性預測研究主要是基于官能團特性,例如,ASTM軟件開發的CHETAH軟件[5],基于Benson的基團貢獻法預測活性化學品的最大分解熱,Benson方法存在一定的局限性,如果出現數據庫以外的基團或者錯誤的基團,那么Benson方法就可能失效。雖然,早期預測方法具有局限性,但是,對熱穩定性預測研究起到了重要的推動作用。
3.2.1 基于量子力學的QSPR方法
量子化學計算的分子描述符一般具有明確的物理意義,并且前人的研究已經證實基于量子化學計算建立的構效關系模型能夠正確的反映分子結構和熱穩定性之間的關系。然而,量子化學計算在QSPR預測研究領域具有明顯的應用局限性:1)計算成本高,且耗時;2)需要具備專業知識,使用專業軟件進行計算,不便于在工業人員中進行廣泛的推廣;3)量子化學計算的描述符不具有通用性,依賴于選用的化學物質的結構特性。
3.2.2 優化的QSPR預測方法
簡單、計算成本更低的分子描述符的研究,對熱穩定性的QSPR預測方法的推廣應用起到了進一步的推動作用,并且張尹炎等[1]的研究已經表明,選用簡單的分子描述符(組成描述符、拓撲描述符)建立的熱穩定性預測模型能獲得更好的預測結果。但是,由于起步較晚,相關研究仍需要進一步完善。
1)數據樣本的選取
可靠的數據樣本是建立可靠的熱穩定性預測模型的保障,為降低模型在推廣應用中的不確定性,需要保證數據的統一性,因此,為了最大程度的降低數據樣本的差異對預測模型的影響,數據樣本最好源自同一并權威的數據源。由于活性化合物熱穩定性測試數據難以獲取,所以在同一公開的數據源的數據樣本量少的情況下,有的研究人員綜合不同的數據源形成建模的數據樣本集,不同數據源的數據樣本的差異性不可避免的會對預測模型的應用造成影響。
同時,數據樣本的量也是影響模型性能的重要因素。以Lu等[19]和張尹炎等[1]的16種有機過氧化物的To預測研究為例,由于數據樣本量少,全部數據用作訓練集,無法對模型進行外部驗證,從而無法印證模型對數據樣本以外的物質的預測能力,因此,對模型的適用性存疑。另外,數據樣本量的不足也會影響模型的普適性。
2)分子描述符的選取
分子描述符用來表征分子結構,是建立熱穩定性QSPR預測模型的基礎。分子描述符的種類繁多、數量龐大,選取合適的、與熱穩定性相關性最好的分子描述符是預測模型成功的關鍵,也是QSPR研究中的難題之一。為避免經驗法選取分子描述符主觀性強的問題,應該選用統計學中的變量篩選方法,包括逐步回歸法(向前選擇和向后選擇)、遺傳算法、粒子群算法和蟻群算法等等。在熱穩定性QSPR研究領域中,分子描述符選取方法應更多的選用遺傳算法、蟻群算法等強大的擇優算法,獲取與熱穩定性最密切相關的分子描述符。
當建模數據樣本少,而分子描述符過多時,有可能存在過度擬合的風險。例如,Lu等[19]建立的模型數據樣本來自16種有機過氧化物,但是建模的分子描述符有13個。Tropsha等[26]在他們的研究中曾提出,只有訓練集的化學物質樣本數量超過描述符的5倍時,QSPR模型才是有效的。
3)QSPR建模方法的選擇
熱穩定性QSPR建模是將分子描述符作為輸入參數,通過數學建模方法,建立分子描述符和熱穩定性參數(To,-ΔHd,SADT)定量關系模型的方法。目前,在熱穩定性QSPR預測研究中,常用的建模方法主要是MLR,PLS和SVM等。MLR和PLS等線性建模方法是熱穩定性預測的前期研究常用的方法,算法簡單,但是適用于模擬分子結構與性質之間的線性關系或者近似線性關系,而SVM等方法建立的是非線性模型,何培、潘勇等[25]在有機過氧化物SADT預測研究中,已經證實SVM方法建立的模型預測效果優于MLR的模型,說明非線性建模方法能更好的反映分子結構和熱穩定性之間復雜的關系。在熱穩定性QSPR預測領域,非線性建模方法應用較少,仍需要進一步研究,改善預測模型的準確性,以此推進QSPR預測方法的應用推廣。
1)建立量子化學計算的分子描述符數據庫。量子化學計算的分子描述符具有明確的物理意義,雖然計算成本高、耗時、專業性強,但也是必不可少的描述符。為節省計算時間,便于基于量子化學計算的QSPR研究工作的進一步開展,應該針對不同的活性化合物進行專門的量子化學分子描述符計算,建立量子化學分子描述符數據庫,節省后續QSPR研究時間,避免重復性工作。
2)擴充活性化合物熱穩定性參數數據樣本。具有權威性的、同一數據來源的、盡可能多的數據樣本,可以保證熱穩定性預測模型的可靠性和普適性。針對目前活性化合物熱穩定性參數(To,-ΔHd,SADT等)實驗數據少,來源不一致的問題。應該采用統一的實驗測試方法,擴充數據樣本的數量,避免數據源不一致帶來的不確定性。
3)研究強大的分子描述符篩選算法。為了從大量分子描述符中,提取與熱穩定性最密切相關的分子描述符,需要研究強大的分子描述符篩選算法。以GA為例,作為一種尋找全局或近全局最優解的強大擇優算法,非常適合解決這一問題。后續熱穩定性預測研究中,應該選用強大的分子描述符篩選方法。同時,控制樣本數量和描述符數量的比例,避免出現過度擬合,造成模型適用性的降低。
4)研究能正確反映分子結構和熱穩定性之間非線性關系的非線性建模方法。為了更好地反映分子結構和熱穩定性之間復雜的非線性關系,應進一步研究基于神經網絡或SVM等非線性建模方法建立熱穩定性預測模型,并從擬合能力、穩定性、預測能力、應用域等方面進行全面的評價與驗證[27-28],綜合驗證分析模型的性能,評價模型的應用域,保證預測化合物處于模型應用域范圍內,從而獲得準確有效且預測能力更好、適用性更強的QSPR預測模型。