晉潤萍,焦 龍,馬 羚
(西安石油大學 化學化工學院,陜西 西安 710065)
迄今為止,人類活動已導致大量有害芳香族化合物釋放到大氣中[1-4]。在白天,芳香族化合物主要通過與羥基自由基的反應降解;而在夜間,硝基自由基在與大多數芳香族化合物降解中起主要作用[5-6]。此外,已經發現,在歐洲大陸邊界層中,硝基自由基對芳香族化合物的降解高達28%[7-8]。因此,評估芳香族有機污染物和硝基自由基之間的速率常數至關重要。
作為最實質性的有機化合物類型之一,芳香化合物有多種形式,通常用于化學產品[9-10]。硝基自由基與芳香族化合物的反應速率常數(pk(NO3))對于研究芳香族化合物的降解具有重要意義。然而,通過實驗測量pk(NO3)無法滿足對芳香族化合物和硝基自由基之間反應的評估[11-12]。因此,使用非實驗性方法獲取有用的pk(NO3)數據變得越來越重要[13-14]。
最近,已經發現了基于實驗數據預測未測量化合物速率常數的方法。定量結構性質關系QSAR提供了所研究化合物分子性質和活性的數學關系和理論模擬。雖然可能很難獲得所需的實驗數據,但一旦QSAR建立,它就可以用來預測一組新化合物的反應速率,從而避免了新實驗的潛在巨大努力[15-17]。
分子全息定量構效關系(HQSAR)是一種特殊的QSAR技術,已被許多QSAR研究作為一種簡單、快速和高度預測的方法采用[18-19]。與傳統的2D-QSAR技術相比,HQSAR的預測精度大大提高。另一方面,HQSAR方法具有與更復雜的3D-QSAR方法相當的預測能力。因此,本篇文章建立了HQSAR模型,這是幾種常見芳香族化合物的pk(NO3)的定量連接。
所研究的28種芳香族化合物的負對數pk(NO3)來自文獻[20],并用于構建模型。隨機選取28種芳香族化合物中的21種作為訓練集的樣本建立模型,其余7種芳香族化合物(表1中標有*)作為測試集,評估模型的預測能力。

表1 pk(NO3)的實驗值和預測值

(1)
(2)
(3)
(4)
(5)

所有HQSAR建模過程都是在Sybyl-X 2.0軟件(美國Certara)中進行的。計算是在i7-5557U/4G-RAM個人計算機上執行的。
HQSAR方法的工作原理是使用分子結構片段作為結構描述符來表達分子的結構信息[25]。HQSAR建模的關鍵步驟:首先,將訓練集中的分子切成不同結構和大小的亞結構片段,并對獲得的亞結構片段進行分類。有兩種類型的片段:片段區分(FD)和片段大小(FS)。原子(A)、鍵(B)、連接(C)、氫原子(H)、手性(CH)和供體/受體原子都是可能的FD特性(DA)。FS參數表示分子片段中的原子數,由最小原子數M和最大原子數N定義。中型原子碎片編號為4~7(系統默認值);更大的原子碎片編號為8~10。循環冗余校驗(CRC)技術用于計算數據庫中每個片段的頻率。全息圖長度的數據可以通過計算分子全息圖來獲得。通過計算分子全息圖可以獲得與化合物數量和全息長度相關的一組數據。全息長度可以手動設置,也可以從六個默認值中選擇:97、151、199、257、307 和 353[26-28]。最后,利用偏最小二乘法(PLS)[29]方法建立了硝基自由基和芳香族化合物之間pk(NO3)的QSAR模型。
使用訓練集構建和優化HQSAR模型。首先,對FD參數進行優化,利用不同的FD參數和默認FS參數4-7獲得一系列HQSAR模型。表2顯示了具有不同片段區分的8個最佳模型的關鍵統計數據。

表2 具有不同片段區分參數的HQSAR模型的統計
其中:SEE為標準誤差;PCs為最佳主成分數;HL為最佳分子全息長度。
根據表2中的數據,最佳模型結果是A/B/C/CH/DA的FD參數,交叉驗證相關系數Q2=0.986,非交叉驗證相關系數R2=0.997。
為了進一步選擇最優HQSAR模型,在確定FD參數后,通過調整FS參數區間,計算出8個最佳模型的統計數據。表3列出了HQSAR模型的最佳片段大小為1~4。由表3可知,當片段區分、片段大小、全息圖長度和主成分分別設置為“A、B、C、H、CH、DA”、“6~7”、“151”和“5”時,可以建立最佳HQSAR。

表3 不同片段大小參數的HQSAR模型的統計數據
首先,利用訓練集通過LOO-CV方法連續預測21種化合物(結果見表1)。實驗值和預測值之間的誤差相當小,并且基本一致。計算后,RMSRE=9.67,RMSECV=0.12。實驗值與預測值的線性關系方程為y=0.9973x+0.0345(x表示實驗值,y表示預測值),相關系數R=0.9986。基于此訓練集的HQSAR模型具有良好的預測能力。


圖1 pk(NO3)的實驗值和預測值之間的相關性
采用HQSAR方法研究了28種芳香族化合物的分子全息定量構效關系,LOO-CV和外部試驗集驗證結果表明,芳香族化合物與硝基自由基之間存在著一定的定量關系,且HQSAR模型具有極好的預測芳香族化合物與硝基自由基反應的能力。