龍 環,呂思源,袁子雄,廖立敏
(內江師范學院 化學化工學院,四川 內江 641100)
隨著化學工業的迅猛發展以及人們生活水平的提高,使環境中有毒污染物的種類和數量日益增多,同時給我們的生態環境造成了巨大的威脅。含苯環有機化合物大多都是有毒害作用的物質,隨著工業廢水、農業徑流水、生活污水等大量排入水體,對水生生物的生長、發育和繁殖構成嚴重危害,破壞了水生生態系統平衡,對動物和植物具有間接的或直接的危害,甚至使生物產生致癌、致畸和致突變作用[1-2],因此對其性質進行研究具有重要的意義。定量構效關系[3-4](QSAR)在環境毒理學方面已應用得非常廣泛,本文以部分含苯環有機化合物為研究樣本,對其結構進行了參數化表達,成功構建了該類化合物的QSAR模型,可望為定量評估和預測該類化合物的生物毒性及環境效應提供理論依據。
本文采用的數據取自文獻[5-6],其中EC50表示呆鰷魚的半數致死濃度,常用負對PEC50表示,列于表1。

表1 化合物及毒性(PEC50)Table 1 Compounds and their toxicity (PEC50)

表1(續)
非氫原子自身及非氫原子之間的關系對分子性質有重要影響,處在不同微環境中的非氫原子及不同類型非氫原子間的關系對分子性質的貢獻不同,處在相同微環境中的非氫原子及非氫原子間的關系對分子性質的貢獻具有加和性。首先根據分子中的非氫原子所處微環境借鑒文獻[7-9]方法將其分為A1、A2、A3、A4四種原子類型,分別表示與1、2、3、4個其它非氫原子直接相連,如與兩個非氫原子直接相連的仲碳原子屬于A2原子類型。然后根據非氫原子電子層結構及該原子在分子中的鏈接情況,借鑒文獻[10]方法采用式(1)計算非氫原子特征值Zi:

式中:mi、ni、hi、ti、πi及Xpi依次為原子i的價電子數、電子層數、直接鍵合的氫原子數、自旋平行的單電子數、成π鍵單電子數、Pauling電負性,Xpc為碳原子的Pauling電負性。例如羰基氧原子“=O”按式(1)可求得Zi=10.9191。此原子特征值較復雜,但是它把關于原子結構的量化參數經非線性組合,使其蘊涵了分子中成鍵非氫原子豐富的結構信息,能較好反映取代基團對化合物性質的貢獻。
對于非氫原子間的關系對化合物性質的貢獻,首先應構建非氫原子之間的某種關系。非氫原子之間的關系并不是非氫原子間某種直接的作用方式,而是要反映出相關程度隨兩者距離增減呈反向變化,以及隨非氫原子特征值改變呈正向變化的兩個趨勢。參照萬有引力定律,采用倒數形函數式(2)進行計算:

Z為非氫原子特征值,按式(1)計算;rij是非氫原子i、j之間的相對距離(即所經最短途徑鍵長之和與碳碳單鍵鍵長之比);n和l為非氫原子所屬類型?;衔锓肿又兴姆N不同類型的非氫原子可以組合出以下10種相關項:m11、m12、m13、m14、m22、m23、m24、m33、m34、m44,分別以x1、x2、…x9和x10表示。
依據以上原理,對于所有的化合物將產生10個變量(結構描述符)來描述分子結構,25個化合物中缺乏第四類原子之間的相關項,得到的描述符中有4個為全“0”項,其余6個非全“0”結構描述符用于建模研究。
首先利用6個描述符采用多元線性回歸(MLR)對25個樣本建立模型,MLR是一種經典建模方法,它對自變量和因變量加以線性擬合以得到最小二乘意義下最佳結果。其多元線性回歸模型為(M1):
PEC50= -55.981-0.632×x1+0.039×x2-0.092×x3
+1.238×x5+1.421×x6+1.784×x8(3)
模型擬合:R=0.915,SD=0.319,F=15.427。R為復相關系數;SD為標準誤差;F為顯著性檢驗值。

圖1 R及RCV隨逐步回歸變化情況Fig.1 R and RCV changes with stepwise regression

圖2 SD及SDCV隨逐步回歸變化情況Fig.2 SD and SDCV changes with stepwise regression
R為0.915,說明模型具有良好的內部估計能力,為提高模型的穩定性和預測能力,消除變量之間的共線性,使用逐步回歸(SMR)的方法對變量進行了篩選。逐步回歸每一步建模都采用“留一法”進行檢驗,相關系數、標準誤差分別以RCV、SDCV表示。在逐步回歸中隨著變量的引入,R/RCV及SD/RCV變化情況如圖1、圖2所示。
從圖1、2可以看出當逐步回歸進行到第4步時,R接近最大值,RCV達到最大值,繼續增加變量R變化甚微,而RCV反而變小。此時SD和SDCV同時達到最小值,因此4變量模型(M2)最優。
PEC50= 11.625-1.135×x1-0.067×x2-0.168×x5-0.145×x6(4)
R=0.914,SD=0.304,F=25.437,RCV=0.777,SDCV=0.472,FCV=7.625
M2與M1比較,雖然R值略微降低,但是模型的變量數減少了2個,模型的復雜程度大大降低了。另外,4變量模型的SD和SDCV均比6變量模型的相應值大,說明4變量模型更優越,4變量模型對樣本毒性預測結果見表1中Cal.列。從表可以看出,兩模型對樣本的計算值與實驗值極為接近,計算誤差較小,本文取得的結果仍然是滿意的。
本文采用新構建的分子結構描述符,對一系列含苯環有機化合物的結構進行表征,并成功構建了QSAR模型,對含本環化合物毒性進行了模擬預測。描述符可以直接從分子結構計算獲得,沒有引進其他結構參數和經驗參數,計算簡單和方便。本文對于含苯環有機化合物的結構-環境效應研究具有一定的參考價值。