廖立敏,李建鳳,雷光東
內江師范學院化學化工學院, 內江 641100
含氯苯酚類化合物用途廣泛,如在木材防腐、水消毒、殺菌、除草等方面廣泛應用。隨著工農業的發展、廢水的排放,含氯苯酚類化合物正在不斷地進入江、河、湖、海等各種水體。環境中的含氯苯酚類化合物有毒、穩定性好,嚴重威脅動、植物生長和繁殖,影響人類健康。因此,研究含氯苯酚類化合物的性質對于規范其生產、使用和排放具有重要意義。定量構效關系(QSAR)研究是快速獲取大量環境毒物生物毒性的有效手段之一,研究者們在這方面已經做過許多有意義的工作[1-3],在這些工作中都要進行分子結構優化或結構重疊等操作,計算工作量大、效率低,方法復雜難懂。含氯苯酚類化合物在淡水中的生物毒性QSAR研究已有一些報道,如顧云蘭等[4]研究了氯酚化合物對發光細菌的毒性,仝建波等[5]研究了氯苯與氯酚類化合物對戈卑魚的毒性。該類化合物對海洋生物毒性的QSAR研究較少,本文研究該類化合物對海洋中的杜氏鹽藻的毒性。在有機化合物定量結構與性質關系(QSPR)研究中,分子結構參數化表達是關鍵的步驟之一。在分子結構參數化方面,實驗室做過許多有意義的探索[6-9]。本文在參閱了文獻的基礎上,構建了新的結構描述符用于分子結構參數化表達,結構描述符完全來自化合物分子自身結構的計算,簡單易懂、計算工作量小。采用偏最小二乘回歸(PLS)建立了含氯苯酚類化合物結構與毒性(-lgIC50)關系模型,可為環境中有機污染物的QSAR研究提供參考。
選取20 個含氯苯酚類化合物為研究樣本,化合物毒性以其對海洋中的杜氏鹽藻96 h的半數抑制濃度IC50表示,-lgIC50實驗值取自文獻[10],列于表1。
1.2.1 化合物分子結構表征
化合物的毒性值(-lgIC50)除了與測量因素有關外,還與分子的結構相關,取代基的種類、大小及數目、雜原子等都會影響其毒性值(-lgIC50)。認為在化合物的隱氫圖中,處于骨架地位的非氫原子及非氫原子之間的關系對化合物毒性值(-lgIC50)產生重要影響,而非骨架氫原子僅僅影響與其直接相連的非氫原子染色值。不同的非氫原子及不同類型的關系對毒性值(-lgIC50)的影響可能不同,首先將非氫原子按照文獻[8-9]方法進行分類,記為A1、A2、A3、A4這4 種類型,A1表示與1 個其他非氫原子直接相連,以此類推。如與3 個非氫原子直接相連的叔碳原子屬于A3。然后在參閱文獻[11]的基礎上為每個非氫原子進行參數化染色,采用式(1)計算。
Zi=[mi(ni-1)-hi]1/2
(1)
式中ni表示非氫原子i的電子層數,mi表示其最外層電子數,hi為與其直接連接的氫原子數。
各種類型的非氫原子自身對化合物毒性值(-lgIC50)的影響,按式(2)進行分類累加。
xk=∑Zi(k=1,2,3,4)
(2)
式中,k表示非氫原子i的原子類型;i為非氫原子在分子中的編碼;Zi為非氫原子的染色值,按式(1)計算。根據非氫原子的分類,對于一個化合物最多含有4 種原子類型,因此最終可分類累加得到4 個非氫原子自身對化合物性質貢獻項,用x1, x2, x3及x4表示。

(3)
Zi、Zj為非氫原子的染色值,按式(1)計算;dij為關系中的非氫原子i到非氫原子j的相對距離(兩者間最短路徑所經化學鍵鍵長之和/碳碳單鍵鍵長,如有多條路徑,則以最短的為準);n和l為非氫原子按上述分類法所屬類型;a=0.5?;衔镏?類非氫原子可以組合出10種關系項:m11,m12,m13,m14,m22,m23,m24,m33,m34,m44,簡寫為x5,x6,… ,x13和x14,如m13(即x7)表示第1類非氫原子跟第3類非氫原子之間的關系,依此類推。這樣對于所有的化合物最多將產生14個結構描述符值來描述結構信息。
1.2.2 QSAR建模與檢驗
采用偏最小二乘(partial least squares, PLS)回歸方法建立模型,運用“留一法”對模型穩定性進行檢驗。PLS是近幾十年發展起來的多元統計方法,在定量構效關系中廣泛應用。PLS特別適合樣本數較少,而變量數較多的情況建模。它通過對X和Y矩陣同時做雙線性分解,并將分解所得潛隱變量再做一次最小二乘擬合以得到最終模型,詳細原理請參見文獻[12]。一般認為,建模相關系數(R2)在0.64~1.0之間,表明模型高度相關;標準偏差(SD)與數值范圍的比例小于10%時,表明模型計算準確性良好;交互檢驗相關系數(Q2)≥0.50,表明模型具有良好的穩健性[13];模型對未參與建模的外部樣本毒性預測誤差小,表明模型預測能力強。

表1 化合物及其毒性(-lgIC50)Table 1 Compounds and their toxicity (-lgIC50)
由于研究樣本中不含有第4類非氫原子,因而得到的結構描述符中與第4類非氫原子相關的x4,x8,x11,x13,x14這5個變量為全“0”項,剩余9個變量用于建模分析。將化合物結構描述符作為自變量X,化合物毒性值(-lgIC50)作為因變量Y,建立偏最小二乘(PLS)模型。發現主成分數(A)為4的PLS模型效果良好,此時化合物毒性(-lgIC50)與原始自變量回歸方程式為:-lgIC50= 18.359+0.213×x1+0.174×x2+0.203×x3-32.426×x5-2.413×x6-0.01×x7-1.336×x9-0.475×x10-0.219×x12。此時PLS模型建模相關系數(R2)為0.948,處在0.64~1.0之間;交互檢驗的相關系數(Q2)為0.922,遠大于0.50;標準偏差(SD)為0.184,與數值范圍[2.91-(-0.3)=3.21]之比為5.73%,小于10%的標準。
圖1為樣本在偏最小二乘(PLS)前2個主成分得分圖,可以發現95%的樣本點都落在95%置信度Hotelling T2橢圓置信圈內;為了考察樣本在X空間的擬合情況,對樣本在X空間的規格化模型距離作了分析(見圖2),可以看到,所有樣本的規格化模型距離都在95%的置信區間內,小于臨界值1.926,沒有特異點。以上說明本文構建的化合物結構描述符能夠恰當表現含氯苯酚類化合物分子結構特征,并在統計模型中得到正確反映,模型總體質量良好,可以用于分析影響化合物毒性(-lgIC50)的結構因素。

圖1 樣本在前2個主成分得分分布Fig. 1 Compounds score distribution in the front two principal components
模型對每個樣本的毒性值(-lgIC50)擬合程度的好壞,還可從樣本的殘差進行分析,圖3為含氯苯酚類化合物的毒性值(-lgIC50)的標準化殘差累積概率分布圖,樣本標準化殘差基本服從正態分布,所有樣本的標準化殘差均小于±3 倍標準偏差,絕大多數樣本的標準化殘差小于±2 倍標準偏差,只有1個樣本略微超出-2倍標準偏差范圍,進一步說明模型擬合能力優良。

圖2 偏最小二乘X空間規格化模型距離Fig. 2 Normalized distance to PLS model in X space

圖3 標準化殘差累積概率分布圖Fig. 3 The cumulative probability of standardized residual
為進一步驗證PLS模型穩定性,說明擬合效果是否為偶然因素所致,對模型進行了20 次Y隨機排序驗證(Y random permutations test)。以原始變量Y和排序后的變量Y的相關系數對模型的R2和Q2作圖(圖4),并作線性回歸。一般來說,好的模型要求R2和Q2的截距分別小于0.300和0.050[14]。圖中可以看到本文所建模型R2和Q2回歸線的截距分別為:-0.0167和-0.480,因此可以認為模型的良好結果并非偶然因素所致。

圖4 Y隨機排序驗證結果Fig. 4 The results of Y random permutations

圖5 樣本的偏最小二乘t1-u1圖Fig. 5 The t1-u1 plot of the samples

圖6 變量重要性投影Fig. 6 Importance of variables
為了分析X空間得分與Y空間得分的相關性,以t1-u1作圖(見圖5),從圖中可以發現t1和u1之間表現出良好的線性相關性(相關系數R2達0.688),說明第一個主成分就可以很好地解析毒性數據Y中的信息。以毒性值(-lgIC50)大小進行著色,圖中可以發現毒性值(-lgIC50)大的樣本t1、u1得分值也較高,而毒性值(-lgIC50)小的樣本t1、u1得分值也較低,化合物毒性值(-lgIC50)大小得到很好的區分和歸類。
圖6為變量重要性投影指標圖,通過該圖可以清楚地顯示各結構描述符對化合物的毒性值(-lgIC50)的影響大小。一般認為,VIP大于1的變量對Y影響較大,解釋能力較強。x5的VIP值明顯大于1,因而對化合物毒性值(-lgIC50)影響最顯著。x5對應于第 1 類非氫原子之間的關系項,說明第1類非氫原子的種類、數量及分布情況對該類化合物毒性值(-lgIC50)的影響顯著,例如20號化合物具有最多的第1類非氫原子(取代基Cl),且分布均勻,因而具有最大的毒性值(-lgIC50)。含氯苯酚類化合物對杜氏鹽藻產生毒性可能分為兩步:化合物穿過細胞膜進入生物體內;化合物作為電子給與體或氫鍵受體而與生物體內的受體物質發生作用?;衔锱c受體發生作用主要是在羥基上,苯環上取代基Cl對羥基O原子凈電荷影響較小,因而各化合物表現出的毒性效應主要取決于化合物對生物膜的穿透能力。苯環上的取代基Cl越多,化合物具有越大的脂水分配系數(KOW),越容易穿透細胞膜,因而毒性越大。
為進一步說明運用本文的結構描述符及所采用的建模方法構建的模型對外部樣本的預測能力,抽取5、10、15和20號化合物(毒性值分別為0.88、1.39、1.73和2.91)作為外部測試樣本,利用剩下的15個化合物同法建立模型。模型對上述樣本毒性的預測值分別為0.88、1.28、1.63和2.46,誤差分別為0.00、0.11、0.10和0.45。預測誤差小,說明運用本文構建的結構描述符所建立的PLS模型預測能力強、預測效果好。PLS模型對全部化合物的毒性值(-lgIC50)進行了預測,預測值列于表1的Cal.列,誤差列入Err.列,從表中也可以大致發現模型對化合物的毒性值(-lgIC50)預測準確性高、誤差小,效果優良。
將化合物分子中非氫原子按照所連其他非氫原子數進行分類,將不同類非氫原子進行參數化染色,將分子中非氫原子自身染色參數值分類累加及非氫原子之間的關系作為結構描述符,對部分含氯苯酚類化合物結構進行了參數化表達,進而采用偏最小二乘回歸(PLS)方法構建了該類化合物定量結構-毒性值(-lgIC50)的QSAR模型。模型經檢驗,具有可接受的預測能力與總體穩健性,可以用于含氯苯酚類化合物毒性值(-lgIC50)預測。本文所構建的分子結構描述符與文獻[2-3]相比,不需要考慮分子構象優化、重疊等問題,因而具有簡單易懂、計算方便、計算工作量小等優點,本文可為環境中有機污染物的QSAR研究提供一種新的方法,具有一定的參考價值。
[1] 廖立敏, 李建鳳, 雷光東. 有機化合物結構與生物活性關系研究[J]. 環境污染與防治, 2017, 33(6): 653-657, 663
Liao L M, Li J F, Lei G D. Study on relationship between structure of organic pollutants and biological activity[J]. Envirmental Pollution and Control, 2017, 33(6): 653-657, 663 (in Chinese)
[2] 于艷軍, 張勇, 韓偉, 等. N-取代氟乙酰胺結構與急性毒性的CoMFA和CoMSIA研究[J]. 生態毒理學報, 2015, 10(2): 183-189
Yu Y J, Zhang Y, Han W, et al. CoMFA and CoMSIA studies of N-substitued fluoroacetamide structures with acute toxicity [J]. Asian Journal of Ecotoxicology, 2015, 10(2): 183-189 (in Chinese)
[3] 堵錫華, 王曉輝, 馮長君. 1-取代-2-氨基苯并咪唑化合物毒性和熱力學性質的密度泛函理論研究[J]. 生態毒理學報, 2014, 9(6): 1204-1209
Du X H, Wang X H, Feng C J. Density functional theory study on the toxicity and thermodynamic property of 1-replaced-2-amino benzimidazole compounds [J]. Asian Journal of Ecotoxicology, 2014, 9(6): 1204-1209 (in Chinese)
[4] 顧云蘭, 費正皓, 張玉瑩. 氯酚化合物對發光細菌毒性的構效關系研究[J]. 分析科學學報, 2012, 28(3): 333-337
Gu Y L, Fei Z H, Zhang Y Y. A quantitative structure-activity relationship study on the toxicity of chlorophenols to microtox [J]. Journal of Analytical Science, 2012, 28(3): 333-337 (in Chinese)
[5] 仝建波, 李云飛, 劉淑玲, 等. 氯苯與氯酚類化合物毒性的預測[J]. 計算機與應用化學, 2010, 27(3): 392-396
Tong J B, Li Y F, Liu S L, et al. Forecast toxicity of chlorinated benzenes and chlorinated phenols [J]. Chemical Research and Application, 2010, 27(3): 392-396 (in Chinese)
[6] Liao L M, Huang X, Lei G D. Structural characterization and octanol/water partition coefficient (logP) prediction for oxygen-containing organic compounds[J]. Chinese Journal of Structural Chemistry, 2017, 36(8): 1243-1250
[7] 廖立敏. 酚類化合物結構與醇/水分配系數(logKow)關系研究[J]. 生態毒理學報, 2017, 12(3): 709-715
Liao L M. Study on the relationship between structure and alcohol/water partition coefficients (logKow) of phenolic compounds [J]. Asian Journal of Ecotoxicology, 2017, 12(3): 709-715 (in Chinese)
[8] 廖立敏, 李建鳳, 雷光東. 飲用水中揮發性有機物結構與色譜保留時間的關系[J]. 環境化學, 2017, 36(4): 710-715
Liao L M, Li J F, Lei G D. Relationship between structure and gas chromatography retention time of volatile organic compounds in drinking water [J]. Environmental Chemistry, 2017, 36(4): 710-715 (in Chinese)
[9] 廖立敏, 楊歡, 雷光東. 醛酮類化合物離子遷移譜QSSR研究[J]. 計算機與應用化學, 2016, 33(12): 1319-1321
Liao L M, Yang H, Lei G D. QSSR research on ion mobility spectrometry for aliphatic aldehydes and ketones [J]. Computers and Applied Chemistry, 2016, 33(12): 1319-1321 (in Chinese)
[10] Ertürka M D, Sacana M T, Novicb M, et al. Quantitative structure-activity relationships (QSARs) using the novel marine algal toxicity data of phenols [J]. Journal of Molecular Graphics and Modelling, 2012, 38: 90-100
[11] 王曉榮, 堵錫華.mB 對氣相色譜保留指數的QSPR研究[J]. 南京工業大學學報, 2002, 24(3): 31-37
Wang X R, Du X H. The conectivity index for QSPR study of gas chromatography retention index[J]. Journal of Nanjing University of Technology, 2002, 24(3): 31-37 (in Chinese)
[12] 梅虎, 周原, 孫立力, 等. 氨基酸結構描述子矢量VHSE及其在肽QSAR中的應用[J]. 化學通報, 2005, 68(7): 534-540
Mei H, Zhou Y, Sun L L, et al. A new set of descriptors of amino acids and its application in peptide QSAR [J]. Chemistry, 2005, 68(7): 534-540 (in Chinese)
[13] 顧云蘭, 陳鑫, 簡美玲. 苯胺類化合物結構與毒性的密度泛函理論研究[J]. 化學研究與應用, 2015, 27(8): 1139-1144
Gu Y L, Chen X, Jian M L. Study on the structure-toxicity relationship of aniline compounds by density functional theory [J]. Chemical Research and Application, 2015, 27(8): 1139-1144 (in Chinese)
[14] Andersson P M, Sj?strom M, Lundstedt T. Preprocessing peptide sequences for multivariate sequence-property analysis [J]. Chemometrics and Intelligent Laboratory Systems, 1998, 42: 41-50