廖立敏
內江師范學院 化學化工學院,內江 641100
酚類化合物結構與醇/水分配系數(logKow)關系研究
廖立敏*
內江師范學院 化學化工學院,內江 641100
將不同非氫原子自身及非氫原子之間的關系參數化并構建出新的結構描述符,對部分酚類化合物分子結構進行了參數化表達。采用逐步回歸(SMR)與多元線性回歸(MLR)相結合的方法建立了化合物結構與醇/水分配系數(logKow)之間的關系模型,模型的建模相關系數(r)為0.988,標準偏差(SD)為0.121;“留一法”交互檢驗的相關系數(Q2)為0.966,標準偏差(SDCV)為0.148。結果表明結構描述符能較好地表征化合物分子結構特征,所建模型穩定性好,預測能力強,對于酚類化合物QSPR研究具有一定的參考價值。
酚類化合物;醇/水分配系數(logKow) ;結構描述符;結構與性質
Received7 November 2016accepted17 December 2016
Abstract: The different non-hydrogen atoms and the relationship between them were used as new structural descriptors to describe the molecular structures of some phenolic compounds. The stepwise regression (SMR) combining the multiple linear regression (MLR) methods were used to construct a model of relationship between the structures and octanol/water partition coefficients (logKow) of the compounds. The modeling correlation coefficient (r) was 0.988 and the standard deviation (SD) was 0.121; "leave one out" cross validation correlation coefficient (Q2) was 0.966 and the standard deviation (SDCV) was 0.148, respectively. The results showed that the structural descriptors could well characterize the molecular structures of the compounds, the stability of the model was good, and the predictive power was strong. This paper shows a certain reference value for QSPR study of phenolic compounds.
Keywords: phenolic compounds; octanol/water partition coefficient (logKow); structural descriptor; structure and properties
酚類化合物用途廣泛,在有機化工、醫藥、農藥、涂料等工業被廣泛應用并進入環境中。環境中酚類化合物種類繁多,具有毒性,影響動植物生長及人類健康,是環境中重要的污染物。對酚類化合物性質進行研究,對于規范其生產、排放、治理等具有重要的意義。有機化合物正辛醇/水分配系數(octanol/water partition coefficient, logKow)是污染物的環境風險評價中的重要參數之一,logKow反映了其對水、脂的親疏性,一定程度上反映其在生物體內富集及各種環境介質中的遷移能力。由于有機污染物種類多、數量大,部分有機污染物的logKow缺乏實驗數據,而QSPR可為解決這一問題提供簡便易行的途徑[1-3]。在有機化合物QSPR/QSAR研究中,分子結構參數化表達是關鍵工作之一,直接影響到QSPR/QSAR模型的成功構建,研究者們在分子結構參數化方面做過許多有意義的工作[4-8]。本文選取部分酚類化合物為研究樣本,以化合物非氫原子及非氫原子之間的關系構建新的結構描述符,對化合物結構進行參數化表達,采用逐步回歸(SMR)與多元線性回歸(MLR)相結合的方法構建了化合物結構與logKow之間的關系模型,可望為有機污染物的QSPR/QSAR研究提供參考。
1.1 實驗材料
選取36個含多種取代基的酚類化合物為研究樣本,化合物正辛醇/水分配系數以logKow表示,實驗值取自文獻[9]。化合物及其logKow列于表1。
1.2 實驗方法
1.2.1 化合物分子結構參數化表達
化合物的正辛醇/水分配系數(logKow)除了與測量因素有關外,還與分子的結構相關,取代基種類、大小及數目、雜原子、取代基分布情況等都會影響其logKow。研究認為,化合物中處于骨架地位的非氫原子及非氫原子之間的關系對化合物外在性質產生影響,而非骨架氫原子僅僅影響與其直接相連的非氫原子染色值。首先根據非氫原子電子層結構及連接的氫原子數,采用文獻[10]方法為每個非氫原子進行參數化染色,采用式(1)計算。
Zi=[mi(ni-1)(XC/Xi)1/2-hi]1/2
(1)
式中mi表示其最外層電子數,ni表示非氫原子i的電子層數, XC表示碳原子電負性,Xi為非氫原子電負性,hi為與其直接連接的氫原子數。
不同種類的非氫原子,以及不同種類的非氫原子間的關系對化合物外在性質影響可能不同,因而需要對非氫原子進行分類。采用文獻[7-8]方法根據非氫原子連接其他非氫原子數分為1、2、3、4四種類型,例如與3個非氫原子直接相連的叔碳原子屬于第3類非氫原子。
4種類型的非氫原子自身對化合物外在性質的影響,按式(2)進行分類累加。
(2)
式中,k表示非氫原子i的原子類型;i為原子在分子中的編碼;Zi為非氫原子的染色值,按式(1)計算。一個化合物中最多含有4種原子類型,因此最終可分類累加得到4個非氫原子自身對化合物性質貢獻項,用x1、x2、x3及 x4表示。
對于非氫原子之間的關系對化合物外在性質的影響,首先需要構建非氫原子之間的關系。在化合物分子結構圖中,2個非氫原子之間的距離越大,則兩者之間的相關性越小;2個非氫原子自身染色值越大,則兩者之間的相關性越大。只要滿足上述條件的函數關系式均可,這里采用Gaussian形距離關系函數式(3)計算。

(3)
Zi、Zj為非氫原子的染色值,按式(1)計算;dij為關系中的非氫原子i到非氫原子j的相對距離(兩者間最短路徑所經化學鍵鍵長之和/碳碳單鍵鍵長,如有多條路徑,則以最短的為準);n和l為非氫原子的類型;α=0.5。化合物中4類非氫原子可以組合出10種關系項: m11、m12,…,m44,簡寫為x5、x6,…,x14,如m12(即x6)表示第1類非氫原子跟第2類非氫原子之間的關系,以此類推。這樣對有機化合物最多將產生14個結構描述符值來描述結構信息。
1.2.2 QSPR建模與檢驗
采用逐步回歸(stepwise regression, SMR)與多元線性回歸(multiple linear regression, MLR)回歸相結合的方法建立模型,運用“留一法”對模型穩定性及預測能力進行檢驗。一般認為,建模相關系數(r)在0.80~1.0之間,表明模型高度相關;標準偏差(SD)/(研究指標的最大值-最小值)<10%時,表明模型預測準確性好;交互檢驗相關系數(Q2)≥0.50,表明模型穩健性和預測能力良好[11]。

表1 酚類化合物結構描述符值及logKowTable 1 Structural descriptors and logKow
注:x1、x2、x3分別為第1、2、3類非氫原子自身染色值;x5為第1類原子之間的關系;Cal.1為模型對化合物logKow的計算值;Pre.為留一法交互檢驗預測值;Err.1、Err.2分別為誤差。
Note: x1, x2, x3are the self-dyeing values of the first, second and third types of non-hydrogen atoms respectively; x5is the relationship between the first type atoms; Cal.1 is the calculated value of the compounds’ logKowby the model; Err.1, Err.2 are the errors.

圖1 相關系數(r/Q)隨逐步回歸變化情況Fig. 1 Change of correlation coefficients (r/Q) in the stepwise regression

圖2 標準偏差(SD/SDCV)隨逐步回歸變化情況Fig. 2 Change of standard deviations (SD/SDCV) in the stepwise regression
將化合物結構進行參數化表征得結構描述符(變量較多,在此不全部列出,如讀者需要可以直接向作者索取),由于變量較多,某些變量可能與所研究的性質不相關,某些變量之間可能存在共線性,因此在建模之前對變量進行篩選是有必要的。首先采用逐步回歸(SMR)對變量進行篩選,依據變量顯著性大小依次將變量引入模型。為保證模型的預測能力和穩定性,運用“留一法”對每一步得到的模型進行交互檢驗。變量篩選及各步建模結果見表2,為便于觀察將相關系數(r/Q)及標準偏差(SD/SDCV)隨逐步回歸變化情況繪于圖1、圖2。
從表2和圖1中可以發現建模相關系數(r)及交互檢驗的相關系數(Q)隨變量的引入而變化,當逐步回歸到第4步,建模相關系數(r)及交互檢驗的相關系數(Q)都接近最大值,繼續增加變量建模相關系數(r)略微有所增大,而交互檢驗的相關系數(Q)還表現出減小的趨勢。同樣在圖2中,可以發現逐步回歸到第4步時,建模標準偏差(SD)和交互檢驗的標準偏差(SDCV)都接近最小值,繼續增加變量建模標準偏差(SD)略微有所減小,但交互檢驗的標準偏差(SDCV)表現出了增大的趨勢。因此,應該選擇逐步回歸到第4步所篩選的變量進行建模,此時入選的變量依次為x1、x2、x3和x5(列入表1)
變量的線性回歸模型如式(4):
logKow= -3.320+0.152×x1+0.416×x2+0.492×x3-1.270×x5
(4)
模型擬合:N=36,n=4,r=0.988,SD=0.121,F=328.045;交互檢驗:Q2=0.966,SDCV=0.148, FCV=217.404。

表2 逐步回歸變量篩選結果Table 2 The results of stepwise variable selection
N建模樣本數,n為變量數,r為建模相關系數,SD為標準偏差,F為顯著性檢驗值;Q2交互檢驗的相關系數,SDCV交互檢驗的標準偏差,FCV為交互檢驗的顯著性檢驗值。上述模型符合樣本數(N)/變量數(n)≥5的經驗規則,建模相關系數(r)達0.988,處于0.80~1.0之間并且接近上限1,說明模型擬合效果好;交互檢驗的相關系數(Q2)達0.966,遠大于0.50并且接近建模相關系數(r2),說明模型具有良好的穩健性和預測能力;標準偏差(SD)為0.121,交互檢驗的標準偏差(SDCV)為0.148,而樣本logKow最大值與最小值之差為3.66,2個標準偏差(SD、SDCV)與3.66之比分別為3.31%和4.04%,遠遠小于10%的標準,說明模型預測準確性良好。模型對全部化合物的logKow進行了計算,計算值Cal.、誤差Err.1、交互檢驗預測值Pre.、誤差Err.2列于表1,從表中也可以大致發現模型對化合物的logKow預測準確性高、誤差小,效果優良。計算值與實驗值相關圖見圖3,誤差分布見圖4。圖3可以發現所有樣本點都落在過原點的平分線的附近,說明模型值與實驗值接近;同樣圖4中可以發現在模型擬合值中只有1個化合物(6號,不足3%)的誤差落在±2 SD范圍之外,在交互檢驗預測值中只有2個化合物(6號和8號,不足6%)的誤差落在±2 SD范圍之外,而其他樣本的誤差都落在±2SD范圍內,同樣說明模型計算的誤差小,模型質量良好,可以用于分析影響酚類化合物logKow的結構因素和預測酚類化合物的logKow。分析6號和8號化合物結構,發現與其他化合物相比并沒有特殊性,因而兩者的誤差可能是由于結構描述符不夠完善,某些差異沒有得到很好的表達所致,例如結構描述符對取代基位置變動可能不是很敏感等。
模型變量x1、x2、x3和x5的標準回歸系數分別為0.854、1.102、1.435和-1.274,由此可見x1、x2和x3與化合物的logKow正相關,它們分別對應于第1、2、3類非氫原子的自身染色值。并且x3標準回歸系數最大,因而對化合物的logKow影響最為顯著,對于本文的研究樣本第3類非氫原子即為苯環上被取代基占據的碳原子,即苯環上的取代基越多,化合物可能具有較大的logKow,例如第16號化合物五氯酚,含有較多第三類非氫原子,因而具有較大的logKow值。x5與化合物的logKow負相關,x5對應于第1類非氫原子之間的關系,x5的值與第1類非氫原子的種類、數量以及它們之間的距離密切相關,當2個化合物中第1類非氫原子的種類、數量相同時,第1類原子分布越緊密、之間的距離越小,則x5值就會越大,化合物的logKow就會越小。例如23號化合物2,3-二氯苯酚和24號化合物2,5-二氯苯酚相比,2個化合物中第1類非氫原子的種類、數量相同,而23號化合物中的第1類原子分布更緊密、之間的距離更小,因而23號化合物的logKow比24號化合物要小。

圖3 計算值與實驗值相關圖Fig. 3 Correlation between calculated and experimental values

圖4 計算誤差分布Fig. 4 Distribution of calculated errors
文獻[9]對該組樣本也進行過QSPR研究,采用Gaussian03量子化學計算軟件分別在B3LYP/6-31G(d, p)和B3LYP/6-311G(d, p)2種水平上計算了研究樣本的結構參數和熱力學參數,然后采用多元線性回歸(MLR)構建了2個QSPR模型。為與該文獻結果進行對比,將文獻結果與本文所得結果列于表3。

表3 模型比較Table 3 Comparison of models
注:“*”為文獻[9]結果;“△”為本文結果。
Note: *are the results of literature [9]; △ are the results of this article.
從表3中可以發現,本文所得模型建模相關系數(r)與文獻一致,但交互檢驗相關系數(Q2)比文獻值大,標準偏差(SD)明顯優于文獻。另外,本文結構描述符可以直接從化合物分子結構計算得到,無須進行構象優化等操作,計算簡便、快速,計算工作量大大低于文獻。總的說來,本文所構建的QSPR模型較文獻[9]具有一定的優越性。
將化合物分子中不同非氫原子染色,通過Gaussian形距離關系函數構建了不同非氫原子之間的關系,然后將分子中非氫原子自身染色參數值分類累加及非氫原子之間的關系作為結構描述符,對部分苯酚類化合物結構進行了參數化表征。采用逐步回歸(SMR)篩選變量后,運用多元線性回歸(MLR)構建了該類化合物定量結構-正辛醇/水分配系數(logKow)的QSPR模型。模型具有良好的預測能力和穩定性,模型質量略優于文獻結果。構建的二維分子結構描述符與現今流行的三維表征法CoMFA和CoMSIA[12]等相比,具有簡單、易懂、計算方便的優點。但是本文結構描述符為二維結構描述符,對于光學異構體、順反異構等無法區分,這些有待進一步研究。構建的結構描述符可能也適合其他有機化合物結構參數化表征,可為環境中有機污染物的QSPR/QSAR研究提供一種新的方法,具有一定的參考價值。
[1] 廖立敏. 鹵代苯甲醚結構表征及醇/水分配系數模擬[J]. 計算機與應用化學, 2015, 32(7): 889-892
Liao L M. Structural characterization and octanol/water partition coefficient simulation for halogenated anisole compounds [J]. Computers and Applied Chemistry, 2015, 32(7): 889-892 (in Chinese)
[2] 翟竟余, 于海瀛, 陳偉, 等. 基于DFT方法建立多溴代聯苯醚代謝產物的正辛醇-水分配系數的預測模型[J]. 科學通報, 2014, 59(21): 2077-2083
Zhai J Y, Yu H Y, Chen W, et al. Prediction of n-octanol/water partitioning coefficients for selected metabolites of polybrominated diphenyl ethers by DFT method [J]. Chinese Science Bulletin (Chinese Version), 2014, 59(21): 2077-2083 (in Chinese)
[3] 王甫洋, 張學勝, 劉輝. 鹵代苯化合物水溶解度及正辛醇/水分配系數的三維構效關系研究[J]. 環境科學學報, 2015, 35(4): 1032-1039
Wang F Y, Zhang X S, Liu H. Three-dimensional quantitative structure property relationship (3D-QSPR) on aqueous solubility (-lgSw) and noctanol/water partition coefficient (lgKow) of halogeno-benzene [J]. Acta Scientiae Circumstantiae, 2015, 35(4): 1032-1039 (in Chinese)
[4] 何偉平, 黃菊, 王德堂, 等. 正構烷基酚熱力學性質的構效關系[J]. 化工學報, 2015, 66(1): 67-78
He W P, Huang J, Wang D T, et al. QSPR on thermodynamic properties of n-alkyl phenol [J]. Journal of Chemical Industry and Engineering(China), 2015, 66(1): 67-78 (in Chinese)
[5] 彭艷芬, 王云, 劉小四, 等. 取代酚類化合物LC50的QSAR模型建立與分析[J]. 計算機與應用化學, 2015, 32(3): 369-372
Peng Y F, Wang Y, Liu X S, et al. The buliding and analyse of QSAR models of LC50of substituted phenol compounds [J]. Computers and Applied Chemistry, 2015, 32(3): 369-372 (in Chinese)
[6] Liao L M, Huang X, Li J F. Structural characterization and acute toxicity simulation for nitroaromatic compounds [J]. Chinese Journal of Structural Chemistry, 2016, 35 (3): 449-456
[7] 李建鳳. 分子頂點電性作用矢量用于鹵代酚急銳毒性研究[J]. 計算機與應用化學, 2015, 32(11): 1399-1403
Li J F. Study on acute toxicity for halogenated phenols by using molecular vertex electronegativity interaction vector [J]. Computers and Applied Chemistry, 2015, 32(11): 1399-1403 (in Chinese)
[8] 李建鳳, 謝永紅, 雷光東. 部分聚合物結構與熱容變化關系研究[J]. 計算機與應用化學, 2016, 33(7): 833-837
Li J F, Xie Y H, Lei G D. Study on relationship of structure and change in heat capacity for some polymers [J]. Chemical Research and Application, 2016, 33(7): 833-837 (in Chinese)
[9] 葉慶國, 宋斌, 張宏哲, 等. 用密度泛函理論預測酚類化合物的正辛醇/水分配系數[J]. 化學研究, 2011, 22(4): 66-71
Ye Q G, Song B, Zhang H Z, et al. Predicting n-octanol/water partition coefficient of phenols with density functional theory [J]. Chemical Research, 2011, 22(4): 66-71 (in Chinese)
[10] 秦正龍. 連接性指數對脂肪醇的QSPR/QSAR研究[J]. 徐州師范大學學報:自然科學版, 2001, 19(3): 50-52
Qin Z L. A new connectivity index for QSPR/QSAR study of alcohol [J]. Journal of Xuzhou Normal University: Natural Sciences, 2001, 19(3): 50-52 (in Chinese)
[11] 顧云蘭, 陳鑫, 簡美玲. 苯胺類化合物結構與毒性的密度泛函理論研究[J]. 化學研究與應用, 2015, 27(8): 1139-1144
Gu Y L, Cheng X, Jian M L. Study on the structure-toxicity relationship of aniline compounds by density functional theory [J]. Chemical Research and Application, 2015, 27(8): 1139-1144 (in Chinese)
[12] 于艷軍, 張勇, 韓偉, 等. N-取代氟乙酰胺結構與急性毒性的CoMFA和CoMSIA研究[J]. 生態毒理學報, 2015, 10(2): 183-189
Yu Y J, Zhang Y, Han W, et al. CoMFA and CoMSIA studies of N-substitued fluoroacetamide structures with acute toxicity [J]. Asian Journal of Ecotoxicology, 2015, 10(2): 183-189 (in Chinese)
◆
StudyontheRelationshipbetweenStructureandAlcohol/waterPartitionCoefficients(logKow)ofPhenolicCompounds
Liao Limin*
College of Chemistry and Chemical Engineering, Neijiang Normal University, Neijiang 641100, China
10.7524/AJE.1673-5897.20161107002
2016-11-07錄用日期2016-12-17
1673-5897(2017)3-710-07
X171.5
A
廖立敏(1981-),男,碩士,副教授,主要從事分子結構與性能方面的關系、物質分離分析等方面研究,在國內外核心期刊發表論文50余篇,其中SCI收錄10余篇。
四川省教育廳青年基金項目(13ZB0003)
廖立敏(1981-),男,碩士,副教授,研究方向為分子結構與性能,E-mail: liaolimin523@126. com
廖立敏. 酚類化合物結構與醇/水分配系數(logKow)關系研究[J]. 生態毒理學報,2017, 12(3): 710-716
Liao L M. Study on the relationship between structure and alcohol/water partition coefficients (logKow) of phenolic compounds [J]. Asian Journal of Ecotoxicology, 2017, 12(3): 710-716 (in Chinese)