席越,楊先海,張紅雨,劉會會
南京理工大學環境與生物工程學院,江蘇省化工污染控制與資源化高校重點實驗室,南京 210094
在商用化學品中,可電離有機化合物(ionogenic organic chemicals, IOCs)往往占有較大比例[1],例如,在歐盟登記注冊的14萬余種化學品中,約50%為IOCs[2];此外,> 60%的藥物為IOCs[3],大部分個人護理用品也屬于IOCs[4]。隨著IOCs的大量生產、使用,可能導致IOCs通過多種途徑進入水環境。據估計,每年約有3億噸合成化學物質被排放進入水環境[5],導致水環境中IOCs等化合物的環境檢出率和檢出濃度越來越高。進入水環境的IOCs,會對各種水生生物產生持續暴露,進而引發各種生態危害效應。因此,有必要篩選評估具有毒性效應的IOCs,并對其進行管控,以減少其對水生生物的危害。
在環境水體中,IOCs會解離為不同比例的分子和離子形態。各形態存在比例取決于IOCs自身的酸堿解離常數(pKa)和環境pH條件,一元酸堿的解離程度可采用下式計算:

(1)
式中,δM和δI分別是分子和離子態的比例分數;酸堿化合物的Iab分別取值1和-1。前人研究結果表明,化合物的分子和離子態具有不同的環境行為、生物富集能力和毒性效應。例如,在IOCs對大型溞的毒性研究中,發現隨著溶液pH的增加,酚類、苯甲酸類IOCs對大型溞的毒性作用降低,而苯胺類IOCs對大型溞的毒性效應則相反,說明酸堿化合物的分子態具有更強的水生急性毒性[6]。而在IOCs與運甲狀腺素轉運蛋白的相互作用過程中,IOCs的離子態具有更重要的貢獻[7-8]。因此,在研究IOCs的環境行為、健康與生態毒性效應時,不能忽視離子化的影響。
雖然各種健康和生態毒性效應測試體系已建立數十年,但由于實驗成本高、耗時長,難以對所有14萬多種商用化學品進行一一測試,導致僅有少部分化合物具有完整的毒性數據[9]。為了應對該挑戰,美國、歐盟、經濟合作與發展組織(OECD)和世界衛生組織(WHO)等國家或組織都大力倡導應用定量結構-活性關系(QSAR)等計算毒理學技術填補缺失的化學品數據[10-12]。那么在構建QSAR等預測模型時,如何表征IOCs離子化的影響就成為需要重點解決的問題。在前人的研究中,一般通過以下幾種方式表征離子化的影響:(1)采用形態修正的正辛醇-水分配系數(logKOW),即正辛醇-水分布系數(logDOW)[13],但是該參數只能用于評估與分配相關的過程;(2)采用酸堿解離常數(pKa)、分子態和離子態的比例分數(δM和δI)[14];(3)采用引入離子參數的多參數線性自由能關系(PP-LFER)[15],該方法僅能適用于部分有離子參數的化合物;(4)采用基于形態修正的描述符,其計算方法如下:
(2)
式中,XM和XI-i分別是化合物分子態和第i種解離態的描述符值;δI-i是化合物第i種解離態的比例分數。從定義式可以看出,該方法的本質是通過考慮目標化合物在給定條件下所有存在形態的貢獻而計算一個表觀值。近年來,筆者所在課題組采用該方法,計算了10多種基于形態修正的量化描述符,并成功使用這些參數構建了IOCs與運甲狀腺素轉運蛋白[7-8,16]、血清蛋白[17]、結構蛋白[18]和磷脂膜[19]相互作用的預測模型。在本研究中,我們將進一步探索采用基于形態修正的描述符來構建IOCs對水生毒性效應的預測模型的可行性?;诖?,本研究將構建2類模型:(1)僅采用logKOW和分子形態計算的量化描述符構建預測模型;(2)采用logDOW和基于形態修正的量化描述符構建預測模型,進而通過模型表征,比較2類模型預測性能的差異。
數據集包含63個取代苯酚、苯胺和苯甲酸類IOCs對大型溞的24 h急性毒性數據(表1)。實驗數據來源于包信等[20]的研究。原始文獻測定和整理了pH = 6.0、7.8和9.0共3個條件的毒性數據,本研究選取pH = 7.8的數據作為代表進行研究。所有化合物信息及其效應值列于表1。

表1 模型化合物信息、大型溞急性毒性實驗及預測數據Table 1 Information of model compounds, their observed and predicted acute toxicity data of Daphnia magna

續表1序號No.名稱Chemical nameCAS號CAS No.-logEC50實驗值Observed模型IModel I模型IIModel II502,5-二氯苯甲酸 2,5-Dichlorobenzoic acid000050-79-32.993.042.67512,4,6-三氯苯甲酸 2,4,6-Trichlorobenzoic acid000050-43-13.252.873.18522,3,4,5-四氯苯甲酸 2,3,4,5-Tetrachlorobenzoic acid?000050-74-83.433.593.80532-氨基苯甲酸 2-Aminobenzoic acid000118-92-32.882.953.08543-氨基苯甲酸 3-Aminobenzoic acid000099-05-82.453.332.59554-氨基苯甲酸 4-Aminobenzoic acid000150-13-02.403.112.62564-羥基苯甲酸 4-Hydroxybenzoic acid?000099-96-72.312.732.68573-羥基苯甲酸 3-Hydroxybenzoic acid000099-06-92.012.92.53582-羥基苯甲酸 2-Hydroxybenzoic acid000069-72-72.692.972.57592,4-二羥基苯甲酸 2,4-Dihydroxybenzoic acid000089-86-13.023.202.98602,5-二羥基苯甲酸 2,5-Dihydroxybenzoic acid?000490-79-93.254.102.87613,4,5-三羥基苯甲酸 3,4,5-Trihydroxybenzoic acid000149-91-73.883.312.4662鄰苯二甲酸 2-Phthalic acid000088-99-31.531.811.7063間苯二甲酸 Isophthalic acid000121-91-51.442.231.47
注: * 驗證集化合物。
Note: * Compounds selected as the external validation set.

其次,從EPI Suit 4.10軟件查詢了logKOW實驗值,其中4個無實驗值的化合物采用預測的logKOW數據。采用MarvinSketch (ChemAxon 15.6.29.0, http://www.chemaxon.com)軟件計算pH = 7.8的logDOW,δM,δI。其中,DOW在該軟件中的定義為:
(3)
式中,mi,正辛醇相和mi,水相分別是化合物第i種存在形態在正辛醇相和水相中的濃度。

采用基于杠桿值(leverage)的Williams圖和歐幾里德距離圖定義模型的應用域[27]。
logKOW表征了化合物分子態在正辛醇相和水相間的分配能力。不可電離化合物的水生毒性效應往往與logKOW存在較好的線性相關性[28]。對IOCs該關系是否依然存在呢?從圖1可以看出,對所研究的63種取代苯酚、苯胺和苯甲酸類化合物對大型溞的24 h急性毒性而言,logKOW與-logEC50的Pearson相關系數僅為0.265,雖然仍具有顯著相關性,但相關性較差。通過引入考慮解離態貢獻的logDOW后,logDOW與-logEC50的Pearson相關系數增加到0.848。這說明在構建IOCs的水生毒性效應預測模型時采用logDOW要優于logKOW。
僅采用化合物分子態描述符構建的最優模型(模型I)為:

(4)


圖1 -logEC50與logKOW, logDOW的關系注:logKOW表示正辛醇-水分配系數,logDOW表示正辛醇-水分布系數。Fig. 1 Relationship between -logEC50 and logKOW, logDOWNote: logKOW is n-octanol/water partition coefficient; logDOW is n-octanol/water distribution coefficient.
= 0.609, MAEEXT= 0.423
采用基于形態修正的描述符構建的最優模型(模型II)為:

(5)




表2 模型所選描述符的t, P, VIF值Table 2 Values of t, P, VIF for selected descriptors


圖2 模型I (A)和模型II (B)中-logEC50實驗值與預測值的關系Fig. 2 Plots of the observed versus predicted -logEC50 for the model I (A) and model II (B)
模型應用域表征結果如圖3所示。從圖3A可以看出,僅1個驗證集化合物(2,4,6-三溴苯胺)處于訓練集化合物定義的結構域外。在Williams圖中,若化合物的標準殘差δ*落在±3.0以外時,認為該點是離群點。從圖3B可見,僅一個化合物(3,4,5-三羥基苯甲酸)的標準殘差δ*落于±3.0以外。由于其類似物如4-羥基苯甲酸、3-羥基苯甲酸、2-羥基苯甲酸、2,4-二羥基苯甲酸、2,5-二羥基苯甲酸的標準殘差δ*均落于±3.0以內,說明模型能夠正確預測該類化合物的毒性效應。導致3,4,5-三羥基苯甲酸離群的原因可能是實驗高估了其對大型溞的急性毒性。在圖3B中有2個物質(間苯二甲酸和2,4,6-三溴苯胺)的杠桿值均大于警戒值h*。但是模型較好地預測了間苯二甲酸和2,4,6-三溴苯胺對大型溞的急性毒性,說明模型具有較好的延展性[29]。

圖3 基于歐幾里德距離方法(A)和Williams圖(B)表征的模型II應用域模Fig. 3 Characterization of application domain for model II based on the Euclidean distance (A) and Williams plot (B)
包信等[20]分別構建了針對19種苯酚類、17種苯胺類和24種苯甲酸類物質大型溞急性毒性的局域預測模型,從表3可以看出,針對19種苯酚類、17種苯胺類物質的模型具有較好的預測能力,但是對24種苯甲酸類物質的模型預測能力較差,僅在刪除部分苯甲酸類物質的情況下,才能得到預測能力較好的模型。他們構建的局域模型可以用于分別預測苯酚類、苯胺類和苯甲酸類物質對大型溞的急性毒性數據。本研究針對19種苯酚類、20種苯胺類和24種苯甲酸類物質,構建了能同時預測上述3類物質對大型溞急性毒性的模型,所建模型具有較好的內部和外部預測能力,并進行了應用域表征。
綜上,本研究探索了采用基于形態修正的描述符構建IOCs水生毒性指標預測模型的可行性。研究結果表明,使用基于形態修正的描述符構建的IOCs大型溞急性毒性模型預測能力要優于僅采用分子形態描述符的模型。因此,在將來構建IOCs水生毒性效應預測模型時,可考慮引入基于形態修正的描述符。

表3 本研究與文獻模型比較Table 3 Comparison of the current model with previous QSAR models