外源化合物在魚體內生物半減期的QSAR模型

2019-09-16 09:59:48張文灝陳景文徐童王雅

生態毒理學報 2019年3期

張文灝，陳景文，徐童，王雅

工業生態與環境工程教育部重點實驗室，大連理工大學環境學院，大連 116024

外源性化合物可通過魚的攝食、呼吸和直接接觸等途徑進入到體內，經過吸收和代謝競爭，在體內蓄積[1-2]。蓄積的化學品可對魚體產生毒害效應[3-5]，因此有必要評價外源化合物的生物蓄積效應[6-8]。經濟合作與發展組織(OECD)在2012年發布的“魚體內生物蓄積：水和食物暴露”導則[9]指出，除生物富集因子(BCF)、生物放大因子(BAF)外，化合物在魚體內的半減期(t1/2, d)和消除速率常數(KM, 1/d)也可用于評價化學品的生物蓄積效應。為方便統計和比較，通常取logt1/2進行記錄和計算[10-12]。目前具有logt1/2實測值的化學品僅有幾百種，實驗測定t1/2的速度慢、成本高，難以滿足化學品生態風險評價的需求，需要發展替代實驗的模型預測方法。

定量構效關系(QSAR)模型可用于預測化合物的logt1/2值[13]。Arnot等[14]基于632種化合物在魚體的實測logt1/2值，采用正辛醇/水分配系數(logKow)、分子量(Mw) 2種描述符，以及57個分子碎片構建了QSAR模型。在此基礎上，Brown等[15]構建了包含34個分子碎片及logKow和Mw2種描述符的QSAR模型。Papa等[6]運用同一數據庫，建立了包含9個2D分子描述符的QSAR模型。然而，這些模型的訓練集和驗證集中，均不包含近年來引起廣泛關注的藥物和個人護理用化學品(PPCPs)類物質。

近年來，PPCPs類污染物在各處水體和水生生物中被檢出[16-18]，具有潛在的生態風險[19-20]。如果QSAR模型能夠預測包含抗抑郁藥、降壓藥、麻醉劑、抗過敏藥、抗病毒藥和抗生素在內的PPCPs在魚體內的t1/2，則模型有助于評價PPCPs類化合物的危害性和風險。本研究在以往數據庫的基礎上，整理搜集了包括PPCPs在內的653個化合物在魚體內的logt1/2實測值，采用多元線性回歸(MLR)[21-23]和支持向量機(SVM)[24-27]2種方法分別建立logt1/2的預測模型，并對模型進行驗證、應用域表征和機理解釋。

1 材料與方法(Materials and methods)

1.1 訓練集數據搜集及分子結構描述符的計算

本研究從文獻[28-46]和數據庫(EPI Suite Package)中，共搜集653個化合物在魚體內的logt1/2數據，涉及魚種類包含鯉魚、虹鱒、斑馬魚、羅非魚、鮭魚、鱸魚、太陽魚和青鳉魚等十幾種魚類，它們體長、體重、身體構造、生長習性均不相同，實驗溫度、pH等實驗條件也不盡相同。KM和t1/2關系如式(1)所示：

t1/2= ln2/KM

(1)

為了弱化魚種和實驗條件對模型的影響，本研究采用Arnot等[14]的方法，通過式(1)得到新收集數據的消除速率常數(KM,X，單位為d-1)值，再采用式(2)對數據進行規范化處理，即：

KM, N=KM, X(WN/WX)-0.25exp[0.01(TN-TX)]

(2)

這里(WN/WX)為規范化體重(0.01 kg)與實際體重之比；(TN-TX)為規范化溫度(15 ℃)與實際溫度的差。據式(2)得到規范化處理的消除速率常數(KM, N)，最后根據式(1)重新得到t1/2進行建模。經過規范化處理后，得到含有653種化合物的新數據集，包括多環芳烴、多氯聯苯、多溴聯苯醚、有機磷農藥和藥物等典型化合物以及其他烷烴、環烷烴、烯烴、醇、醚、酸、酯、酮、鹵代化合物、芳香族化合物、含硫、氮、磷化合物。以2∶1的比例將數據集隨機拆分成訓練集(n= 436)和驗證集(n= 217)。

將得到的化合物3D結構使用Gaussian 09軟件包[47]中的B3LYP/6-311+G(d, p)方法進行結構優化，其中I原子采用Lanl2DZ贗勢基組[48]。基于優化后的分子結構使用DRAGON (6.0)軟件[49]計算分子結構描述符，去掉常數項、近常數項以及數據不完整的描述符，得到2291個描述符。

1.2 模型構建和評價

采用杠桿值(h)和標準殘差(δ)做Williams圖進行模型應用域表征。h和δ計算公式如下：

(3)

h*=3(k+1)/n

(4)

(5)

2 結果與討論(Results and discussion)

2.1 預測模型

MLR法建立的logt1/2的QSAR模型為：

logt1/2= 0.96 + 0.064MLOGP2 -0.09Mor04u+ 0.037RDF045p-0.045CATS2D_07_ll-2.82(R1e+) + 0.206Mor16m-0.139NaaaC-1.64SpMaxA_B(s)-0.11ATS7s+ 1.36B06[N-P] -0.728nP04

模型評價參數表明，2個模型均具有良好的預測能力和穩健性。對于MLR模型的外部驗證也表明模型具有良好的外部預測能力。各描述符的VIF值均小于10，表明模型不存在多重共線性。描述符含義及VIF值見表1。MLR和SVM預測模型實驗值和預測值擬合圖如圖1所示。

表1 logt1/2的QSAR模型中描述符意義、VIF值及t值Table 1 Explanation of descriptors, VIF and t values in the QSAR model of logt1/2

注：VIF值表示方差膨脹因子，t值表示t檢驗值。

Note:VIFstands for variance inflation factor;tvalue stands fort-test value.

圖1 多元線性回歸(MLR)和支持向量機(SVM)模型中logt1/2實測值和預測值擬合關系Fig. 1 Plots of the experimental versus predicted logt1/2 values by multiple linear regression (MLR) and support vector machine (SVM) models

2.2 應用域表征

2種建模方法表征應用域的Willimas圖如圖2所示，MLR模型中，鄰苯二甲酸二異壬酯和多菌靈2種化合物為離群點，來自驗證集。SVM模型中有6個離群點，包括訓練集化合物三聚氰胺、異丙隆、六氯丁二烯、五氯苯甲醚、2-乙基己基乙烯醚和驗證集化合物多菌靈。

2種建模方法中離群點化合物共7個，其中2個醚類化合物，數據集中醚類化合物共有134個，說明本研究模型可以預測大部分含-C-O-C-結構的化合物。除此之外，數據集中包含了10種鄰苯二甲酸酯類化合物，只有一種未被準確預測，說明對大多數鄰苯二甲酸酯類化合物具有較好的預測效果。多菌靈可以與無機酸反應生成鹽，本研究中多菌靈實驗數據來自鱸魚，其為有胃魚，可以分泌鹽酸與多菌靈反應生成鹽。同樣，三聚氰胺在生物體內容易水解生成三聚氰酸等化合物，因此，參與體內循環的化合物并非本體化合物，進而導致其預測結果不準確。

2.3 模型解釋

表1給出了模型中涉及的11個描述符意義、VIF值及t值。從表1中數據可以看出，MLOGP2的t值明顯大于其他描述符，說明MLOGP2是該模型中十分重要的描述符，這與前人的研究結果一致[14]。MLOGP2和CATS2D_07_ll2種描述符與化合物的疏水性(親脂性)相關，前者與logt1/2正相關，后者為負相關。Mor04u和Mor16m為3D-MoRSE描述符[49]，前者直接表征分子結構，與logt1/2負相關，后者基于質量表征分子結構，與logt1/2正相關。SpMaxA_B(s)是與分子原子連接有關的拓撲描述符，與logt1/2負相關。NaaaC表示::C:結構的數量[6]，指的是苯環對接處C原子個數，與logt1/2負相關。R1e+與分子尺寸和電負性相關，而ATS7s也與分子的尺寸有關。有研究表明，分子的體積大小對其在生物體內的吸收分布具有顯著影響[50]。RDF045p與logt1/2正相關，經過統計分析，硅氧烷、環烷烴以及含有2個及以上苯環的長鏈化合物的RDF045p值較大。B06[N-P]表示在拓撲距離6時，是否存在N-P結構，存在值為1，不存在為0，與logt1/2正相關。nP04表示分子中磷酸鹽或者硫代磷酸鹽基團的個數，與logt1/2正相關。

圖2 MLR和SVM模型的Williams圖Fig. 2 Williams plots of the MLR and SVM models

在所有描述符中，共有75個化合物NaaaC值不為零，均來自蒽、菲、萘、芴和噻吩等多環芳烴類化合物及其類似物，多氯聯苯類化合物以及多溴聯苯醚。這些化合物往往有2個以上的苯環相連，該描述符的加入，更準確地表達了這一結構特征對t1/2的影響。

2.4 模型比較

比較前人研究[6,14-15]和本研究2個模型的統計學參數，結果匯總于表2，顯然非線性模型預測效果優于線性模型。

與前人研究模型相比，本研究模型數據集增加了藥物類化合物，使模型預測范圍更廣泛。其次，在Arnot等[14]和Brown等[15]的研究中，存在14個預測效果不好的化合物，在Papa等[6]的研究中部分化合物的預測結果得到優化。這些化合物包含在本研究模型的訓練集和驗證集中，表3給出了14種化合物的logt1/2實驗值以及在此前各個模型中的預測最優值，可以看出，除了2,3,4,5-四氯硝基苯和六氯苯，其余化合物的預測準確度都有不同程度的提升，且SVM模型明顯優于其他幾種線性模型。另外，本研究的數據集中共包含28個氟化物，此前的研究[6,14-15]對這些化合物很難準確預測，而在本研究中，MLR法建立的模型中14種氟化物|δ|<1，預測較為準確，SVM法中21種氟化物也得到較準確的預測。

表2 不同預測模型對比Table 2 Comparison of different models

注：M代表描述符個數，N代表模型包含數據個數；R2表示校正后決定系數，RMSE表示均方根誤差；GA表示遺傳算法。

Note:Mrepresents the number of descriptors;Nrepresents the number of data in the model;R2represents the adjusted determination coefficient;RMSErepresents the root mean squared error; GA represents genetic algorithm.

表3 各模型對14種化合物的logt1/2預測值Table 3 Prediction of logt1/2 for 14 chemicals from different models

綜上所述，本研究運用MLR和SVM這2種方法，基于Dragon分子描述符，構建了魚體logt1/2值的QSAR預測模型，SVM模型具有更良好的預測能力和穩健性。結果表明，以下幾種類型化合物不容易被生物體代謝，魚體內生物半減期較長：分子體積大、親脂性高的化合物，硅氧烷、環烷烴、含有2個及以上不直接相連苯環的復雜長鏈化合物以及含氮、磷的化合物。所構建的模型可以預測多環芳烴、多氯聯苯、多溴聯苯、多溴聯苯醚、農藥、藥物以及其他烷烴、環烷烴、烯烴、醇、醚、酸、酯、酮、鹵代化合物、芳香族化合物、含硫、氮、磷化合物等的魚體內生物半減期。