張文灝,陳景文,徐童,王雅
工業生態與環境工程教育部重點實驗室,大連理工大學環境學院,大連 116024
外源性化合物可通過魚的攝食、呼吸和直接接觸等途徑進入到體內,經過吸收和代謝競爭,在體內蓄積[1-2]。蓄積的化學品可對魚體產生毒害效應[3-5],因此有必要評價外源化合物的生物蓄積效應[6-8]。經濟合作與發展組織(OECD)在2012年發布的“魚體內生物蓄積:水和食物暴露”導則[9]指出,除生物富集因子(BCF)、生物放大因子(BAF)外,化合物在魚體內的半減期(t1/2, d)和消除速率常數(KM, 1/d)也可用于評價化學品的生物蓄積效應。為方便統計和比較,通常取logt1/2進行記錄和計算[10-12]。目前具有logt1/2實測值的化學品僅有幾百種,實驗測定t1/2的速度慢、成本高,難以滿足化學品生態風險評價的需求,需要發展替代實驗的模型預測方法。
定量構效關系(QSAR)模型可用于預測化合物的logt1/2值[13]。Arnot等[14]基于632種化合物在魚體的實測logt1/2值,采用正辛醇/水分配系數(logKow)、分子量(Mw) 2種描述符,以及57個分子碎片構建了QSAR模型。在此基礎上,Brown等[15]構建了包含34個分子碎片及logKow和Mw2種描述符的QSAR模型。Papa等[6]運用同一數據庫,建立了包含9個2D分子描述符的QSAR模型。然而,這些模型的訓練集和驗證集中,均不包含近年來引起廣泛關注的藥物和個人護理用化學品(PPCPs)類物質。
近年來,PPCPs類污染物在各處水體和水生生物中被檢出[16-18],具有潛在的生態風險[19-20]。如果QSAR模型能夠預測包含抗抑郁藥、降壓藥、麻醉劑、抗過敏藥、抗病毒藥和抗生素在內的PPCPs在魚體內的t1/2,則模型有助于評價PPCPs類化合物的危害性和風險。本研究在以往數據庫的基礎上,整理搜集了包括PPCPs在內的653個化合物在魚體內的logt1/2實測值,采用多元線性回歸(MLR)[21-23]和支持向量機(SVM)[24-27]2種方法分別建立logt1/2的預測模型,并對模型進行驗證、應用域表征和機理解釋。
本研究從文獻[28-46]和數據庫(EPI Suite Package)中,共搜集653個化合物在魚體內的logt1/2數據,涉及魚種類包含鯉魚、虹鱒、斑馬魚、羅非魚、鮭魚、鱸魚、太陽魚和青鳉魚等十幾種魚類,它們體長、體重、身體構造、生長習性均不相同,實驗溫度、pH等實驗條件也不盡相同。KM和t1/2關系如式(1)所示:
t1/2= ln2/KM
(1)
為了弱化魚種和實驗條件對模型的影響,本研究采用Arnot等[14]的方法,通過式(1)得到新收集數據的消除速率常數(KM,X,單位為d-1)值,再采用式(2)對數據進行規范化處理,即:
KM, N=KM, X(WN/WX)-0.25exp[0.01(TN-TX)]
(2)
這里(WN/WX)為規范化體重(0.01 kg)與實際體重之比;(TN-TX)為規范化溫度(15 ℃)與實際溫度的差。據式(2)得到規范化處理的消除速率常數(KM, N),最后根據式(1)重新得到t1/2進行建模。經過規范化處理后,得到含有653種化合物的新數據集,包括多環芳烴、多氯聯苯、多溴聯苯醚、有機磷農藥和藥物等典型化合物以及其他烷烴、環烷烴、烯烴、醇、醚、酸、酯、酮、鹵代化合物、芳香族化合物、含硫、氮、磷化合物。以2∶1的比例將數據集隨機拆分成訓練集(n= 436)和驗證集(n= 217)。
將得到的化合物3D結構使用Gaussian 09軟件包[47]中的B3LYP/6-311+G(d, p)方法進行結構優化,其中I原子采用Lanl2DZ贗勢基組[48]。基于優化后的分子結構使用DRAGON (6.0)軟件[49]計算分子結構描述符,去掉常數項、近常數項以及數據不完整的描述符,得到2291個描述符。

采用杠桿值(h)和標準殘差(δ)做Williams圖進行模型應用域表征。h和δ計算公式如下:
(3)
h*=3(k+1)/n
(4)
(5)

MLR法建立的logt1/2的QSAR模型為:
logt1/2= 0.96 + 0.064MLOGP2 -0.09Mor04u+ 0.037RDF045p-0.045CATS2D_07_ll-2.82(R1e+) + 0.206Mor16m-0.139NaaaC-1.64SpMaxA_B(s)-0.11ATS7s+ 1.36B06[N-P] -0.728nP04


模型評價參數表明,2個模型均具有良好的預測能力和穩健性。對于MLR模型的外部驗證也表明模型具有良好的外部預測能力。各描述符的VIF值均小于10,表明模型不存在多重共線性。描述符含義及VIF值見表1。MLR和SVM預測模型實驗值和預測值擬合圖如圖1所示。

表1 logt1/2的QSAR模型中描述符意義、VIF值及t值Table 1 Explanation of descriptors, VIF and t values in the QSAR model of logt1/2
注:VIF值表示方差膨脹因子,t值表示t檢驗值。
Note:VIFstands for variance inflation factor;tvalue stands fort-test value.

圖1 多元線性回歸(MLR)和支持向量機(SVM)模型中logt1/2實測值和預測值擬合關系Fig. 1 Plots of the experimental versus predicted logt1/2 values by multiple linear regression (MLR) and support vector machine (SVM) models
2種建模方法表征應用域的Willimas圖如圖2所示,MLR模型中,鄰苯二甲酸二異壬酯和多菌靈2種化合物為離群點,來自驗證集。SVM模型中有6個離群點,包括訓練集化合物三聚氰胺、異丙隆、六氯丁二烯、五氯苯甲醚、2-乙基己基乙烯醚和驗證集化合物多菌靈。
2種建模方法中離群點化合物共7個,其中2個醚類化合物,數據集中醚類化合物共有134個,說明本研究模型可以預測大部分含-C-O-C-結構的化合物。除此之外,數據集中包含了10種鄰苯二甲酸酯類化合物,只有一種未被準確預測,說明對大多數鄰苯二甲酸酯類化合物具有較好的預測效果。多菌靈可以與無機酸反應生成鹽,本研究中多菌靈實驗數據來自鱸魚,其為有胃魚,可以分泌鹽酸與多菌靈反應生成鹽。同樣,三聚氰胺在生物體內容易水解生成三聚氰酸等化合物,因此,參與體內循環的化合物并非本體化合物,進而導致其預測結果不準確。
表1給出了模型中涉及的11個描述符意義、VIF值及t值。從表1中數據可以看出,MLOGP2的t值明顯大于其他描述符,說明MLOGP2是該模型中十分重要的描述符,這與前人的研究結果一致[14]。MLOGP2和CATS2D_07_ll2種描述符與化合物的疏水性(親脂性)相關,前者與logt1/2正相關,后者為負相關。Mor04u和Mor16m為3D-MoRSE描述符[49],前者直接表征分子結構,與logt1/2負相關,后者基于質量表征分子結構,與logt1/2正相關。SpMaxA_B(s)是與分子原子連接有關的拓撲描述符,與logt1/2負相關。NaaaC表示::C:結構的數量[6],指的是苯環對接處C原子個數,與logt1/2負相關。R1e+與分子尺寸和電負性相關,而ATS7s也與分子的尺寸有關。有研究表明,分子的體積大小對其在生物體內的吸收分布具有顯著影響[50]。RDF045p與logt1/2正相關,經過統計分析,硅氧烷、環烷烴以及含有2個及以上苯環的長鏈化合物的RDF045p值較大。B06[N-P]表示在拓撲距離6時,是否存在N-P結構,存在值為1,不存在為0,與logt1/2正相關。nP04表示分子中磷酸鹽或者硫代磷酸鹽基團的個數,與logt1/2正相關。

圖2 MLR和SVM模型的Williams圖Fig. 2 Williams plots of the MLR and SVM models
在所有描述符中,共有75個化合物NaaaC值不為零,均來自蒽、菲、萘、芴和噻吩等多環芳烴類化合物及其類似物,多氯聯苯類化合物以及多溴聯苯醚。這些化合物往往有2個以上的苯環相連,該描述符的加入,更準確地表達了這一結構特征對t1/2的影響。
比較前人研究[6,14-15]和本研究2個模型的統計學參數,結果匯總于表2,顯然非線性模型預測效果優于線性模型。
與前人研究模型相比,本研究模型數據集增加了藥物類化合物,使模型預測范圍更廣泛。其次,在Arnot等[14]和Brown等[15]的研究中,存在14個預測效果不好的化合物,在Papa等[6]的研究中部分化合物的預測結果得到優化。這些化合物包含在本研究模型的訓練集和驗證集中,表3給出了14種化合物的logt1/2實驗值以及在此前各個模型中的預測最優值,可以看出,除了2,3,4,5-四氯硝基苯和六氯苯,其余化合物的預測準確度都有不同程度的提升,且SVM模型明顯優于其他幾種線性模型。另外,本研究的數據集中共包含28個氟化物,此前的研究[6,14-15]對這些化合物很難準確預測,而在本研究中,MLR法建立的模型中14種氟化物|δ|<1,預測較為準確,SVM法中21種氟化物也得到較準確的預測。

表2 不同預測模型對比Table 2 Comparison of different models
注:M代表描述符個數,N代表模型包含數據個數;R2表示校正后決定系數,RMSE表示均方根誤差;GA表示遺傳算法。
Note:Mrepresents the number of descriptors;Nrepresents the number of data in the model;R2represents the adjusted determination coefficient;RMSErepresents the root mean squared error; GA represents genetic algorithm.

表3 各模型對14種化合物的logt1/2預測值Table 3 Prediction of logt1/2 for 14 chemicals from different models
綜上所述,本研究運用MLR和SVM這2種方法,基于Dragon分子描述符,構建了魚體logt1/2值的QSAR預測模型,SVM模型具有更良好的預測能力和穩健性。結果表明,以下幾種類型化合物不容易被生物體代謝,魚體內生物半減期較長:分子體積大、親脂性高的化合物,硅氧烷、環烷烴、含有2個及以上不直接相連苯環的復雜長鏈化合物以及含氮、磷的化合物。所構建的模型可以預測多環芳烴、多氯聯苯、多溴聯苯、多溴聯苯醚、農藥、藥物以及其他烷烴、環烷烴、烯烴、醇、醚、酸、酯、酮、鹵代化合物、芳香族化合物、含硫、氮、磷化合物等的魚體內生物半減期。