鄭玉婷,王寶成,于洋,*,黃怡,張麗麗,楊先海,金彪,林軍,張干
1.生態(tài)環(huán)境部固體廢物與化學品管理技術中心,北京 100029
2.北京市污染源管理事務中心,北京 100089
3.南京理工大學環(huán)境與生物工程學院,南京 210094
4.國家有機地球化學國家重點實驗室,中國科學院廣州地球化學研究所,廣州510640
PMT(persistent mobile toxic)類物質(zhì)是一類具有持久性、遷移性和毒性的有機化學物質(zhì)總稱[1]。該類物質(zhì)是一類新污染物,具有難降解、移動性強,不易被化學或者生物過程消減等特點,且難被土壤或活性炭等吸附去除,較易穿透土壤或水處理設施屏障,容易賦存于地表水、地下水和飲用水,對生態(tài)環(huán)境和人類健康產(chǎn)生未知風險。有研究表明,水環(huán)境已檢測出潛在的PMT類物質(zhì),例如甲基叔丁醚(MTBE)、全氟烷基酸(PFAA)、三氯乙烯和四氯乙烯等[2-4]。
當前,我國化學工業(yè)規(guī)模大于歐盟和美國總和,應對化學物質(zhì)的環(huán)境釋放已成為環(huán)境安全的重大挑戰(zhàn)。新時代下,化學品環(huán)境管理戰(zhàn)略也在不斷創(chuàng)新。繼2016年美國修訂了《有毒物質(zhì)控制法》,歐盟于2020年更新了《面向無毒環(huán)境的化學品可持續(xù)發(fā)展戰(zhàn)略》,制定了“全新的歐洲化學品管理政策長期規(guī)劃”,提出從生命周期的角度盡量減少PMT類新污染物對生態(tài)環(huán)境的影響,以確保生態(tài)環(huán)境的總體可持續(xù)。計劃在《歐盟物質(zhì)和混合物的分類、標簽和包裝法規(guī)》(CLP)中提出新的關于環(huán)境毒性、持久性、遷移性和生物積累性的危害等級和標準,并計劃將內(nèi)分泌干擾物、持久性、流動性、毒性以及高持久性和高遷移性的化學物質(zhì),列為高關注物質(zhì)類別。德國聯(lián)邦環(huán)境署(UBA)在歐盟REACH框架下,牽頭建立了PMT物質(zhì)的鑒定評判標準。我國于2020年提出了“重視新污染物治理”的新要求,國務院辦公廳于2022年5月4日正式印發(fā)了《新污染物治理行動方案》。部分潛在PMT類物質(zhì)已被納入我國優(yōu)先控制化學品名錄管理,例如三氯乙烯、四氯乙烯等被列入我國《優(yōu)先控制化學品名錄(第一批)》。但是,仍有未知數(shù)量的PMT類物質(zhì)還未受到關注及管控,我國缺乏服務于化學品環(huán)境風險管理的專業(yè)模型工具,計算毒理學工具逐漸成為了化學品環(huán)境管理的重要工具之一[5]。
為應對國際化學物質(zhì)環(huán)境管理新趨勢,貫徹落實新發(fā)展理念,認真執(zhí)行新污染物治理行動方案,本研究運用計算毒理學技術,開發(fā)了一種能夠篩選潛在PMT類新污染物的模型工具,輔助環(huán)境管理工作者從數(shù)以萬計的化學物質(zhì)中,快速識別出具有PMT危害特性的化學物質(zhì),以期服務于我國化學品環(huán)境管理及新污染物治理。
1.1.1 建模數(shù)據(jù)
本研究構(gòu)建PMT模型的數(shù)據(jù)集包含了14 770條數(shù)據(jù)信息[6],P模型包含1 629個化學物質(zhì)的快速生物降解性數(shù)據(jù),M模型包含9 961個化學物質(zhì)正辛醇-水分配系數(shù)數(shù)據(jù),T模型包含946個化學物質(zhì)的魚急性毒性數(shù)據(jù),94個化學物質(zhì)的魚慢性毒性數(shù)據(jù),978個化學物質(zhì)的大型溞急性毒性數(shù)據(jù),307個化學物質(zhì)的大型溞慢性毒性數(shù)據(jù),445個化學物質(zhì)的綠藻急性毒性數(shù)據(jù),410個化學物質(zhì)的綠藻慢性毒性數(shù)據(jù)。
1.1.2 建模方法
構(gòu)建PMT模型時,建模數(shù)據(jù)均按照3∶1的比例,隨機分為訓練集和驗證集。采用PaDEL-Descriptor軟件[7],計算一維、二維分子結(jié)構(gòu)描述符及Pubchem分子指紋描述符,其中一維和二維分子結(jié)構(gòu)描述符用于建模,Pubchem分子指紋描述符用于計算相似性指數(shù)(TS)[8],評估目標化學物質(zhì)預測結(jié)果的可靠性。所有模型使用自編的Python程序[9-10]通過k-最鄰近分類(kNN)算法構(gòu)建模型,采用Euclidean距離表征應用域。Euclidean距離計算方法如公式(1)所示:
(1)
式中:DE是Euclidean距離;x和y是不同種化學物質(zhì);xi和yi分別是化學物質(zhì)x和化學物質(zhì)y的第i個描述符的值。若目標化學物質(zhì)的Euclidean距離小于對應模型訓練集的Euclidean距離最大值,則判定目標化學物質(zhì)在模型應用域內(nèi);反之,則判定其不在模型應用域內(nèi)。

1.1.3 毒性預測分類策略
毒性模型針對魚類、大型溞和綠藻分別進行建模。由于不同類型的化學物質(zhì)毒性作用差異較大,因此將目標化學物質(zhì)進行了分類,分類策略如下。根據(jù)國標《化學品分類和標簽規(guī)范 第28部分:對水生環(huán)境的危害》(GB 30000.28—2013)[12]以及《持久性、生物累積性和毒性物質(zhì)及高持久性和高生物累積性物質(zhì)的判定方法》(GB/T 24782—2009)[13]關于毒性物質(zhì)的判別標準,對于魚急性毒性分類預測模型,以L(E)C50為0.01、0.1、1、10和100 mg·L-1作為分類閾值,基于946個化學物質(zhì)的魚急性毒性數(shù)據(jù),構(gòu)建魚急性毒性預測模型。但由于建模數(shù)據(jù)中LC50≤0.01 mg·L-1的物質(zhì)數(shù)量少不足以建模,因此,本研究以0.1、1、10和100 mg·L-1為分類閾值,構(gòu)建分類模型Ⅰ~Ⅳ,分類策略如圖1所示。對于魚慢性毒性分類預測模型,則以NOEC為0.01、0.1和1 mg·L-1為分類閾值,基于94個化學物質(zhì)的魚慢性毒性數(shù)據(jù),構(gòu)建魚慢性毒性預測模型Ⅰ~Ⅲ,分類策略如圖2所示。

圖1 魚急性毒性(LC50)預測模型分類策略示意圖Fig. 1 Schematic diagram of classification strategy for fish acute toxicity (LC50) prediction model

圖2 魚慢性毒性(NOEC)預測模型分類策略示意圖Fig. 2 Schematic diagram of classification strategy for fish chronic toxicity (NOEC) prediction model
與魚急性/慢性毒性分類策略類似,對于大型溞急性毒性分類預測模型,是基于978個化學物質(zhì)的大型溞急性毒性數(shù)據(jù),以EC50為0.01、0.1、1、10和100 mg·L-1作為分類閾值,構(gòu)建分類預測模型Ⅰ~Ⅴ;對于大型溞慢性毒性分類預測模型,是基于307個化學物質(zhì)的大型溞慢性毒性數(shù)據(jù),以NOEC為0.01、0.1和1 mg·L-1作為分類閾值,構(gòu)建分類預測模型Ⅰ~Ⅲ;對于綠藻急性毒性分類預測模型,是基于445個化學物質(zhì)的綠藻急性毒性數(shù)據(jù),但由于EC50≤0.01 mg·L-1的物質(zhì)個數(shù)少不足以建模,因此以EC50為0.1、1、10和100 mg·L-1作為分類閾值,構(gòu)建分類預測模型Ⅰ~Ⅳ;對于綠藻慢性毒性分類預測模型,是基于410個化學物質(zhì)的綠藻慢性毒性數(shù)據(jù),以NOEC為0.01、0.1和1 mg·L-1作為分類閾值,構(gòu)建分類預測模型Ⅰ~Ⅲ。
本研究根據(jù)我國《持久性、生物累積性和毒性物質(zhì)及高持久性和高生物累積性物質(zhì)的判定方法》(GB/T 24782—2009)判斷化學物質(zhì)是否具有持久性(P)和毒性(T)[13],根據(jù)德國聯(lián)邦環(huán)境署有關標準判斷化學物質(zhì)是否具有遷移性(M)[1]。其中,P通過化學物質(zhì)的快速生物降解屬性來確定,如果不能快速生物降解,則表明該物質(zhì)具有持久性;M通過logKoc判斷,如果logKoc<4,則表明該物質(zhì)具有遷移性;其中,logKoc通過logKow估算,該方法也是加拿大環(huán)境多介質(zhì)模型工具[14](new equilibrium criterion)采用的方法之一,如公式(2)或(3)所示:
Koc=0.35Kow
(2)
logKoc=logKow-0.456
(3)
T預測根據(jù)國標《化學品分類和標簽規(guī)范 第28部分:對水生環(huán)境的危害》(GB 30000.28—2013)[12],通過化學物質(zhì)對水生急性毒性或水生慢性毒性效應數(shù)據(jù)判斷,如果魚類急性毒性效應值(LC50)、大型溞急性毒性效應值(EC50)、綠藻急性毒性效應值(EC50)<0.1 mg·L-1(或<0.01 mg·L-1),或者水生慢性毒性效應數(shù)據(jù)(NOEC)<0.01 mg·L-1,則表明該化學物質(zhì)具有水生生物毒性。
本研究基于Python語言開發(fā)了能夠自動預測PMT屬性的軟件工具,即有毒有害化學物質(zhì)高通量危害識別系統(tǒng),以實現(xiàn)模型的高通量預測及篩選功能。該系統(tǒng)支持單一及批量化學物質(zhì)的SMILES碼、CAS號等輸入方式,通過輸入化學物質(zhì)的結(jié)構(gòu)信息,即可高通量預測化學物質(zhì)的快速生物降解性、吸附系數(shù)(logKoc)、水生生物急慢性毒性,并根據(jù)篩選標準,評估識別潛在PMT類物質(zhì)。
本研究利用有毒有害化學物質(zhì)高通量危害識別系統(tǒng),開展了335個化學物質(zhì)P、M和T屬性的預測,并將預測結(jié)果與Huang等[15]的研究成果進行了比對。Huang等[15]的研究成果中包含了432個化學物質(zhì)的P、M和T數(shù)據(jù),同時具有P、M和T這3項指標的化學物質(zhì)是335個,因此本研究對比驗證的物質(zhì)為335個。
快速生物降解最優(yōu)模型包含了MLFER_S、MLFER_BO、TSRW、MlogP和WTPT-4這5個預測變量。模型Q、Sn和Sp分別介于0.83~0.88、0.78~0.86和0.86~0.89;MCC和AUC分別介于0.64~0.75和0.86~0.96,說明模型具有較好的分類性能,表征結(jié)果如表1所示。模型應用域顯示,目標化學物質(zhì)的Euclidean距離≤1.24時,在模型的應用域范圍內(nèi)。

表1 快速生物降解模型表征結(jié)果Table 1 Characterization results of a rapid biodegradation model


表2 logKow模型表征結(jié)果Table 2 Model characterization results of logKow

圖3 logKow實驗值和預測值擬合圖Fig. 3 logKow fitted graph of experimental and predicted values
2.3.1 魚急慢性毒性分類預測模型
2.3.1.1 魚急性毒性分類預測模型
魚急性毒性分類模型Ⅰ,以LC50=10 mg·L-1為分類閾值,最優(yōu)模型包含了logKow、GATS1p、SdCH2、nHBint3、nHAvin和maxssssC這6個預測變量;魚急性毒性分類模型Ⅱ,以LC50=100 mg·L-1為分類閾值,最優(yōu)模型包含了logKow、SIC0、maxHBint6、nHdCH2和minsssCH這5個預測變量;魚急性毒性分類模型Ⅲ,以LC50=1 mg·L-1為分類閾值,最優(yōu)模型包含了logKow、AATSC0v、MATS3p和VE1_DzZ這4個預測變量;魚急性毒性分類模型Ⅳ,以LC50=0.1 mg·L-1為分類閾值,最優(yōu)模型包含了logKow、AATSC1m、GATS2c和MATS1c這4個預測變量。如表3所示,模型Q、Sn和Sp分別介于0.85~0.92、0.70~0.92和0.81~0.92;MCC和AUC分別介于0.63~0.79和0.81~0.96,說明模型具有較好的分類性能。模型應用域表征結(jié)果顯示,對于模型Ⅰ~Ⅳ,目標化學物質(zhì)的Euclidean距離分別小于1.23、1.04、1.05和1.07時,在相應模型的應用域范圍內(nèi)。

表3 魚急性毒性分類模型表征結(jié)果Table 3 Characterization of fish acute toxicity classification model
2.3.1.2 魚慢性毒性分類預測模型
魚慢性毒性分類模型Ⅰ,以NOEC=0.1 mg·L-1為分類閾值,最優(yōu)模型包含了logKow、bpol和minaasC這3個預測變量;魚慢性毒性分類模型Ⅱ,以NOEC=1 mg·L-1為分類閾值,最優(yōu)模型包含了logKow、IC5和AATSC5p這3個預測變量;魚慢性毒性分類模型Ⅲ,以NOEC=0.01 mg·L-1為分類閾值,最優(yōu)模型包含了logKow和nHBint3這2個預測變量。如表4所示,模型Q、Sn和Sp分別介于0.88~1、0.89~1和0.85~1;MCC和AUC分別介于0.75~1和0.86~1,說明模型具有較好的分類性能。模型應用域表征結(jié)果顯示,對于模型Ⅰ~Ⅲ,目標化學物質(zhì)的Euclidean距離分別小于0.73、0.75和1.04時,在相應模型的應用域范圍內(nèi)。

表4 魚慢性毒性分類模型表征結(jié)果Table 4 Characterization of fish chronic toxicity classification model
2.3.2 大型溞急慢性毒性分類預測模型
2.3.2.1 大型溞急性毒性分類預測模型
大型溞急性毒性分類模型Ⅰ,以EC50=10 mg·L-1為分類閾值,最優(yōu)模型包含了logKow、minwHBa、ndsssP、SsSH和JGI6這5個預測變量;大型溞急性毒性分類模型Ⅱ,以EC50=100 mg·L-1為分類閾值,最優(yōu)模型包含了logKow、MPC5、nBase、SRW6和naaN這5個預測變量;大型溞急性毒性分類模型Ⅲ,以EC50=1 mg·L-1為分類閾值,最優(yōu)模型包含了logKow、BIC0、SdsssP和n6HeteroRing這4個預測變量;大型溞急性毒性分類模型Ⅳ,以EC50=0.1 mg·L-1為分類閾值,最優(yōu)模型包含了logKow、bpol、AATSC0i和MATS7s這4個預測變量;大型溞急性毒性分類模型V,以EC50=0.01 mg·L-1為分類閾值,最優(yōu)模型包含了logKow、GATS3c、mindCH2和SCH-3這4個預測變量。如表5所示,模型Q、Sn和Sp分別介于0.79~0.89、0.81~0.94和0.70~0.84;MCC和AUC分別介于0.57~0.72和0.77~0.92,說明模型具有較好的分類性能。模型應用域表征結(jié)果顯示,對于模型Ⅰ~Ⅴ,目標化學物質(zhì)的Euclidean距離分別小于1.03、1.39、0.98、0.88和0.99時,在相應模型的應用域范圍內(nèi)。

表5 大型溞急性毒性分類模型表征結(jié)果Table 5 Characterization of acute toxicity classification model of Daphnia
2.3.2.2 大型溞慢性毒性分類預測模型
大型溞慢性毒性分類模型Ⅰ,以NOEC=1 mg·L-1為分類閾值,最優(yōu)模型包含了logKow、AATSC0v、SHBint2和AATS2e這4個預測變量;大型溞慢性毒性分類模型Ⅱ,以NOEC=0.1 mg·L-1為分類閾值,最優(yōu)模型包含了logKow、MAXDP、SHdsCH和ATSC6c這4個預測變量;大型溞慢性毒性分類模型Ⅲ,以NOEC=0.01 mg·L-1為分類閾值,最優(yōu)模型包含了logKow和ATSC2p這2個預測變量。如表6所示,模型Q、Sn和Sp分別介于0.84~0.90、0.72~1和0.81~0.91;MCC和AUC分別介于0.63~0.76和0.86~0.95,說明模型具有較好的分類性能。模型應用域表征結(jié)果顯示,對于模型Ⅰ~Ⅲ,目標化學物質(zhì)的Euclidean距離分別小于1.1、0.95和0.75時,在相應模型的應用域范圍內(nèi)。

表6 大型溞慢性毒性分類預測模型表征結(jié)果Table 6 Characterization of a classification prediction model for chronic toxicity of Daphnia
2.3.3 綠藻急慢性毒性分類預測模型
2.3.3.1 綠藻急性毒性分類預測模型
綠藻急性毒性分類模型Ⅰ,以EC50=10 mg·L-1為分類閾值,最優(yōu)模型包含了logKow、SwHBa、nHBint6和MLFER_BO這4個預測變量;綠藻急性毒性分類模型Ⅱ,以EC50=100 mg·L-1為分類閾值,最優(yōu)模型包含了logKow、AATS4p、MPC10和ETA_dEpsilon_D這4個預測變量;綠藻急性毒性分類模型Ⅲ,以EC50=1 mg·L-1為分類閾值,最優(yōu)模型包含了logKow、SpMax_Dt和GATS2v這3個預測變量;綠藻急性毒性分類模型Ⅳ,以EC50=0.1 mg·L-1為分類閾值,最優(yōu)模型包含了logKow、AATSC0m和AATS6e這3個預測變量。如表7所示,模型Q、Sn和Sp分別介于0.82~0.90、0.78~0.95和0.64~0.94;MCC和AUC分別介于0.60~0.79和0.79~0.95,說明模型具有較好的分類性能。模型應用域表征結(jié)果顯示,對于模型Ⅰ~Ⅳ,目標化學物質(zhì)的Euclidean距離分別為小于1.25、1.17、1.03和0.98時,在相應模型的應用域范圍內(nèi)。

表7 綠藻急性毒性分類預測模型表征結(jié)果Table 7 Characterization of a predictive model for acute toxicity classification of green algae
2.3.3.2 綠藻慢性毒性分類預測模型
綠藻慢性毒性分類模型Ⅰ,以NOEC=1 mg·L-1為分類閾值,最優(yōu)模型包含了logKow、piPC7、AATSC5p、VP-7、SHsSH和MDEC-34這6個預測變量;綠藻慢性毒性分類模型Ⅱ,以NOEC=0.1 mg·L-1為分類閾值,最優(yōu)模型包含了logKow、SpMax_Dt、SsOm、GATS3v和MATS8e這5個預測變量。綠藻慢性毒性分類模型Ⅲ,以NOEC=0.01 mg·L-1為分類閾值,最優(yōu)模型包含了logKow、nAtomP、nAtomLAC和GATS8p這4個預測變量。如表8所示,模型Q、Sn和Sp分別介于0.84~0.94、0.75~0.90和0.84~0.96;MCC和AUC分別介于0.68~0.86和0.82~0.96,說明模型具有較好的分類性能。模型應用域表征結(jié)果顯示,對于模型Ⅰ~Ⅲ,目標化學物質(zhì)的Euclidean距離分別為小于1.28、1.05和1.06時,在相應模型的應用域范圍內(nèi)。

表8 綠藻慢性毒性分類模型表征結(jié)果Table 8 Characterization of chronic toxicity classification model of green algae
將335個化學物質(zhì)P、M、T預測結(jié)果和Huang等[15]的研究成果對比可知,對于P有299個物質(zhì)的結(jié)果一致,對于M有299個物質(zhì)的結(jié)果一致,對于T有70個物質(zhì)的結(jié)果一致。P和M一致性比較高,分別為89%和89%。T的一致性存在較大差異,是由于本研究模型服務于生態(tài)環(huán)境指標的預測,T指的是藻、溞、魚的急性與慢性毒性指標,而Huang等[15]的研究成果中,毒性指的是人體健康領域致癌、致突變和生殖毒性(CMR)等毒性指標,因此產(chǎn)生了較大的差異。
新污染物治理是“十四五”期間我國深入打好污染防治攻堅戰(zhàn)的主戰(zhàn)場之一。PMT類新污染物,可能會對人類健康構(gòu)成威脅,對生態(tài)環(huán)境造成危害,進而產(chǎn)生影響氣候變化、加速生態(tài)系統(tǒng)退化和加劇生物多樣性銳減等全球性危機。當前,我國化學物質(zhì)環(huán)境風險防控形勢嚴峻,新污染物治理任務艱巨。黨的十九屆五中全會通過的《中共中央關于制定國民經(jīng)濟和社會發(fā)展第十四個五年規(guī)劃和二〇三五年遠景目標的建議》中提出了“重視新污染物治理”,明確了“健全有毒有害化學物質(zhì)環(huán)境風險管理體制”。生態(tài)環(huán)境部高度重視新污染物治理工作,組織編制了《新污染物治理行動方案(征求意見稿)》及相關文件。
新污染物治理是一套系統(tǒng)工程,“篩、評、控”是核心內(nèi)容。然而,新污染物數(shù)據(jù)相對缺失制約了篩查和評估過程。為了克服數(shù)據(jù)缺失的瓶頸,生態(tài)環(huán)境部固體廢物與化學品管理技術中心面向社會開展了2021年計算毒理與暴露模型的征集工作,并嘗試自主開發(fā)了多個計算毒理學模型工具,發(fā)揮計算毒理工具的預測優(yōu)勢,為我國新污染物治理、化學物質(zhì)高通量危害篩查和風險評估提供技術支持。本研究著眼于新污染物治理及化學物質(zhì)危害篩查,建立了我國PMT類新污染物篩選方法,基于QSAR方法開發(fā)了計算毒理學預測工具,首次實現(xiàn)了PMT類新污染物的高通量預測功能,旨在通過計算毒理學科學理論轉(zhuǎn)化應用成果,探索新技術應用于新污染物治理實踐,支撐我國化學物質(zhì)環(huán)境管理中PMT類物質(zhì)的篩選工作,提升我國PMT類新污染物環(huán)境風險管控能力,助力“十四五”深入打好污染防治攻堅戰(zhàn)。
此外,PMT類新污染物性質(zhì)特殊,我國尚未建立相關監(jiān)測標準,環(huán)境監(jiān)管較為薄弱,僅依賴計算毒理工具解決PMT類新污染物的全部危害及暴露信息并不現(xiàn)實。尤其在環(huán)境監(jiān)測技術方法和相關去除技術方面還需要社會各界更多的投入。同時,計算毒理工具的開發(fā)也依賴于高質(zhì)量實測數(shù)據(jù),隨著未來建模數(shù)據(jù)與計算機技術的快速發(fā)展,PMT屬性的預測準確性也將不斷提升。