王雅琪,劉會會,楊先海
南京理工大學環境與生物工程學院,江蘇省化工污染控制與資源化高校重點實驗室,南京 210094
據估計,每年約有3億t合成化學物質進入水體[1]。這些物質可對水生生物產生毒副作用,并嚴重威脅生態安全[2-3]。因此,對這些物質進行污染控制和管理已成為各國的重要任務。對化學物質進行水環境生態風險評估,進而篩選出優先污染物,是進行污染控制與管理的前提[4]。而開展水環境生態風險評估需要水生毒性數據和暴露數據[5]。目前,國際上已針對多種水生模式生物開發了水生生物毒性標準測試方法,如藻類、溞類和魚類急/慢性毒性測試方法[6]。雖然水生生物毒性效應測試體系已建立數十年,但仍僅少部分物質具有水生毒性數據。為了克服化學物質管理中數據不足的問題,歐美國家大力倡導使用(定量)結構-活性關系((Q)SAR)等預測技術填補缺失的毒性效應數據[7-8]。因此,構建污染物水生毒性效應預測模型對實現水環境化學物質管理具有重要意義。
在化學品生產使用及環境管理中,需要對其進行分類和標簽。具體的分類過程是依據化學品所具有的毒性效應值來分類和標簽,例如當魚類的96 h半數致死濃度(96 h LC50) ≤ 1 mg·L-1、介于1~10 mg·L-1、介于10~100 mg·L-1時,分別歸為急性毒性類別1、急性毒性類別2和急性毒性類別3[9-10],然后針對不同類別采取不同等級的管理措施。近年來,國內外研究人員針對水生急性毒性構建了一些預測模型,主要是針對綠藻如羊角月牙藻(Pseudokirchneriella subcapitata)、大型溞(Daphnia magna)、魚如黑頭呆魚(Pimephales promelas)的預測模型較多[11]。但是,這些模型以定量模型為主,結果為具體的毒性效應值,還沒有模型能直接給出目標化合物是否滿足分類和標簽規定的毒性閾值。最近,Ding等[12]構建了基于“全球化學品統一分類和標簽制度”(GHS)分類標準的預測羊角月牙藻(Pseudokirchneriella subcapitata)和大型溞(Daphnia magna)慢性毒性的二元分類模型。
本文的研究目的是針對魚類急性毒性指標,構建基于GHS分類標準的分類模型。首先是依據GHS中推薦的分類標準,將化合物分類,然后構建預測模型。因此,根據本文所構建的模型,使用者可直接得出目標化合物是否滿足國標中關于化學品分類和標簽規定的毒性閾值。
從文獻[13]收集了634種有機化學品的黑頭呆魚(Pimephales promelas)急性毒性數據[13]。實驗數據均是采用經濟合作與發展組織(OECD)的OECD TG 203魚類急性毒性試驗方法獲取,指標為96 h LC50。采用“全球化學品統一分類和標簽制度”(GHS)中推薦的分類標準[10],將急性毒性值≤ 100 mg·L-1的物質劃分為毒性物質,而將急性毒性值> 100 mg·L-1的物質劃分為無毒性物質。根據分類結果,毒性物質和無毒性物質分別為444和190個。建模中,數據集將按4∶1的比例隨機拆分為訓練集和驗證集,訓練集用于構建模型,而驗證集用于評估模型。
首先采用ChemBioOffice 2010軟件生成初始的化合物分子結構。再根據上述分子結構生成MOPAC輸入文件,用MOPAC 2016軟件優化模型化合物分子結構[14]。優化關鍵詞是PM6 eps=78.6, CHARGE=1, EF GNORM=0.01, POLAR MULLIK SHIFT=80。基于MOPAC優化的分子結構,采用Dragon 6軟件計算4 885個Dragon描述符[15]。根據如下標準,對計算的4 885種描述符進行初步篩選:去除常數和近似常數的描述符,去掉至少有一個缺失值的描述符及相關系數大于0.95的描述符[16]。最終,描述符集包含1 575個描述符。此外,還引入正辛醇-水分配系數(logKow)。logKow來源于美國環保局開發的EPI Suite 4.1TM [17]。
采用基于歐幾里德距離的K最近鄰(k-NearestNeighbor, kNN)分類算法構建了二元分類模型。歐幾里德距離計算方法為:
(1)
式中:DE是歐幾里德距離;x和y是不同的化學品;xi和yi分別是化學品x和y的第i個描述符。使用自編的python程序進行kNN二元分類模型構建,該程序已成功應用于構建多個模型[12,16,18-19]。
采用預測準確度(Q)、敏感性(Sn)和特異性(Sp)參數表征模型效果[4,20-21]。
(2)
(3)
(4)
式中:TP(真陽性)和TN(真陰性)分別是正確分類為毒性和非毒性的化合物數量;FN(假陰性)和FP(假陽性)分別是錯誤分類為非毒性和毒性的化合物數量。
此外,對于二元分類模型,還可以采用受試者工作特征曲線(ROC曲線)及ROC曲線下的面積(AUC)來表征分類性能[22]。ROC曲線的坐標分別是真陽性率(TPR)和假陽性率(FPR)表征。真陽性率是指在所有實際有毒的化合物中,被正確判斷為有毒的比率;假陽性率是指在所有實際無毒的化合物中,被錯誤地判斷為有毒的比率。一般而言ROC曲線的AUC值介于0~1,其值越大說明分類模型的性能越好。
采用歐幾里德距離法表征了模型應用域。歐幾里德距離圖采用AMBIT Discover (version 0.04)(http://ambit.sourceforge.net/download_ambitdiscovery.html)軟件繪制。
最優模型包含3個描述符,即CATS2D_04_DD、piPC07和ATSC7m,模型表征參數如下。
從表1可以看出,模型訓練集和驗證集的預測準確度(Q)、敏感性(Sn)和特異性(Sp)參數均大于0.7,即意味著70%以上的化合物均能被正確分類為有毒或無毒,說明模型具有較好的預測能力。模型訓練集和驗證集的Sn數值大于Sp,說明模型預測結果的假陰性率低于假陽性率,這有助于避免遺漏潛在毒性物質。此外,ROC曲線表明(圖1),訓練集和驗證集ROC曲線的AUC分別為0.799和0.781,說明模型的分類性能較好。
基于歐幾里德距離的模型應用域表征結果如圖2所示。所有化合物中,僅有一個驗證集化合物在模型結構域外,說明模型的訓練集具有較好的代表性。驗證集中處于模型結構域外的化合物為四溴雙酚A,雖然其處于訓練集所定義的結構域外,但是模型能正確將其分類為有毒性。
分類模型篩選出CATS2D_04_DD、piPC07和ATSC7m這3個描述符。其中CATS2D_04_DD是CATS 2D描述符,表征了分子中氫鍵供體原子(如氧、氮等)在拓撲距離4上的數量[23]。這意味著有機化學品對黑頭呆魚(Pimephales promelas)的急性毒性

圖1 分類模型受試者工作特征(ROC)曲線注:AUC表示ROC曲線下的面積。Fig. 1 Receiver operating characteristics (ROC) graphs of the classification modelNote: AUC represents area under ROC curve.

表1 模型表征結果Table 1 Statistical results of developed model
注:k表示鄰近數,n表示化合物數量,TP表示真陽性,TN表示真陰性,FN表示假陰性,FP表示假陽性,Sn表示敏感性,Sp表示特異性,Q表示預測準確度。
Note: k stands for number of nearest neighbors; n stands for number of chemicals; TP stands for true positive; TN stands for true negative; FN stands for false negative; FP stands for false positive; Snstands for sensitivity; Spstands for specificity; Q stands for predictive accuracy.

圖2 基于歐幾里德距離的模型應用域表征圖Fig. 2 Characterization of application domain for model based on the Euclidean distance
與氫鍵供體原子相關,也即分子形成氫鍵的能力會影響毒性效應。piPC07是分子運轉路徑數目類描述符,表征了分子大小對毒性的影響。Fassihi等[24]構建有機物的抗菌毒性預測模型時,也篩選出該描述符。ATSC7m是原子質量加權的2D自相關描述符,表征了分子質量的影響。綜上,有機化學品對黑頭呆魚(Pimephales promelas)的急性毒性與分子形成氫鍵的能力、分子大小和原子質量相關。
本論文依據“全球化學品統一分類和標簽制度”(GHS)中推薦的分類標準,將有機化學品對黑頭呆魚(Pimephales promelas)的急性毒性值小于和大于100 mg·L-1的物質分別劃分為有毒物質和無毒物質。以分類結果為建模指標,構建了分類能力較好的二元分類模型??蓱迷撃P皖A測應用域內其他物質是否對黑頭呆魚(Pimephales promelas)表現急性毒性效應。