王園寧,劉會會,楊先海
南京理工大學環境與生物工程學院,江蘇省化工污染控制與資源化高校重點實驗室,南京 210094
環境內分泌干擾物(EDCs)引發的內分泌干擾效應,嚴重威脅著人類和野生動物安全,正成為人類面臨的全球性環境問題[1-2]。為應對EDCs帶來的生態和健康威脅,自20世紀90年代以來,美國環境保護局、歐盟、日本環境省、經濟合作與發展組織、世界衛生組織和聯合國環境規劃署等就針對EDCs實施了國家級的EDCs篩選計劃和或國家/國際EDCs相關的行動計劃[3]。如美國環境保護局實施了內分泌干擾物篩選計劃(EDSP)[4],歐盟制定了EDCs識別標準[5-6],經濟合作與發展組織開發了系列的測試導則/方法[7],世界衛生組織和聯合國環境規劃署組織出版了《內分泌干擾物的科學現狀》等EDCs方面的科學研究進展報告[8]等。在我國《水污染防治行動計劃》(國發〔2015〕17號)中也提出“到2017年底前完成EDCs生產使用情況調查,監控評估水源地、農產品種植區及水產品集中養殖區風險,實施EDCs淘汰、限制、替代等措施”的管控要求[9]。因此,面向EDCs的環境管理,如何科學、高效地從商用化學品中識別、評估潛在EDCs是各國化學品管理部門需解決的首要問題。
近30年來,歐美發達國家開發了大量的實驗測試方法,也實施了多項國家級EDCs篩選計劃來具體篩選、評估潛在EDCs。但是經過多年的實踐,發現僅采用實驗方法來篩選、評估潛在EDCs面臨巨大的挑戰。比如,美國環境保護局通過實施EDSP發現現有測試方法通量低(每年50~100種化學品)、成本高(每種化學品需耗費100萬美元),導致很難按現有測試體系對商用化學品進行一一測試(商用化學品已超過14萬種)。基于此,美國環境保護局于2012年提出了“21世紀的內分泌干擾物篩選計劃”(EDSP21)[10]。EDSP21的核心是主要依賴高通量預測技術等進行潛在EDCs篩選。因此,發展內分泌干擾效應指標的預測模型對于實施EDCs管控具有重要意義[11-12]。
研究表明,內分泌相關疾病和功能紊亂通常與EDCs對激素受體、轉運蛋白等生物大分子的干擾作用有關[13]。在過去較長時間里,激活或抑制激素受體介導的信號轉導過程被認為是EDCs的主要作用機制,因而許多工作均集中于研究EDCs與雌激素、雄激素和甲狀腺素等激素受體的作用[14-18]。在雌激素受體方面,目前所建的預測模型主要是針對人、牛、大鼠和小鼠等物種[19],而對水生生物雌激素受體的預測模型研究還較少。最近,筆者課題組構建了有機污染物對8種魚雌激素受體干擾效應的預測模型[20]。這些模型均是基于定量數據而構建的定量預測模型,可用于填補有機污染物對這8種魚缺失的激素干擾效應數據。但是,在前人的研究中,除了獲得定量數據外,還發現一些化合物不具有雌激素干擾活性,而這部分數據未在我們之前的研究中使用。考慮到預測模型的應用域與所采用的模型化合物種類和數量相關,因此可以通過引入更多模型化合物的方式來擴展模型應用域[21]。基于此,本文的研究目的是通過查詢文獻中關于有機化學品與魚類雌激素受體相互作用的定量和定性數據,構建能夠區分有機化學品是否具有魚類雌激素受體干擾活性的定性分類模型,為篩選潛在魚類雌激素受體干擾物提供技術支撐。
從文獻中查詢了62種有機化學品的斑馬魚(Danio rerio)雌激素受體干擾效應數據[22-23],其中,具有斑馬魚雌激素受體干擾效應的化合物有39個,以A表示;無活性的物質23個,以I表示。模型化合物信息列于表1。建模時,數據集按4∶1的比例隨機拆分為訓練集(49個化合物)和驗證集(13個化合物),訓練集用于構建模型,而驗證集用于評估模型。
首先從美國環境保護局開發的EPI SuiteTM軟件數據庫查詢并下載目標化合物的分子結構[24]。對于EPI SuiteTM軟件數據庫沒有分子結構的化合物,采用ChemBioOffice 2010軟件生成其分子結構。然后,用MOPAC 2016軟件優化模型化合物分子結構(關鍵詞:PM6 eps=78.6, CHARGE=1, EF GNORM=0.01, POLAR MULLIK SHIFT=80)[25]。基于優化的分子結構,采用Dragon 6軟件計算描述符[26]。依據以下原則對計算的4 885種Dragon描述符進行初步篩選:去除常數和近似常數的描述符,去掉至少有一個缺失值的描述符及相關系數大于0.95的描述符[27]。最終,描述符集包含1 175個描述符。

表1 模型化合物信息、斑馬魚雌激素干擾效應實驗及預測數據Table 1 Information of model compounds, their observed and predicted estrogenic activity data of zebrafish

續表1序號No.名稱Chemical nameCAS號CAS No.雌激素干擾效應數據Estrogenic activity data觀測值Observed模型ⅠModelⅠ模型ⅡModelⅡ49山奈酚 Kaempherol000520-18-3AAA50尼魯米特? Nilutamide?063612-50-0III514-羥基他莫昔芬? 4-Hydroxytamoxifen?068047-06-3AAA52酮康唑? Ketoconazole?065277-42-1III53佛波醇12-十四酸酯13-乙酸酯?12-o-Tetradecanoylphorbol-13-acetate?016561-29-8III54雄諾龍? 5α-Dihydrotestosterone?000521-18-6AAA554-肉桂苯酚? 4-Cumylphenol?000599-64-4AAA56雌酚酮? Estrone?000053-16-7AAA57利谷隆? Linuron?000330-55-2III58匹莫齊特? Pimozide?002062-78-4III59芹菜素? Apigenin?000520-36-5AAA60螺內酯? Spiromolactone?000052-01-7III61鄰仲丁基苯酚? 2-sec-Butylphenol?000089-72-5AAA62己烯雌酚? Diethylstilbestrol?006898-97-1AAA
注:*驗證集化合物。
Note: * Compounds selected as the external validation set.
采用基于歐幾里德距離的K最近鄰(kNN)分類算法構建了二元分類模型。歐幾里德距離計算方法為:
(1)
式中:DE是歐幾里德距離;x和y是不同的化學品;xi和yi分別是化學品x和y的第i個描述符。使用自編的python程序進行kNN二元分類模型構建,該程序已成功應用于構建有機化學品水生毒性模型[28]、內分泌干擾效應模型[27,29]。
根據經濟合作與發展組織關于模型構建與驗證的導則對模型進行內部和外部預測能力、應用域等方面的表征[30]。具體而言,采用預測準確度(Q)、敏感性(Sn)和特異性(Sp)參數表征模型內部和外部預測能力[27-32]。
(2)
(3)
(4)
式中:TP (true positive,真陽性)和TN (true negative,真陰性)分別是正確分類為毒性和非毒性的化合物數量;FN (false negative,假陰性)和FP (false positive,假陽性)分別是錯誤分類為非毒性和毒性的化合物數量。此外,還采用受試者工作特征曲線(ROC曲線)及ROC曲線下的面積(AUC)來表征分類性能[33]。采用基于歐幾里德距離的方法法表征模型應用域。使用AMBIT Discover (version 0.04) (http://ambit.sourceforge.net/download_ambitdiscovery.html) 軟件繪制基于歐幾里德距離的模型應用域。
本研究得到2個最優模型,模型Ⅰ包含2個描述符,即Mor23m和B06[C-N];模型Ⅱ包含3個描述符,即F02[C-N]、VE2_Dt和Mor22m。2個模型的表征參數如表2所示。
從表2可以看出,2個最優模型訓練集和驗證集的預測準確度(Q)、敏感性(Sn)和特異性(Sp)參數均大于0.93,即意味著93%以上的化合物均能被正確分類為有斑馬魚雌激素受體干擾活性或無干擾活性,說明模型具有較好的預測能力。此外,ROC曲線表明(圖1),2個模型的訓練集和驗證集ROC曲線的AUC均大于等于0.98,說明模型具有較好的分類性能。

表2 模型表征結果Table 2 Statistical results of developed models
基于歐幾里德距離的模型應用域表征結果如圖2所示。模型Ⅰ無化合物處于模型結構域外;而模型Ⅱ中有2個驗證集化合物在模型結構域外,說明2個模型的訓練集具有較好的代表性。模型Ⅱ驗證集中處于模型結構域外的化合物為酮康唑和匹莫奇特,雖然其處于訓練集所定義的結構域外,但是模型Ⅱ能正確將其分類為無斑馬魚雌激素受體干擾活性。
2個分類模型共篩選出Mor23m、B06[C-N]、F02[C-N]、VE2_Dt和Mor22m這5個描述符。其中Mor23m和Mor22m是原子質量加權的3D-MoRSE描述符,表征了分子質量的影響[34]。B06[C-N]和F02[C-N]是2D原子對描述符。B06[C-N]是指分子中是否存在拓撲距離6的碳-氮原子對[35];而F02[C-N]是指分子中碳-氮原子對在拓撲距離2的頻數[36],它們均表征了分子中存在氮原子對化合物與斑馬魚雌激素受體相互作用的影響。通過比對數據,發現存在碳-氮原子對不利于化合物與斑馬魚雌激素受體相互作用,例如,在模型Ⅰ中,B06[C-N]數值不為0的22個物質中,僅5個具有干擾效應(22.7%),在B06[C-N]數值為0的40個物質中,僅34個具有干擾效應(85.0%);在模型Ⅱ中,F02[C-N]數值不為0的24個物質中,僅6個具有干擾效應(25.0%),在B06[C-N]數值為0的38個物質中,僅33個具

圖1 分類模型Ⅰ(A)和模型Ⅱ(B)的受試者工作特征(ROC)曲線注:AUC表示ROC曲線下的面積。Fig. 1 Receiver operating characteristics (ROC) graphs of the classification model Ⅰ (A) and model Ⅱ (B)Note: AUC stands for area under ROC curve.

圖2 基于歐幾里德距離的分類模型Ⅰ (A)和模型Ⅱ (B)應用域表征圖Fig. 2 Characterization of application domain for classification model Ⅰ (A) and model Ⅱ (B) based on the Euclidean distance
有干擾效應(86.8%)。VE2_Dt是2D矩陣相關的描述符[37]。
本論文針對水生生物雌激素效應預測模型缺乏的問題,以構建有機污染物斑馬魚雌激素受體干擾效應分類預測模型為目標,根據經濟合作與發展組織關于模型構建與驗證的導則,構建了具有較好內部和外部預測能力的斑馬魚雌激素受體干擾效應二元分類預測模型,可為篩選潛在魚類雌激素受體干擾物提供支撐。