堵錫華,王超
徐州工程學院 化學化工學院,徐州 221018
隨著工業生產的快速發展,大量污染物被排放進入環境,導致水體中含有大量揮發性鹵代烴、多環芳烴等有機污染物,這些污染物毒性大、累積性強、難以降解,有的在環境中能長期滯留,具有致癌、致畸、致突變性及對內分泌有干擾作用等[1-2],對生態系統產生嚴重影響,危害人體健康,故世界多國將相當數量化合物列入優先控制環境污染物黑名單[3-4]。酚類化合物作為重要的工業原料,廣泛應用于石化、農藥、醫藥和印染等行業,但它們具有“三致”作用[5];醇類化合物則被廣泛用于食品工業、工業溶劑和燃料添加劑,但它們的排放也對人身健康造成嚴重威脅[6],故針對這些污染物的生物毒性研究,越來越受到研究人員的關注,有眾多的研究成果見有報道[7-10]。為了能快速獲得這些污染化合物的生物毒性數據,近年來,利用定量結構-活性相關性(QSAR)研究方法來預測化合物的急性毒性,受到科研工作者的高度重視[11-12],為了能提高預測環境污染物對生物毒性的準確度,本文利用在智能模式識別中廣泛應用于化學[13]、材料科學[14]、藥學[15]、環境科學[16]等領域的BP神經網絡方法,對文獻[17-19]所列的110種有機污染物對歐洲林蛙蝌蚪的急性毒性pIGC50、117種醇和酚類化合物對梨形四膜蟲的毒性pIGC50,建立了分子連接性指數和分子形狀指數與生物毒性之間的神經網絡預測模型,所得毒性預測結果優于文獻研究方法,本工作對研究有機污染物對生物的毒性效應以及環境的風險評價具有重要的現實意義。
110種包含醛、酮、酯、胺、醇、酚、鹵代烴和芳香烴等有機污染物對歐洲林蛙蝌蚪的毒性數據pIGC50(pIGC50為對林蛙蝌蚪或梨形四膜蟲的50%生長抑制濃度的負對數,單位為mmol·L-1)來源于文獻[17-18],50種酚類化合物對梨形四膜蟲的毒性數據(pIGC50)來源于文獻[17,19],67種醇類化合物對梨形四膜蟲的毒性數據(pIGC50)來源于文獻[17,20],化合物及毒性實驗值(Exp.)具體數據見表1和表3。
用Chemoffice Chem3D 9.0繪圖軟件繪制110個有機污染物、50個酚類化合物和67個醇類化合物的分子結構圖,再在MATLAB軟件中,應用文獻方法自編的程序[21],計算所有227個化合物分子的連接性指數和形狀指數。首先對110個有機污染物的結構指數與其對歐洲林蛙蝌蚪的毒性進行最佳變量子集回歸分析,通過優化篩選,發現選取分子連接性指數的0X、1X、2X、4X和5Xc(5種指數分別代表0階、1階、2階、4階路徑指數和簇項指數)、分子形狀指數的K1和K2(分別代表1階、2階形狀特征參數)共7種參數時,相關性最佳,相關數據列表1。
將110種有機污染物對歐洲林蛙蝌蚪毒性pIGC50,與優化篩選的7種分子結構參數,進行回歸分析,得到方程:
pIGC50=-0.6580X+1.1811X+1.5882X-1.5374X-1.4185Xc-0.409K1+0.291K2+1.022
(1)

表1 化合物對歐洲林蛙蝌蚪毒性的預測Table 1 Prediction of the toxicity of compounds to tadpoles of Rana temporaria
注:pIGC50表示毒性值;Exp.表示實驗值;Pre.表示預測值。
Note: pIGC50stands for toxicity value; Exp. stands for experiment value; Pre. stands for predicted value.

為提高準確預測有機污染物對歐洲林蛙蝌蚪的毒性,用BP神經網絡法進一步研究,將篩選得到的7種結構參數作BP法的輸入層變量,對歐洲林蛙蝌蚪毒性pIGC50作輸出層變量,綜合Andrea及許祿等[22]學者對隱含層變量選擇定義的規則,隱含層按照2.2>N/M≥1.4,其中M=(I+1)H+(H+1)Q,式中N為總樣本數,M為神經網絡總權重,I、H、Q分別為神經網絡中輸入層、隱含層和輸出層的變量數。經
過計算,隱含層變量H可取6、7或8,經運算比較,當H取8時所得模型的相關性最佳,故網絡結構采用7∶8∶1方式。運算時,將110個分子樣本分為訓練集(每5個分子作為一組,取第1、3、4個分子,依次類推)、測試集(每5個分子的第2個)和驗證集(每5個分子中的第5個),所得模型的總相關系數r=0.988,訓練集相關系數r1=0.988、測試集相關系數r2=0.989、驗證集相關系數r3=0.986;利用該模型得到的有機污染物對歐洲林蛙蝌蚪毒性值pIGC50的預測值(Pre.)列于表1中(表1中序號有*號的分子為測試集分子),該預測值(Pre.)與實驗值(Exp.)吻合度較好,兩者的平均殘差為0.14,它們的關系見圖2。

圖1 Jackknifed相關系數r的雷達圖Fig. 1 Radar map of correlation coefficient r

表2 Jackknifed相關系數r的檢驗Table 2 Inspection of Jackknifed correlation coefficient r
為檢驗篩選出的7個分子連接性指數與形狀指數的應用普適性,將文獻所列的50個酚和67個醇共117個分子對梨形四膜蟲的毒性進行分析,得到回歸方程為:
pIGC50=-0.4460X+1.0371X+1.3812X-3.6374X-0.2045Xc-0.218K1-0.090K2-1.792 (2)


集相關系數r3=0.997;這里3個集合的相關系數與總相關系數完全一致,而且均是超過0.99以上的高度相關性,利用該模型得到的醇酚類化合物對梨形四膜蟲毒性pIGC50的預測值(Pre.)列于表3中(表中序號有*號的分子為測試集分子),該預測值(Pre.)與實驗值(Exp.)吻合度也較為理想,兩者平均殘差為0.065,它們的關系見圖3。

圖2 pIGC50的實驗值與計算值關系圖Fig. 2 Relationship between experimental and calculated value of pIGC50

表3 醇酚類化合物對梨形四膜蟲毒性的預測Table 3 Prediction of the toxicity of alcohol and phenolic compounds to Tetrahymena pyriformis

圖3 pIGC50的實驗值與計算值關系圖Fig. 3 Relationship between experimental and calculated value of pIGC50

圖4 殘差控制圖Fig. 4 Control chart of error
這里將預測殘差作控制圖(見圖4),可以看出,所有數據均在可控范圍內,沒有超出離域范圍,只有對第4個分子2,5-二甲基苯酚的預測殘差偏大,這可能與苯環上連接的羥基和2個甲基之間的相關作用導致毒性值異常有關。
通過計算227個有機污染物的分子連接性指數和形狀指數,篩選了其中的7種指數與110種有機物分子對歐洲林蛙蝌蚪、117種醇和酚類化合物對梨形四膜蟲毒性的相關性分析,建立了對林蛙蝌蚪毒性預測的神經網絡模型,預測毒性值與實驗值較為吻合,平均誤差為0.14,而且所選用的結構參數的普適性較強,它們與117種醇酚類化合物對梨形四膜蟲的毒性之間,也能建立良好相關性的神經網絡模型,總相關系數能達到0.99以上的高度相關,預測毒性值與實驗值的平均誤差僅為0.065,通過逐一剔除法檢驗,可以看出,所建模型具有良好的穩定性和預測能力,并且具有普適應用性。從表1和表3化合物分子的結構與毒性大小關系可以看出,分子的毒性大小與分子的大小、所連接的基團性質、所處的位置和數量多少有密切的關系,化合物的毒性隨著碳原子數的增加、支化度增大而增大,當碳原子數相同時,含有不飽和鍵越多,毒性會增大;如化合物的氫原子被鹵原子取代,毒性也會增大,取代數量越多,毒性越強,毒性大小依次為:碘取代>溴取代>氯取代,這主要是鹵素原子具有強烈的吸電子效應,使分子極性增加,易與酶系統結合,使毒性增大;芳烴的毒性效應則與苯環上的吸電子基團有關,如吸電子基團越多,毒性越強。分子連接性指數和分子形狀指數正是蘊含了豐富的分子空間結構信息,能很好地反映毒性的變化規律。
綜上所述:(1)模型具有較好的預測能力。優化篩選分子連接性指數的0X、1X、2X、4X和5Xc、分子形狀指數的K1和K2共7種分子結構參數,能充分反映分子的空間結構和電性結構信息,與化合物對生物的毒性有良好的相關性,用神經網絡方法建構的模型預測的結果與毒性實驗值吻合度較好。
(2)模型具有較強的普適應用型。篩選的分子結構參數不但與眾多種類的有機污染物對林蛙蝌蚪毒性能較好相關,而且與醇類、酚類化合物對梨形四膜蟲的毒性有良好的相關性,所建模型還具有良好的穩健性。
(3)神經網絡模型的相關系數明顯優于多元回歸法模型,而且預測誤差明顯降低,說明分子結構參數與生物毒性之間具有良好的非線性關系。