陳艷,張昌民,瞿翠玲
(1.徐州工程學院化學化工學院,江蘇徐州221111; 2.江蘇藍豐生物化工股份有限公司,江蘇新沂221400)
苯砜基羧酸酯類化合物急性毒性的預測模型
陳艷1,張昌民2,瞿翠玲1
(1.徐州工程學院化學化工學院,江蘇徐州221111; 2.江蘇藍豐生物化工股份有限公司,江蘇新沂221400)
用MATLAB軟件編程計算了56個苯砜基羧酸酯類化合物分子電性距離矢量(mk),同時用Hyper chem 8.0程序包計算了它們的理化參數.這兩類結構參數被用于建立苯砜基羧酸酯類化合物急性毒性的預測模型.通過最佳變量子集回歸的方法構建多元線性回歸模型:-lg EC50=4.724+30.275m7+0.061m24+6.468m85+0.880m90-0.003V-0.096(lg P)2.該模型具有良好的穩健性和較強的預測能力.以模型中的6個參數為人工神經網絡(ANN)輸入層,設定6∶4∶1的網絡結構,用BP算法構建人工神經網絡模型,其相關系數R2為0.986.結果表明,神經網絡BP算法模型的預測結果優于多元線性回歸模型的預測結果.
苯砜基羧酸酯;急性毒性;分子電性距離矢量;人工神經網絡;定量結構-活性相關
苯砜基羧酸酯類化合物在殺蟲劑、除草劑和驅蟲劑的合成以及石油、冶金工業方面有著廣泛的應用[1],但此類化合物會在一定程度上污染環境,隨著人們環保意識的增強,其對環境的影響也越來越受到關注.定量結構-活性相關(QSAR)研究提供了一個節省時間和資金的方法,在有機化合物對環境影響的評估方面起著重要的作用,也是對有機化學品進行危害評價的有效手段之一[2].QSAR研究的關鍵是分子描述符的選擇,本研究以分子電性距離矢量和理化參數作為結構參數全面表征了苯砜基羧酸酯類化合物的分子結構,并以此建立了該化合物急性毒性的六元QSAR模型,其相關系數(R2)為0.896.采用誤差反向傳播(back-propagation,BP)算法,模型的相關性和預測能力均得到進一步的提高[3].
1.1 數據的來源
56種苯砜基羧酸酯類化合物的母體結構見圖1,其分子結構及急性毒性數據(-lg EC50)見表1,數據來自文獻[2].
1.2 結構參數的計算方法
1.2.1 分子電性距離矢量的計算方法
分子電性距離矢量是劉樹深等[4-6]克服多種著名拓撲指數的局限提出的較為全面地反映分子的幾何、拓撲以及電性特征的結構參數,該理論把分子中的非氫原子分成13種原子類型(Ki).
其中:Zi、Ji分別為原子的價電子層數和非氫原子i在分子中所連接的其它非氫原子的數目,例如—O—中氧原子的類型KO=4×(6-4)+2=10,羰基O中氧原子的類型KO=4×(6-4)+1=9.
按照文獻[4-6]的計算方法,利用MATLAB軟件編程[7-8]計算56個苯砜基羧酸酯的分子距離矢量mk,去掉無統計意義的自變量,得到44個拓撲指數作為結構參數.
1.2.2 理化參數的計算方法
采用Hyper-chem8.0程序包計算了各化合物的理化參數:V(體積)、SAA(近似表面積)、SAG(網格表面積)、lg P(辛醇水分配系數)、(lg P)2,得到5個理化參數作為結構參數.
1.2.3 多元線性回歸分析和神經網絡分析
將每種化合物的上述結構參數作為自變量集,苯砜基羧酸酯的急性毒性(-lg EC50)作為因變量,應用最佳子集回歸的方法進行變量的壓縮和篩選,選擇最佳變量組合,構建相應的QSAR模型.采用逐一剔除法(leave-one-out,LOO)計算交叉驗證系數(R2
CV)對模型的穩定性及預測能力進行檢驗,一般公認R2CV≥0.5,所建模型具有良好的穩定性及較強的預測能力[9].
采用QSAR模型中的最佳變量組合為神經網絡的輸入層,利用人工神經網絡的BP算法,建立神經網絡模型,模型的相關性顯著提高.
2.1 多元線性回歸模型的構建
將由上述自變量集及因變量集輸入MINITAB統計軟件,利用其中的Best Subsets Regression方法,選擇最佳變量組合,建立最佳QSAR模型為:
其中:n、R、R2、R2adj、S、F分別為樣本數、相關系數、校正判定系數、估計標準誤差、Fischer檢驗值.用式
(2)計算所得的預測值列于表1(Prep.1),平均誤差為0.154.
2.2 模型的質量檢驗
利用MINITAB分析軟件計算模型(式(2))的交叉驗證系數(R2CV)為0.844.符合R2CV≥0.5的標準,同時該模型的R2CV比R2(0.896)略小,交叉驗證標準偏差SCV(0.193)比S(0.157)略大,而且所建模型的R2adj與R2CV相差為0.039,遠小于0.3.這些均說明該模型具有良好的穩定性和預測能力,且沒有過擬合、不存在不相關的其他變量或數據中存在離域點[10].
另外,根據一般的統計標準,一個具有良好預測能力的QSAR模型,其R2≥0.80[11].模型(式(2))的R2=0.896,反映了影響苯砜基羧酸酯化合物急性毒性的89.6%,僅有10.4%的隨機因素未被揭示,因此,具有良好預測能力.
2.3 模型(式(2))的物理意義
進入模型的電性距離矢量有m7、m24、m85、m90,它們依次代表第一類碳原子(C-)與第七類氮原子(>N-)、第二類碳原子(-C-)與第十二類硫原子(>S<)、第十類氧原子(-O-)與第十三類鹵原子(-X)、第十二類硫原子(>S<)與第十三類鹵原子(-X)之間的相互作用.其中-CH3、-CH2-為非極性基團,-NO2、-SO2-、-O-、-X為極性基團,它們之間的相互作用分別反映了分子的疏水能力和親水能力.模型中還有理化參數V和(lg P)2,其中(lg P)2進入模型進一步驗證了疏水性對急性毒性的影響.另外,分子的體積也是影響因素之一,分子的體積越大,空間位阻效應越大,化合物越不容易進入生物的體內,則其毒性越小.
人工神經網絡[12-13]作為一種新的數學模型,由于具有出色的非線性函數逼近能力,可實現高符合度的網絡輸入符與輸出目標之間的非線性映射關系[14].其中廣泛使用的是Rumelhart等在1986年提出的前饋型神經計算模型和用于調節該模型神經元聯結強度的誤差往回傳播學習算法,即著名的BP網絡[15-16].本研究采用Matlab提供的神經網絡工具箱中的BP算法進行建模,其中輸入層單元選用對苯砜基羧酸酯急性毒性起主要作用的6個結構參數,即多元線性回歸模型中的6個自變量m7、m24、m85、m90、V和(lg P)2.為了避免過訓練和過擬合,根據許碌[17]和Andrea[18]的建議規則尋找最佳隱蔽層的單元數(H),即:
其中:N、M分別是樣本數和網絡總權重.M被定義為:
式中:I、H、Q分別為輸入層、隱蔽層和輸出層的單元數.由于I=6,Q=1及N=56,可得3.056<H≤4.875.所以本研究采用6∶4∶1的網絡結構建立模型.
在BP算法中,為了進一步避免過擬合和過訓練,將樣本分為3個集:訓練集、驗證集和測試集,各集化合物個數依次為33個、11個、12個.由此建立的模型訓練集、驗證集和測試集的相關系數分別為0.991 0、0.996 4、0.997 0,總體的相關系數R為0.993 0(R2=0.986),彼此均比較接近,說明模型具有很高的穩健性.該模型給出的預測值(見表2,列于Pre.2)與實驗值非常接近,平均誤差為0.04,優于多元線性回歸模型給出的預測值(見圖2).該模型的權重和偏置列于表2.

表2BP-ANN模型的權重和偏置Tab.2Weights and biases of BP-ANN model
1)電性距離矢量和理化參數全面揭示了影響苯砜基羧酸酯急性毒性的本質因素,由進入模型的結構參數可推測苯砜基羧酸酯的急性毒性主要和疏水性及分子體積有關.
2)BP人工神經網絡模型和多元線性回歸模型相比具有更好的相關性、穩定性和預測能力.急性毒性和進入模型的6個結構參數呈現良好的非線性關系.利用BP-ANN預測模型預測苯砜基羧酸酯的急性毒性是可行的.本研究既可以有效地預測苯砜基羧酸酯的急性毒性,又對探討化合物急性毒性的機理提供一定的理論依據.
[1]杭燁超,李方實.苯砜基羧酸酯類化合物急性毒性的QSAR研究[J].南京工業大學學報,2006,28(4):104-107.
[2]李吉來,杭燁超,耿彩云,等.苯砜基羧酸酯類急性毒性的QSAR研究[J].高等學校化學學報,2007,28(1):117-120.
[3]陳艷,岳瑋,王彬.含氮雜環化合物理化性質和生物活性的QSPR/QSAR分析[J].武漢大學學報(理學版),2014,50(1):52-56.
[4]劉樹深,劉堰,李志良,等.一個新的分子電性距離矢量(MEDV)[J].化學學報,2000,58(11):1 353-1 357.
[5]LIU S S,YIN C S,LI Z L,et al.QSAR study of steroid benchmark and dipeptides based on MEDV-13[J].Journal of Chemical Information and Computer Sciences,2001,41(2):321-329.
[6]LIU S S,LIU H L,YIN C S,et al.VSMP:a novel variable selection and modeling method based on the prediction[J].Journal of Chemical Information and Computer Sciences,2003,43(3):964-969.
[7]胡黔楠,梁逸曾,王亞麗,等.直觀隊列命名法的基本原理及其在矩陣與拓撲指數計算中的應用[J].計算機與應用化學,2003,20(4):386-390.
[8]張婷,梁逸曾,趙晨曦,等.基于分子結構預測氣相色譜程序升溫保留指數[J].分析化學,2006,34(11):1 607-1 610.
[9]DOUGLAS M H,SUBHASH C B,DENISE M.Assessing model fit by cross-validation[J].Journal of Chemical Information and Computer Sciences,2003,43(2):579-586.
[10]馮長君.手性有機酸保留指數的手性指數及原子類型電拓撲指數模型[J].物理化學學報,2010,26(1):193-198.
[11]馮子雅,馮長君.鹵代苯對呆頭魚、發光菌急性毒性的構效關系研究[J].廣州化工,2013,41(6):16-18.
[12]WANG B C,QIAN J Z,FAN Y,et al.The QSAR study of flavonoid-metal complexes scavenging OH free radical[J].Journal of Molecular Structure,2014,1 075(5):204-212.
[13]ZHENG F,ZHAN M,HUANG X Q,et al.Modeling in vitro inhibition of butyrylcholinesterase using molecular docking,multilinear regression and artificial neural network approaches[J].Bioorganic&Medicinal Chemistry,2014,22(1):538-549.
[14]堵錫華,史小琴,馮長君,等.基于野韭菜揮發性成分的色譜保留指數神經網絡預測[J].山東大學學報(理學版),2014,49(1):468-473.
[15]馮長君,沐來龍,楊偉華,等.用拓撲指數和神經網絡研究有機污染物的生物富集因子[J].化學學報,2008,66(19): 2 093-2 098.
[16]陳艷,堵錫華,吳雅萍.用拓撲指數和神經網絡研究擬除蟲菊酯類農藥的急性毒性[J].化學通報,2014,77(4):341-345.
[17]許祿,邵學廣.化學計量學方法[M].2版.北京:科學出版社,2004:441.
[18]ANDREA T A,KALAYEH H.Applications of neural networks in quantitative structure-activity relationships of dihydrofolate reductase inhibitors[J].J Med Chem,1991,34(9),2 824-2 836.
(責任編輯:林曉)
Prediction model of the acute toxicity of phenylsulfonyl carboxylate compound
CHEN Yan1,ZHANG Changmin2,QU Cuiling1
(1.School of Chemistry and Chemical Engineering,Xuzhou Institute of Technology,Xuzhou,Jiangsu 221111,China; 2.Jiangsu Lanfeng Bio-chem Company,Xinyi,Jiangsu 221400,China)
The molecular electrongativity distance vector(mk)and physicochemical parameters of 56 phenylsulfonyl carboxylates were calculated by the software of MATLAB and Hyper chem8.0 for establishing the prediction model of the acute toxicity(-lg EC50)of these compounds.The multiple liner regression(MLR)model was constructed by leaps-and-bounds regression:-lg EC50=4.724+30.275m7+ 0.061m24+6.468m85+0.880m90-0.003V-0.096(lg P)2.The model is highly reliable and has good predictive ability.The six structural parameters were used as the input neurons of artificial neural network,and a 6∶4∶1 network architecture was employed.A satisfied model was constructed with the back-propagation algorithm,the correlation coefficient(R2)was 0.986.It can be concluded that the prediction results of BP-ANN model are better than MLR-QSAR model.
phenylsulfonyl carboxylates;acute toxicity;molecular electrongativity distance vector; artificial neural network;QSAR
O641
A
10.7631/issn.1000-2243.2016.06.0891
1000-2243(2016)06-0891-05
2015-02-08
陳艷(1968-),教授,主要從事有機化學及物質構效學方面研究,chenyan681110@126.com
國家自然科學基金資助項目(21272095)