999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

醇類化合物對(duì)歐洲林蛙蝌蚪毒性的QSAR研究

2017-03-15 16:47:29鄭景泉楊浩娜彭世文王立峰
山東農(nóng)業(yè)科學(xué) 2017年2期

鄭景泉++楊浩娜++彭世文++王立峰

摘要:采用分子描述符計(jì)算軟件PCLIENT獲得123個(gè)醇類有機(jī)小分子化合物的1 666個(gè)理化性質(zhì)參數(shù),通過相關(guān)性分析與逐步線性回歸篩選,最終獲得14個(gè)分子描述符。基于保留的14個(gè)關(guān)鍵理化性質(zhì),分別以多元線性回歸(MLR)、偏最小二乘回歸(PLS)與支持向量回歸(SVR)構(gòu)建醇類化合物對(duì)歐洲林蛙蝌蚪毒性的QSAR模型。結(jié)果表明:3種模型的獨(dú)立預(yù)測(cè)決定系數(shù)Q2從初始的-163.350、-0.019、0.686分別提升到0.860、0.903與0.936,剔除無關(guān)描述符能顯著提升模型的預(yù)測(cè)精度;基于SVR的訓(xùn)練擬合精度和獨(dú)立預(yù)測(cè)精度均較好,表明其泛化能力強(qiáng),魯棒性好; SVR模型獨(dú)立測(cè)試集預(yù)測(cè)值和真實(shí)值比較結(jié)果證明最終篩選出的14個(gè)描述符具有較好的顯著性,模型具有較好的穩(wěn)健性。本方法在有毒化合物等QSAR研究領(lǐng)域有較廣泛應(yīng)用前景。

關(guān)鍵詞:醇類化合物;歐洲林蛙蝌蚪;描述符篩選;支持向量回歸;定量構(gòu)效關(guān)系

中圖分類號(hào):Q592.9文獻(xiàn)標(biāo)識(shí)號(hào):A文章編號(hào):1001-4942(2017)02-0067-05

目前人類已知的有機(jī)物達(dá)8 000多萬種,大量有機(jī)物已經(jīng)或正在通過各種途徑進(jìn)入生態(tài)環(huán)境中,其中多數(shù)有機(jī)物具有一定的生物毒性。對(duì)有機(jī)物進(jìn)行毒性評(píng)價(jià)是評(píng)估其是否具有環(huán)境可投放性必不可少的重要環(huán)節(jié)[1,2]。在對(duì)水生動(dòng)物進(jìn)行急性毒性研究中,由于兩棲類動(dòng)物(如青蛙及其幼體蝌蚪)有可滲透的皮膚,更易從環(huán)境中吸收物質(zhì),對(duì)水質(zhì)污染具有更大的敏感性,因而被較多地用作進(jìn)行急性毒性生物評(píng)估的生物材料[3,4]。但通過實(shí)驗(yàn)方法對(duì)有機(jī)物進(jìn)行毒性評(píng)價(jià)耗時(shí)費(fèi)力,難以覆蓋多達(dá)數(shù)千萬種的有機(jī)物種類;此外,毒性的實(shí)驗(yàn)測(cè)定只適用于已合成出來的化合物,無法對(duì)還未實(shí)際合成的化合物進(jìn)行預(yù)先評(píng)估。

定量結(jié)構(gòu)-活性關(guān)系(quantitative strcture-activity relationship, QSAR)利用化學(xué)計(jì)量學(xué)方法總結(jié)化合物的生物活性與其分子結(jié)構(gòu)參數(shù)的關(guān)系,是化學(xué)與生物學(xué)之間的橋梁[5,6]。精度是QSAR在有機(jī)物毒性活性預(yù)測(cè)中的關(guān)鍵,QSAR計(jì)算或預(yù)測(cè)精度與描述符的提取、篩選以及建模方法有關(guān)。描述符的提取要兼顧有效性及易獲得性,即使對(duì)虛擬化合物亦能以量子化學(xué)計(jì)算獲取標(biāo)準(zhǔn)數(shù)字化描述符[7]。篩選獲得的描述符要確保顯著性與可解釋性,模型的建立要保證魯棒性及泛化推廣性能。以統(tǒng)計(jì)學(xué)習(xí)理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小為基礎(chǔ)建立的支持向量機(jī)(support vector machine,SVM)是機(jī)器學(xué)習(xí)領(lǐng)域的集大成者,它較好地解決了小樣本、非線性、過擬合、維數(shù)災(zāi)和局極小等問題,泛化推廣能力優(yōu)異[8,9]。 SVM 包括支持向量分類(support vector classification,SVC)和支持向量回歸(support vector regression,SVR),SVR 更適用于QSAR建模[10],已在諸多QSAR研究中得到成功應(yīng)用[11-14]。

本文采用分子描述符計(jì)算軟件PCLIENT表征醇類有機(jī)小分子化合物[15],獲得其理化性質(zhì)參數(shù);結(jié)合相關(guān)性分析與逐步線性回歸,篩選獲得關(guān)鍵描述符;基于訓(xùn)練集與保留描述符建立QSAR模型,預(yù)測(cè)其對(duì)歐洲林蛙蝌蚪的生物毒性,以證實(shí)該方法在有毒化合物的QSAR研究領(lǐng)域的應(yīng)用前景。

1數(shù)據(jù)與方法

1.1數(shù)據(jù)來源

本文數(shù)據(jù)集來自文獻(xiàn)[3],含123個(gè)醇類有機(jī)小分子化合物,其毒性指數(shù)為對(duì)歐洲林蛙蝌蚪50%生長抑制濃度(IGC50)的負(fù)對(duì)數(shù)。全部樣本按毒性活性值由低到高排序,為使測(cè)試集中的樣本均勻分布,每隔3個(gè)樣本抽取一個(gè)放入測(cè)試集,依次選取第4、8、12…116、120號(hào)30個(gè)樣本組成測(cè)試集(表1),其余93個(gè)樣本為訓(xùn)練集,以訓(xùn)練集樣本得到的模型對(duì)測(cè)試集樣本的毒性進(jìn)行預(yù)測(cè)。

1.2分子描述符的計(jì)算與篩選

1.2.1分子描述符獲取首先以分子結(jié)構(gòu)編輯器JME Editor畫出分子結(jié)構(gòu),并保存為簡(jiǎn)化分子線性輸入規(guī)范(simplified molecular input line entry specification,SMILES)文件格式,再將SMILES文件作為PCLIENT的輸入(http://vcclab.org/articles/cite.html),即可獲得每個(gè)分子結(jié)構(gòu)描述符[15]。

1.2.2描述符篩選相關(guān)性分析篩選描述符:首先以毒性實(shí)驗(yàn)值與各理化性質(zhì)逐個(gè)計(jì)算Pearson相關(guān)系數(shù),根據(jù)相關(guān)系數(shù)假設(shè)檢驗(yàn)的概率P值,選出顯著正或負(fù)相關(guān)(顯著水平0.05)的描述符。

通過逐步線性回歸(stepwise linear regression,SLR)進(jìn)行進(jìn)一步變量篩選:SLR是一種“有進(jìn)有出”的變量篩選方法,它從一個(gè)自變量開始,根據(jù)自變量對(duì)因變量Y作用的顯著程度,從大到小依次逐個(gè)引入回歸方程。當(dāng)已引入的自變量由于后面變量的引入而變得不顯著時(shí),則停止引入,進(jìn)入到剔除過程。引入一個(gè)自變量或從回歸方程中剔除一個(gè)自變量,為逐步回歸的一步。對(duì)于每一步都要對(duì)回歸方程的顯著性進(jìn)行F值檢驗(yàn),以確保每次引入新的顯著性變量前回歸方程中只包含對(duì)Y作用顯著的變量。“進(jìn)”與“出”的過程反復(fù)進(jìn)行,直到既無可剔除的不顯著變量,又無可引入的顯著變量為止。根據(jù)以上兩步變量篩選過程,獲得最終的保留描述符[16]。

1.3建模過程

1.3.1多元線性回歸 多元線性回歸(multiple linear regression,MLR)是統(tǒng)計(jì)學(xué)中最經(jīng)典常用的回歸模型,原理簡(jiǎn)單,構(gòu)建模型通俗易懂,在QSAR研究中得到廣泛應(yīng)用。其多元線性回歸方程為:

y^=b0+b1x1+b2x2+…+bmxm。(1)

式中y^為因變量,x為自變量,b0為常數(shù)項(xiàng),b1~bm為偏回歸系數(shù)。

本研究的MLR模型由MATLAB統(tǒng)計(jì)工具箱中的“regress.m”函數(shù)實(shí)現(xiàn)。

1.3.2偏最小二乘回歸偏最小二乘回歸(partial least squares,PLS)是一種基于潛變量之間的相關(guān)性進(jìn)行建模預(yù)測(cè)的一種多元統(tǒng)計(jì)方法[17]。它結(jié)合了主成分分析、相關(guān)性分析和多元線性回歸分析的主要優(yōu)點(diǎn),能更有效地抓取到因變量和自變量之間潛在的相關(guān)性,達(dá)到滿意的建模效果。

本文中PLS模型由MATLAB統(tǒng)計(jì)工具箱中的“plsregress.m”程序?qū)崿F(xiàn),以留一法交叉驗(yàn)證的最小MSE原則來選擇PLS的潛變量個(gè)數(shù)。

1.3.3支持向量回歸支持向量機(jī)(SVM)是基于統(tǒng)計(jì)學(xué)習(xí)理論提出的一種應(yīng)用于模式識(shí)別與機(jī)器學(xué)習(xí)領(lǐng)域的新方法[18],其核心思想是對(duì)所有樣本構(gòu)建一個(gè)超平面,通過核函數(shù)將各樣本變量映射到高維特征空間,使兩類樣本能夠通過此超平面可分,并使各個(gè)向量距離此超平面的間隔最大,而此時(shí)距離超平面最近的向量則被稱為支持向量。該超平面方程可簡(jiǎn)寫為:

WTx+b=0。(2)

支持向量機(jī)包括支持向量分類(SVC)和支持向量回歸(SVR),分別應(yīng)用于分類問題和回歸問題,本研究采用SVR。

本研究的SVR模型由Chang等編寫的軟件LIBSVM實(shí)現(xiàn)[6]:核函數(shù)均設(shè)置為徑向基核;該軟件包中需優(yōu)化的參數(shù)包括懲罰參數(shù)c,徑向基核函數(shù)的參數(shù)g和損失函數(shù)的參數(shù)p,參數(shù)優(yōu)化以網(wǎng)格搜索實(shí)現(xiàn)。

1.4模型評(píng)價(jià)指標(biāo)

模型的獨(dú)立預(yù)測(cè)精度采用均方根誤差RMSE與Tropsha等[19]的方法作為評(píng)價(jià)指標(biāo):

RMSE=∑ntei=1(yi-y^i)2nte ; (3)

Q2=1-∑ntei=1(yi-y^i)2∑ntei=1(yi-ytr)2。 (4)

式中:yi為測(cè)試集因變量觀測(cè)值,y^i為測(cè)試集因變量預(yù)測(cè)值,nte為測(cè)試集樣本數(shù),ytr為訓(xùn)練集因變量的平均值。

2結(jié)果與分析

2.1描述符構(gòu)建與篩選

把所有的化合物結(jié)構(gòu)式輸入在線服務(wù)軟件PCLIENT,經(jīng)過計(jì)算和篩選,刪除每一列全為0或全為999的特征,最終得到每個(gè)化合物含1 666個(gè)描述子作為初始特征矩陣。而后以毒性實(shí)驗(yàn)值與各理化性質(zhì)逐個(gè)計(jì)算Pearson相關(guān)系數(shù),根據(jù)相關(guān)系數(shù)假設(shè)檢驗(yàn)的概率P值,以0.05為顯著水平,選出顯著正相關(guān)的描述符共792個(gè),然后通過SLR做進(jìn)一步變量篩選,最終保留描述符14個(gè)。

2.2模型比較

分別以1 666、792、14個(gè)描述符作為特征,再分別以MLR、PLS和SVR建模,所得結(jié)果見表2。由表2可以看出,隨著篩選出描述符數(shù)量的減少,模型的獨(dú)立預(yù)測(cè)精度變得更優(yōu),表明該特征篩選方法是有效的,篩選出的特征是顯著的。不同模型橫向比較,基于MLR的訓(xùn)練擬合精度極好,但獨(dú)立精度很差,表明模型容易產(chǎn)生過擬合,且泛化推廣能力較差;基于PLS的訓(xùn)練擬合精度較好,但獨(dú)立精度一般;而基于SVR訓(xùn)練擬合精度和獨(dú)立預(yù)測(cè)精度均很好,表明其泛化能力好,魯棒性強(qiáng)。

3討論與結(jié)論

以PCLIENT計(jì)量軟件對(duì)醇類有機(jī)小分子化合物進(jìn)行表征,每一化合物分別得到1 666個(gè)理化參數(shù)描述符,這些理化參數(shù)描述符涵蓋疏水性、拓?fù)湫浴⒂H電性、立體性質(zhì)等多種屬性,是對(duì)醇類有機(jī)小分子化合物較為全面系統(tǒng)的整體表征。但對(duì)QSAR模型而言,無關(guān)、冗余描述符會(huì)影響預(yù)測(cè)精度,本文首先以相關(guān)性分析剔除其中874個(gè)未達(dá)顯著相關(guān)性指標(biāo)的描述符,結(jié)合逐步線性回歸,最終篩選得到14個(gè)關(guān)鍵理化性質(zhì)描述符。基于14個(gè)分子描述符,采用支持向量機(jī)學(xué)習(xí)算法建立QSAR模型,預(yù)測(cè)獨(dú)立測(cè)試樣本的生物毒性,取得了較好效果,預(yù)測(cè)指標(biāo)Q2和RMSEP分別達(dá)到0.936和0.308。通過獨(dú)立測(cè)試集的預(yù)測(cè)值和真實(shí)值比較,表明篩選出的14個(gè)描述符具有較好的顯著性,SVR模型具有較好的穩(wěn)健性。與常用模型MLR、PLS等比較,新方法具有顯著優(yōu)越性,在醇類有機(jī)小分子化合物毒性的QSAR研究中具有較好的應(yīng)用前景。

參考文獻(xiàn):

[1]張愛茜, 劉景富, 景傳勇, 等. 我國環(huán)境化學(xué)研究新進(jìn)展[J]. 化學(xué)通報(bào), 2014 (7): 654-659.

[2]董小蓉, 楊曉明, 魯翌, 等. 長江、漢江水源水及其自來水中有機(jī)物生物毒性的比較[J]. 中國環(huán)境科學(xué), 2010, 30(2): 263-268.

[3]Agrawal V K, Chaturvedi S, Abraham M H, et al. QSAR study on tadpole narcosis[J]. Bioorganic. & Medicinal. Chemistry, 2003, 11(20): 4523-4533.

[4]Abraham M H, Rafols C. Factors that influence tadpole narcosis. An LFER analysis[J]. J. Chem. Soc., Perkin Trans.,1995,2(10): 1843-1851.

[5]安麗英, 相玉紅, 張卓勇, 等. 定量構(gòu)效關(guān)系研究進(jìn)展及其應(yīng)用[J]. 首都師范大學(xué)學(xué)報(bào) (自然科學(xué)版), 2006, 27(3): 52-57.

[6]Chang C C, Lin C J. LIBSVM: a library for support vector machines[J]. ACM Transactions on Intelligent Systems and Technology (TIST), 2011, 2(3): 27.

[7]梅虎, 周原, 孫立力, 等. 一種新的氨基酸描述子及其在肽QSAR中的應(yīng)用[J]. 物理化學(xué)學(xué)報(bào), 2004, 20(8): 821-825.

[8]陳淵, 袁哲明, 周瑋, 等. 基于地統(tǒng)計(jì)學(xué)與支持向量回歸的QSAR建模[J]. 物理化學(xué)學(xué)報(bào), 2009, 25(8): 1587-1592.

[9]顧燕萍, 趙文杰, 吳占松. 最小二乘支持向量機(jī)魯棒回歸算法研究[J]. 清華大學(xué)學(xué)報(bào)(自然科學(xué)版), 2015,55(4):396-402.

[10]孫德山. 支持向量機(jī)分類與回歸方法研究[D]. 長沙:中南大學(xué), 2004.

[11]李顆, 李向輝, 徐西林, 等. 芳香羧酸衍生物驅(qū)避劑的非線性定量構(gòu)效關(guān)系[J]. 昆蟲學(xué)報(bào), 2014, 57(9): 1018-1024.

[12]王雪源, 張燦, 蔣莉, 等. 基于支持向量機(jī)的乙酰膽堿酯酶抑制劑的構(gòu)效關(guān)系研究[J]. 計(jì)算機(jī)與應(yīng)用化學(xué), 2014, 31(2): 185-188.

[13]Wang L, Dai Z, Zhang H, et al. Quantitative sequence-activity model analysis of oligopeptides coupling an improved high-dimension feature selection method with support vector regression[J]. Chemical Biology Drug Design, 2014, 83(4): 379-391.

[14]熊光, 張紅燕. 黃烷酮類衍生物的抗菌活性QSAR研究[J]. 中國農(nóng)學(xué)通報(bào), 2015, 31(29): 77-81.

[15]Tetko I V, Gasteiger J, Todeschini R, et al. Virtual computational chemistry laboratory – design and description[J]. Journal of Computer-Aided Molecular Design, 2005, 19(6):453-463.

[16]Tang Q Y, Zhang C X. Data processing system (DPS) software with experimental design, statistical analysis and data mining developed for use in entomological research[J]. Insect Science, 2013, 20(2): 254-260.

[17]Wold S, Ruhe A, Wold H, et al. The collinearity problem in linear regression. The partial least squares (PLS) approach to generalized inverses[J]. Siam Journal on Scientific & Statistical Computing, 1984, 5(3):735-743.

[18]張學(xué)工. 關(guān)于統(tǒng)計(jì)學(xué)習(xí)理論與支持向量機(jī)[J]. 自動(dòng)化學(xué)報(bào), 2000, 26(1): 32-42.

[19]Tropsha A, Gramatica P, Gombar V K. The importance of being earnest: validation is the absolute essential for successful application and interpretation of QSPR models[J]. QSAR & Combinatorial Science, 2003, 22(1): 69-77.(上接第66頁)

[5]繆靜, 殷曰彩,馮志彬,等. 無花果果醋發(fā)酵工藝優(yōu)化[J].食品與機(jī)械,2014,30(3):218-221.

[6]李芳, 孔令明,宋曼,等. 速凍無花果保鮮工藝的研究[J].食品工業(yè),2014,35(9):70-74.

[7]張澤俊,沙坤,馬雯. 無花果葉不同溶劑提取物抗氧化活性的比較研究[J]. 安徽農(nóng)業(yè)科學(xué), 2011, 39(12): 6981-6982,7010.

[8]楊潤亞,明永飛,王慧. 無花果葉中總黃酮的提取及其抗氧化活性測(cè)定[J]. 食品科學(xué), 2010, 31(16): 78-82.

[9]中華人民共和國衛(wèi)生部.GB 5009.3-2010 食品安全國家標(biāo)準(zhǔn) 食品中水分的測(cè)定[S].2010.

[10]邱松山,周天,姜翠翠,等. 無花果粗多糖提取工藝及抗氧化活性研究[J].食品與機(jī)械, 2011, 27(1): 40-42.

[11]Kanokwan M, Soottawat B, Munehiko T. Effect of reactant concentrations on the Maillard reaction in a fructose-glycine model system and the inhibition of black tiger shrimp poly phenoloxidase [J]. Food Chemistry, 2006, 98(1): 1-8.

[12]孫月娥,呂丹娜,王衛(wèi)東,等. 美拉德反應(yīng)對(duì)大蒜抗氧化活性的影響[J].食品工業(yè)科技,2013, 34(9):119-123.山 東 農(nóng) 業(yè) 科 學(xué)2017,49(2):72~75Shandong Agricultural Sciences山 東 農(nóng) 業(yè) 科 學(xué)第49卷第2期郭成,等:蘋果砧木組培苗生根誘導(dǎo)技術(shù)研究DOI:10.14083/j.issn.1001-4942.2017.02.015

主站蜘蛛池模板: 亚洲男人的天堂久久香蕉网 | 中文字幕久久亚洲一区| а∨天堂一区中文字幕| a亚洲视频| 99视频精品在线观看| 欧美成人第一页| 欧美日韩精品综合在线一区| 99在线视频网站| 青青青国产免费线在| 久草视频精品| 亚洲欧州色色免费AV| 日本少妇又色又爽又高潮| 国产一级毛片在线| 久久综合国产乱子免费| 国产麻豆福利av在线播放| 国产在线高清一级毛片| 国产高清不卡| 国产一区二区三区在线精品专区| 一级看片免费视频| 色综合五月| 亚洲成在线观看| 三级视频中文字幕| 天堂va亚洲va欧美va国产| 色香蕉影院| 精品福利视频导航| 婷婷色婷婷| 日本成人在线不卡视频| 欧美不卡视频一区发布| 67194亚洲无码| 天天综合色天天综合网| 国产在线一区视频| 99在线小视频| 2019国产在线| 国产精品久久自在自线观看| 中文字幕调教一区二区视频| 日本精品中文字幕在线不卡| 97国产成人无码精品久久久| 国产主播福利在线观看| 欧美日韩免费在线视频| 久久黄色视频影| 又爽又黄又无遮挡网站| 色屁屁一区二区三区视频国产| 少妇被粗大的猛烈进出免费视频| 久久久久人妻一区精品色奶水 | 东京热av无码电影一区二区| www.精品国产| 亚洲看片网| 成人福利一区二区视频在线| 国产乱论视频| 极品国产一区二区三区| 婷婷六月综合网| 成人福利在线视频免费观看| 国产另类视频| 欧美日韩国产成人高清视频| 精品国产91爱| 丁香六月激情综合| 国产一级毛片网站| 成人免费视频一区| 日本黄色不卡视频| 玖玖免费视频在线观看| 国产精品hd在线播放| 国产制服丝袜无码视频| 国产精品露脸视频| 欧美综合一区二区三区| 99re热精品视频国产免费| 国产成人久视频免费| 亚洲综合久久一本伊一区| 国产极品美女在线观看| 国产精品蜜芽在线观看| 国产男女XX00免费观看| 久久青草精品一区二区三区| 伊人久久久大香线蕉综合直播| 日韩精品一区二区三区swag| 青青国产视频| 国产精品自在自线免费观看| 亚洲成a人在线播放www| 国产白浆一区二区三区视频在线| 国产乱子精品一区二区在线观看| 中文字幕在线观| 欧美一级在线看| 久久无码免费束人妻| 91精品啪在线观看国产60岁|