崔 雪,賈青竹,李 磊,王 強
(1. 天津科技大學海洋與環境學院,天津 300457;2. 天津科技大學化工與材料學院,天津 300457)
有機物在水中溶解度范數指數法定量構效關系
崔 雪1,賈青竹1,李 磊2,王 強2
(1. 天津科技大學海洋與環境學院,天津 300457;2. 天津科技大學化工與材料學院,天津 300457)
有機物溶解度參數在化學品開發、藥物設計和環境生態保護評價等領域發揮重要作用.本文依據本課題組提出的范數指數描述符,建立了一個預測有機物溶解度的定量構效關系模型,并對320個包括有機氯化物、烷基類、芳香族等有機物的水溶解度進行了計算.留一交叉驗證和 Y隨機化測試表明這個新計算模型預測結果精確、可靠和穩定(R2為0.910,7,Q2為0.888,4);同時,該模型的應用域驗證結果表明此模型有可能在大范圍上推廣運用.模型統計結果和相關驗證結果都表明基于范數指數建立的定量構效關系模型可以成功應用于預測有機物溶解度.
有機物溶解度;范數指數;定量構效關系;留一交叉驗證;應用域
有機物在水中的溶解度(mol/L,通常表示為對數形式即 log,S)屬于基礎理化性質,該參數在化學品開發、藥物設計和環境生態保護評價等領域發揮重要作用[1].其中,在藥物設計領域,溶解度參數與吸收、分布、新陳代謝、代謝和毒性有關[2];比如有機物的超低溶解度有可能帶來藥物吸收問題[3],盡管提高攝入藥劑量能達到預期治療效果,但由此可導致更嚴重的藥物中毒問題.隨著高通量篩選技術和結構化學的發展,大量候選藥物分子被設計成大分子質量、低溶解度和高脂溶性[4].據統計,每年新開發上市的化學品達2,000種以上;同時,為了實現對化學品在生產、流通、使用及最終處置歸宿過程中的規范管理,歐盟要求所有化學品在正式市場化生產之前,就應該提供包括辛醇水分配系數、水溶解度及吸收、分布、新陳代謝、代謝和毒性等相關參數[5].因此,在有機物溶解度實驗測量耗時費力情況下,要快速排除超低溶解度的候選藥物分子,提高藥物開發效率,有效解決途徑就是建立穩定準確的有機物溶解度預測模型.
定量構效關系是一個基于大量描述符將化合物結構與其物性參數(溶解度)定量聯系起來的方法[6-13].例如,Hansen等[10]利用9個2D描述符建立了一個人工神經網絡模型,對4,548個類藥物分子的溶解度參數進行了估算,盡管計算結果精度較高,但是該人工神經網絡系統屬于暗箱模型,不能進一步推廣應用.根據 9個潛在描述符(包括擴展的連接性指紋分數),Zhou等[11]建立了偏最小二乘法的模型,并對 1,302個有機物進行了預測,結果表明其測試集(1,000個有機物)計算相關系數(R2)為 0.85,均方根誤差為0.71.有研究者[12]基于3D描述符分別采用反向傳播神經網絡和多元線性回歸兩種擬合過程建立了有機物溶解度預測模型,研究表明前者方法能給出較好計算精度.
本課題組提出系列范數指數描述符,基于該描述符建立的模型成功地預測了有機物多種物化性質,包括離子液體的分解溫度、麻醉性污染物的水生毒性、雜環化合物的藥理學和毒理學活性和多種類表面活性劑的臨界膠束濃度[14-17].先前研究工作表明該系列范數描述符可能是分子結構的一種根本表述,有可能在多個物性參數中均有體現.
本工作基于有機物分子圖論進一步將歐式空間距離矩陣引入到范數模式中,并據此建立有機物的溶解度預測模型,對 320個有機物包括有機鹵化物(Cl和 Br)、烷烴類、烯烴類、炔烴類、醇類、芳香族等極性和非極性有機物的水溶解度進行了計算,采用留一交叉驗證法和 Y隨機化驗證手段對模型進行了驗證,并利用杠桿技術對模型的應用域進行了評價.
1.1樣本集
在此工作中,包含溶解度數據有機物分子從文獻[13]中獲得,其溶解度實驗值(log,S)及分子結構列在附表 1(可聯系通信作者索取).對實驗數據進行了可靠性評價,對明顯異常數據進行剔除,對同一個有機物的多個實驗數據進行了再次核實,篩選確定了 320個有機物.為了構建穩定準確的計算模型,將樣本集分為訓練集(260個有機物)和測試集(60個有機物).
1.2分子結構優化
利用軟件 HyperChem 7.0對有機物分子結構進行優化,具體采用從頭算法ab initio在ST0-3G中進行能量最低優化.
1.3范數指數描述符和模型
在分子結構優化基礎上,利用化學圖構建有機物的距離矩陣和歐式空間距離矩陣.其中,距離矩陣包括了步長矩陣、相鄰矩陣、相間矩陣和相跳矩陣.為了對分子中的不同原子進行量化描述,本工作提出了增廣矩陣,涉及參數包括范德華半徑、原子質量、電負性和電荷.
下面列出上述具體矩陣.
歐式空間距離矩陣:

bij是原子i和j的歐氏空間距離步長矩陣:

相鄰矩陣:

相間矩陣:

相跳矩陣:

增廣矩陣:

將以上矩陣進行組合,形成新矩陣,命名為增廣距離矩陣.



表1 溶解度預測模型系數Tab.1 Parameters of this model for solubility prediction
1.4模型評價
預測模型質量高低通過回歸統計數值、留一交叉驗證法和 Y隨機化進行驗證.回歸統計數據包含訓練集和測試集相關系數的平方值,留一交叉驗證法的統計數據是Q2.

式中:Yobs(train)為訓練集實驗值;Ypre(train)為訓練集預測值;train為訓練集實驗值的平均值;Yobs(test)為測試集實驗值;Ypre(test)為測試集預測值;test為測試集實驗值的平均值;Yobs為樣本集實驗值;Ypre為樣本集預測值;n為樣本集數量;k為變量數量;為樣本集實驗值的平均值;YLOO-pre為樣本集留一交叉驗證的預測值.
1.5應用域驗證
為了遵守歐盟 OECD原則,定量構效關系模型的應用域應該給出明確定義.本工作以分子結構的帽子矩陣為基礎,通過杠桿方法來確定計算模型的應用域.比如由于某有機物的杠桿值比較高該有機物的預測值就可能被認為是不可靠的.其中h*的定義為

式中:p'是自變量數量加1;n是訓練集數量.
為了方便可視化本模型的應用域,使用了Williams圖(標準交叉驗證殘差為縱坐標,有機物的杠桿值為橫坐標).有機物的標準交叉驗證殘差處于三個標準殘差單位內(<3σ)且h<h*,則認定為該有機物的預測結果是可靠的;否則,該有機物的預測值被認定為是異常值[18-19].
2.1溶解度的定量構效關系模型
利用新建模型(式(8))對320個有機物的溶解度進行了預測,具體預測數值見附表 1,圖 1是有機物溶解度實驗值與預測值對比散點圖.由圖1可知:所有有機物溶解度預測點和實驗點均位于對角線上及附近,表明本模型計算結果與實驗值有很好的一致性.本預測模型相關統計數據和F值分別為 0.910,7、0.890,1和 327.14,說明本模型計算結果的精確性較好.同時,圖 2表明幾乎所有有機物的溶解度預測殘差都分布在-2到+2之間,殘差隨機分布沒有明顯趨勢.

圖1 溶解度預測值和實驗值相關性Fig.1 Correlation between model predicted and experimental data

圖2 殘差與實驗值對比圖Fig.2 Model predicted residual vs.experimental data
2.2留一交叉驗證
本文利用留一交叉驗證法驗證本計算模型的預測能力.留一交叉驗證法所建立模型的預測值和實驗值之間關系對比圖如圖3所示.圖3表明:留一交叉驗證法的溶解度預測值與實驗值有較好吻合度.為了進一步分析本工作模型(式(8))和留一交叉驗證生成模型的溶解度預測效果,對比了兩種模型預測結果樣本的相對誤差分布情況,結果如圖4所示.

圖3 留一交叉驗證預測值和實驗值相關性Fig.3 Correlation between leave-one-out cross-validation predicted and experimental data

圖4 本模型和留一交叉驗證模型溶解度預測相對偏差分布Fig.4 Relative deviation distribution of the solubility predicted by this model and the leave-one-out cross-validation model
由圖4可知,二者預測結果的相對誤差數量分布相似.同時,留一交叉驗證結果具有較高Q2值(0.888,4),以上表征結果均可以驗證本工作基于范數描述符建立的溶解度預測模型具有較好的穩定性和可靠性.
2.3Y隨機化測試
為了避免模型建立的偶然性,需要對模型進行Y隨機化測試.將原始實驗值Y隨機打亂順序幾次,同時運用相同的變量再建立一個新的定量構效關系模型;如果新模型預測結果R2和Q2都很低,則可以證明原始模型不是偶然建立的,同時具有較強穩定性.
在本工作中,實驗值被隨機打亂了 5次順序,其隨機打亂生成新模型預測結果的R2和Q2列在表2.由表2可知:5次 Y隨機化測試中新模型的預測效果都很差,R2和Q2都很低甚至為 0;由此推斷,本工作原始模型(式(8))是穩固的,并非偶然建立.

表2 Y隨機化測試結果Tab.2 Results of the randomization test of the model
2.4應用域驗證
好的計算模型不僅要有較高的精確度和穩定性,同時要具備較廣的應用域.本工作利用杠桿方法檢測計算模型的應用域,并由 Williams圖(見圖 5)展示,其中圖 5橫縱坐標是帽子矩陣對角線的數值分布,縱坐標是預測結果標準殘差分布.從圖 5可以看出,對于320個有機物,只有7個有機物的預測結果屬于異常值,其中 98%, 的樣本有機物預測結果都穩定可靠.由此推斷本計算模型(式(8))具有較廣應用域,可以推廣應用于其他有機物溶解度的預測.

圖5 訓練集和測試集Williams圖Fig.5 Williams plot for the training set and the test set
本文基于有機物化學圖論,構造了有機物分子的歐式空間距離矩陣、步長矩陣和原子屬性矩陣,在此基礎上提出了系列組合矩陣的范數指數,構建了有機物溶解度預測定量構效關系模型,并對320個包括有機氯化物、烷基類、芳香族等有機物的水溶解度進行了計算.結果表明:本模型溶解度預測值與實驗值有很好的一致性,F值為 327.14,留一交叉驗證測試(Q2為 0.888,4)、Y隨機化測試和應用域驗證均表明本模型計算結果準確穩定可靠,有可能進一步推廣應用.
[1] Mitchell B E,Jurs P C. Prediction of aqueous solubility of organic compounds from molecular structure[J]. Journal of Chemical Information and Computer Sciences,1998,38(3):489-496.
[2] Tetko I V,Bruneau P,Mewes H W,et al. Can we estimate the accuracy of ADME-Tox predictions?[J]. Drug Discovery Today,2006,11(15):700-707.
[3] Lipinski C A,Lombardo F,Dominy B W,et al. Experimental and computational approaches to estimate solubility and permeability in drug discovery and development settings[J]. Advanced Drug Delivery Reviews,2012,64:4-17.
[4] Votano J R,Parham M,Hall L H,et al. New predictors for several ADME/Tox properties:Aqueous solubility,human oral absorption,and Ames genotoxicity using topological descriptors[J]. Molecular diversity,2004,8(4):379-391.
[5] Wang J,Hou T. Recent advances on aqueous solubility prediction[J]. Combinatorial Chemistry & High Throughput Screening,2011,14(5):328-338.
[6] Delaney J S. Predicting aqueous solubility from structure[J]. Drug Discovery Today,2005,10(4):289-295.
[7] Jain N,Yalkowsky S H. Estimation of the aqueous solubility I:Application to organic nonelectrolytes[J]. Journal of Pharmaceutical Sciences,2001,90(2):234-252.
[8] Hou T J,Xia K,Zhang W,et al. ADME evaluation in drug discovery. 4. Prediction of aqueous solubility based on atom contribution approach[J]. Journal of Chemical Information and Computer Sciences,2004,44(1):266-275.
[9] Tetko I V,Tanchuk V Y,Kasheva T N,et al. Estimation of aqueous solubility of chemical compounds using E-state indices[J]. Journal of Chemical Information and Computer Sciences,2001,41(6):1488-1493.
[10] Hansen N T,Kouskoumvekaki I,J?rgensen F S,et al. Prediction of pH-dependent aqueous solubility of druglike molecules[J]. Journal of Chemical Information and Modeling,2006,46(6):2601-2609.
[11] Zhou D,Alelyunas Y,Liu R. Scores of extended connectivity fingerprint as descriptors in QSPR study of melting point and aqueous solubility[J]. Journal of Chemical Information and Modeling,2008,48(5):981-987.
[12] Yan A,Gasteiger J. Prediction of aqueous solubility of organic compounds based on a 3D structure representation[J]. Journal of Chemical Information and Computer Sciences,2003,43(2):429-434.
[13] Wang J,Krudy G,Hou T,et al. Development of reliable aqueous solubility models and their application in druglike analysis[J]. Journal of Chemical Information and Modeling,2007,47(4):1395-1404.
[14] Zhu Z C,Wang Q,Jia Q Z,et al. Quantitative structureproperty relationship of the critical micelle concentration of different classes of surfactants[J]. Acta Physico-Chimica Sinica,2013,29(1):30-34.
[15] Zhu Z C,Wang Q,Jia Q Z,et al. Structure-property relationship for the pharmacological and toxicological activity of heterocyclic compounds[J]. Acta Physico-Chimica Sinica,2014,30(6):1086-1090.
[16] Yan F Y,Xia S Q,Wang Q,et al. Predicting the decomposition temperature of ionic liquids by the quantitative structure-property relationship method using a new topological index[J]. Journal of Chemical & Engineering Data,2012,57(3):805-810.
[17] Wang Q,Jia Q Z,Yan L H,et al. Quantitative structuretoxicity relationship of the aquatic toxicity for various narcotic pollutants using the norm indexes[J]. Chemosphere,2014,108:383-387.
[18] Gramatica P. Principles of QSAR models validation:Internal and external[J]. QSAR and Combinatorial Science,2007,26(5):694-701.
[19] Gramatica P,Giani E,Papa E. Statistical external validation and consensus modeling:A QSPR case study for Kocprediction[J]. Journal of Molecular Graphics and Modelling,2007,25(6):755-766.
責任編輯:周建軍
A Quantitative Structure-property Relationship Model for Aqueous Solubility of Organic Compounds Based on Norm Indexes
CUI Xue1,JIA Qingzhu1,LI Lei2,WANG Qiang2
(1.College of Marine and Environmental Sciences,Tianjin University of Science & Technology,Tianjin 300457,China;2.College of Chemical Engineering and Materials Science,Tianjin University of Science & Technology,Tianjin 300457,China)
The aqueous solubility of organic compounds plays a significant role in chemical development,drug design and environmental protection evaluation.In this research,norm index descriptors were obtained and then utilized to develop a model for predicting the aqueous solubility of 320 organic compounds including organic chloride,alkyl and aromatic,etc.The model was validated by leave-one-out validation and Y-randomization test with satisfactory results(R2of 0.910,7,Q2of 0.888,4),which further demonstrated that this model was accurate,reliable and stable.Besides,the applicability domain of the model was validated by using the leverage approach and the results suggested a potential for a large scale utilization of this model.Statistical values and validation tests demonstrate that our norm indexes-based model can successfully predict the aqueous solubility of organic compounds.
aqueous solubility of organic compounds;norm indexes;quantitative structure-property relationship;leaveone-out cross-validation;applicability domain
O621.1
A
1672-6510(2016)04-0035-05
10.13364/j.issn.1672-6510.20150184
2015-10-28;
2015-12-16
國家自然科學基金資助項目(21306137)
崔 雪(1990-),女,天津人,碩士研究生;通信作者:賈青竹,教授,jiaqingzhu88@126.com.
數字出版日期:2016-05-19;數字出版網址:http://www.cnki.net/kcms/detail/12.1355.N.20160519.1023.002.html.