王 希 誠, 趙 曉 宇, 康 玲, 李 洪 林
(1.大連理工大學工業裝備結構分析國家重點實驗室,遼寧大連 116024;2.大連理工大學工程力學系,遼寧大連 116024;3.大連理工大學計算機科學與技術學院,遼寧 大連 116024;4.中國科學院上海藥物研究所,上海 201203)
隨著計算機技術的高速發展及其在各個領域的廣泛應用,計算機輔助藥物設計已經成為創新藥物研究的一種新方法和技術.分子對接作為基于受體藥物設計的重要方法之一,已經成為可靠、相對廉價的用于先導化合物發現的一種重要手段.分子對接包括3個相互關聯的部分:結合位點的識別、有效的構象優化方法及打分函數.20世紀80年代,Kuntz等[1]發展了模擬小分子與生物大分子結合三維結構及其強度的計算方法——分子對接(molecular docking)方法,并開發了第一個分子對接程序DOCK.此后,為得到精確的結合構象和正確地預測活性,各種構象優化方法及打分函數應運而生.
本文通過Boltzmann規則將原子間距離的概率分布轉化為與距離有關的蛋白質-配體原子對間作用能的知識打分函數,將其與基于信息熵的多種群自適應遺傳算法相結合,形成有效的分子對接程序,用于計算配體與蛋白質的結合能;并與DOCK6.1對接結果相比較,以證明其有效性.
目前,可以用于分子對接及虛擬篩選的結合自由能評價方法,大致上可以分為基于力場、基于經驗及基于知識的3類打分函數.基于力場的打分函數多采用AMBER和CHARMM力場的非鍵相互作用部分,將蛋白質受體-配體的結合自由能近似為范德華力與靜電力相互作用的加和,DOCK4[2](最新版本為 DOCK6.1)、GAsDock[3]等對接程序均采用力場打分函數作為分子對接的評價標準.經驗打分函數認為結合自由能可以通過多項不同作用的加和來解釋,權系數可以通過已知結合能的蛋白質-配體的訓練集獲得.知識打分函數通過已知的受體-配體結構,利用Boltzmann規則[4]將原子間距離的概率分布轉化為與距離有關的受體-配體原子對間的作用能,并將結合過程中具有復雜相關性而又很難明確建模的結合效應隱含進去.本文采用類似經典打分PMF[5](potentials of mean force)的構造方法,從包含2422個復合物的訓練集中確定了17種蛋白質受體原子類型(詳見表 1)及 25種配體原子類型(詳見表 2),通過Boltzmann規則得到了不同類型原子對在各個距離上的作用能,并且通過體積修正項將結合過程中的疏水作用及熵變隱含進去,其表達式如下:

表1 蛋白質原子類型Tab.1 Protein atom type

表2 配體原子類型Tab.2 Ligand atom type

式中:Aij(r)為i類型受體原子與j類型配體原子在距離r上的能量值;kl為復合物訓練集中所有距離r 本文采用只考慮小分子柔性的半柔性對接優化模型,包括小分子平動、轉動及旋轉鍵在內的一系列變化.優化對接模型為 式中:x=(TxTyTzRxRyRzTb1Tb2… Tbn)T,其中 Tx、Ty、Tz、Rx、Ry 、Rz 是配體分子的幾何中心及旋轉度,對應于配體分子的取向,Tb1,Tb2,…,Tbn是配體分子的可旋轉鍵,描述配體分子的構象信息,n為可旋轉鍵數目.目標函數 f(x)選取上述知識型打分函數. 本文在采用帶有空間收縮的多種群遺傳算法[6]的基礎上同時加入了自適應策略,將其與知識打分函數結合用于尋找分子對接過程中的低能構象,用信息熵控制最優解搜索空間的收縮,并用空間收縮的尺度作為算法停止的判據,進化過程中添加了最優保留策略,從而確保了算法的全局收斂性. 對于多約束優化問題(5),可利用評價約束函數PEC及精準懲罰函數法將其轉化為序列無約束優化問題: 式中:α為懲罰因子,α只要大于一個閾值就可以使問題的解位于可行域內;ψ的取值一般為[103,105],這種方法針對所有約束按“松”與“緊”自動調整懲罰力度,能夠有效地處理約束,計算效率較高.對于遺傳算法,需要將上式轉化為無約束最大化問題: 式中:C是一個大的正數以確保F(x)在計算過程中為正值,式(7)就是本文采用的演化設計模型,F(x)為適應值函數. 將通訊論中的信息熵理論引入優化方法中,構造基于信息熵控制的遺傳演化模型如下: 式中:M為種群個數,通過定義最優解落在第m個種群的概率pm(m=1,2,…,M),從而引入信息熵H以衡量最優解落于某一種群的不確定性.初始時,pm=1/M,m=1,2,…,M,H取最大值;隨著優化的進行,遺傳迭代解將逐步逼近最優解,pm及H都將隨之變化,當在某一種群取到最優解時,不確定性為零,熵 H取極小值,從而得到原問題(7)的最優解.信息熵的介入有助于加快進化過程. 在本文算法中,還將遺傳算法中的交叉概率及變異概率作為設計變量參與優化,這種自適應策略,可以有效防止過早收斂問題的發生,同時提高了算法的搜索速度,保持了種群的多樣性,從而大大降低了人為因素對優化算法的影響. 這種基于信息熵的多種群自適應遺傳算法,引入了種群競爭機制及交叉、變異概率的自適應策略,并用信息熵控制空間收縮,提高了遺傳迭代的效率,算法穩定可靠,具有較強的全局尋優能力,收斂速度也有較大的提高. 本文將知識打分函數與優化算法相結合,開發了新的分子對接程序.為測試程序的有效性,選取乙酰膽堿酯酶抑制劑(AChE)、凝血酶抑制劑(thrombin-MQPA)及HIV蛋白酶抑制劑3種晶體復合物,進行晶體結構復原,并與廣泛應用的分子對接程序DOCK(Kuntz研究組推出的最新版本DOCK6.1)在能量得分、均方根偏差和對接所消耗的計算機時間方面進行了比較,得到了較為滿意的結果. 凝血酶是與血液凝固有關的重要蛋白酶之一,它能水解L-精氨酸的肽、酰胺和酯類.臨床表明,凝血酶抑制劑對血液栓塞、外傷出血等與血液凝固相關的疾病具有較好的療效.本文選取凝血酶(PDB:1ETR)復合物中配體MQI與其受體進行分子對接,其對接結果如表3及圖1所示,表中energy為能量得分,單位kJ/mol;RMSD為晶體結構的均方根偏差,單位nm;time為對接時間,單位s. 表3 1ETR:對接結果與DOCK 6.1的比較Tab.3 1ET R:Comparisons of the docking results with DOCK 6.1 老年癡呆癥 (alzheimer′s disease,AD)是一種多因異質性疾病,伴有認知及行為障礙,多發生在65歲以上的老年人群.由于AD的病因病機尚未明確,目前對該病尚無特效藥物.目前從血液和腦脊液中發現一些具有診斷和鑒別診斷意義的生化指標,有望成為AD早期診斷極有價值的指標,乙酰膽堿酯酶就是其中之一. 圖1 1ET R:對接結果與晶體結構的比較Fig.1 1ETR:Comparisons of the docking results with crystal structure 本文運用改進的方法,對乙酰膽堿酯酶(PDB:1EVE)抑制劑晶體復合物中配體E20與其受體作對接,與DOCK6.1的對接結果相比較,結果如表4及圖2所示. 表 4 1EVE:對接結果與 DOCK 6.1的比較Tab.4 1EVE:Comparison of the docking results with DOCK 6.1 人類免疫缺陷病毒(HIV)是艾滋病的主要致病因,針對艾滋病的化學藥物治療中HIV蛋白酶抑制劑發揮了重要作用.它通過抑制HIV在復制后期的構造蛋白、調節蛋白的功能,使其成為無外膜蛋白構造且不具感染力的病毒,從而達到治療作用.本文選取 HIV蛋白酶中的一種(PDB:1QBS),將其與配體DMP進行對接,其晶體結構與對接結果如表5及圖3所示. 圖2 1EVE:對接的最優構象與晶體結構的比較Fig.2 1EVE:Comparisons of the optimal docking conformations with crystal structure 表5 1QBS:對接結果與DOCK6.1的比較Tab.5 1QBS:Comparison of docking results with DOCK6.1 圖3 1QBS:對接的最優構象與晶體結構的比較Fig.3 1QBS:Comparisons of the optimal docking conformations with crystal structure 由上述3個實例可以看出,對于活性位點形成氫鍵或結合位點存在疏水性口袋的復合物(如1ETR、1QBS),本文的方法精度遠好于DOCK6.1.這是由于本文采取的打分函數并不單純以力場作為衡量能量的標準,而是通過將原子對間的距離分布轉化為受體與配體分子間的結合能,從而將難以用公式顯性表達的氫鍵、疏水等結合過程中的力隱含在概率分布中,因而得到了更好的結果.同時,3個實例均表明,本文的方法在保證精度的前提下,效率優于DOCK6.1的結果. 打分函數的選取與搜索算法的改進是分子對接過程中較為重要的兩個部分.本文在傳統對接程序DOCK的基礎上,采用基于原子間概率分布的知識打分函數替代了基于力場的打分函數;同時采用基于信息熵的多種群自適應遺傳算法,發展出一種新型對接程序KGAsDock,通過算例證明該方法在保證效率的前提下,提高了計算的精度,得到了較為滿意的結果. [1]KUNTZ I D,BLANEY J M,OA TLEY S J,et al.A geometric approach to macromolecule-ligand interactions[J].Journal of Molecular Biology,1982,161(12):269-288 [2]EWING T J,M AKINO S,SKILLMAN A G,et al.DOCK4.0:Search strategies for automated molecular docking of flexible molecule databases[J].Journal of Computer-aidedMolecularDesign,2001,15(5):411-428 [3]LI Hong-lin,LI Chun-lian,GUI Chun-shan,et al.GAsDock:a new approach for rapid flexible docking based on an improved multi-population genetic algorithm[J].Bioorganic&Medicinal Chemistry Letters,2004,14(18):4671-4676 [4]SIPPL M J.Boltzmann′s principle,knowledge-based meanfields and protein folding.An approach to the computational determination ofprotein structures[J].Journal of Computer-aided Molecular Design,1993,7(4):473-501 [5]M UEGGE I.PMF scoring revisited[J].Journal of Medicinal Chemistry,2006,49(20):5895-5902 [6]李純蓮,王希誠,趙金城,等.一種基于信息熵的多種群遺傳算法[J].大連理工大學學報,2004,44(4):589-593(LI Chun-lian,WANG Xi-cheng,ZHAO Jin-cheng,et al.An information entropy-based multi-population genetic algorithm[J].Journal of Dalian University of Technology,2004,44(4):589-593)
2 分子半柔性對接優化模型

3 基于信息熵的多種群自適應遺傳算法



4 結果與討論
4.1 凝血酶抑制劑晶體結構復原

4.2 乙酰膽堿酯酶抑制劑(AChE)晶體結構復原


4.3 HIV蛋白酶抑制劑晶體結構復原



5 結 語