徐聞曦,蔡曉然,鄭小嬌,劉根炎,巨修練
武漢工程大學化工與制藥學院,湖北 武漢 430205
肌鈣蛋白I相關激酶(TNNI3K)是一種心肌特異性激酶[1]。它包含三個可識別的結構域:N-末端的十個錨蛋白重復序列,一個中心蛋白激酶結構域和C末端富絲氨酸結構域[2]。TNNI3K是促進分裂原活化蛋白激酶(MAP3K)的超家族成員[2],然而目前僅有一個TNNI3K上游靶點被闡明,其余靶點尚不明確[3]。對TNNI3K在心臟生物學中的作用知之甚少。據Vagnozzi等[4]研究發現TNNI3K會加重缺血/再灌注損傷,氧化應激和心肌細胞死亡。TNNI3K介導的損傷通過產生更多線粒體超氧化物及破壞線粒體功能發生,并且在很大程度上依賴于p38絲裂原活化蛋白激酶(MAPK)激活。TNNI3K被抑制能夠減少線粒體超氧化物產生,保留心臟功能并限制慢性不良重塑[4]。這項研究結果表明TNNI3K調節缺血性心臟再灌注損傷,是急性冠狀動脈綜合癥(ACS)的治療新靶點。并且TNNI3K僅在心臟中表達,所以靶向TNNI3K的抑制劑可能相對比較安全。
本文通過Brain等[5]研究得到的TNNI3K抑制劑構建CoMFA及TopomerCoMFA模型對TNNI3K抑制劑進行三維定量構效關系研究。并通過已構建的 TopomerCoMFA 模型結合 Topomer search[6]技術對ZINC數據庫進行基于R基團的虛擬篩選,最終整合得到25個分子,這些分子預測活性均高于建模分子中活性最高者。將這些分子對接到TN?NI3K蛋白上,篩選得到11個分子可以作為潛在的TNNI3K抑制劑,為TNNI3K的優化設計提供了理論依據和進一步研究的基礎。
本研究所涉及的所有計算工作都在WIN7系統SYBYL-X 2.1軟件上完成。除特別指出外,計算參數均為缺省值。本研究所用53個TNNI3K抑制劑均來自Brain等[5]文獻,其中化合物的生物活性需先將文獻中所給IC50(nmol/L)值轉化為pIC50(mol/L)值。化合物結構與生物活性值如表1所示。

表1 化合物結構和生物活性數據Tab.1 Structure and biological activity data of compounds

續表1

續表1

續表1
按隨機化原則,從53個TNNI3K抑制劑中選出43個分子作為訓練集用于構建CoMFA及TopomerCoMFA模型,其余10個分子作為測試集用于檢測模型的預測能力。通過Sketch Molecule模塊繪制出全部53個分子結構,并通過Minimize模塊利用Tripos力場進行能量最小化計算實現結構優化。其中指定電荷類型為Gasteiger-Huckel,將能量計算終止標準值縮小為0.005,最大重復次數增大到1 000。保存優化后分子用于后續計算。
傳統的CoMFA是3D-QSAR中應用最廣泛的方法之一。本研究通過Align database模塊,選用生物活性最高的第52號化合物為模板,通過43個分子的部分公共結構進行疊合(圖1)。疊合完畢后程序自動計算所有分子的靜電場及立體場參數,并將其作為自變量,以對應的pIC50值作為因變量,通過偏最小二乘法分析(Partial least squares)擬合分子場與生物活性間的關系生成模型[7]。進而通過抽一法交叉驗證[8]檢測模型的內部預測能力,并得到最佳主成分數N以及交叉驗證相關系數q2,通過最佳主成分數運用非交叉驗證法計算得到非交叉驗證相關系數r2,顯著性檢驗值F,以及標準誤差SEE。并通過計算測試集外部預測相關系數(r2pred)預測模型預測能力[9-10]。

圖1 分子疊合圖Fig.1 Superposition of molecules
傳統的CoMFA存在一些缺陷,其中最大的是其對輸入的要求,一方面需要提供每個配體的3D結構,另一方面需要通過考慮所有其他配體結構來選取配體分子的某一構象進行適當的“疊合”[11]。而第二代CoMFA技術,即TopomerCoMFA,可自動創建用于預測化合物生物活性或性質的模型[12]。TopomerCoMFA模型可以在幾分鐘內創建,使用起來更方便,并且結果通常與傳統的CoMFA結果相當且重復性高。本研究以生物活性最高的52號分子為模板。運用TopomerCoMFA模塊將訓練集中分子切割兩次得到R1和R2兩個R基團,并自動得到其三維構象,切割方式如圖2所示。與CoMFA相同,切割完畢后通過偏最小二乘法分析得到TopomerCoMFA模型。

圖2 52號分子的切割方式Fig.2 Cutting ways of molecule 52
Topomer search只是簡單的從一個“標準”的R基團拓撲結構相似性搜索來定義命中結構,并運用TopomerCoMFA技術來計算每一個結構足夠相似的R基團的PIC50值(當然也需要計算R基團的原子電荷和靜電場)[13]。本研究通過TopomerCoM?FA構建的模型在ZINC(2012)中的Leads Now數據庫對R1及R2基團進行虛擬篩選,該數據庫中共包括3 687 621個分子,Topomer距離設置為150。
通過Docking suite模塊對新設計化合物與TNNI3K蛋白進行對接研究。受體晶體結構來自PDB數據庫(PDB:4YHT),將其導入SYBYL中并通過BIOPOLYMER模塊對其進行修補側鏈、主鏈末端處理、加氫、設定殘基質子化狀態、給配體指定AMBER7-FF99的原子類型等蛋白準備工作。準備篩選得到的新化合物。設置對接模式為Surflex-Dock GeomX(SFXC),輸出構象個數為 20,并選擇進行CScore計算。一般認為輸出構象的總打分函數Total Score大于6時構象被判定為較好的輸出構象。當總打分函數和其他四種經驗打分函數均滿足要求時,CScore打分為5(總分為5)。一般認為CScore為5時構象具有良好的選擇性。
如表2,訓練集分子所構建CoMFA模型的交叉驗證相關系數為0.622,最佳組成分數n為6,非交叉驗證相關系數r2為0.952,標準偏差SEE為0.211,F值為62.931。這些數據說明模型有較好的穩定性和內部預測能力。外部預測相關系數為0.823,說明模型同樣具有良好的外部預測能力。如圖3,對實驗活性和預測活性做線性相關分析發現,測試集與訓練集分子實測活性值與預測活性值具有較好的相關性(見圖3),這進一步說明模型具有較好的預測能力。另外,值得關注的是,立體場貢獻值為93%,而靜場場貢獻值僅為7%,說明立體場在該模型中發揮主導作用。

表2 CoMFA模型的統計參數Tab.2 Statistical parameters of CoMFA model

圖3 采用(a)CoMFA和(b)Topomer CoMFA模型得到訓練集和測試集分子實驗值與預測值的線性回歸圖Fig.3 Linear regression between actual and predicted values of training and test sets by(a)CoMFA model,(b)Topomer CoMFA model
PLS分析的結果可以轉換為X個變量的回歸系數,它可以用于生物活性值的計算和預測。由于有大量的回歸系數,所以直接解釋相應的方程是不可能實現的。所以將結果以色塊圖的方式顯示[8]。分子周圍靜電場顯示為紅藍色塊,紅色代表增加此區域電負性可以使生物活性增加,而藍色代表減少該區域電負性可以使生物活性增加。立體場顯示為黃綠色塊,綠色代表增加該區域基團體積可以增加活性,而黃色代表減小該區域基團體積可以增加活性。
以生物活性最高的52號化合物為模板分析CoMFA模型的三維等勢圖(見圖4)。圖4(a)為靜電場等勢圖,如圖所示苯環6號位有一藍色區域,此處連有電負性弱的基團時分子活性更高,如氟、氯兩個原子的電負性大小為F>O>Cl,所以苯環6號位連有氟原子的9號分子生物活性(pIC50=6.6 mol/L)小于連有羥基的20號分子生物活性(pIC50=7.4 mol/L),小于連有氯原子的10號分子生物活性(pIC50=7.7 mol/L)。藍色色塊附近有一小的紅色色塊,說明此處如連有多個基團時,為了避免空間位阻的影響,兩個基團不應同時過大。另外,20號分子生物活性較好可能是由于與相鄰苯胺上的N形成分子內氫鍵使得與TNNI3K結合所需的共面構象更穩定造成的。
圖4(b)為立體場等勢圖,從圖中可以看到在苯環6號位附近有一大的綠色色塊,說明此處取代基體積越大活性越強,如34、35、36三個分子,隨著苯環6位四氫吡咯上連有甲基數目依次增大,化合物體積依次增大,生物活性依次增大。苯環五位氨基左側有多個黃綠色塊,說明此處立體場對活性的影響較為復雜。1,3,5-噠嗪環左側有多個黃色色塊,說明此處連有體積較小基團時活性較好,如喹唑啉上連有氨基的42號分子(pIC50=7.5 mol/L)比連有氨甲基的41號分子(pIC50=7.3 mol/L)和連有氧甲基的43號分子(pIC50=7.1 mol/L)生物活性都要高。另外友誼綠色色塊橫跨52號分子左側末端苯環,這也解釋了53號分子(pIC50=7.3 mol/L)活性高于51號分子(pIC50=7.1 mol/L)的原因。

圖4 CoMFA等勢圖:(a)靜電場,(b)立體場Fig.4 Contour map of CoMFA:(a)electrostatic,(b)steric fields
TopomerCoMFA模型的最佳組成分數為13,交叉驗證相關系數q2為0.768,q2的標準偏差為0.38,非交叉驗證相關系數r2為0.981,r2的標準偏差為0.11,截距為7.8,計算TopomerCoMFA模型外部預測相關系數R2pred為0.754。作為以上參數的補充,圖3反映了訓練集及測試集分子生物活性的預測值與理論值間的差異及散點離散程度,圖中各點基本分布在直線兩側。模型參數及線性回歸圖綜合分析表明模型具有良好的穩定性及內部和外部預測能力。
基于得到的TopomerCoMFA模型,對ZINC數據庫中Leads Now數據庫(共包含36 876 219個分子)進行基于R基的虛擬篩選,篩選分為兩個階段進行。第一階段,數據庫中分子被切割成為R基團并通過Topomer相似性與TopomerCoMFA模型所基于的訓練集R基團進行比較。第二階段,對滿足Topmer相似性要求的R基團通過它們對預測值的貢獻來打分。再將篩選得到的R1及R2基團通過生物活性最高的52及33號分子進行過濾,得到貢獻值最高的5個R1及5個R2。根據排列組合原理,依次替換模板分子52號分子中的R1及R2基團,最終得到25個新分子。用與訓練集及測試集中分子相同的方式對這些分子進行結構優化構建新表單,放入TopomerCoMA模型中預測活性,發現設計得到的新分子預測活性均大于活性最高的模板分子(PIC50值均大于9.5)。
將這25個新設計的分子對接到TNNI3K蛋白上,由于分子對接和TopomerCoMFA兩種方法評價原理差異,與TopomerCoMFA不同,分子對接會考慮疏水、極性、排斥、熵、溶劑化的綜合作用,所以對接打分與TopomerCoMFA模型預測活性之間并不存在線性關系[14]。為提高篩選的成功率,本文選擇CScore打分為5的分子作為對接評價優秀的分子,并選擇Total Score最高的構象為每個分子的最佳構象。25個新化合物中共有11個化合物有CScore打分為5的構象(見表3),從這11個化合物中選擇對接打分最高的2號化合物進行具體的對接研究,2號化合物與TNNI3K蛋白口袋對接如圖5所示。從圖中可以看到,Lys482、Val470、Leu513、Ala480、Phe582、Trp530形成疏水口袋與配體形成疏水作用,Trp53與配體形成π-π堆積作用。另外,值得注意的是對接打分最高的化合物2與4YHT晶體中原配體與TNNI3K形成的氫鍵相同,與Cys531、Asp593、Thr528形成氫鍵作用。研究這些化合物與TNNI3K蛋白的作用發現,11個化合物中有9個化合物與Asp593形成分子間氫鍵,并且兩個不能和此蛋白形成此氫鍵的化合物對接打分較低,小于7(11個分子中有8個分子對接打分大于8),說明這3個氨基酸特別是Asp593在蛋白與配體結合過程中作用顯著。

表3 新設計分子的結構,預測活性值以及對接打分Tab.3 Structure predicted pIC50and surflex-dock scores of new designed molecules

圖5 2號分子與TNNI3K活性位點對接圖Fig.5 Docking results of compound 2 with TNNI3K
本研究通過53個TNNI3K抑制劑構建了其CoMFA及TopomerCoMFA模型,模型參數及線性回歸綜合分析可知模型具有良好的穩定性和預測能力。將TopomerCoMFA模型作為Topomer Search提問式搜索zinc數據庫,并將搜索得到的R1、R2基團組合共得到25個新化合物,結合分子對接最終篩選得到11個潛在的TNNI3K抑制劑,并且觀察蛋白受體與配體相互作用發現,Cys531、Asp593、Thr528可能是配體與TNNI3K蛋白結合過程中產生關鍵氫鍵的氨基酸。對3D-QSAR模型的研究可以方便理解肌鈣蛋白I相關激酶抑制劑結構與活性的關系,為設計新的具有更高活性的抑制劑分子提供信息。而TopomerCoMFA與分子對接技術的結合,可以使我們從大的小分子數據庫中篩選得到潛在的抑制劑分子,提高抑制劑分子設計的效率。