惠慶丹,馬 羚,焦 龍
(西安石油大學化學化工學院,陜西 西安 710065)
生產具有可控,的且能釋放大量能量的高能化合物是[1]高能材料化學研究的重點。由于唑類化合物的密度與爆轟性能成正比,所以在分子設計的過程中,設計出密度大的物質,其對應的爆轟性能就越大。由于合成新的唑類化合物既耗時又成本高,因此,最好省略任何一個不良的候選化合物。這可以通過在早期階段的預測方法來獲得[2]。定量構效關系(QSAR)是一種已知且可靠的方法,可以有效地預測唑類化合物的理化性質。
全息定量構效關系(HQSAR)是一種利用分子全息作為描述符的巧妙的QSAR方法,分子描述符可以快速地處理大量數據。它不僅避免了二維QSAR方法中獲取結構描述符的大量計算,也避免了3D-QSAR方法中需要優化結構[3]。此外,在預測能力方面,HQSAR高于2D-QSAR,與3D-QSAR相當。
這些特點說明HQSAR技術可用于篩選大型化學品數據庫。本文研究的目的就是建立可靠的HQSAR模型來預測唑類化合物的密度。
所研究的121種唑類化合物的密度來自參考文獻[4]。將121個多亞硝基芳烴化合物按5∶1的比例隨機分為兩個樣本集,即訓練集(Group 1)和測試集(Group 2)。用于建立HQSAR模型的訓練集包括96個樣本,用于評估所開發的QSAR模型預測性能的測試集包括25個樣本。
所有的計算都是在i5-7200U/4G-RAM個人計算機上進行的,與HQSAR建模相關的計算在SYBYL-X2.0軟件(Certara,美國)中進行,其他的計算都是用我們的研究小組開發的程序進行的。
HQSAR是Hurst等人提出的一種特殊的QSAR方法[5],是分子全息和偏最小二乘法(PLS)一種創造性的結合。分子全息是分子指紋的一種擴展形式,是將化學結構表示轉化為二進制的基于分子片段的描述符。所有的可能的分子片段包括環狀,分支,重疊和線性等這些特征。
分子全息圖實際上是一個包含分子片段計數的陣列,分子片段用Sybyl譜線法(sybyl line notation SLN)描述[6]。這是一種通過使用短的ASCll字符串來明確描述分子片段、結構、反應查詢、結構庫、配方、分子的規范。
建立最佳的HQSAR模型需要優化兩個參數“fragmentdistinction”和“fragmentsize”。在Sybyl中,默認“fragmentsize”為4-7,fragmentdistinction包括原子(A)、化學鍵(B)、連接性(C)、手型(Ch)、氫原子(H)、質子的供體和受體(DA)[7]。不同類型的fragmentdistinction可以自由組合,所有的可能的片段都是由S原子生成的(S是M和N之間的整數)。M的值應該小于N, M一般大于2,N的值一般不超過12,并且不超過分子中的原子數。在設置好“fragmentdistinction”和“fragmentsize”,循環冗余校驗(cyclic redundancy check, CRC)是通過將每個片段映射到0~231范圍內的整數。每個整數對應一個固定長度的整數組中的一個序列,它表示分子全息圖的長度。在sybyl軟件的HQSAR模型中,L通常是從53到401的12個質數之一,L通常設置分別為97、151、199、257、307和353。分子位串指紋包含0,它通常沒有有效的信息。在后續的PLS建模步驟中,計算時間隨指紋長度的增加而增加,更重要的是,這些“0”可能會阻礙PLS模型的后續計算。這種增加可以通過“哈希”的過程來阻止時間的延長,該過程將多個碎片分布到指紋的相同位置[8]。



(1)
(2)
(3)
(4)
(5)


(6a)
(6b)
(6c)
(6d)



表1 不同“fragment distinction”建立的HQSAR模型的統計參數

表2 不同“fragment size”建立的HQSAR模型的統計參數




表3 外部測試集驗證法和留一交叉驗證法的統計參數

圖1 HQSAR模型密度實驗值與預測值對比圖
從外部測試集驗證和LOO-CV的結果可以推斷,HQSAR模型有良好的預測能力。
采用新開發的基于分子全息的QSAR方法來預測唑類化合物的密度值,結果表明,該HQSAR方法對唑類化合物的密度值具有較高的預測能力,唑類化合物的預測密度值與實驗值非常接近。此外,基于分子全息的HQSAR模型可以快速、輕松地發展,具有很高的統計意義和預測能力,因此HQSAR技術是一種篩選和預測唑類化合物密度很有前途的工具。