雷 斌, 臧蕓蕾, 薛志偉, 葛懿擎, 李 偉, 翟 倩, 焦 龍*
(1. 西安石油大學化學化工學院, 陜西 西安 710065; 2. 核工業二〇三研究所, 陜西 咸陽 712000; 3. 慶安集團有限公司, 陜西 西安 710077)
全息定量構效關系(hologram quantitative structure-activity relationship, HQSAR)是一種以分子的亞結構片段(即分子全息)為結構描述符的定量構效關系(quantitative structure-activity relationship, QSAR)方法,具有建模簡便快速、預測準確度高的特點,已廣泛應用于化學、生物學、醫學等眾多領域[1-6]。HQSAR方法通常是建立分子全息描述符與樣品性質之間的個體偏最小二乘(partial least squares, PLS)回歸模型。但個體回歸模型容易欠擬合和過擬合[7],為了獲得更準確可靠的回歸模型,可以訓練多個個體模型,通過一定的結合策略,形成一個綜合了多個個體模型的集成模型。這種綜合多個個體模型的方法稱為集成建模(ensemble modeling)。集成建模方法可以克服使用單一個體模型的缺陷,提高模型的預測能力[8-10],已經成功應用于QSAR建模、光譜分析、機器學習和人工智能等領域[11-14]。有必要研究能否應用集成建模方法提高HQSAR模型的預測能力。
色譜保留指數(retention index, RI)是色譜分析中的重要參數[15,16]。醛酮化合物種類眾多,實驗測定其RI值的時間和經濟成本高,不同化合物在不同極性固定相上具有不同的保留行為,有必要建立不同極性固定相上醛酮化合物的RI值QSAR模型[17-19]。DB-210和HP-Innowax固定相具有強極性和高的使用溫度上限,可用于醇類、硫醚類、脂類和醛酮類化合物色譜保留指數的測定。因此,本研究應用集成建模結合HQSAR方法研究了醛酮化合物在DB-210和HP-Innowax固定相上的色譜保留指數QSAR模型。
用于研究的34種醛酮化合物(如表1所示)在2種不同極性固定相DB-210和HP-Innowax上的RI實驗值引自文獻[20]。將34種化合物隨機分為兩組:第Ⅰ組(Group Ⅰ)包括26種化合物;第Ⅱ組(Group Ⅱ)包括8種化合物。


(1a)
(1b)
(2)
(3a)
(3b)


表 1 34種醛酮化合物在兩種色譜柱上的保留指數實驗值[20]與預測值
1.2.1分子模型構建及構象優化

1.2.2分子全息產生及HQSAR模型構建
HQSAR方法將分子結構劃分為包含所有可能結構(線性、分支、環狀、搭接或重疊)的分子片段(molecular fragments),再將分子片段進行編碼使之轉化為分子全息(molecular hologram)。分子結構片段的特征主要由片段特性(fragment distinction, FD)和片段尺寸(fragment size, FS)兩個參數規定。FD參數可以選擇的值包括原子(atoms, A)、化學鍵(bonds, B)、連接(connections, C)、氫原子(hydrogen atoms, H)、手性(chirality, Ch)和供體/受體原子(donor/acceptor atoms, DA)。A可以區分不同類型的原子;B可以識別原子形成化學鍵之間的差異;C可以描述片段內原子的雜化狀態;Ch可以描述片段中原子和化學鍵的立體化學信息;H可以描述分子片段的氫鍵供體或受體情況[24]。FS參數值包括最小原子數(M)和最大原子數(N)。通常M的取值最小從2開始;N的取值須大于M,最大值一般為12且不超過分子的總原子數。通過環豐度檢驗算法(cyclic redundancy check, CRC)計算每個結構特征碎片出現的頻率,將各個分子碎片映射為0~231的偽隨機整數,使得每個分子可被表示為一定長度的整數串,進而采用Hashing算法將它們轉換為具有相同長度的整數串,即為分子全息[25]。在SYBYL-X 2.0的HQSAR模塊中,分子全息長度(hologram lengths, HL)從系統默認的6個值:97、151、199、257、307和353中進行選擇。用PLS方法建立化合物分子全息與性質之間的HQSAR回歸模型。通過調整FD、FS及全息長度等參數來優化模型[26]。
1.2.3集成模型構建
集成模型的構建通常由兩個步驟組成:(1)建立一系列多樣化的個體模型(子模型); (2)采用適當的集成規則,對各子模型的預測結果進行集成,得到集成(共識)結果。主要思路是通過多個模型的集成,個體模型的誤差可被其他多個個體模型所補償從而使得集成模型的整體性能優于個體模型。要獲得好的集成模型,各子模型應該具有一定的準確度,且子模型應該足夠多樣化。因此,本文采用由不同參數建立的個體HQSAR模型作為子模型(h1,h2,h3, …,hT)建立集成HQSAR模型,以各子模型預測值的算術平均值作為集成模型的預測結果,如式(4)所示:
(4)
式(4)中:hi(x)表示各子模型的預測值,T表示子模型的個數。

用外部測試集驗證和留一交叉驗證評估HQSAR模型的預測能力。外部測試集驗證以第Ⅰ組作為訓練集,采用上述最佳建模條件建立不同固定相上的個體HQSAR模型,預測第Ⅱ組8個化合物的RI值,結果如表1及表4所示。用第Ⅰ組完成留一交叉驗證,即共進行26次預測,每次選定一個樣本作為測試集,以其余25個樣本作為訓練集,仍然采用上述最佳建模條件建立模型,依次預測26個醛酮化合物的RI值,結果如表1及表4所示。外部測試集驗證和留一交叉驗證結果表明醛酮化合物的分子全息描述符與RI值之間存在一定的定量關系,建立的HQSAR模型準確可靠。與在固定相HP-Innowax上建立的模型相比,在固定相DB-210上所建立的最佳個體HQSAR模型準確度更高。

表 4 個體HQSAR模型與集成HQSAR模型的統計參數

對34種醛酮化合物的HQSAR集成建模研究證明,醛酮化合物的分子結構與RI值之間存在定量關系,可以建立醛酮化合物RI值的個體HQSAR模型。應用集成建模方法對個體HQSAR模型進行集成,則可以提高對RI值的預測準確度。這說明集成建模是一種提高HQSAR模型穩健性和準確度的有效方法,HQSAR方法與集成建模方法相結合可以用于研究和預測醛酮化合物的RI值。