戴益民 ,黃可龍,李潯 ,曹忠 ,曾巨瀾
(1. 中南大學 化學化工學院,湖南 長沙,410083;
2. 長沙理工大學 電力與交通材料保護湖南省重點實驗室,湖南 長沙,410004;3. 長沙理工大學 化學與生物工程學院,湖南 長沙,410004)
煤、石油以及有機質不完全燃燒產生大量的多環芳烴化合物,由于它們大多在環境中的化學穩定性高,水溶性低且長期殘留,因而具有潛在的致癌、致畸和致突變作用,對環境的危害極大。如何在多環芳烴異構體尚難以獲得標識化合物且缺乏其普遍的色譜數據的情況下簡捷而又快速地對其生物毒性和環境行為進行預測,篩選出具有潛在危害的化學品成為重要的研究課題[1-2]。氣相色譜保留指數是進行色譜定性分析的基礎,當固定相一定時,化合物在色譜柱上的保留行為與分子結構及其化學和電性特征密切相關;因此,根據分子結構特征建立定量結構-色譜保留關系(QSRR)對預測化合物的保留指數、選擇色譜分離條件以及探索色譜保留機制是非常有效的途徑。隨著QSRR 技術日益被重視,已有很多研究利用拓撲、電性和幾何特征等對化合物分子進行結構描述,并建立分子結構-色譜保留之間的定量相關模型來預測化合物的色譜保留指數[3-8],但QSRR主要集中用于烷烴、烯烴、醇和胺類化合物的研究,而用于多環芳烴化合物的研究較少[9-10]。鑒于此,本文作者選擇 100個多環芳烴化合物為研究對象,在分子距離矩陣和鄰接矩陣的基礎上提取出表征多環芳烴分子支化度的描述子CN和表征多環芳烴分子結構的描述子 CT,應用線性回歸方法進行建模。
化合物的氣相色譜保留指數是分子微觀結構的宏觀反映。通常多環芳烴的色譜保留值隨其碳原子數和其相對分子質量的增加而呈近似遞增規律,但取代多環芳烴的保留值,由于分子結構特點及其內部相互作用的影響,使其隨碳原子數和相對分子質量增加明顯表現出線性偏離;因此,探討能夠準確描述多環芳烴分子結構的參數是進行其定量結構色譜保留關系研究的關鍵。目前,常用的參數有幾何參數、電子參數和拓撲參數,而通過圖論方法得到表征化合物結構的分子描述符,是定量表征化合物的重要手段。對于任一n個頂點的分子圖可以構造1個n×n的距離矩陣和鄰接矩陣。距離矩陣中元素dij等于圖中連接頂點i和j的最小邊數,當i和j間不連通時,dij取無窮大。鄰接矩陣中任何邊 r和邊 s鄰接,則在矩陣的(r,s)和(s,r)位置記為1,其他位置記為0。對于任一分子圖,其距離矩陣D和鄰接矩陣A分別表示為:


通常分子拓撲指數的計算可通過對描述分子圖的鄰接矩陣和距離矩陣的處理來實現。距離矩陣主要反映分子結構大小及其支化度信息,而鄰接矩陣反映分子的連接方式。為充分考慮分子中頂點原子的性質和成鍵情況及分子中原子與原子的連接關系,在距離矩陣D和鄰接矩陣A的基礎上作如下處理得到矩陣C:

利用MATLAB程序求出矩陣C的所有特征值λi,為此提出2個新的分子結構描述子CN和CT:

其中:描述子CN由矩陣C的特征值加和的平方根所構成,表征由多環芳烴的距離矩陣和鄰接矩陣相乘得到的對稱矩陣向量范數[11]。另外,根據平面直角坐標系中2點之間距離公式可知:描述子 CN等于多環芳烴分子中各頂點到分子中心的距離,能有效反映分子支化度及各頂點之間相互作用的程度。CT由矩陣C的特征值的和所構成,表征分子結構的大小。當界面分子處于不對稱力場時,分子主體間相互作用與分子界面上相互作用力的差異導致分子結構發生變化。與六元環相比,由于五元環中缺失的頂點與相鄰兩頂點之間不存在相互作用,扭轉角發生改變導致分子構型發生變化,相應分子體積和表面積減少。
本文研究的100個多環芳烴化合物的氣相色譜保留指數見文獻[12]。表 1所示為所有化合物的名稱及相應的實驗氣相色譜保留值。
根據式(1)和(2),在計算機上采用MATLAB軟件編程求出分子結構描述子 CN和CT,見表 1。利用線性回歸法將100個多環芳烴的氣相色譜保留指數與其結構參數CN和CT建立相應的兩描述子回歸模型,并采用留一法對該模型進行交互校驗檢測,所得結果
如下:

表1 部分多環芳烴的分子結構描述子CN和CT以及氣相色譜保留指數的實驗值和計算值Table 1 Molecular structural descriptors CN and CT of part PAHs and experimental/calculated gas chromatography retention index data

其中:IR的表達式中,括號內前面數字為回歸系數期望值,后面數字為標準偏差;n為樣本數;m為變量數;R為復相關系數;RCV為交互檢驗的復相關系數;SRM為均方根誤差;F為Fisher檢驗值。由以上結果可知:其削減誤差為 99.4%,表明采用描述子 CN和CT來描述多環芳烴氣相色譜保留指數的變化規律僅0.6%的隨機因素未被揭示。按式(3)得出的部分計算值見表 1,其平均相對誤差為 1.37%,最大相對誤差僅為 4.76%,預測值與實驗值較吻合,且其復相關系數R和RCV非常接近,說明描述子CN和CT包含了影響多環芳烴氣相色譜保留指數的主要結構因素;同時,模型有很強自身擬合能力以及對外部樣本的預測能力。
建立 QSRR 模型的目的是預測未知化合物的色譜保留行為,因此,模型不僅要求相關性能好,建模誤差小,同時還要求預測能力強,即對不包含在訓練集內的樣本即外部測試集里的樣本具有較強的預測能力。為此,將100個多環芳烴隨機抽出近2/3樣本作為訓練集,剩余的化合物(表1中帶“*”號)作為測試集用來檢驗模型的預測能力。同樣采用線性回歸法對訓練集進行回歸分析:

結果表明:由訓練集所建立的模型擬合質量和預測能力與全部數據的模型結果非常接近,說明模型具有很好的穩健性。用基于訓練集數據所建立的 QSRR模型來預測測試集中的多環芳烴氣相色譜保留指數,預測結果如圖1所示,所有樣本都均勻分布于過原點45°直線周圍,沒有特別明顯的異常點。
為了更加直觀地觀測誤差的分布情況,由訓練集與測試集的模型估計誤差分布圖(圖2,化合物序號見表1)可知:絕大多數樣本的誤差分布在±2倍均方根誤差以內,僅幾個為明顯離群值。另外,將100個樣本的Cook距離值與中心化杠桿值作圖也得到同樣的結論,僅36和72號等幾個樣本稍顯異常。
為進一步評價本文所選擇的參數對多環芳烴氣相色譜保留指數進行預測的有效性,在相同樣本數的情況下,Kang等[9]根據分子極化效應理論,采用碳鏈的準長度與準共軛體系表面積作為描述符進行多元線性回歸(MLR)分析;周麗平等[10]從分子圖論拓撲學角度出發,提出用六元素組成的分子距邊矢量表達多環芳烴化學結構,對其氣相色譜保留值進行定量相關性研究,相關結果如表2所示。從表2可知:本文所用方法僅根據分子的距離矩陣和鄰接矩陣提取2個分子結構描述符得到模型統計結果均優于文獻[9-10]中的結果,而且該方法具有參數計算簡單、無需查找任何數據的優點。


圖2 100個多環芳烴保留指數計算結果偏差Fig.2 Deviations of retention index for 100 PAHs
當色譜分離條件一定時,被測組分的氣相色譜保留指數主要與分子本身結構及其化學和電性特征密切相關。本文定義的 CN表征由多環芳烴的距離矩陣和鄰接矩陣相乘得到的對稱矩陣向量范數,反映分子支化度的情況,結果表明:隨著支化度的加大,化合物在固定相上的色譜保留作用降低,這可能是同分異構體的分子支化度加大后其分子形狀類似球體,與色譜柱固定相接觸面積變小,分子間色散力也隨之變小的緣故。而CT反映分子結構大小,隨著碳鏈長度增加,分子體積增大,色散力也加大,因而,化合物在固定相上的保留作用增強,相應的多環芳烴氣相色譜保留指數值增大。應當指出的是:當多環芳烴分子中含有五元環時,描述子CT須在正常求得結果的基礎上減去2才能得到良好的回歸結果。這可能是與六元環相比,五元環的扭轉角變化較大導致構型發生變化[13],分子色散力與極化率變小,使分子與色譜柱固定相接觸面積變小的緣故。

表2 本文QSRR模型與文獻[9-10]中的回歸模型統計結果比較Table 2 Statistical results comparison of QSRR models for this paper and Refs. [9-10]
雖然所建模型都符合建模要求,但有必要討論分子結構描述子各自對整個模型所做的貢獻,進而探討具有不同物理意義的參數對多環芳烴氣相色譜保留指數的影響。為此,采用相對貢獻(Ψr)和百分數貢獻(Ψf)[14]來定量描述參數對模型的貢獻。其中,Ψr和 Ψf分別定義為:

式中:ai和分別為模型中第i個描述子前的系數及該參數的平均值;R2為模型的判定系數。通過分析,CN的相對貢獻和百分數貢獻分別為-8.007和2.03%;CT的相對貢獻和百分數貢獻分別為 384.741和97.37%,可知CN和CT對所構建的QSRR模型貢獻不同,增加分子體積、減小分子支化度有利于多環芳烴氣相色譜保留指數的增加。CT的貢獻更大,說明分子結構大小是決定多環芳烴氣相色譜保留指數變化規律的主要因素,而支化度則起補充作用。
(1) 用描述子 CN和 CT對多環芳烴的氣相色譜保留指數進行模擬,模型對內部樣本具有較強的估計能力,同時,對外部樣本具有較強的預測能力。
(2) 描述參數計算簡單,僅根據分子的距離矩陣和鄰接矩陣就可以得到滿意的結果。所建模型不僅在一定程度上闡明了多環芳烴氣相色譜保留指數與其分子結構信息之間的關系,同時也為研究多環芳烴化合物的色譜保留行為提供一種新的方法。
[1] Ferreira M M C. Polycyclic aromatic hydrocarbons: A QSPR study[J]. Chemosphere, 2001, 44(2):125-146.
[2] Santiuste J M, Harangi J, Takács J M. Mosaic increments for predicting the gas chromatographic retention data of the chlorobenzenes[J]. Journal of Chromatography A, 2003,1002(1/2): 155-168.
[3] Liu F P, Liang Y Z, Cao C Z, et al. QSPR study of GC retention indices for saturated esters on seven stationary phases based on novel topological indices[J]. Talanta, 2007, 72(4): 1307-1315.
[4] Farkas O, Zenkevich I G, Stout F, et al. Prediction of retention indices for identification of fatty acid methyl esters[J]. Journal of Chromatography A, 2008, 1198/1199: 188-195.
[5] Chen H F. Quantitative predictions of gas chromatography retention indexes with support vector machines, radial basis neural networks and multiple linear regression[J]. Analytica Chimica Acta, 2008, 609(1): 24-36.
[6] 王宇, 劉樹深, 趙勁松, 等. 電拓撲狀態預測有機磷酸酯類化合物的氣相色譜保留指數[J].化學學報, 2006, 64(10):1043-1050.WANG Yu, LIU Shu-shen, ZHAO Jing-song, et al. Prediction of gas chromatographic retention indices of organophosphates by electrotopological state index[J]. Acta Chimica Sinica, 2006,64(10): 1043-1050.
[7] 劉鳳萍, 梁逸曾, 曹晨忠. 拓撲-量子指數醛酮氣相色譜保留指數及沸點的定量構效關系[J]. 分析化學, 2007, 35(2):227-232.LIU Feng-ping, LIANG Yi-zeng, CAO Chen-zhong.Quantitative structure property relationship study of gas chromatographic retention indices and boiling points for oxo-compounds using topological-quantum descriptors[J].Chinese Journal of Analytical Chemistry, 2007, 35(2): 227-232.
[8] LI Xiao-ru, LAN Zheng-gang, LIANG Yi-zeng. Analysis of volatile chemical components of Radix Paeoniae Rubra by gas chromatography-mass spectrometry and chemometric resolution[J]. Journal of Central South University of Technology,2007, 14(1): 57-61.
[9] Kang J J, Cao C Z, Li Z L. Quantitative structure–retention relationship studies for predicting the gas chromatography retention indices of polycyclic aromatic hydrocarbons quasi-length of carbon chain and pseudo-conjugated system surface[J]. Journal of Chromatography A, 1998, 799: 361-367.
[10] 周麗平, 夏之寧, 李伯玉, 等. 多環芳烴分子結構的距邊矢量表征及其氣相色譜保留指數預測[J]. 色譜, 2001, 19(1): 25-31.ZHOU Li-ping, XIA Zhi-ning, LI Bo-yu, et al. Estimation of gas chromatographic retention index for polycyclic aromatic hydrocarbons using VMDE[J]. Chinese Journal of Chromatography.2001, 19(1): 25-31.
[11] 李志斌. 線性代數[M]. 北京: 機械工業出版社, 2006: 97-98.LI Zhi-bin. Linear algebra[M]. Beijing: China Machine Press,2006: 97-98.
[12] Lee M L, Novotny M V, Bartle K D. Analytical chemistry of polycyclic aromatic compounds[M]. New York: AcVmdemic Press, 1981: 1-5
[13] 邢其毅, 裴偉偉, 徐瑞秋, 等. 基礎有機化學[M]. 3版. 北京:高等教育出版社, 2005: 88.XING Qi-yi, PEI Wei-wei, XU Rui-qiu, et al. Fundamentals of organic chemistry[M]. 3rd ed. Beijing: Higher Education Press,2005: 88.
[14] Needham D E, Wei I C, Seybold P G. Molecular mounting of the physical properties of the alcanes[J]. Journal of American Chemical Society, 1988, 110: 4186-4194.