盧 昂,袁仕夢,張成桂,艾志瓊,巫秀美,*
(1.大理大學公共衛生學院,云南大理 671000;2.云南省昆蟲生物醫藥研發重點實驗室,云南大理 671000)
氧化應激(oxidative stress,OS)是指體內氧化與抗氧化作用失衡而導致活性氧(reactive oxygen species,ROS)產生的一種狀態〔1〕。ROS 在體內或細胞內的積累引起細胞毒性反應,從而誘發多種病理性損傷,如心血管疾病、糖尿病、腫瘤等〔2-3〕,而抗氧化劑可通過降低ROS 水平逆轉這種失衡,以緩解、治療疾病的相關癥狀〔4〕。因此,尋找高效抗氧化劑成為藥物研發的熱點。在藥物研發領域,1,1-二苯基-2-三硝基苯肼(DPPH)自由基清除檢測法是具有代表性的、常規檢測化合物抗氧化活性的方法。
近年來,大量研究表明天然產物是抗氧化劑的重要來源〔3〕,其中具有黃酮、異黃酮母核結構的黃酮類化合物具有較好的抗氧化活性和自由基清除活性〔5-6〕。然而,從天然藥用動植物中提取黃酮類化合物存在溶劑消耗量大、提取過程復雜、產品收率低等缺點〔7〕。因此,需要采用一些更經濟、有效的替代方法制備抗氧化劑,以克服上述局限。
定量結構-活性關系(QSAR)是使用統計模型來描述分子結構和分子的某種生物活性之間關系的方法〔8〕,是目前國際上應用較廣的計算機輔助藥物設計(CADD)研究技術。QSAR 研究旨在通過分析檢索文獻中包含的黃酮類化合物的理化性質和抗氧化活性的構效關系,確定預測模型。據報道,羥基的數量、空間位置及能夠形成的氫鍵數量等理化性質是影響黃酮類化合物抗氧化活性的關鍵特征〔9〕。因此,本研究根據數據的層次結構特征,采用混合線性模型(MLM)構造QSAR 模型以闡明黃酮類化合物與其抗氧化活性之間的構效關系,為高效抗氧化劑的設計和開發奠定理論基礎。
1.1 結構分子與其抗氧化活性數據的收集 在PubMed 數據庫中以DPPH、具有黃酮或異黃酮母核結構的黃酮類化合物、半抑制濃度(IC50)或半最大效應濃度(EC50)為關鍵詞進行文獻檢索,收集具有明確的IC50值或EC50值及確切結構的黃酮類化合物。
研究表明A 環鄰二酚羥基、酚羥基、間二酚羥基的數目,B 環鄰二酚羥基、酚羥基和間二酚羥基的數目對黃酮類化合物抗氧化活性具有一定的影響〔10〕,因此,除化合物的理化性質外,本研究還將上述特征作為QSAR 模型的潛在自變量。
1.2 數據層次結構的診斷和初始QSAR 模型的建立 根據公式(1)可知,不同文獻中的A0值不一定相同,而同一文獻中不同化合物的A0值可能相同,即每一次的獨立實驗A0值相同,而不同實驗A0值不同。由于A0值不同,不同的實驗不存在可比性,也不符合研究對象之間的獨立性。這就構成了以文獻為高水平的層次結構數據。排除相同陽性對照的IC50值不一致的化合物后,應用不同的陽性對照化合物代表不同的實驗。所得數據可能存在的結構見圖1。

圖1 數據層次結構示意圖

其中,A0和A 分別是無抗氧化劑和有抗氧化劑時DPPH 的吸光度值。此外,物質的吸光度值可能會因實驗而異。
采用混合線性模型(公式(2))以診斷數據的層次結構是否不可忽略,用不同的陽性對照化合物的IC50值反映其相應的A0值,并以其作為高水平因素進行分析。如果不同層次之間存在著顯著的相關性(公式(3)),那么對這類結構性數據應采用混合線性模型分析;反之,則可應用多元線性回歸分析。

其中,β0為固定效應回歸系數;β1為隨機效應回歸系數;μ0為固定效應殘差;μ1為隨機效應殘差。

其中,β0j為固定效應殘差(μ0)與隨機效應殘差(μ1)之和。
混合線性模型或多元線性回歸模型的建立:以黃酮類化合物抗氧化活性為因變量,以影響黃酮類化合物抗氧化活性的潛在決定因素為自變量,按SPSS 25.0 軟件混合線性模型自變量篩選程序的默認值,即自變量的納入標準為單因素回歸系數的P≤0.1,排除標準為偏回歸系數的P >0.2,進行QSAR 模型擬合。
1.3 初始QSAR 模型的優化及模型評價 應用五折交叉驗證優化初始模型〔11〕。本研究采用SPSS 軟件Bootstrap 隨機模擬抽樣程序將樣本隨機分為5份子樣本,以其中4 份子樣本作為訓練集,另外1份子樣本為驗證集,建立模型1;重復5 次,使得每份子樣本都作為訓練集、驗證集參與模型優化,并以其5 次的參數估計值建立優化模型1。上述試驗重復進行5 次,得到優化模型1~5。
依據各模型對化合物DPPH 抑制活性預測的準確度對優化模型1~5 進行評價。基于分析結果的回歸系數及其標準誤差,計算每個自變量的80%置信區間(公式(4)),以確定預測IC50值的下限和上限。

其中,β 是預測模型的回歸系數;Sd是相應回歸系數的標準誤差。
準確度是指預測值和實際值之間的符合程度,用于評估已建立的模型。最終優化模型的評估與確定需要綜合考慮訓練集和驗證集的準確度(公式(5))。

其中,N 為化合物總數;P 為IC50實測值在預測值范圍內的化合物數量。
2.1 黃酮類化合物的收集 本研究所述黃酮類化合物為由苯環和吡喃環組成的苯并-γ-吡喃酮衍生物,即黃酮、異黃酮衍生物。見圖2。根據黃酮類化合物、IC50值等關鍵詞從PubMud 數據庫檢索文獻,共收集到113 個黃酮類化合物,按以下標準進行排除:①化合物吸收和釋放電子的能力難以判斷;②在原始文獻中找不到明確的陽性對照化合物;③不同文獻中相同陽性對照化合物的IC50值明顯不一致。排除具有相同結構的化合物后,最終獲得了80個黃酮類化合物。見表1。

圖2 黃酮類化合物的母核結構

表1 80 個黃酮類化合物結構信息列表

續表1
2.2 層次結構數據診斷 由于80 個黃酮類化合物來自不同文獻,使得數據不具備可比性,且存在具有層次結構特征的可能性,因此需要采用混合線性模型判斷是否存在層次結構。μ1的差異具有統計學意義(F=6.549,P=0.039<0.05),表明數據存在隨機效應殘差,即數據存在顯著的層次結構。因此,應采用混合線性模型構造黃酮類化合物的預測模型。
2.3 QSAR 模型建立及黃酮類化合物的抗氧化活性預測
2.3.1 建立黃酮類化合物的QSAR 模型 根據混合線性模型及自變量篩選標準,得到初始模型及相應的參數估計值,見表2。其中,當方程中包括A 環的鄰二酚羥基數目(X1)和B 環的酚羥基數目(X2)時,似然比統計量(-2 限制對數似然值) 的值為897.754,而當包括X1、X2和B 環的間二酚羥基數目(X3)時,結果為885.613。似然比統計檢驗的χ2值為12.141,累積概率密度函數計算得P<0.001,表明所建立的QSAR 模型中3 個描述符與黃酮類化合物的抗氧化活性之間不存在偶然相關性。因此,即便X3回歸系數的P>0.05,也可將其納入方程。由此可得,黃酮類化合物的初始模型為IC50=132.94 -76.05X1-49.11X2+63.75X3。根據該方程可以推知,黃酮類化合物的抗氧化活性與X1、X2呈正相關,與X3呈負相關。

表2 黃酮類化合物中固定效應的估計
2.3.2 QSAR 模型優化及評價 根據五折交叉驗證法得到的優化模型1~5 的參數估計值及其預測準確度的結果見表3。優化模型1~5 對訓練集的DPPH 抑制活性的預測準確度基本一致(75.00%~78.13%),而模型1 對驗證集的預測準確度最高為87.50%,即優化模型1 的總體穩健性最高。模型1的混合線性方程為IC50=137.56-65.86X1-53.92X2+70.85X3。驗證結果表明,所建立的模型能較好地預測黃酮類化合物的抗氧化活性。除化合物37 和58外,其他的預測值與實測值皆在同一數量級或絕對值差異較小。見表4。

表3 黃酮類化合物的五折交叉驗證結果

表4 優化模型1 驗證集的預測和實測IC50 值(μmol/L)
由于80 個黃酮類化合物來自不同文獻,因此其IC50值的可比性無法直接判斷。此外,使用相同陽性對照化合物的實驗結果可能彼此相關,從而破壞了線性統計模型要求的數據獨立性,而以層次結構重新整理數據則可保證各層內數據間的獨立性。由于混合線性模型是同時包含固定效應和隨機效應的線性模型,是解決層次聚集性數據的方法之一〔30〕,因此,當數據不滿足相互獨立的要求時,可采用混合線性模型對層次結構數據進行參數估計。
置信區間是指基于樣本統計量對總體參數進行的區間估計,其區間范圍體現的是參數估計值的可信度及精密度,80%及更高的可信度是研究中常用的標準。由于90%及以上可信度計算得到的置信區間下限皆為負值,而化合物抗氧化活性的IC50值不可能為負值,因此,本研究折中了可信度與精密度,從而采用80%置信區間為優化模型評價標準之一。
本研究結果顯示:黃酮類化合物的抗氧化活性與A 環的鄰二酚羥基數目和B 環的酚羥基數目呈正相關,與B 環的間二酚羥基數目呈負相關。這與相關研究及理論相吻合:黃酮類化合物清除自由基的能力主要取決于B 環酚羥基數目與其取代位置〔31〕,理論上,酚羥基數目越多,與活性自由基結合的氫原子就越多,黃酮類化合物的抗氧化能力也就越強。此外,相關研究表明,在B 環上被兩個甲氧基取代的C-3 ′,4 ′ 位作為電子給體,有利于氫提取后半醌類骨架共軛效應的增加,從而增強抗氧化活性〔32〕。然而,由于間二酚羥基基團的吸電子誘導效應大于給電子共軛效應,羥基本身的電子云密度降低,從而抑制了抗氧化活性,即黃酮類化合物的抗氧化活性與B 環的間二酚羥基數目呈負相關〔32〕。此外,A環的酚羥基數目對黃酮類化合物的抗氧化活性有一定的貢獻。由于親電效應、碳環上的羰基以及間二羥基基團比A 環的鄰二酚羥基基團更穩定的特性,A 環的鄰二酚羥基數目是決定黃酮類化合物抗氧化活性強弱的重要結構特征〔32〕。
雖然混合線性模型分析能有效處理具有層次結構或非獨立的數據,但是,當隨機效應具有統計學的顯著意義時,根據混合線性模型擬合的預測模型將無法計算其決定系數,即難以評估是否存在其他重要影響因素。此外,由于本研究數據存在層次結構,無法采用更直觀的殘差分析法評估模型的擬合優度。根據IC50值的預測準確度,可以推斷已優化的模型具有較好的穩定性和代表性,因此,可將最終的方程用于預測黃酮類化合物的IC50值。
綜上所述,優化后的模型可用于預測黃酮類化合物的抗氧化活性,且其抗氧化活性與A 環的鄰二酚羥基數目和B 環的酚羥基數目呈正相關,與B 環的間二酚羥基數目呈負相關。最終所得模型可作為設計與合成高效抗氧化劑的指導,此外,亦可作為其他母核化合物(如蒽酚類、萘酚類化合物)構造QSAR 模型的模板,為藥物設計提供參考。