孫全昌,楊 明,候華毅
光學信息與模式識別湖北省重點實驗室(武漢工程大學),湖北 武漢430205
在許多中低收入國家,瘧疾仍然是一個主要的公共衛生問題,全球有十億以上人處于瘧疾高風險中[1-2]。20世紀70年代,屠呦呦從青蒿中分離得到一種含有過氧基團的倍半萜內酯藥物——青蒿素,并因該重大發現獲得2015年諾貝爾醫學獎[3]。從此之后,青蒿素在抗擊瘧疾特別是對于腦部瘧疾和耐氯喹的瘧疾中發揮了至關重要的作用[4]。
優質的青蒿素才能有效地治療瘧疾[5]。不幸的是,在很多低收入和中等收入國家的市場上出現了各種假冒偽劣青蒿素藥物[6-8]。劣質青蒿素不僅導致發病率和死亡率的增長,也導致了瘧疾耐藥性的增加[9-11]。因此,劣質青蒿素的普遍存在對醫護人員來說是一個巨大的挑戰,發展一種快速鑒別和篩選青蒿素品質的分析技術對于提高抗瘧藥的質量有重要的作用。目前,篩選藥物質量有多種分析方法,包括高效液相色譜(high performance liquid chromatography,HPLC)[12-14]、毛細管電泳法和光譜法等[15-17]。其中,HPLC被視為標準分析方法。盡管HPLC靈敏度高且可以提供樣品的綜合信息,但是HPLC儀器的維護和操作以及結果的分析都需要大量的人力和技術支持。此外,樣品的制備和分析費時又費錢。因此,在中低收入國家/地區使用HPLC進行青蒿素的大范圍質量篩查不切實際。
近紅外光譜和拉曼光譜技術具有高通量、高精度、快速分析和不需要樣品制備等優點[15-17],在資源匱乏的國家具有極大的優勢和應用潛力[18-19]。已經證明,拉曼光譜比紅外光譜在藥物鑒定和劣質藥物區分方面具有更大的優勢。在本文中,我們通過拉曼光譜聯合正交偏最小二乘法判別分析(orthogonal projections to latent structuresdiscriminant analysis,OPLS-DA)進行青蒿素鑒定和不同純度的青蒿素樣品鑒別。結果表明該方法在青蒿素鑒定方面具有較強的發展前景,對于實際應用中的青蒿素質量評估具有積極的意義。
在相同條件下研究了6種不同純度的青蒿素樣 品(A:97.87%,B:97.97%,C:98.12%,D:98.73%,E:99.29%,F:99.60%標準參考樣品)。樣品A到E購自上海麥克林生物化學技術有限公司,樣品F購自國藥生物科技有限公司。所有樣品的純度均通過HPLC分析得到(Agilent 1260,美國;色譜柱:Eclipse Plus C18色譜柱,4.6 mm×250 mm,5μm;V(流動相)∶V(甲醇-水)(75∶25);流速:1 mL/min;柱溫:25℃;檢測波長:205 nm)。在實驗中,將每100 mg初始樣品轉移至定制的壓片機中制成壓片樣品,用于拉曼實驗。
青蒿素樣品的拉曼光譜是通過XperRam200光譜儀(Nanobase公司,韓國)獲得,該光譜儀連接Olympus BX41M-LED顯微鏡(50X物鏡,NA=0.55)。激光器的波長為532 nm,樣品表面的激光功率約為3 mW,光斑尺寸約為2μm。光譜采集波數范圍為100~1 950 cm-1,采集時間為20 s。通過使用Si襯底的521 cm-1聲子模式對所有光譜進行波數校正。
使用Origin 8.5(OriginLab公司,美國)進行原始拉曼光譜的基線校正,平滑和歸一化。基線校正的方法采用自適應迭代懲罰最小二乘法(adaptive iteratively reweighted penalized least squares,AIR-PLS),這是一種無需任何干預和初始信息即可對拉曼光譜進行基線校正的新穎算法。利用SIMCA軟件v.14.1(Umetrics公司,瑞典)進行OPLS-DA分析。正交偏最小二乘法(orthogonal projections to latent structures,OPLS)是偏最小二乘法(partial least squares,PLS)的擴展,在查找特定樣本和數據集變量的相關性方面優勢明顯[20-21]。當變量具有高度相關性時,OPLS優于PLS。本文中由于青蒿素樣品彼此之間具有高度的相關性,差異主要是純度不同,因此我們選擇OPLS-DA方法。青蒿素樣品的分類直接通過OPLS-DA模型的主成分評分反映出來,其魯棒性和可靠性通過3個參數R2X(cum),R2Y(cum)和Q2(cum)進行評估。R2X(cum)和R2Y(cum)分別表示所有提取分量所解釋的x變量和y變量的平方和的積累,Q2(cum)為提取的分量預測的所有x變量和y變量的分數。使用SPSS 19.0軟件進行統計分析,通過單因素方差分析(one-way anova)分類變量,概率值(P值)為雙側,且P≤0.05值被認為具有統計學意義。
圖1顯示了樣品F(標準參考樣品)的拉曼光譜圖。青蒿素(C15H22O5)是一種具有獨特化學結構的內過氧化物倍半萜烯內酯。青蒿素分子具有C1對稱性,其結構如圖1所示。它包含4個環:環戊內酯,雙環三惡烷,環己烷和甲基取代基。青蒿素分子中有5個氧原子其中2個(O1和O2)在三惡烷環中形成獨特的過氧橋鍵。研究表明,青蒿素中的過氧橋鍵在抗瘧疾活性中起著至關重要的作用[20-22]。因此,研究與過氧橋鍵相關的拉曼峰對青蒿素樣品的質量篩選尤為重要。
具有C1對稱性的青蒿素分子的全部120個振動模式,全部為拉曼活性模式[23]。圖1中的青蒿素光譜可分為3部分:第1部分200~900 cm-1顯示強帶;第2部分900~1 400 cm-1包含較弱的帶;第3部分1 500~2 000 cm-1僅有3種明顯振動模式。青蒿素的振動模式分配已經通過實驗研究和理論計算完成[25-29]。然而,由于青蒿素分子結構比較復雜,過氧橋鍵的拉曼振動模式沒有定論。實驗研究表明,在724 cm-1處的振動模式與過氧橋鍵的振動直接相關[28-29]。然而理論計算表明,724 cm-1處振動模式只與過氧橋鍵間接相關,與過氧橋鍵直接相關的振動模式主要在800~950 cm-1范圍內[25-27]。因此綜合實驗研究和理論計算與過氧橋鍵直接相關的振動模式應在700~950 cm-1的光譜范圍內,因此本文在該光譜范圍的拉曼光譜上進行OPLS-DA建模。在OPLS-DA建模中,共分析了120個振動模式。對于每個不同純度的樣品,測量20個隨機點的拉曼光譜。圖2(a)和圖2(b)分別顯示了二維和三維OPLS-DA得分圖。該模型獲得了R2X(cum)=0.952,R2Y(cum)=0.767和Q2(cum)=0.624的良好質量參數。這三個值均大于0.6,表明該模型具有良好的擬合度和較高的預測能力。另外,使用排列測試(排列數量為200)來驗證和評估模型的性能,結果如圖2(c)所示。原始OPLS-DA模型的R2Y(cum)和Q2(cum)值大于置換模型的所有R2Y和Q2值,這表明原始模型具有較高的預測能力。R2Y和Q2的截距分別為0.267和0.311,兩者均小于0.4,表明該模型沒有過度擬合。圖2(d)中表示的是變量投影重要度(variable importance for the projection,VIP)。振動模式的VIP值表示此模式對樣品分類的重要性。724 cm-1處的振動模式具有最大的VIP值,因此它對不同純度的青蒿素樣品的分類貢獻最大。

圖1 青蒿素的拉曼光譜圖(內插圖為青蒿素的分子結構)Fig.1 Raman scattering spectrum of artemisinin(inset is molecular structure of artemisinin)

圖2 不同純度的青蒿素樣品在OPLS-DA模型下的多元統計分析結果:(a)二維分數圖(橢圓表示95%置信區間),(b)三維分數圖,(c)OPLS-DA模型的排列檢驗分析(綠點代表R2,藍點代表Q2),(d)VIP分類圖Fig.2 Multivariate statistical analysis of artemisinin samples with different purity contents by OPLS-DA model:(a)two-dimensional score plot(ellipse represents the 95%confidence interval),(b)three-dimensional score plot,(c)permutation test analysis of OPLS-DA model(green dots represent R2 and blue dots represent Q2),(d)VIPplot of classification
為了進一步證實,在724 cm-1處的振動模式對于區分不同純度的青蒿素樣品具有最大的貢獻,繪出了S-line圖。在S-line圖中,通過協方差和相關性系數來尋找受青蒿素純度影響最大的振動模式[30-31]。圖3給出了樣品A(97.87%)和F(99.60%)之間的S-line結果。從圖3中可以看出,724 cm-1處的振動模式的貢獻(協方差)值為50,相關值為0.72。這兩個值都明顯大于其他振動模式的值。因此,我們可以得出結論,在區分不同純度的青蒿素樣品時,724 cm-1處的振動模式具有最大的貢獻。這表明該模式將是研究青蒿素生物活性官能團的最有代表性的模式,這與以前的結果一致,即該模式與過氧化橋直接相關。

圖3 OPLS-DA模型中S-line圖Fig.3 S-line plot of OPLS-DA model
OPLS-DA研究表明,在青蒿素的振動模式中,724 cm-1的模式受到青蒿素純度的影響更加強烈。在不同純度的樣品中,724 cm-1模式的強度將有很大的不同,而其他振動模式的強度不會發生太大變化。這與圖4中的強度分析結果一致。在圖4中,繪制了樣品A和F間的20個隨機點的拉曼峰強度分布,為了便于比較,圖4(a)繪制724 cm-1模式的強度分布,圖4(b)繪制了881 cm-1模式的強度分布。有研究者指出881 cm-1模式可能跟青蒿素過氧橋鍵相關。如圖4所示,樣品A中724 cm-1模式的平均強度明顯低于樣品F,而樣品A和F中881 cm-1模式的平均強度大致相同。另外,其它振動模式的強度分布行為類似于881 cm-1模式。
雖然目前還不能完全確定位于724 cm-1拉曼峰的物理根源,本研究表明該拉曼峰應與過氧橋鍵直接或間接相關,檢測到該拉曼峰可以基本確定過氧橋鍵的存在。青蒿素的振動模式很多,僅運用一個特征拉曼峰很難達到準確檢測的效果,因而有必要再找一個好的特征拉曼峰。青蒿素分子中另一特征基團是環戊內酯基團,找到對應內酯基團的特征拉曼峰可以更準確地檢測青蒿素。理論計算和實驗結果都表明位于1 734 cm-1的拉曼峰為內酯鍵(O11-C10=O)的振動峰[19,31]。同時該峰峰形好,周圍沒有其它峰的干擾,在實驗上可以很好的分辨該拉曼峰。因而位于1 734 cm-1的拉曼峰可以作為拉曼光譜法檢測青蒿素的另外一個好的特征振動模式。并且,基于該特征模式的優點,選擇1 734 cm-1處的振動模式作為參考模式,724 cm-1處與1 734 cm-1處振動模式的相對強度分析更有助于快速篩查低純度含量不合格的青蒿素樣品。
圖5顯示了相對強度比I(724cm-1)/(1734cm-1)作為青蒿素純度含量的函數。隨著純度的增加,相對強度比I(724cm-1)/(1734cm-1)也隨之增加。單因素方差分析表明,6個青蒿素樣品之間存在顯著差異(F=7.392 7,P<0.01),證實了相對強度比I(724cm-1)/(1734cm-1)是一個區分不同純度含量的青蒿素樣品的良好指標。這一發現將有助于對青蒿素產品的質量特別是對于活性藥物成分不足的不合格產品進行檢測和分析。

圖4 樣品A和F之間的20個隨機點在724 cm-1和881 cm-1模式處的拉曼強度分布比較:(a)724 cm-1模式,(b)881 cm-1模式Fig.4 Comparison of Raman intensity distribution of t 20 random spots between sample A and F:(a)724 cm-1 mode,(b)881 cm-1 mode

圖5 六個不同純度含量的青蒿素樣品的相對強度比的分布Fig.5 Distribution of relative intensity ratio for six artemisinin samples with different purity contents
通過拉曼光譜聯合OPLS-DA模型對不同純度的青蒿素樣品進行了實驗分析。結果表明,該方法可以清楚地區分不同純度的青蒿素樣品,青蒿素拉曼光譜中與生物活性官能團相關的724 cm-1處的振動模式比其他振動模式對純度更敏感。此外,還證明了在不同純度的青蒿素樣品中,724和1 734 cm-1處的特征振動模式相對強度比在統計學上具有統計學差異(F=7.39,P<0.01),因此可以作為快速檢測低純度青蒿素的優質指標。