吳思俊,王 龍,吳紅根,賀興立,仇 萍,李 正,李文龍*
(1.天津中醫藥大學 中藥制藥工程學院,天津 301617;2.天津中醫藥大學 省部共建組分中藥國家重點實驗室,天津 301617;3.湖南正清制藥集團股份有限公司,湖南 懷化 418000)
鹽酸青藤堿是從防己科植物青藤(Sinomenium acutum(Thunb.)Rehd. et Wils.)以及毛青藤(Sinomenium acutum(Thunb.)Rehd. et Wils. var. cinereum Rehd. et Wils. )的干燥藤莖中提取制備的生物堿單體,具有祛風除濕、消腫止痛、抗炎等多種藥理作用[1]。因具有療效確切、副作用較小等明顯優勢,近些年來,以鹽酸青藤堿為活性藥物成分的制劑,如片劑、注射劑及外用制劑等,已被廣泛用于治療風濕性、類風濕性關節炎等疾病[2]。
青藤堿微溶于水,在制備過程中往往需要借助有機溶劑輔助提取。目前,工業生產鹽酸青藤堿多使用堿化水提取工藝,即藥材中加入水及一定量的熟石灰,堿化一段時間后加入一定量工業苯,回流提取,最后酸化、靜置、析晶。然而,苯為一級有毒溶劑,對人體危害極大,而且在溶劑的回收處理方面需通過繁鎖的工藝方能達到環保要求,在一定程度上增加了企業的生產成本。因此,從尋找替代溶劑的角度出發,對提取工藝進行適當變更是非常必要的。然而,在藥品生產過程中更改工藝需嚴格按照法規要求進行。2017 年,國家食品藥品監督管理總局組織制定了《已上市中藥生產工藝變更研究技術指導原則》[3],規定在不影響藥品安全性、有效性和質量可控性的前提之下,可以考慮工藝變更。目前,鹽酸青藤堿制備工藝明確且較為固定,不同廠家生產的鹽酸青藤堿的純度基本都能達到98%以上。在這種情況下,產品質量差異往往是受剩下的不到2%的雜質所影響。但中藥是一個極其復雜的體系,由于藥材自身質量的波動性和不同廠家工藝過程控制水平的參差不齊,依靠傳統的分析技術(液相色譜、質譜等)難以鑒別原料中所有雜質的種類[4-5]。產生這一結果的主要原因是:①中藥產品中雜質含量較低,當某些雜質含量低于儀器檢測限時,無法獲得相關信號;②高效液相色譜多用于檢測具有紫外吸收的化合物,當雜質不具有紫外吸收時無法被成功檢測;③雜質結構復雜且種類繁多,當缺少標準品時難以實現定性定量分析。而缺少產品雜質信息,則難以進行原料整體質量評價,要實現工藝變更更是無從談起。因此,獲取產品雜質信息需要借助其他的分析技術。近紅外(Near-infrared,NIR)光譜技術因快速、無損、環境友好等優點,已在眾多領域取得了廣泛應用。NIR 光譜記錄的含氫基團(C—H,O—H,N—H 等)的倍頻和合頻吸收峰,往往用于反映待測物的整體信息[6-8]。拉曼光譜(Raman spectroscopy,RS)技術則主要用于研究晶格和分子的振動模式、轉動模式以及在某一系統中的其他低頻模式,能夠分析出化學物質的內部結構,與NIR 光譜有一定的互補性[9-10]。多源數據融合技術指對來自多種分析儀器的信號進行多級別、多方面、多層次的處理,在一定準則下加以分析、綜合,產生新的有意義的信息,以彌補單一來源分析信號信息量不足的缺點[11-13]。如將鹽酸青藤堿原料的兩種光譜信息進行融合,即可獲得既包含活性成分信息和雜質信息,又包含成分分子結構信息的綜合數據,利用該數據進行產品質量綜合評價具有理論上的可行性和實踐上的可操作性[14]。
本研究收集了不同廠家分別利用苯和氯仿生產的鹽酸青藤堿樣品,同時采集樣品的NIR 光譜和Raman 光譜,分別采用不同水平的數據融合策略對光譜數據進行處理,利用相似度匹配值(Similarity match value,SMV)、Hotelling T2和DModX 3 種統計量對樣品間的質量差異進行表征,旨在開發一種用于評價工藝變更前后產品質量的新方法。
Antaris Ⅱ傅里葉變換近紅外光譜儀(賽默飛世爾科技公司,美國),配有TQ Analyst 8.0 數據處理軟件;DXR顯微拉曼光譜儀(賽默飛世爾科技公司,美國);AL204型電子天平(梅特勒-托利多國際股份有限公司,瑞士)。
從A 公司購買的酸水滲漉-氯仿萃取后制得的鹽酸青藤堿樣品(含量大于98%),共32 批,編號1 ~32;從B 公司購買的苯提取后制得的鹽酸青藤堿樣品(含量大于98%)共20 批,編號33 ~52;從C 公司購買的酸水滲漉-氯仿萃取后制得的鹽酸青藤堿樣品(含量大于98%)共20 批,編號53 ~72。
1.2.1 相似度匹配模型建立 運用Kennard-Stone 算法從32 份A 公司樣品中選取16 份作為校正集,剩下的16 份作為驗證集。運用TQ Analyst 8.0 軟件建立相似度匹配模型,然后利用模型進行驗證集SMV預測,根據模型預測出的SMV確定閥值。閥值確定原則:如果驗證集SMV為正態分布,則可根據統計過程控制中的3σ原則確定閾值,即將閾值設置為SMV的平均值減去3倍標準偏差。待模型建立并確定閥值后,即可用于評估待測樣品與建模樣品的質量差異。如果待測樣品的SMV 大于或等于閾值,則認為樣品與A 公司樣品質量一致性良好,相反,如果其SMV 小于閥值,則認為兩者質量差異較大[15-16]。
1.2.2 Hotelling T2與DModX 值 在中藥產品質量控制研究中,除將SMV 作為質量一致性判別指標外,還常常使用主成分分析(Principal component analysis,PCA)模型的統計量進行質量評價。利用A公司的32批樣品建立PCA 模型,計算樣品的Hotelling T2和DModX 統計量數值并求得控制限。Hotelling T2統計量由所有主成分的歸一化得分累加得到,指樣品偏離模型中心的距離,反映了模型內部數據變化的程度[17]。樣品k的Hotelling T2可由如下公式表示:

式中,λA表示數據矩陣前A個主成分對應的特征值組成的對角矩陣,Tk是第k個主成分的得分向量。
計算Hotelling T2的控制限是構建T2控制圖的重要環節,該值根據F分布計算得到,計算公式如下:

其中,I為訓練集批次數,A為主成分數。Fα(A,I-A)表示置信度為α,第一自由度為A,第二自由度為I-A時F的臨界值。
而DModX 統計量則主要用來監測輸入的數據結構是否發生變化,反映樣品偏離模型的絕對距離,是一種衡量模型外部數據變化程度的度量[18]。當Hotelling T2統計量不能監測到樣品發生的異常變化時,常使用DModX統計量進行監測。樣品k的DModX可由下式表示:

式中,en為變量xn初始值的殘差,Xnk是變量xn的估計值。DModX統計量的控制限可由(4)式計算:

需要注意的是,在評判待測樣品與A 公司樣品間的差異時,往往需將Hotelling T2與DModX 兩種統計量相互結合、綜合分析。
每批樣品精密稱取8 g,過200 目標準藥篩(符合2020 版藥典標準)后,對細粉進行NIR 光譜采集。NIR 光譜儀采用積分球漫反射采集模式,以空氣為背景,掃描范圍為4 000 ~10 000 cm-1,分辨率為16 cm-1,掃描次數為64次。共采集到72張NIR光譜,如圖1A所示。
將每批過篩后的細粉分別精密稱取0.1 g置于Raman光譜儀配備的載玻片上,進行Raman光譜的采集。Raman 位移為50 ~3 500 cm-1,激光波長為532 nm,激光能量為10.0,分辨率為2.7 ~4.2 cm-1,樣品曝光時間為2 s。共采集到72張Raman光譜,如圖1B所示。

圖1 72批鹽酸青藤堿樣品的近紅外原始光譜圖(A)和拉曼原始光譜圖(B)Fig.1 The raw NIR spectra(A)and raw Raman spectra(B)of 72 batches of sinomenine hydrochloride samples
從圖1 中可以看出,NIR 光譜和Raman 光譜均存在明顯的基線漂移,推測可能是由儀器噪聲、環境變化等因素造成。為消除基線漂移對數據分析的干擾,采用Savitzky-Golay 卷積平滑和一階導數對光譜數據進行處理,處理后的光譜如圖2 所示。經過預處理之后,利用多源數據融合技術對光譜數據進行融合。分別考察了3 種不同水平的數據融合方式,第一種融合方式為低水平融合即像素級融合,指在未經任何處理的情況下將光譜數據進行首尾拼接;第二種融合方式為中水平融合即特征級融合,指在對各部分數據進行特征提取后進行的數據融合;第三種融合方式為高水平融合即決策級融合,指將各部分數據分別處理并做出判斷,最后對所有決策進行融合。對比每種數據融合方式下樣品質量的差異,從而綜合評判經不同溶劑制備的鹽酸青藤堿樣品的質量差異,并探究不同水平的數據融合策略可能對分析結果產生的潛在影響。

圖2 經Savitzky-Golay卷積平滑和一階導數處理后的樣品近紅外(A)和拉曼(B)光譜Fig.2 The NIR spectra(A)and Raman spectra(B)of samples pretreated with Savitzky-Golay smoothing combined with first derivative
由于NIR 光譜與Raman 光譜的響應值差異巨大,且不在一個度量之下,因此在進行光譜數據的首尾拼接之前,需要先進行歸一化處理使響應值處于同一度量。建立相似度匹配模型,模型對驗證集(No. 17 ~32)SMV 的預測結果如表1 所示。對預測結果進行正態性檢驗,得到P值為0.764,大于0.05,表明結果符合正態分布。根據3σ原則,計算得到閥值為94.21。利用相似度匹配模型對B 公司和C 公司共40 份樣品進行SMV 預測,結果如圖3A 所示。從圖中可以看出,40 份樣品的SMV 均大于94.21,表明樣品質量與A 公司樣品無明顯差異。然后,利用SIMCA 分析軟件(V14.1,Umetrics 公司,瑞典)建立A 公司樣品的PCA 模型,獲得Hotelling T2和DModX 統計量及其控制限。最后分別求得40 份樣品的兩種統計量值,結果如圖3B 和3C 所示。結果顯示,所有樣品的Hotelling T2都處于控制限以下。從DModX 控制圖中可以看出,A 公司的32 份樣品中有3份略超出控制限,另兩家公司提供的樣品中均有3份超出了控制限。推測原因在于:①將光譜數據進行低水平融合可能會包含過多冗余信息,從而對分析結果的準確性產生影響;②9份樣品的質量可能與A公司樣品存在一定差異。為探究是何種原因造成的這一結果,將進行進一步的中水平數據融合分析。

表1 相似度匹配模型驗證集預測結果Table 1 Prediction results of the similarity match model on the validation set

圖3 基于低水平融合模式的鹽酸青藤堿樣品質量評價控制圖Fig.3 The control charts of quality evaluation of sinomenine hydrochloride samples based on low level fusion mode
由于算法可解釋性強、所建模型性能穩健等優勢,中水平融合模式是數據融合研究中使用最為頻繁的方式之一。在本研究中,為提取光譜信息中的特征信息,利用主成分分析法對NIR 和Raman光譜數據分別進行降維處理。結果顯示:針對NIR 光譜數據,當主成分數設置為13 時,能解釋光譜變量間95%以上的差異;針對Raman 光譜數據,當主成分數設置為22 時,能解釋變量間95%以上的差異。當主成分能解釋原始數據95%以上的差異時,即具有良好的數據代表性。本研究將提取的主成分進行融合,最終得到35 維的特征數據。利用訓練集數據建立相似度匹配模型后,對驗證集SMV 進行預測,結果如表2 所示。對預測結果進行正態性檢驗,得到P值為0.947,大于0.05,因此數據符合正態分布。根據3σ原則,計算得到SMV 閥值為93.23。利用相似度匹配模型對40 份樣品的SMV 進行預測,結果發現第52 份樣品的SMV 低于控制限,其余樣品的SMV 均在控制限之上。另外,所有樣品的Hotelling T2和DModX 統計量數值均在控制限之下。與低水平融合模式結果比較可以發現,通過提取數據特征的方式可以有效剔除冗余信息的干擾,40 份待測樣品中有39 份與A 公司樣品無明顯質量差異。而第52 份樣品可能存在質量問題,需要利用其它手段進行單獨檢測。

表2 相似度匹配模型驗證集預測結果Table 2 Prediction results of the similarity match model on the validation set
高水平融合又稱決策級融合,當所檢產品附加值高,或會因質量不合格而對人體健康、經濟效益產生重大影響時,往往使用高水平融合模式。首先,利用NIR 光譜數據進行產品質量分析。建立基于NIR光譜的相似度匹配模型,模型對驗證集的預測結果如表3所示。對預測結果進行正態性檢驗,得到P值為0.550,大于0.05,因此數據符合正態分布。根據3σ原則,計算得到SMV閥值為93.64。由圖4的控制圖可以看出,第38 和第52 份的SMV 在控制限以下,第42 份的DModX 統計量超過控制限。因此,需要對這3份問題樣品進行單獨質量檢測。而在A 公司樣品中,第1 和第27 份樣品的DModX 統計量超出控制限,在低水平融合分析中同樣出現了A 公司樣品DModX 數值超出控制限的現象,而在中水平融合分析中則未出現該現象。推測原因可能是,在未進行特征信息提取時冗余信息對數據分析產生了影響。

表3 基于NIR光譜數據的相似度匹配模型驗證集預測結果Table 3 Prediction results of the similarity match model on the validation set based on NIR spectral data

圖4 基于NIR光譜數據的鹽酸青藤堿樣品質量評價控制Fig.4 The control charts of quality evaluation of sinomenine hydrochloride samples based on NIR spectral data
利用NIR 光譜數據進行產品質量分析后,對樣品的Raman 光譜數據進行整理、分析。表4 中列出了基于拉曼光譜的相似度匹配模型對驗證集SMV的預測結果,對結果進行正態性檢驗,得到P值為0.384,大于0.05,因此數據符合正態分布,最終求得A 公司樣品的SMV 閥值為94.24。計算所有樣品的3 種統計量,并描繪出控制圖。從圖5 中可以看出,第40份樣品的SMV處于控制限以下,第3和第17 份樣品的DModX 統計量值超出控制限。結合基于NIR 光譜數據的分析結果,第1、3、17、27、38、40、42、52份樣品需要進行仲裁分析來判斷是否為異常樣品。從以上結果可以發現,由于兩種光譜信息所包含的樣品信息不同,當單獨使用NIR光譜數據或Raman光譜數據進行分析時,判別出的問題樣品各不相同。此時,運用決策級融合即可有效避免問題樣品的遺漏,為產品質量一致性提供保證。

表4 基于拉曼光譜數據的相似度匹配模型驗證集預測結果Table 4 Prediction results of the similarity match model on the validation set based on Raman spectral data

圖5 基于Raman光譜數據的鹽酸青藤堿樣品質量評價控制Fig.5 The control charts of quality evaluation of sinomenine hydrochloride samples based on Raman spectral data
在本研究中,低水平融合方式和高水平融合方式所判斷出的問題樣品出入較大,而通過中水平融合方式判斷出的問題樣品被包含于高水平融合判別出的問題樣品中。實際上,在應用數據融合技術時,需要根據數據特征合理選擇融合水平。低水平融合方式方便快捷,不需要對數據進行任何處理即可進行融合分析,但當數據維度高且可能包含一定量的冗余信息時,這種數據融合方式往往不適用。此時,中水平融合方式可以被考慮用于數據分析,其復雜程度雖然比低水平融合方式高,但能有效剔除冗余信息的干擾,提取出關鍵信息。高水平融合方式最為復雜,需要利用不同來源數據進行單獨分析后產生統籌結果。在進行高附加值樣品或毒副作用較強樣品的質量控制時,一般使用高水平融合方式。
本研究利用NIR 光譜技術、Raman 光譜技術結合多源數據融合技術,提出了一種用于中藥產品制備工藝變更前后質量一致性評價的新策略。研究發現,在低、中、高3 種數據融合模式下,除個別鹽酸青藤堿樣品需要仲裁分析進行質量確認外,苯提取和酸水滲漉-氯仿萃取后所制得的鹽酸青藤堿樣品的質量無顯著差異。在鹽酸青藤堿生產過程中,酸水滲漉-氯仿萃取有望有效替代苯提取,對降低生產成本和環境保護具有重要意義。