李文龍, 薛東升, 劉紹勇, 瞿海斌*
(1.浙江大學藥物信息學研究所,浙江杭州310058;2.上海凱寶藥業有限公司,上海201418)
痰熱清注射液是由黃芩、熊膽粉、山羊角、金銀花、連翹五味藥材的提取物制得。具有抗病毒、抑菌、抗炎、解熱、祛痰鎮咳等作用,主要用于治療肺炎、早期肺癌,急慢性支氣管炎以及上呼吸道感染等疾?。?-2],在抗擊非典和甲型流感方面藥效顯著。在痰熱清注射液的制劑過程中,總混液是將5類中藥材提取物全部混合后的一類重要的中間體,其質量對最終產品的品質有著決定性的影響,因此必須對其進行較為嚴格的質量控制。但總混液在整個生產流程中存在時間較短,而傳統的分析方法耗時較長,難以滿足快速判別的要求,因此,有必要發展一種能夠對總混液,特別是其兩個重要的特征參數:濃度和pH值進行快速判別的技術。文獻[3-4]報道利用紫外光譜結合支持向量機分類方法對清開靈注射液四混體和六混體的質量進行鑒別,對解決類似問題有較好的借鑒意義。本試驗嘗試采用近紅外光譜作為工具,采用SIMCA判別分析方法,實現了對不同濃度和pH值的總混液的快速識別,結果滿意。
1.1 儀器設備及數據處理軟件 Antaris MX FTNIR(Thermo Fisher公司,美國),配備手持式光纖探頭采樣裝置,RESULT 3.0光譜采集軟件。數據處理采用TQ Analyst V8.0化學計量學軟件。
1.2 實驗設計 從痰熱清注射液生產線上取總混液300 mL,60℃下旋轉蒸發,濃縮至150 mL(pH值約為7.3),置于大燒杯中,按照圖1所設計的3種途徑,不斷加入注射用水稀釋樣品,同時不斷加入10%的NaOH溶液調高樣品的pH值,最終將樣品稀釋至600 mL,pH值調至約8.7。調制過程中,在溶液中插入pH計和近紅外透反射探頭,原位記錄溶液pH值數值變化,同時采集近紅外光譜。圖1中共有9格,每一格代表一類樣品(格內的第1個字母描述溶液濃度,第2個字母描述溶液pH值,H,M,L分別表示高,中,低),高濃度低pH值的樣品分別經由1,2,3三種途徑調制為低濃度、高pH值的樣品。

圖1 9種不同類型樣品的配制方法Fig.1 The preparing method for the 9 different kinds of samples
1.3 光譜采集方法 利用Antaris MX FT-NIR光譜儀手持式光纖探頭采樣裝置的透反射模式采集光譜,將探頭插入溶液,每次稀釋溶液和加入NaOH溶液后,充分攪拌溶液,測定其pH值,待pH值穩定后采集其近紅外光譜,近紅外光譜儀的工作參數設置為:以儀器內置背景為參比,掃描次數為64次,分辨率為8 cm-1,增益為1×,光譜掃描范圍為10 000~4 000 cm-1。每組實驗重復3次,共得到9種不同類型的樣品共計200份,近紅外光譜疊加圖如圖2所示。

圖2 樣品的近紅外光譜圖疊加圖Fig.2 The NIR spectra of the tested samples
1.4 數據處理方法 SIMCA(Soft Independent Modeling of Class Analogy)方法是目前應用較為廣泛的一類模式識別方法[5-10],這種方法實質上是主成分分析(PCA)和馬氏距離的結合應用。它首先對樣品的光譜數據矩陣進行PCA,目的是將數據降維,用較少的變量去解釋原來資料中的大部分變異,以消除眾多信息共存中相互重疊的信息部分。使用PCA壓縮后的光譜數據代替原始光譜數據計算馬氏距離,不僅能反映全譜數據信息,而且也能壓縮參加計算馬氏距離的變量數,并能保證矩陣不存在共線問題。該方法的具體實現方法可參閱文獻[11]。本試驗采用TQ analyst V8.0數據處理軟件中的Discriminant analysis功能對所得樣品光譜進行處理,這一功能先對樣品光譜進行預處理和PCA,然后設定合適的馬氏距離閾值,判斷樣品所屬的類型。選擇所得光譜中132份樣品組成校正集,其余68份樣品作為驗證集。利用驗證集對模型的穩定性進行外部檢驗,來評價模型對樣品預測的性能。
2.1 光譜預處理方法 所得近紅外光譜中不僅包含有效信息,還包括由于散射效應引起的光譜偏差和噪音信號,這些干擾導致直接采用原始光譜建模效果不理想,因此必須對光譜進行預處理[12]。不同的光譜預處理方法對模型預測的準確度影響較大,本文比較了多元散射校正(MSC),標準正則變換(SNV),S-G(Savitzky-Golay filter)平滑,Nd(Norris derivative filt)平滑,1stD(1階求導),2ndD(2階求導)等光譜預處理方法,以判別分析的準確度為判據,不同光譜預處理方法所建模型的預測準確度列于表1中,經過比較,選用SNV+S-G+1stD組合對原始光譜進行預處理,其中S-G平滑采用7點3階平滑。

表1 不同光譜預處理方法對所得模型預測準確度的影響Table 1 The influence of different spectra pretreated methods to the predictive accuracy of the established models
2.2 模型建立 對預處理后的近紅外光譜進行PCA,前兩個主成分的累積方差貢獻率達到93.2%,所以可以認為樣本點在PC1-PC2二維平面上的投影分布可以充分表征樣本在超維空間中的分布特征。所得PC1-PC2的散點圖如圖3所示,由圖3可以看出,各類不同樣品的數據點得到聚合,界限明顯,可以將校正集中的9類樣品進行明確分類,表明所選擇的光譜預處理方法和分類方法是有效的。圖3中位于橢圓內的數據點代表正常狀態下的總混液(MM),濃度和pH都在正常范圍內,其余類型的數據點代表其他不同狀態的總混液。實驗設計中3種調制途徑可以在圖3中得到清晰的反映。

圖3 SIMCA模型對校正集樣品的分類結果Fig.3 The classification result of the samples in the calibration set with SIMCA method
2.3 模型的驗證 對各類樣品設定合適的馬氏距離閾值作為判別標準,利用所建的SIMCA判別分析模型對驗證集樣品進行判斷,驗證集的68份樣品中,64份樣品得到了準確分類,準確率為94.1%。未能準確分類的樣品均處于相鄰類型樣品的交界處,難以進行明確分類。驗證集中各類樣品的真實個數和判別分析得到的個數如圖4所示,圖4中可見,模型對正常樣品(MM)識別的準確率為100%。另取實際生產過程中的樣品12份,采用所建模型進行判別,判斷結果均為正常樣品(MM),表明痰熱清注射液配液生產過程中總混液的質量總體來說是較為穩定的。

圖4 驗證集中各類樣品的真實個數和模型判別得到的個數統計圖Fig.4 The actual and predicted numbers of different samples in the validation set
近紅外光譜的吸收強度實質上反映的是待測物質中各種化學成分的含量,對于痰熱清總混液這一特定的分析對象而言,樣品的稀釋倍數和溶液的pH值變化都會引起溶液中各種成分的變化,因而可在近紅外光譜上得到反映。本試驗提出的基于近紅外光譜的痰熱清注射液中間體的判別分析方法不僅可以快速判斷出樣品是否處于正常狀態,而且可以判斷不正常樣品的問題所在,從而能夠實現樣品狀態的快速判斷,并通過及時調整稀釋倍數和NaOH溶液的加入量,確保中間體處于正常狀態,對生產起到一定的指導作用。
[1]Wu Taixiang,Yang Xunzhe,Zeng Xiaoxi,et al.Traditional Chinese medicine in the treatment of acute respiratory tract infections[J].Respir Med,2008,102(8):1093-1098.
[2]于 強.痰熱清注射液臨床應用近況[J].時珍國醫國藥,2007,18(4):990-993.
[3]朱向榮,李 娜,史新元,等.支持向量機與紫外光譜法用于鑒別清開靈注射液六混中間體[J].光譜學與光譜分析,2008,28(7):1626-1629.
[4]朱向榮,李 娜,史新元,等.最小二乘支持向量機算法與紫外光譜法用于鑒別清開靈注射液四混中間體[J].分析化學,2008,28(6):770-774.
[5]褚小立,袁洪福,陸婉珍.光譜結合主成分分析和模糊聚類方法的樣品聚類與識別[J].分析化學,2000,28(4):421-427.
[6]王家俊,汪 帆,馬 玲.SIMCA分類法與PLS結合近紅外光譜應用于卷煙紙質量控制[J].光譜學與光譜分析,2006,26(10):1858-1862.
[7]楊 忠,江澤慧,費本華,等.SIMCA法判別分析木材生物腐朽的研究[J].光譜學與光譜分析,2007,27(4):686-690.
[8]陳 斌,鄒賢勇,朱文靜.PCA結合馬氏距離法剔除近紅外異常樣品[J].江蘇大學學報:自然科學版,2008,29(4):278.
[9]Woo Y,Cho C,Kim H,et al.Classification of cultivation area of ginseng by near infrared spectroscopy and ICP-AES[J].Microchem J,2002,73:299.
[10]Woo Y,Kim H,Ryon K,et al.Near-infrared(NIR)spectroscopy for the non-destructive and fast determination of geographical origin of Angelicae gigantis Radix[J].J Pharm Biomed Anal,2005,36:955.
[11]陳全勝,趙杰文,張海東,等.SIMCA模式識別方法在近紅外光譜識別茶葉中的應用[J].食品科學,2006,27(4):186-189.
[12]褚小立,袁洪福,陸婉珍.近紅外分析中光譜預處理及波長選擇方法進展與應用[J].化學進展,2004,16(4):528-542.