張永超,徐芳芳*,李執棟,李秀梅,吳 云,劉洪波,王振中,張 欣*
基于廣義路徑追蹤算法建立桂枝茯苓膠囊和天舒膠囊中間體水分的近紅外光譜通用定量模型
張永超1, 2,徐芳芳1, 2*,李執棟1, 2,李秀梅2,吳 云1, 2,劉洪波1, 2,王振中1, 2,張 欣1, 2*
1. 中藥制藥過程控制與智能制造技術全國重點實驗室,江蘇 連云港 222001 2. 江蘇康緣藥業股份有限公司,江蘇 連云港 222001
以桂枝茯苓膠囊(Guizhi Fuling Capsules,GFC)和天舒膠囊(Tianshu Capsule,TC)為研究對象,將近紅外光譜(near-infrared spectroscopy,NIRS)技術與機器學習算法結合,建立快速檢測2種制劑中間體水分的方法。采集GFC總混顆粒和TC總混顆粒的NIRS,考察不同的預處理方法、變量篩選方法及算法對模型的影響,篩選最佳建模條件,并對2種中間體建立1個水分NIRS通用定量模型。對同一中間體建立定量模型時,廣義路徑追蹤(generalized path seeker,GPS)算法均優于偏最小二乘(partial least square,PLS)算法;GPS通用模型與PLS通用模型相比,預測性能更高,驗證集相對偏差(relative standard errors of prediction,RSEP)由3.17%降至3.03%,性能偏差比(ratio of performance to deviation,RPD)由4.83升至5.05,可用于水分的預測,且與獨立模型的預測性能相差不大。GPS算法結合NIRS技術建立的通用定量模型,可快速、準確地檢測2種制劑中間體的水分。
桂枝茯苓膠囊;天舒膠囊;中間體;廣義路徑追蹤算法;偏最小二乘算法;近紅外光譜;機器學習算法;水分;通用模型;驗證集相對偏差;性能偏差比
水分是中藥制劑中間體質量評價的重要指標,中間體的水分含量會影響多種關鍵質量屬性,例如流動性、溶化性和崩解時間等,最終會影響藥物的穩定性[1-3]。常規水分檢測方法存在檢測時間長、分析效率低、樣品被破壞等缺點,同一樣品不能再次檢測,數據可追溯性較差。
近紅外光譜(near infrared spectroscopy,NIRS)主要由C-H、N-H、O-H和S-H等基團基頻振動的倍頻和合頻組成。將NIRS與化學計量法結合,能夠快速檢測化學成分含量及物理性質指標,目前已實現了對制劑中間體的水分[4]、粒徑[5]和成分含量[6]等關鍵質量屬性的快速檢測。但是,多數研究均是對1種中間體進行分析,最終只能實現快速檢測1種中間體的相關指標。NIRS通用模型是指針對1個共有指標建立1個NIRS模型,可以分析2種或2種以上的樣本,通用性強,穩健性更高,相比單一樣本NIRS模型,能夠節約更多成本。NIRS通用模型在食品和農產品檢測中應用較多[7],在中藥領域應用較少,僅有部分研究者針對不同的中藥材建立了水分[8]、成分含量[9]等共有指標的通用模型,說明對不同樣本建立通用模型具有一定的可行性。然而建立NIRS通用模型的算法較為單一,多數研究均基于常規的偏最小二乘(partial least square,PLS)算法建立模型,采用廣義路徑追蹤(generalized path seeker,GPS)算法結合NIRS技術的應用未見報道。
GPS算法是一種高度多樣化的正則化回歸,是Jerome H. Friedman于2008年發明的,主要用于處理連續或二元數據,并產生若干路徑的回歸或邏輯回歸模型,其性能優于多數其他類型的回歸模型。本研究以桂枝茯苓膠囊(Guizhi Fuling Capsules,GFC)和天舒膠囊(Tianshu Capsule,TC)為研究對象,嘗試將GPS算法與NIRS技術結合,建立一個快速檢測2種中間體水分的通用模型。
Antaris II型傅里葉近紅外變換光譜儀,配有積分球漫反射采樣系統、Result光譜采集軟件,美國Thermo公司;XY-105MW型快速水分測定儀,常州市幸運電子設備有限公司;ME104E型電子天平,梅特勒-托利多儀器(上海)有限公司。
63批桂枝茯苓膠囊總混顆粒(GFCKL),批號為220801~220817、220901~220914、221001、221002、221201~221211、230101~230108、230201~230211;60批天舒膠囊總混顆粒(TCKL),批號為220801~220811、220901~220908、221001~221006、221101~221112、230101~230110、230201~230213,均由江蘇康緣藥業股份有限公司提供。
取6 g左右樣品,置于配備的樣品杯里,輕輕壓實,采用積分球漫反射方式采集NIRS。掃描范圍為10 000~4000 cm?1,分辨率為8 cm?1,2倍增益,掃描次數64次,以空氣為背景,每小時掃描1次背景。每個樣品掃描3次,平均值用于分析。
精密稱取2.0 g待測樣品,均勻平鋪于水分測定儀樣品盤上,在105 ℃下加熱10 min,根據儀器讀數即得。每個樣品測量3次,平均值用于分析。
NIRS質量會受到各種因素影響,例如環境溫濕度、儀器狀態和顆粒粒度等,最終獲得的NIRS會存在噪聲信號、基線漂移等現象。為了消除無關信息,提高模型的穩健性,通常在建模前對NIRS進行合適的預處理。常見的預處理方法有矢量歸一化法,標準正態變量變換法(standard normal variate transformation,SNV)、多元散射校正(multiplicative scatter correction,MSC)、導數法(一階求導、二階求導)、卷積平滑法(Savitzky-Golay,S-G)、基線校正和去趨勢法等。矢量歸一化法能增強光譜差異,校正由光程或樣品稀釋等導致的光譜變化;MSC和SNV可以消除樣品顆粒分布不均帶來的干擾;導數法可以消除基線漂移和背景干擾;卷積平滑法能夠有效去除噪聲[10]。
GPS算法以正態多元回歸的形式建立高質量的線性模型,它利用廣譜的彈性系數建立多個候選線性模型,初始模型沒有預測變量,之后在每一步中添加1個新變量或者更新現有變量的1個系數,建立若干個步數不同的路徑模型,并自動篩選最優線性模型,從速度和覆蓋率2個方面顯著提升正則化回歸。其主要優勢之一是能夠有效處理具有大量預測因子和相對較少觀測值的數據矩陣,并能很好地處理高度相關的預測因子。相對傳統回歸,GPS模型性能會更好、更穩定,能夠應對大數據高緯度降維的挑戰,但也有一些局限性,該算法不能自動發現非線性因素、預測因子之間的交互作用等。
不同于傳統回歸模型,GPS算法使用彈性懲罰函數族作為數學工具來實施不同的變量選擇策略,彈性懲罰函數族是由彈性的實數參數來定義。彈性可以設置為0和2(包括0和2)之間的任何實數,并在數學上對得到的路徑解施加具有不同稀疏度的變量選擇策略。無論選擇的彈性的實際值是多少,任何路徑最終都將達到(至少在理論上)完整預測集合中的最優解,關鍵的區別在于路徑如何到達該點,以及在各種變量中引入或調整系數的力度有多大。同時,由稀疏策略產生的路徑可能由于路徑迭代、調整率以及其他因素的限制而過早終止。本研究中GPS模型的彈性懲罰函數族設置為0.0、1.0、1.1、2.0,路徑迭代參數設置為迭代速度為1,學習率為0.001,以均方誤差(mean square error,MSE)為評價指標自動篩選最優系數路徑模型。
采用Unscrambler 11.0(Camo Analytics AS,Norway)軟件進行主成分分析(principal component analysis,PCA)、NIRS預處理及PLS模型建立,采用SPM 8.3(Salford Systems,USA)軟件建立GPS模型。本研究以樣本水分為因變量,以對應的NIRS值為自變量,分別采用PLS算法與GPS算法建立通用定量模型。以校正集相關系數(correction set correlation coefficient,cal)、驗證集相關系數(verification set correlation coefficient,pre),校正均方根誤差(root mean square errors of calibration,RMSEC)、交叉驗證均方根誤差(root mean square errors of cross validation,RMSECV),驗證均方根誤差(root mean square errors of prediction,RMSEP)、驗證集相對偏差(relative standard errors of prediction,RSEP)和性能偏差比(ratio of performance to deviation,RPD)為指標評價模型性能。cal、pre越大,模型相關性越高,RMSEC和RMSECV越小且較接近時,校正模型性能越高;RMSEP較小、RPD較大時,模型預測性能較高;當RPD>3時,表示模型預測精度高[12]。本研究采用留一交叉驗證法,以殘余方差為評價指標確定PLS模型的主成分數[13]。本研究以交叉驗證的MSE為評價指標確定最優路徑的GPS模型。
對先收集的111個樣品的NIRS進行PCA,前2個主成分可以解釋90%的光譜信息,主成分得分圖見圖1。2種中間體分布較集中,沒有明顯聚集成2類,提示2種中間體的NIRS相似度較高,推測對NIRS相似度較高的中間體建立1個通用定量模型具有一定的可行性。
2.7.1 樣本劃分 對先收集的111個樣品,包括57批GFCKL和54批TCKL,采用隨機抽樣法,按照4∶1劃分校正集與驗證集,劃分結果見表1。驗證集中參考值范圍包含于校正集中,表明該劃分較為合理。
2.7.2 光譜預處理方法的選擇 中間體的原始NIRS見圖2。由圖2-B可知,2種中間體的NIRS較為相似,在5000 cm?1和7000 cm?1附近均有較強的信號吸收,與O-H的伸縮振動相符[14-15]。圖2-C為不同水分樣本的NIRS變化圖,隨著水分含量的增加,吸光度在5000~7000 cm?1呈現增長趨勢。

圖1 111批樣品的主成分得分圖

表1 樣品校正集與驗證集水分參考值范圍
本研究考察了以下預處理方法:SNV、MSC、基線校正、歸一化、去趨勢、一階求導結合SG平滑法(S-G 1st)、SNV+S-G 1st、MSC+S-G 1st和歸一化+S-G 1st,不同預處理方法對模型性能的影響見表2。以RPD與RSEP為評價標準,綜合其他指標優選最佳預處理方法。GFCKL模型中,采用歸一化結合一階求導SG平滑法預處理方法最佳,RPD為3.83,RSEP為3.14%;TCKL模型中,采用基線校正預處理后建模性能最佳,RPD為4.30,RSEP為3.33%;通用模型中,采用SNV預處理后模型性能最佳,RPD為4.83,RSEP為3.17%。

A-111個樣品的原始NIRS B-2種中間體的平均光譜 C-不同水分樣本的光譜圖

表2 不同預處理方法對PLS模型的影響

續表2
2.7.3 特征變量篩選 篩選特征變量可以剔除無關信息,提高模型性能。本研究在上述篩選出的最佳預處理方法基礎上進一步篩選特征變量。主要考察了以下變量篩選方法:間隔偏最小二乘法(interval PLS,iPLS),組合間隔偏最小二乘法(synergy interval PLS,siPLS)和移動窗口偏最小二乘法(moving window PLS,mwPLS)。
iPLS[16]是將全光譜劃分成若干個子區間,然后在每個子區間進行建模。本研究是將光譜劃分成20個區間,以RMSECV為評價指標,選出最佳光譜區間。siPLS[17]是將全光譜劃分成若干個子區間后,再將子區間任意組合進行建模。本研究是將全光譜劃分成20個區間,以組合數為4,以RMSECV為評價指標,選出最佳光譜區間。mwPLS[18]是從整個光譜的第1個波長點開始移動,沿波長變化方向截取選定窗口寬度的區間,建立一系列的PLS模型。本研究是以全波長的10%(155個波數)為窗口,以RMSECV為評價指標,選出最佳光譜區間。
本研究采用上述方法篩選變量后建模,結果見表3。GFCKL模型中,采用mwPLS法篩選變量后模型的性能提升最多,最佳建模區間為4 157.77~ 5 230.00 cm?1,在5170 cm?1處的強吸收峰是水分子伸縮振動和彎曲震動的組合頻譜帶,包含上述區間內;TCKL模型和通用模型,經不同方法篩選變量后,RSEP均變大,RPD均變小,模型預測性能均降低,最佳建模區間均為3 999.64~10 001.03 cm?1。

表3 不同變量篩選方法對PLS模型的影響

續表3
2.8.1 樣本劃分 方法和結果同“2.7.1”項。
2.8.2 光譜預處理方法的選擇 考察不同的預處理方法對模型的影響,所用方法同“2.7.2”項,結果見表4。GFCKL模型中,MSC結合一階求導SG平滑法預處理方法最佳,RPD為6.69,RSEP為1.80%;TCKL模型中,采用基線校正預處理光譜最佳,RPD為4.84,RSEP為2.96%;通用模型中,采用SNV結合一階求導SG平滑法預處理光譜最佳,RPD為5.05,RSEP為3.03%。
2.8.3 特征變量篩選 基于上述篩選的最佳預處理方法,進一步篩選特征變量。按照變量重要性排序,通過軟件自動剔除最不重要的變量,重新建模。以交叉驗證的MSE和決定系數(coefficient of determination,2)為評價指標優選最佳模型,篩選變量過程見圖3。GFCKL模型中,隨著變量個數減少,2呈現增大趨勢,MSE呈現減小趨勢,當變量個數減少至11時,2達到最大值0.983,MSE最小為0.012,認為此時的模型最優;TCKL模型中,當變量個數減少至6時,2達到最大值0.949,MSE最小為0.033;通用模型中,當變量個數減少至22時,2達到最大值0.971,MSE為最小值0.021。

表4 不同預處理方法對GPS模型的影響

續表4

圖3 變量篩選過程中模型性能變化趨勢
由表5知,GFCKL模型和通用模型經變量篩選后,RSEP變大,RPD變小,模型預測性能降低,最佳建模區間均為3 999.64~10 001.03 cm?1;TCKL模型經變量篩選后,模型性能提升,因此,最佳建模波數為5 129.72、5 546.27、8 161.27、8 450.54、8 469.83、9 403.20 cm?1。在5170、5350 cm?1處的強吸收峰是水分子伸縮振動和彎曲震動的組合頻譜帶,篩選出的波數5 129.72、5 546.27 cm?1在此吸收峰附近;在8310 cm?1附近存在較弱的吸收峰,篩選出的波數8161.27、8 450.54、8 469.83 cm?1在此吸收峰附近。
分別采用2種算法建立的模型如表6所示。對同一中間體建立定量模型時,GPS算法模型均優于PLS算法模型,可能是因為GPS算法更擅長高緯度降維,面對較多維度的光譜數據更具有優勢,認為GPS算法為最佳建模算法。
采用上述篩選的最佳算法建立定量模型,結果見表7和圖4。各模型的cal、pre接近于1,說明參考值與預測值相關性較高;RMSEC、RMSECV、RMSEP較小,RPD大于3,RSEP小于5%,說明獨立模型和通用模型的預測性能均較高,均可用于預測水分。
將后收集的12批樣品作為外部驗證樣本導入GPS模型中,包括6批GFCKL和6批TCKL,預測中間體的水分,并與參考值進行比較,結果見表8。獨立模型和通用模型的平均相對預測誤差(average relative prediction error,ARPE)均小于5%,說明2種模型的預測準確性較高。同時,獨立模型和通用模型對同一中間體的ARPE差值小于2%,說明2種模型預測性能相差較小,通用模型可以代替獨立模型快速預測2種中間體水分。

表5 不同變量篩選方法對GPS模型的影響

表6 2種算法模型比較

表7 最佳GPS模型的評價參數

圖4 參考值與預測值的相關性
本研究以GFC和TC為研究對象,考察了不同預處理方法和不同變量篩選方法對模型的影響,并采用GPS和PLS 2種算法建立了中間體水分的NIRS通用定量模型。結果表明:(1)GPS算法比PLS算法表現更優,對相同中間體建立模型時,GPS算法模型的預測性能更高;(2)采用GPS算法建立通用模型與獨立模型時,2種模型預測性能相差較小,均可用于預測2種中間體的水分。

表8 獨立模型與通用模型ARPE比較
對不同品種中間體能夠成功建立通用模型,推測有以下原因:(1)本研究中2種制劑中間體的NIRS相似度較高,這可能是建立通用模型的前提條件;若再納入更多制劑中間體再建模,能否可行還有待探索。(2)使用全光譜建模可能是關鍵,本研究中的2種算法模型,均是采用全光譜建模效果最佳。分析認為全光譜信息豐富,不會造成關鍵信息丟失,可能更利于通用模型的建立。(3)NIRS對水分子的吸收較為明顯,一般在5000 cm?1和7000 cm?1附近存在較強的吸收峰,使得光譜信息包含較多的水分信息,因此,NIRS與水分的關聯性較強,利于對不同含水量的樣本建立通用模型。本研究中GPS算法模型均優于PLS算法模型,可能是因為GPS算法能夠自動建立多個線性模型,且自動優選最佳模型,能更好應對高維度的光譜數據。由于本研究樣本量較少,后續將納入更多樣本對2種算法再驗證與比較。相比獨立模型,通用模型在模型建立、維護、更新等方面等會節省較多成本。目前,在制藥領域,近紅外通用模型研究較少,通用的深層次機理還需要進一步探索。本研究首次嘗試將GPS算法與NIRS技術結合,成功建立了快速檢測2個不同品種中間體水分的通用模型,模型的準確性優于常用的PLS模型,提示在建模研究中,可以采用多種算法提高模型的預測性能,為NIRS技術在定量模型研究方面提供新思路。
利益沖突 所有作者均聲明不存在利益沖突
[1] Faulhammer E, Llusa M, Radeke C,. The effects of material attributes on capsule fill weight and weight variability in dosator nozzle machines [J]., 2014, 471(1/2): 332-338.
[2] 汪盛華, 秦春娟, 安雙鳳, 等. 水提干法制粒的中藥配方顆粒溶化性與粉體物理屬性相關性研究 [J]. 中草藥, 2023, 54(5): 1439-1448.
[3] 夏春燕, 徐冰, 徐芳芳, 等. 天舒片素片崩解時間實時放行檢驗研究 [J]. 中國中藥雜志, 2020, 45(2): 250-258.
[4] 李民, 張春輝, 劉春蘭, 等. 近紅外光譜法測定骨龍膠囊中間體粉末中水分 [J]. 現代藥物與臨床, 2019, 34(8): 2280-2282.
[5] 張永超, 徐芳芳, 張欣, 等. 腰痹通膠囊4種中間體粒徑的近紅外光譜通用定量模型研究 [J]. 中草藥, 2021, 52(1): 55-64.
[6] 宋僑, 胡俊杰, 白玉, 等. 馬應龍麝香痔瘡膏中間體中煅爐甘石與冰片近紅外含量模型建立 [J]. 藥學研究, 2020, 39(1): 16-21.
[7] 李明, 韓東海, 魯丁強, 等. 近紅外光譜通用模型在農產品及食品檢測中的研究進展 [J]. 光譜學與光譜分析, 2022, 42(11): 3355-3360.
[8] 馬卉, 馮雪靜, 陳明, 等. 近紅外光譜結合化學計量學快速測定藍芩口服液原藥材水分含量 [J]. 中國現代應用藥學, 2021, 38(23): 2932-2939.
[9] 張絲雨. 基于近紅外光譜技術的一清膠囊原藥材質量控制研究 [D]. 杭州: 浙江大學, 2020.
[10] 褚小立, 袁洪福, 陸婉珍. 近紅外分析中光譜預處理及波長選擇方法進展與應用 [J]. 化學進展, 2004, 16(4): 528-542.
[11] Friedman J H. Fast sparse regression and classification [J]., 2012, 28(3): 722-738.
[12] 張娜, 徐冰, 賈帥蕓, 等. 丹參提取過程多源信息融合建模方法研究 [J]. 中草藥, 2018, 49(6): 1304-1310.
[13] 劉燕德, 黎麗莎, 李斌, 等. 多品種蘋果可溶性固形物近紅外無損檢測通用模型研究 [J]. 華中農業大學學報: 自然科學版, 2022, 41(2): 237-244.
[14] Rantanen J, Antikainen O, Mannermaa J P,. Use of the near-infrared reflectance method for measurement of moisture content during granulation [J]., 2000, 5(2): 209-217.
[15] Ma L J, Peng Y F, Pei Y L,. Systematic discovery about NIR spectral assignment from chemical structural property to natural chemical compounds [J]., 2019, 9(1): 9503.
[16] 吳靜珠, 石瑞杰, 陳巖, 等. 食用油油酸的近紅外特征譜區優選 [J]. 中國糧油學報, 2015, 30(2): 118-121.
[17] 徐芳芳, 杜慧, 張欣, 等. 在線中紅外光譜監測熱毒寧注射液金銀花與青蒿醇沉過程7種指標成分研究 [J]. 中草藥, 2021, 52(10): 2909-2917.
[18] 劉秋安, 徐芳芳, 張欣, 等. 基于近紅外光譜技術和分類與回歸樹算法建立天舒片崩解時間預測模型 [J]. 中草藥, 2021, 52(16): 4837-4843.
Based on generalized path seeker algorithm to establish near infrared universal quantitative model of moisture content in intermediates of Guizhi Fuling Capsules and Tianshu Capsules
ZHANG Yong-chao1, 2, XU Fang-fang1, 2, LI Zhi-dong1, 2, LI Xiu-mei2, WU Yun1, 2, LIU Hong-bo1, 2, WANG Zhen-zhong1, 2, ZHANG Xin1, 2
1. National Key Laboratory on Technologies for Chinese Medicine Pharmaceutical Process Control and Intelligent Manufacture, Lianyungang 222001, China 2. Jangsu Kanion Pharmaceutical Co., Ltd., Lianyungang 222001, China
Taking Guizhi Fuling Capsules (GFC, 桂枝茯苓膠囊) and Tianshu Capsules (TC, 天舒膠囊) as research objects, a rapid method for detecting the moisture content of two preparation intermediates was established by combining near-infrared spectroscopy (NIRS) technology with machine learning algorithms.The NIRS of GFC total mixed particles and TC total mixed particles were collected. The effects of different preprocessing methods, variable screening methods and algorithms on the model were investigated. The optimal modeling conditions were selected to establish a universal NIRS quantitative model for moisture content of two intermediates.The generalized path seeker (GPS) algorithm was superior to the partial least squares (PLS) algorithm in establishing quantitative models for the same intermediate. Compared with the PLS universal model, the GPS universal model had higher predictive performance, with the relative standard errors of prediction (RSEP) decreasing from 3.17% to 3.03%, and the ratio of performance to deviation (RPD) increasing from 4.83 to 5.05. The GPS universal model could be used to predict the moisture content of intermediates, and there was little difference in prediction accuracy between GPS and that of the independent models.The universal quantitative model established by GPS algorithm combined with NIRS technology could quickly and accurately determine the moisture content of two preparation intermediates.
Guizhi Fuling Capsules; Tianshu Capsules; intermediate; generalized path seeker; partial least square; near infrared spectrum; machine learning algorithms; moisture; universal model; relative standard errors of prediction; ratio of performance to deviation
R283.6
A
0253 - 2670(2023)22 - 7436 - 09
10.7501/j.issn.0253-2670.2023.22.020
2023-04-06
連云港市重大技術攻關“揭榜掛帥”項目:中藥口服固體制劑智能化連續制造關鍵技術研究(CGJBGS2101)
張永超,碩士,研究方向為中藥制藥過程新技術。E-mail: zyc020896@163.com
通信作者:徐芳芳,博士,研究方向為中藥制藥過程新技術。E-mail: 879164331@qq.com
張 欣,博士,研究方向為中藥制藥過程新技術。E-mail: zxtcm@126.com
[責任編輯 鄭禮勝]