陶益,陳林,朱菲,潘美玲
浙江工業(yè)大學(xué) 藥學(xué)院,浙江 杭州 310014
1928 年,印度科學(xué)家Raman 根據(jù)激發(fā)光子在分子表面發(fā)生非彈性散射的現(xiàn)象,提出了拉曼光譜分析技術(shù),用來(lái)獲取分子結(jié)構(gòu)及化學(xué)官能團(tuán)信息[1]。拉曼光譜分析技術(shù)彌補(bǔ)了紅外光譜在非極性分子檢測(cè)上的缺陷,提供的譜圖分辨率高、峰形尖銳,并因其快速、便攜及無(wú)損等檢測(cè)優(yōu)點(diǎn),在食品、化纖、納米材料、藝術(shù)、考古等多個(gè)領(lǐng)域廣泛應(yīng)用[2-4]。在醫(yī)藥領(lǐng)域,拉曼光譜分析技術(shù)也有所應(yīng)用,但多為化學(xué)藥成分檢測(cè)[5],在中藥領(lǐng)域的應(yīng)用仍然處于摸索階段。本文從拉曼光譜的圖譜預(yù)處理、峰歸屬、特征波段提取及深度學(xué)習(xí)算法等角度,總結(jié)了拉曼光譜分析技術(shù)在礦物藥鑒別、中藥產(chǎn)地分類、含量測(cè)定、中成藥生產(chǎn)過(guò)程軌跡和終點(diǎn)控制中的應(yīng)用,并對(duì)5G和人工智能視域下拉曼光譜分析技術(shù)在中藥制藥過(guò)程質(zhì)量控制中的應(yīng)用進(jìn)行展望。
單色光照射非離子結(jié)構(gòu)的物體時(shí),并非所有的光都發(fā)生瑞利散射,有一小部分光會(huì)因?yàn)楸徽丈湮矬w中分子振動(dòng)和轉(zhuǎn)動(dòng)而改變發(fā)射波長(zhǎng),這部分改變發(fā)射波長(zhǎng)的光形成的光譜圖就是拉曼光譜。包括波長(zhǎng)變長(zhǎng)的斯托克斯拉曼散射和波長(zhǎng)變短的反斯托克斯拉曼散射。利用拉曼譜圖的特征峰進(jìn)行快速定性分析,通過(guò)人工智能算法進(jìn)行準(zhǔn)確定量分析。
與液質(zhì)聯(lián)用相比,拉曼光譜分析技術(shù)檢測(cè)無(wú)損、快速和便攜,尤其對(duì)于貴重或是帶包裝的待測(cè)品,在保證待測(cè)樣品完整性的同時(shí),又節(jié)省檢測(cè)時(shí)間。而液質(zhì)聯(lián)用前處理復(fù)雜、液相條件優(yōu)化耗時(shí)且儀器昂貴不易挪動(dòng)。
與近紅外光譜相比,拉曼光譜是散射光譜,信號(hào)較弱,光譜為40~4000 cm-1,主要用于研究非極性基團(tuán)與骨架的對(duì)稱振動(dòng),可測(cè)水溶液;而近紅外光譜是吸收光譜,是由含氫原子團(tuán)伸縮振動(dòng)的倍頻及合頻吸收產(chǎn)生,光譜為4000~12 800 cm-1,信號(hào)較強(qiáng),主要用于研究極性基團(tuán)的非對(duì)稱振動(dòng),不適用于水溶液的測(cè)定。拉曼光譜和近紅外光譜在實(shí)際應(yīng)用中可以互補(bǔ)。
拉曼光譜原始譜圖在去電噪聲、雜散光及樣品背景后,需要進(jìn)行基線矯正和預(yù)處理。常用的光譜預(yù)處理方法:1)平滑處理,可以消除噪音,包括廂車平均法、移動(dòng)窗口平均法和Salvitzky-colay 法(SG);2)基線校正,通過(guò)一階(first derivative,F(xiàn)D)/二階(second derivative,SD)導(dǎo)數(shù)法可以分辨重疊峰、弱峰;3)多元散射矯正(multiple scatter correction,MSC),能消除待測(cè)物顆粒分布不均勻和大小不同產(chǎn)生的散射,也有降低基線偏移的能力,并且不會(huì)降低信噪比;4)標(biāo)準(zhǔn)正態(tài)變量校正(standard normal variate correction,SNV),用來(lái)校正樣品因顆粒散射而引起的光譜誤差,以上預(yù)處理方法常常組合使用。
中藥拉曼光譜特征峰的歸屬一直是一個(gè)難題,一般是通過(guò)搜索文獻(xiàn)或與對(duì)照品進(jìn)行比對(duì)歸屬,費(fèi)時(shí)費(fèi)力,構(gòu)建中藥拉曼數(shù)據(jù)庫(kù)刻不容緩。建立中藥拉曼數(shù)據(jù)庫(kù)有2 個(gè)挑戰(zhàn):1)中藥飲片種類基數(shù)龐大,有效成分復(fù)雜,對(duì)照品不足[6]。2)中藥成分中同分異構(gòu)體較多,同一分子在構(gòu)象上的差異也會(huì)使得拉曼光譜有所不同,使部分特征峰的位置發(fā)生偏移。針對(duì)這一問(wèn)題,Liang 等[7]提出,將拉曼圖譜預(yù)處理上傳至云端之后,采用深度學(xué)習(xí)方法進(jìn)行識(shí)別,提取關(guān)鍵特征峰進(jìn)行匹配,方便檢索者進(jìn)行拉曼峰指認(rèn)。拉曼光譜分析技術(shù)的云架構(gòu)平臺(tái)見(jiàn)圖1。采用手持式或便攜式拉曼光譜儀器采集中藥生產(chǎn)過(guò)程中間體拉曼光譜數(shù)據(jù),之后,將拉曼光譜數(shù)據(jù)通過(guò)5G 網(wǎng)絡(luò)上傳到云平臺(tái),并分配給深度學(xué)習(xí)模型以執(zhí)行數(shù)據(jù)訓(xùn)練、自學(xué)習(xí)和參數(shù)優(yōu)化,最后對(duì)生產(chǎn)過(guò)程軌跡和終點(diǎn)控制進(jìn)行實(shí)時(shí)反饋。深度學(xué)習(xí)算法和拉曼光譜的融合將為中藥生產(chǎn)智慧化發(fā)展提供強(qiáng)有力的技術(shù)支撐和保障。

圖1 拉曼光譜分析技術(shù)的云平臺(tái)架構(gòu)
為了建立有效、可靠的模型,需要對(duì)拉曼光譜特征波段進(jìn)行提取,主要波段提取方法包括競(jìng)爭(zhēng)性自適應(yīng)重加權(quán)算法(competitive adaptive reweighted sampling,CARS)、連續(xù)投影算法(successive projection algorithm,SPA)、無(wú)信息變量消除法(uninformative variable elimination,UVE)和間隔偏最小二乘法(synergy interval partial least squares,siPLS)[8]。
眾所周知,拉曼光譜在進(jìn)行中藥多成分混合物分析時(shí)會(huì)產(chǎn)生大量的振動(dòng)光譜數(shù)據(jù),需要采用機(jī)器學(xué)習(xí)算法進(jìn)行建模,主要機(jī)器學(xué)習(xí)算法包括偏最小二乘回歸(PLSR)、極限學(xué)習(xí)機(jī)(ELM)、支持向量機(jī)(SVM)、人工神經(jīng)網(wǎng)絡(luò)(ANN)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)等。
2006年,Hinton等[9]采用預(yù)訓(xùn)練方法解決了神經(jīng)網(wǎng)絡(luò)只能得到局部最優(yōu)化的問(wèn)題,將隱含層推動(dòng)到了7 層,神經(jīng)網(wǎng)絡(luò)真正意義上有了“深度”,由此揭開(kāi)了深度學(xué)習(xí)的熱潮,隨后的深度信念網(wǎng)絡(luò)(DBN)、遞歸神經(jīng)網(wǎng)絡(luò)(RNN)、長(zhǎng)短期記憶人工神經(jīng)網(wǎng)絡(luò)(LSTM)等才逐漸出現(xiàn)。CNN 是目前運(yùn)用較多的深度學(xué)習(xí)算法,包括卷積運(yùn)算、池化運(yùn)算、全連接運(yùn)算和識(shí)別運(yùn)算這4 個(gè)基本運(yùn)算單元。拉曼光譜數(shù)據(jù)無(wú)需進(jìn)行預(yù)處理,可以直接進(jìn)行CNN 建模輸出結(jié)果。有文獻(xiàn)報(bào)道CNN比傳統(tǒng)的PLSR、SVM、ELM 等機(jī)器學(xué)習(xí)算法的建模效果更好,尤其是CNN在其模型架構(gòu)中采用了共享權(quán)重濾波器和池化層,使模型具有更高的特異性和敏感性[10]。
拉曼光譜在中藥礦物藥鑒別方面應(yīng)用較多[11]。硇砂是氯化物類鹵砂族礦物鹵砂,分為白硇砂和紫硇砂兩類,具有消積軟堅(jiān)、化腐生肌的功效。白硇砂又常與白礬、硼砂混淆,有研究者把拉曼光譜和另外2種光譜技術(shù)(X射線衍射和近紅外光譜)結(jié)合起來(lái),用于硇砂的快速鑒別[12]。白硇砂和紫硇砂的特征譜段都為1800~70 cm-1,白硇砂有5 個(gè)明顯的特征峰和3 個(gè)氯化銨的較弱特征峰;紫硇砂主要含有氯化鈉,表現(xiàn)為(345±7)cm-1處有寬型強(qiáng)峰。利用這些特征峰可以在混淆品中區(qū)分出白硇砂和紫硇砂。
除了氯化物類礦物藥,中藥中的硫酸鹽類礦物藥種類繁多,容易混淆。雷咪等[13]對(duì)6種含硫酸鹽礦物藥(白礬、膽礬、綠礬、石膏、玄精石、芒硝)及其炮制品進(jìn)行了拉曼光譜鑒別。首先采用矢量歸一化法對(duì)拉曼圖譜進(jìn)行預(yù)處理,再建立聚類模型,選擇一階導(dǎo)數(shù)和9 點(diǎn)平滑來(lái)減弱干擾、消除噪音。除了膽礬和綠礬因自身不同程度的顏色而具有強(qiáng)度不一的熒光干擾,僅能微弱區(qū)分之外,拉曼光譜在其他礦物藥及其炮制品的快速區(qū)分上表現(xiàn)出色。此外,有報(bào)道采用拉曼光譜分析技術(shù)對(duì)白礬、枯礬及其偽品(銨明礬)進(jìn)行了快速鑒別,白礬在990、974 cm-1有強(qiáng)吸收峰,而偽品無(wú)974 cm-1吸收峰[14]。
碳酸鹽類礦物藥是中藥礦物藥的重要組成部分。明晶等[15]采用拉曼光譜技術(shù)對(duì)4 種碳酸鈣類礦物藥(魚(yú)腦石、鵝管石、花蕊石、南寒水石)進(jìn)行區(qū)分,采用一階導(dǎo)數(shù)、多元散射校正和17 點(diǎn)平滑對(duì)拉曼光譜圖進(jìn)行預(yù)處理,消除干擾。然后,選擇特征波段,使用Ward算法進(jìn)行聚類分析,發(fā)現(xiàn)魚(yú)腦石和鵝管石未被區(qū)分,通過(guò)建立PLSR 模型進(jìn)行區(qū)分,模型預(yù)測(cè)準(zhǔn)確率達(dá)到90%。
部分礦物藥由于含有As、Hg、Pb 等有毒元素,需要進(jìn)行準(zhǔn)確鑒別。有報(bào)道采用拉曼光譜分析技術(shù)對(duì)朱砂、輕粉、雄黃、信石、密陀僧、鉛丹及硫黃7 種毒性礦物藥進(jìn)行鑒別,發(fā)現(xiàn)這7種毒性礦物藥拉曼光譜特征峰峰形尖銳,差異顯著,可以用來(lái)快速鑒別這7種毒性礦物藥[16]。
除了礦物類中藥,拉曼光譜技術(shù)在植物類中藥的鑒別中也發(fā)揮了重要作用。姜黃是姜科多年生草本植物姜黃的根莖,在抗腫瘤方面受到國(guó)內(nèi)外學(xué)者的高度重視。董晶晶等[17]使用拉曼光譜技術(shù)采集姜黃拉曼圖譜,進(jìn)行二階求導(dǎo),得到8 個(gè)較強(qiáng)的特征峰,對(duì)這些峰進(jìn)行歸屬發(fā)現(xiàn),其與已知的姜黃含有的碳水化合物、姜黃素類化合物、β-谷甾醇和脂肪酸是相符的,可以用于姜黃的快速鑒定。
中藥芍藥以其根入藥,有赤芍和白芍之分,兩者功效差異很大。白芍養(yǎng)血柔肝,赤芍清熱涼血。黃浩等[18]采用共聚焦顯微拉曼對(duì)赤芍、白芍的飲片和藥材水煎湯劑進(jìn)行比較,對(duì)圖譜進(jìn)行簡(jiǎn)單的5 點(diǎn)平滑處理后扣除熒光背景,發(fā)現(xiàn)有5 組拉曼信號(hào)在白芍藥材湯劑和飲片湯劑中同時(shí)存在,另有2 個(gè)拉曼光譜發(fā)生了頻移,從637、1636 cm-1頻移至633、1633 cm-1,剩余在于飲片中的拉曼峰則未曾在白芍藥材中見(jiàn)到重疊。赤芍與白芍的拉曼光譜差異較大,783、847、1091 cm-1等拉曼峰僅出現(xiàn)在白芍飲片湯劑的拉曼光譜中,而734、836、1072 cm-1等拉曼峰僅存在于赤芍飲片湯劑的拉曼光譜中,這表明共聚焦顯微拉曼可以用于赤芍和白芍飲片湯劑的鑒別和區(qū)分。
人參是中國(guó)傳統(tǒng)的滋補(bǔ)佳品,在韓國(guó)、美國(guó)及中國(guó)東北等地均有分布。Edwards等[19]對(duì)不同產(chǎn)地的人參進(jìn)行拉曼光譜分析發(fā)現(xiàn),西洋參在1600、1003 cm-1都有拉曼峰,而高麗參僅在1600 cm-1有拉曼峰,中國(guó)人參僅在1003 cm-1有拉曼峰。因此,通過(guò)拉曼光譜可以對(duì)人參的產(chǎn)地進(jìn)行識(shí)別。
黃芪是豆科植物膜莢黃芪和蒙古黃芪的干燥根,對(duì)心腦血管、消化、免疫等多種系統(tǒng)都有保護(hù)作用,還能降低血糖、抗腫瘤。黃浩等[20]采用拉曼光譜分析技術(shù)結(jié)合主成分回歸(PCR)和偏最小二乘回歸-判別分析(PLSR-DA)判別模型對(duì)5 個(gè)產(chǎn)地的黃芪進(jìn)行分類,該模型對(duì)于未知產(chǎn)地黃芪飲片的識(shí)別準(zhǔn)確度達(dá)到100%。上述例子說(shuō)明拉曼光譜結(jié)合PLSRDA可以實(shí)現(xiàn)黃芪產(chǎn)地的快速識(shí)別。
拉曼光譜不但可用于定性分析,而且可以進(jìn)行定量分析。陳龍等[21]對(duì)siPLS 算法的區(qū)間數(shù)進(jìn)行改進(jìn),將區(qū)間數(shù)減少到10,加快了最佳譜段選取過(guò)程;采用內(nèi)部交叉和外部驗(yàn)證交叉驗(yàn)證方法,其中預(yù)測(cè)系數(shù)(R2)更接近1,交叉驗(yàn)證均方差(RMSECV)和外部驗(yàn)證均方差(RMSEP)更小,模型效果更好。該模型RMSEP 為0.259,R2為0.977 9,為5種CaCO3類礦物藥(魚(yú)腦石、鵝管石、花蕊石、南寒水石、鐘乳石)的拉曼定量分析提供了可靠的方法。此外,該團(tuán)隊(duì)還采用相同的方法對(duì)紫石英中氟化鈣含量進(jìn)行測(cè)定[22]。
在中藥制藥過(guò)程中,實(shí)時(shí)獲取產(chǎn)品關(guān)鍵質(zhì)量屬性對(duì)中成藥的質(zhì)量控制非常重要。將工業(yè)生產(chǎn)設(shè)備通過(guò)光纖探頭耦合到拉曼光譜儀,可以實(shí)現(xiàn)中藥生產(chǎn)過(guò)程控制。靳磊等[8]使用便攜式拉曼光譜儀結(jié)合CARS-PLSR 建模,采集葡萄糖、麥芽糖、何首烏多糖及黨參多糖的拉曼特征峰,對(duì)穩(wěn)心顆粒中的總糖類成分進(jìn)行含量測(cè)定,并據(jù)此對(duì)穩(wěn)心顆粒提取工藝中多糖的生產(chǎn)過(guò)程軌跡變化進(jìn)行監(jiān)控,模型R2達(dá)到97.43%,接近于1。
水解是山羊角生產(chǎn)過(guò)程中的關(guān)鍵工藝步驟之一。有研究者建立了基于CNN 的在線拉曼光譜定量校準(zhǔn)模型,用于山羊角水解過(guò)程的終點(diǎn)監(jiān)測(cè)[10,23]。在建立PLSR模型時(shí),首先采用實(shí)驗(yàn)設(shè)計(jì)方法對(duì)拉曼光譜的預(yù)處理方法進(jìn)行優(yōu)化,包括SG平滑、一階導(dǎo)數(shù)和二階導(dǎo)數(shù)基線校正、散射校正和歸一化。同時(shí),比較肯納德-斯通(KS)算法和基于聯(lián)合X-Y 距離的樣本集劃分(SPXY)算法對(duì)校正集模型的影響。PLSR 模型的RMSEP 為0.759 9,R2為0.988 4,而CNN 模型的RMSEP 為2.579 3,R2為0.987 0,上述結(jié)果說(shuō)明,CNN 模型和PLSR 模型的預(yù)測(cè)能力相當(dāng),這可能和數(shù)據(jù)量太少有關(guān)。一般來(lái)說(shuō),基于CNN 的深度學(xué)習(xí)模型在大數(shù)據(jù)的建模中會(huì)優(yōu)于常規(guī)的機(jī)器學(xué)習(xí)算法。
拉曼光譜分析技術(shù)在中藥鑒定、產(chǎn)地分類方面的應(yīng)用較多,而在中藥制藥過(guò)程控制領(lǐng)域的應(yīng)用仍然較少,這可能有以下原因:1)拉曼光譜檢測(cè)靈敏度較低,受熒光干擾嚴(yán)重。近年發(fā)展出的表面增強(qiáng)拉曼光譜(SERS)、針尖增強(qiáng)拉曼等,不但能削弱熒光物質(zhì)的干擾,而且使檢測(cè)限降低至10-18mol·L-1,能夠完成痕量檢測(cè)[24-25],這將拓展拉曼光譜在中藥制藥過(guò)程中的應(yīng)用。例如,楊方等[26]采用SERS技術(shù),以Au 膜-Ag 納米顆粒為基底,采用785 nm 激光器為激發(fā)光源,避免了熒光的干擾,測(cè)定不同年份的陳皮煎劑。通過(guò)峰的歸類發(fā)現(xiàn),7 年及以上陳皮在808、884、1132、1212 cm-1多出4處拉曼峰,可以用來(lái)鑒別陳皮年份。2)中藥制造企業(yè)內(nèi)部網(wǎng)絡(luò)無(wú)法支撐工業(yè)互聯(lián)網(wǎng)場(chǎng)景下的海量數(shù)據(jù)實(shí)時(shí)傳輸和網(wǎng)絡(luò)同步,亟須進(jìn)行基礎(chǔ)網(wǎng)絡(luò)升級(jí)改造,提升網(wǎng)絡(luò)傳輸帶寬。5G 具備大帶寬、低時(shí)延、海量連接的網(wǎng)絡(luò)特性,能夠提供端到端毫秒級(jí)時(shí)延和接近100%的高可靠性通信保障,滿足工業(yè)大數(shù)據(jù)傳輸需求和即時(shí)處理需求。因此,隨著5G技術(shù)的日益成熟,拉曼光譜技術(shù)在中藥制藥領(lǐng)域中的應(yīng)用障礙將被掃清。拉曼光譜分析技術(shù)將為中藥智能制造提供強(qiáng)有力的手段,為中藥制藥過(guò)程的智慧化奠定堅(jiān)實(shí)的基礎(chǔ)。