馬詩瑜,何敬成,詹陸川,林偉杰,林思濠,5,胡小剛,卞曉嵐△
(1. 上海交通大學(xué)醫(yī)學(xué)院附屬瑞金醫(yī)院,上海 200023; 2. 南方醫(yī)科大學(xué)順德醫(yī)院,廣東佛山 528000;3. 廣東省人民醫(yī)院,廣東廣州 510000; 4. 廣東省珠海市人民醫(yī)院·暨南大學(xué)附屬珠海醫(yī)院,廣東珠海519099; 5. 上海健康醫(yī)學(xué)院藥學(xué)院,上海 201318; 6. 重慶大學(xué)附屬腫瘤醫(yī)院,重慶 400030)
人工神經(jīng)網(wǎng)絡(luò)算法的主要特點(diǎn)是模仿人腦處理信息,具有自學(xué)習(xí)、自組織、自適應(yīng)能力[1-2],很強(qiáng)的容錯(cuò)能力,分布儲(chǔ)存與并行處理信息的功能及高度非線性表達(dá)能力[3-4]。與正交試驗(yàn)法相比,神經(jīng)網(wǎng)絡(luò)具有學(xué)習(xí)規(guī)則、自我訓(xùn)練的能力,在給定區(qū)域內(nèi)或預(yù)測網(wǎng)絡(luò)下均可進(jìn)行優(yōu)化[5],使試驗(yàn)結(jié)果更可靠、穩(wěn)定,且無須目標(biāo)函數(shù)具備明確的數(shù)學(xué)表達(dá)式,就可快速得到最優(yōu)解[6]。本研究中以自擬清瘟方為例,通過多種神經(jīng)網(wǎng)絡(luò)算法對其水提工藝正交試驗(yàn)結(jié)果進(jìn)行進(jìn)一步預(yù)測,并對提取條件參數(shù)進(jìn)行優(yōu)化,旨在完善和彌補(bǔ)正交試驗(yàn)中的不足,如解答正交試驗(yàn)中無法處理缺失值、存在局部最優(yōu)解等困惑,以期最終降低中藥制劑尤其是醫(yī)療機(jī)構(gòu)制劑的開發(fā)成本、節(jié)省工藝驗(yàn)證成本等。
本方臨床以水煎劑應(yīng)用,故以水為溶劑,以傳統(tǒng)煎煮方法制備樣品。按處方量稱取全方藥材(金銀花9 g,魚腥草、板藍(lán)根、大青葉、貫眾各15 g),分別取9 份。參照2020 年版《中國藥典(一部)》,以料液比(因素A)、提取時(shí)間(因素B)、提取次數(shù)(因素C)為考察因素,以綠原酸、木犀草苷、靛藍(lán)、靛玉紅含量,干膏得率及綜合評分(采用加權(quán)評分法計(jì)算得到)為考察指標(biāo)進(jìn)行L9(34)正交試驗(yàn),確定最佳提取工藝。設(shè)定干膏得率及靛藍(lán)、靛玉紅、綠原酸、木犀草苷含量的加權(quán)系數(shù)分別為0.2,0.1,0.3,0.1,0.3,綜合評分=(干膏得率/干膏得率最大值× 0.2 + 靛藍(lán)含量/靛藍(lán)含量最大值× 0.1 +綠原酸含量/ 綠原酸含量最大值× 0.1 + 木犀草苷含量/木犀草苷含量最大值×0.3+靛玉紅含量/靛玉紅含量最大值×0.3)×100。因素與水平見表1,正交試驗(yàn)設(shè)計(jì)與結(jié)果見表2,極差分析結(jié)果見表3,方差分析結(jié)果見表4至表6。

表1 因素與水平Tab.1 Factors and their levels

表2 L9(34)正交試驗(yàn)設(shè)計(jì)與結(jié)果Tab.2 Design and results of the L9(34)orthogonal test

表3 極差分析結(jié)果Tab.3 Results of the range analysis

表4 綜合評分值的方差分析結(jié)果Tab.4 Results of the ANOVA of comprehensive score

表5 綠原酸含量的方差分析結(jié)果Tab.5 Results of the ANOVA of chlorogenic acid content

表6 木犀草苷含量的方差分析結(jié)果Tab.6 Results of the ANOVA of luteoloside content
可見,以不同指標(biāo)分析可能得到不同的制劑參數(shù),且發(fā)現(xiàn)影響提取條件的權(quán)重也不完全相同。對于不同的指標(biāo)(綜合評分值、綠原酸含量、木犀草苷含量),不同的處理影響因素對結(jié)果均無顯著影響。且存在未測出的值時(shí)(靛藍(lán)和靛玉紅含量),無法準(zhǔn)確進(jìn)行相應(yīng)的方差分析和極差分析。以綜合評分值為例,最優(yōu)方案為A2B1C3及A2B1C2。而以綠原酸、木犀草苷含量為評價(jià)指標(biāo)時(shí),最優(yōu)方案分別為A1B1C2和A2B1C2,暫定為A2B1C2,即料液比1∶10(g/mL),提取2 次,每次30 min。此外,設(shè)計(jì)綜合評分時(shí),對所有有效成分的權(quán)重權(quán)衡后設(shè)定了不同的加權(quán)系數(shù),也會(huì)在一定程度上影響綜合評分結(jié)果。
可見,對正交試驗(yàn)的結(jié)果使用極差分析和方差分析時(shí),會(huì)因選擇不同的指標(biāo)而出現(xiàn)結(jié)果不一致的情況,造成無法選取最優(yōu)提取參數(shù)的情況。故有必要引入神經(jīng)網(wǎng)絡(luò)算法篩選提取參數(shù)。
本研究中采用前期正交試驗(yàn)得到的9組樣本數(shù)據(jù),但為獲得更可信的神經(jīng)網(wǎng)絡(luò)預(yù)測結(jié)果,因此增加了虛擬樣本量進(jìn)行訓(xùn)練,在實(shí)際生產(chǎn)中,由于原料產(chǎn)地、批次差異、操作條件不同,檢測儀器本身的原因等,輸入變量和實(shí)際值會(huì)存在微小但不可避免的誤差,在此誤差范圍內(nèi)的輸入值與輸出值應(yīng)對應(yīng)。虛擬樣本的生成方法是在每個(gè)實(shí)際樣本的數(shù)據(jù)上增加一個(gè)±Δi值,本研究中Δi取±0.1%,使每個(gè)實(shí)際樣本產(chǎn)生9 個(gè)虛擬樣本,由此參加神經(jīng)網(wǎng)絡(luò)訓(xùn)練的樣本共90 個(gè),增加了訓(xùn)練空間內(nèi)的樣本密度。
采用多層感知器?(MLP)神經(jīng)網(wǎng)絡(luò)算法、反向傳播(BP)和徑向基(RBF)神經(jīng)網(wǎng)絡(luò)算法、遺傳算法(GA)-BP神經(jīng)網(wǎng)絡(luò)算法以正交試驗(yàn)中3種因素水平為輸入,6種指標(biāo)(Gel、L、M、Q、H、綜合評分值S)為輸出,隨機(jī)抽取70%樣本進(jìn)行訓(xùn)練,剩余樣本進(jìn)行測試。BP及RBF神經(jīng)網(wǎng)絡(luò)設(shè)定最大訓(xùn)練次數(shù)為1 000 次,隱藏層神經(jīng)元設(shè)定為9,GA-BP網(wǎng)絡(luò)設(shè)定最大訓(xùn)練次數(shù)為5 000次,設(shè)定2個(gè)隱藏層,隱藏層神經(jīng)元設(shè)定為5和6,通過誤差平方和決定遺傳迭代次數(shù)。通過決定系數(shù)R2可評價(jià)模型擬合的優(yōu)與劣。
MLP 神經(jīng)網(wǎng)絡(luò)算法:共訓(xùn)練了66 個(gè)樣本(73.33%),測試了24 個(gè)樣本(26.67%)。建立的神經(jīng)網(wǎng)絡(luò)為2個(gè)隱藏層,隱藏層1,2中的節(jié)點(diǎn)數(shù)分別為5個(gè)和4個(gè),訓(xùn)練集中的平方和誤差為5.803,標(biāo)度因變量的相對誤差分別為0.12(L)、0.032(S)、0.062(Gel)、0.096(Q)、0.005(H)、0.126(M)。測試集中的平方和誤差為2.561,標(biāo)度因變量的相對誤差分別為0.108(L)、0.021(S)、0.288(Gel)、0.027(Q)、0.004(H)、0.091(M)。該神經(jīng)網(wǎng)絡(luò)中認(rèn)為影響因素的權(quán)重大小為B>A>C(圖1)。對該神經(jīng)網(wǎng)絡(luò)的預(yù)測值與原始實(shí)際值進(jìn)行比較,得出殘差圖,圖中越接近0,表示預(yù)測結(jié)果越準(zhǔn)確(見圖2)。MLP 預(yù)測中樣本的平均誤差率較大,分別為8.07%(Gel),9.41%(Q),4.37(L),20.75%(H),6.77%(M)和9.19%(S)。因此,應(yīng)考慮進(jìn)一步選擇其他的神經(jīng)網(wǎng)絡(luò)進(jìn)行預(yù)測和優(yōu)化。

圖1 MLP神經(jīng)網(wǎng)絡(luò)分析的因素重要性Fig.1 Importance of factors by the MLP neural network
BP神經(jīng)網(wǎng)絡(luò)和RBF神經(jīng)網(wǎng)絡(luò)算法:輸入?yún)?shù)見圖3。干膏得率、綠原酸含量、木犀草苷含量、綜合評分值的預(yù)測中,BP 神經(jīng)網(wǎng)絡(luò)算法的R2值均明顯優(yōu)于RBF 神經(jīng)網(wǎng)絡(luò),而靛藍(lán)和靛玉紅含量中RBF 神經(jīng)網(wǎng)絡(luò)算法的R2以微弱優(yōu)勢優(yōu)于BP 神經(jīng)網(wǎng)絡(luò)算法。相對誤差率,BP 神經(jīng)網(wǎng)絡(luò)和RBF 神經(jīng)網(wǎng)絡(luò)算法的平均相對誤差率對于每個(gè)指標(biāo)分別為0.12%/ 0.2%(Gel)、1.15%/ 0.10%(Q)、0.18%/ 0.26%(H)、0.05%/ 4.57%(L)、0.13%/1.75%(M)、0.072%/ 0.46%(S),詳見圖4。可見,使用BP 神經(jīng)網(wǎng)絡(luò)進(jìn)行預(yù)測,將獲得更小的誤差和更優(yōu)的決定系數(shù)。但BP 神經(jīng)網(wǎng)絡(luò)算法的預(yù)測中發(fā)現(xiàn)存在局部最優(yōu)解問題,即不同的指標(biāo)得到不同的最好優(yōu)化參數(shù),但無法通過6個(gè)指標(biāo)給出統(tǒng)一的優(yōu)化參數(shù),故使用遺傳算法進(jìn)一步解決該問題。

圖3 不同指標(biāo)的BP和RBF神經(jīng)網(wǎng)絡(luò)算法的輸入?yún)?shù)A.Gel B.Q C.H D.L E.M F.SFig.3 Input parameters of different indicators by the BP and RBF neural networks

圖4 BP神經(jīng)網(wǎng)絡(luò)和RBF神經(jīng)網(wǎng)絡(luò)預(yù)測值及決定系數(shù)的比較A.Gel B.Q C.H D.L E.M F.SFig.4 Comparison of predicted value and R2 between the BP and RBF neural networks
GA-BP 神經(jīng)網(wǎng)絡(luò)算法:輸入?yún)?shù)見圖5。遺傳迭代到60 次后,誤差平方和最小(圖6),不同指標(biāo)中預(yù)測值與實(shí)際值(圖7、圖8)的均方誤差分別為0.28(Gel)、0.000 021(Q)、0.000 088(H)、0.022(L)、0.000 83(M)和0.23(S)。最優(yōu)參數(shù)及最優(yōu)預(yù)測值分別為:料液比0.099(g/ mL),提取時(shí)間29.97 min,提取次數(shù)2 次,Gel:27.81,Q:1.72,H:7.56,L:121.84,M:9.79,S:91.07。GA - BP 神經(jīng)網(wǎng)絡(luò)預(yù)測出的最優(yōu)參數(shù)與正交試驗(yàn)方案一致。

圖5 GA-BP神經(jīng)網(wǎng)絡(luò)輸入?yún)?shù)Fig.5 Input parameters by the GA - BP neural network

圖6 遺傳迭代次數(shù)Fig.6 Genetic iteration times

圖7 GA-BP神經(jīng)網(wǎng)絡(luò)算法預(yù)測結(jié)果A.Gel B.Q C.H D.L E.M F.SFig.7 Results of prediction by the GA - BP neural network

圖8 GA-BP神經(jīng)網(wǎng)絡(luò)算法訓(xùn)練結(jié)果A.Gel B.Q C.H D.L E.M F.SFig.8 Results of training by the GA - BP neural network
通過正交試驗(yàn)和GA - BP 神經(jīng)網(wǎng)絡(luò)的預(yù)測,暫定2種最優(yōu)工藝,分別為A2B1C2和A1B1C2,現(xiàn)同時(shí)對2種工藝進(jìn)行驗(yàn)證試驗(yàn),結(jié)果見表7。可見,前法各方面結(jié)果均高于預(yù)測值,因此確定為最終工藝。

表7 驗(yàn)證試驗(yàn)結(jié)果(n=3)Tab.7 Results of the verification test(n=3)
本研究中主要基于前期正交試驗(yàn)中發(fā)現(xiàn)的不足之處而進(jìn)一步設(shè)計(jì)人工神經(jīng)網(wǎng)絡(luò)進(jìn)行提取參數(shù)的篩選。正交試驗(yàn)中,影響不同輸出指標(biāo)的輸入指標(biāo)權(quán)重各不相同,且統(tǒng)計(jì)過程中不同的統(tǒng)計(jì)方法得出不同的結(jié)果。綜合評分值極差分析中發(fā)現(xiàn),影響的權(quán)重為B>A>C。但方差分析中發(fā)現(xiàn),影響的權(quán)重為B>C>A,由于綜合評分值中,提取時(shí)間和提取次數(shù)的R值較接近,又均無顯著差異,也可認(rèn)為兩者均對綜合評分值有次要影響作用。木犀草苷的分析中,極差分析(圖1)中發(fā)現(xiàn),影響的權(quán)重為B > A = C,可能是后兩者得到的提取結(jié)果中差值一致的結(jié)果所致。而方差分析影響權(quán)重為B>A>C,兩者最優(yōu)方案一致為A2B1C2。另外,由于本試驗(yàn)中靛藍(lán)和靛玉紅的含量較低,有未測出的情況,因此在綜合評分值的考慮時(shí),對所有有效成分的權(quán)重進(jìn)行了權(quán)衡,但發(fā)現(xiàn)不同指標(biāo)的最重要影響因素也不同,綜合評分值和木犀草苷是提取時(shí)間,綠原酸是料液比。為克服上述不足,本研究中采用了不同神經(jīng)網(wǎng)絡(luò)(MLP,BP,RBF,GA-BP)算法對正交試驗(yàn)結(jié)果進(jìn)行優(yōu)化。
MLP 神經(jīng)網(wǎng)絡(luò)作為一種接近深度學(xué)習(xí)的網(wǎng)絡(luò)模型(復(fù)雜、多層的神經(jīng)網(wǎng)絡(luò)),其具有出色的非線性匹配能力和泛化能力、較高的并行性,以及能全局優(yōu)化[7]。缺點(diǎn)是在高維空間效率低,易出現(xiàn)過擬合現(xiàn)象,收斂緩慢且計(jì)算量高[8]。本研究中,初始考慮該神經(jīng)網(wǎng)絡(luò)具有全局優(yōu)化的優(yōu)點(diǎn)而使其進(jìn)行參數(shù)優(yōu)化,設(shè)定隱層數(shù)為2 個(gè),MLP 網(wǎng)絡(luò)的隱層能實(shí)現(xiàn)非線性樣本的線性轉(zhuǎn)化,從而實(shí)現(xiàn)樣本的分類預(yù)測,且有研究證實(shí),多層網(wǎng)絡(luò)能獲得更精準(zhǔn)的分析結(jié)果,但使用2 個(gè)以上的多個(gè)隱層網(wǎng)絡(luò)時(shí),可能使模型不易得到最優(yōu)解。一般深度學(xué)習(xí)模型需較大的數(shù)據(jù)量,雖然本研究的隱層設(shè)定理論上能達(dá)到較準(zhǔn)確的預(yù)測,但考慮到可能因樣本量較小而導(dǎo)致擬合結(jié)果不佳,因此考慮使用其他神經(jīng)網(wǎng)絡(luò)進(jìn)行優(yōu)化。
BP 神經(jīng)網(wǎng)絡(luò)作為最經(jīng)典的神經(jīng)網(wǎng)絡(luò)算法,使用梯度下降的局部優(yōu)化技術(shù),具有多層網(wǎng)絡(luò)體系,使輸出更準(zhǔn)確;梯度下降局部優(yōu)化技術(shù),與網(wǎng)絡(luò)權(quán)重的向后誤差校正相關(guān)[9-10]。標(biāo)準(zhǔn)BP 算法常有兩點(diǎn)局限性:在誤差曲面上有些區(qū)域平坦,此時(shí)誤差對權(quán)值的變化不敏感,誤差下降緩慢,調(diào)整時(shí)間長,影響收斂速度;存在多個(gè)極小點(diǎn),多維權(quán)值空間的誤差曲面存在多個(gè)局部極小點(diǎn),它們均有誤差梯度為0 的特點(diǎn)。RBF 神經(jīng)網(wǎng)絡(luò)被認(rèn)為是BP神經(jīng)網(wǎng)絡(luò)的進(jìn)一步優(yōu)化,主要體現(xiàn)在逼近能力、分類能力和學(xué)習(xí)速度更優(yōu)。
RBF 神經(jīng)網(wǎng)絡(luò)主要用隱層節(jié)點(diǎn)通過基函數(shù)執(zhí)行一種非線性變化,將輸入空間映射到一個(gè)新的空間,輸出層節(jié)點(diǎn)則在該新空間實(shí)現(xiàn)線性加權(quán)組合[11]。該網(wǎng)絡(luò)具有獨(dú)特的分類預(yù)測原理,對非線性連續(xù)函數(shù)具有一致逼近性,易于大范圍的數(shù)據(jù)融合和并行高效處理。本研究中進(jìn)一步使用RBF 神經(jīng)網(wǎng)絡(luò),正是基于其對數(shù)據(jù)融合和預(yù)測的能力。該神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)收斂速度快,計(jì)算量小;操作簡單,結(jié)果直觀。然而該函數(shù)需恰當(dāng)?shù)臄?shù)據(jù)中心與合適的RBF 函數(shù),往往不易獲得更合適的函數(shù)[12-13]。在本研究中,其預(yù)測結(jié)果不如BP 神經(jīng)網(wǎng)絡(luò)理想,可能是未獲得合適的徑向基函數(shù),且RBF 網(wǎng)絡(luò)具有“局部映射”的特性,其網(wǎng)絡(luò)輸出與數(shù)據(jù)中心離輸入模式較近的“局部”隱節(jié)點(diǎn)關(guān)系較大。
本研究在BP 神經(jīng)網(wǎng)絡(luò)的預(yù)測中,已使每個(gè)預(yù)測指標(biāo)獲得了更小的誤差和更優(yōu)的決定系數(shù)。但無法通過6 個(gè)指標(biāo)給出統(tǒng)一的優(yōu)化參數(shù),因此在此基礎(chǔ)上結(jié)合了GA。GA 是一種基于人工智能的隨機(jī)非線性優(yōu)化形式,可無須知道目標(biāo)的具體數(shù)學(xué)模型而模擬出最優(yōu)解,遺傳算法結(jié)合神經(jīng)網(wǎng)絡(luò)的設(shè)計(jì)方法能避免正交試驗(yàn)易產(chǎn)生局部最優(yōu)解的問題,更適合于達(dá)到全局最優(yōu)組合設(shè)計(jì)的目標(biāo),是一種比正交試驗(yàn)更廣泛和準(zhǔn)確的模型。采用2 種方法結(jié)合的方式對提取參數(shù)進(jìn)行優(yōu)化[14-15],可以其獨(dú)特的模式識別、預(yù)測與模擬等能力為基礎(chǔ),在處理這類復(fù)雜問題時(shí)展現(xiàn)出強(qiáng)大的適應(yīng)性。
本研究中采用了多種神經(jīng)網(wǎng)絡(luò)進(jìn)一步對正交試驗(yàn)所得最優(yōu)提取參數(shù)進(jìn)行優(yōu)化,并最后選擇GA-BP神經(jīng)網(wǎng)絡(luò)對制劑中的提取參數(shù)進(jìn)行優(yōu)化和設(shè)計(jì),通過模仿大腦的神經(jīng)網(wǎng)絡(luò)行為特點(diǎn)對數(shù)據(jù)進(jìn)行處理,其利用實(shí)測數(shù)據(jù)對試驗(yàn)過程進(jìn)行模擬,減少人為因素造成的分析偏差,可彌補(bǔ)正交試驗(yàn)的一些缺陷。通過該方法的預(yù)測和驗(yàn)證,可減少制劑的開發(fā)成本,尤其是節(jié)省工藝驗(yàn)證成本。但神經(jīng)網(wǎng)絡(luò)算法的應(yīng)用與選擇有待進(jìn)一步研究。