李歡 萬珊 聶斌




摘? 要:中藥量效之間呈現多成分、多靶點的非線性關系,偏最小二乘回歸是一種線性回歸方法,不能充分表達中藥量效之間的非線性關系。基于此,文章建立基于樣條偏最小二乘的中藥量效關系模型,該模型先對自變量進行三次B樣條變化,再進行偏最小二乘回歸建模。分別在6組UCI數據集、2組中藥數據上展開實驗,結果表明,基于樣條偏最小二乘回歸模型能夠很好地擬合非線性數據,并且對中藥量效關系研究可行有效。
關鍵詞:量效關系;非線性;中醫藥信息學;偏最小二乘;樣條函數
中圖分類號:TP391? 文獻標識碼:A? 文章編號:2096-4706(2023)07-0131-04
Abstract: There is a nonlinear relationship between the dosage and effect of Traditional Chinese Medicine (TCM) with multi components and multi targets, and Partial Least Squares Regression (PLSR) is a linear regression that does not adequately express the nonlinear relationship between dosage and effect of TCM. Based on this, this paper establishes a dose-effect relationship model for TCM based on spline partial least squares. The model firstly performs three B-spline changes on the independent variables, and then conducts PLSR modeling. Experiments are carried out on 6 sets of UCI datasets and 2 sets of TCM datasets. The results show that the spline PLSR model can fit the nonlinear data well, and it is feasible and effective for the study of the dose-effect relationship of TCM.
Keywords: dose-effect relationship; nonlinear; Chinese Medicine Informatics; PLSR; spline function
0? 引? 言
中藥量效關系[1]是指藥物的劑量在一定范圍內變化時,藥物對機體產生的效應也會隨之變化,量效關系是保障臨床用藥安全的關鍵。中藥成分的復雜性決定了中藥作用于機體具有多成分、多靶點、多藥效指標的特點,進而決定了中藥量效呈現出多自變量與多因變量的非線性關系。目前,研究中藥量效關系主要從臨床病癥[2,3]、效應物質[4,5]、數據挖掘[6,7]等角度。其中,臨床病癥存在周期長、倫理學審核嚴格的問題;效應物質局限于基礎研究;常用于數據挖掘的方法只適用于足量樣本量的數據,難以適應中藥數據的自變量多樣本少,且存在多重共線性的分析。
偏最小二乘回歸法[8]是集主成分分析、典型相關分析和多元線性回歸于一體的多元線性統計分析方法,PLSR適用于具有自變量多、樣本量少,且存在多重共線性特點的數據,但其外部提取成分和內部回歸都是采用線性的方法,無法滿足中藥量效之間的非線性關系。朱志鵬等[9]運用稀疏自編碼器提取主成分,使PLSR取得了非線性效果,并用于擬合中藥量效之間的非線性關系,但模型可解釋性不強;曾青霞等[10]將隨機森林嵌入到PLSR中,并應用于中藥量效關系分析,但隨機森林是一種集成算法,需要一定的存儲空間。
樣條偏最小二乘回歸方法[11]能夠適應數據間的非線性關系,模型簡單易理解。因此,本文建立SPLSR的中藥量效關系模型,該模型既適用于自變量多、樣本量少的中藥數據,又能解決自變量間的多重共線性,并且能夠很好地擬合中藥量效之間的非線性關系。
1? 樣條偏最小二乘回歸模型
1.1? 樣條函數
樣條函數[11-13]采用光滑對接的分段多項式,是一種按需裁剪、適應任何連續變化的擬合方法。函數思想為:已知函數點[xi, yi] (i=0,1,…,n),在x的取值區間[a,b]內插入(M-1)分點,使其得到一個分劃π:a=ζ0<ζ1<…ζM-1<ζM=b,若函數s(x)滿足以下兩個條件:
2? 實驗分析
2.1? 實驗數據說明
首先,為了驗證樣條偏最小二乘模型能夠很好地擬合非線性數據,本文運用6組非線性的UCI數據集[14]進行實驗。其次,為了進一步驗證基于樣條偏最小二乘的中藥量效關系模型能夠解決自變量間的多重共線性,并且能夠很好地擬合中藥量效之間的非線性關系,本文采用現代中藥制劑教育部重點實驗室的麻杏石甘湯止咳和大承氣湯2組方藥的實驗數據進行實驗。如表1所示,分別介紹了上述6組UCI數據和2組中藥實驗數據的自變量數、因變量數、樣本數和數據名稱的縮寫形式。
將上述8組數據集在實驗環境為win 10操作系統(64位)、Intel(R)Core(TM)i5-3470 CPU、8 GB的RAM以及Spyder開發平臺上展開實驗,測定系數R2為模型評價指標,R2越接近于1代表模型的擬合效果越好。將樣條偏最小二乘模型與偏最小二乘模型進行比較,驗證樣條偏最小二乘的有效性。R2的計算公式如下,式中n為數據集的樣本總數:
2.2? 非線性擬合結果分析
將上述6組UCI數據集,按照7:3的比例劃分訓練集和測試集,在訓練集上,分別建立偏最小二乘模型和樣條偏最小二乘模型,調整參數使模型達到最優。將建立好的模型,在測試集上進行測試,得到R2值。如表2所示,為上述2種模型在6組UCI數據集上確定提取成分的個數,如表3所示,為上述2種模型在6組UCI數據集上,得到測試集的R2值,為了更加直觀的比較實驗結果,將表3的數據繪制對應的折線圖,如圖1所示。
圖1中,橫坐標代表6組UCI數據集,縱坐標代表模型的R2值。從圖1中可明顯看出,在6組數據集上,樣條偏最小二乘模型的圖形在偏最小二乘的上方,代表樣條偏最小二乘模型的R2值最接近于1。結合圖1和表3可看出,在WR數據集上,2種模型的R2值都較低,原因是WR數據更適合分類任務。在ccpp數據集上,樣條偏最小二乘模型的R2值達到了0.996 2。綜上所述,樣條偏最小二乘回歸模型擬合非線性數據的效果好于偏最小二乘回歸模型。
2.3? 中藥量效關系擬合結果分析
為了驗證基于樣條偏最小二乘的中藥量效關系模型能夠解決自變量間的多重共線性,以及能夠很好地擬合中藥量效之間的非線性關系,本文在MXSGTZK和DCQT這2組中藥實驗數據上展開實驗。MXSGTZK數據集中自變量為麻黃堿、偽麻黃堿、甲基麻黃堿、苦杏仁苷、野黑櫻苷的含量,因變量為一天的咳嗽次數,通過建立基于樣條偏最小二乘的中藥量效關系模型,分析MXSGTZK中每味中藥的含量與一天咳嗽次數的關系。DCQT數據集中自變量為大黃、厚樸、枳實、芒硝的含量,因變量為機體中d-乳酸、SOD、丙二醛、內毒素、小腸的周長、胃動素血流量的值,通過建立基于樣條偏最小二乘的中藥量效關系模型,分析DCQT中每味中藥的含量與藥效之間的關系。
將MXSGTZK和DCQT2組中藥實驗數據,按照7:3的比例劃分訓練集和測試集,分別建立基于偏最小二乘回歸的中藥量效關系模型和基于樣條偏最小二乘的中藥量效關系模型,調整參數使模型達到最優,將建立好的上述2種模型,在測試集上進行測試,得到R2值。如表4所示,為上述2種模型在2組中藥實驗數據集上提取成分的個數。如表5所示,為上述2種模型在2組中藥實驗數據集上,測試集的R2值,為了更加直觀地比較實驗結果,將表5的數據繪制對應的折線圖,如圖2所示。
圖2中,橫坐標為兩種中藥實驗數據集MXSGTZK和DCQT,縱坐標為R2值。從圖2中可看出,在2組數據集上,樣條偏最小二乘回歸模型比偏最小二乘回歸模型更接近于1。從表5中可得出,在MXSGTZK數據集上,樣條偏最小二乘回歸模型的R2值為0.947 5,偏最小二乘回歸模型的R2值只有0.688 9;在DCQT數據集上,樣條偏最小二乘回歸模型的R2值為0.985 2,非常接近于1,偏最小二乘回歸模型的R2值為0.924 7。綜上所述,基于樣條偏最小二乘回歸的中藥量效關系模型能夠很好地擬合中藥量效之間的非線性關系。
3? 結? 論
本文提出的基于樣條偏最小二乘回歸的中藥量效關系模型,能夠充分表達中藥量效之間的非線性關系。實驗中,首先采用6組UCI數據集構建偏最小二乘回歸模型和樣條偏最小二乘回歸模型,比較上述2種模型的R2值,實驗結果表明,樣條偏最小二乘回歸模型能夠更加有效地擬合非線性數據。其次,使用來自現代中藥制劑教育部重點實驗室的2組中藥實驗數據,分別建立基于偏最小二乘回歸的中藥量效關系模型和基于樣條偏最小二乘回歸的中藥量效關系模型,結果表明,基于樣條偏最小二乘回歸的中藥量效關系模型能夠有效地擬合中藥量效之間的關系。實驗過程中發現,首先,由于樣條函數采用分段擬合,模型容易過擬合,在訓練過程中要注意。其次,模型的擬合效果和提取成分的個數有一定的關系,因此,在使用偏最小二乘回歸方法研究中藥量效關系時,要注意提取的成分盡可能攜帶自變量的信息,且與因變量的相關性較大,模型的擬合效果才會更優。
參考文獻:
[1] 于同月,宋斌,雷燁,等.仝小林院士從經方量效與應用談中醫經典傳承與發展 [J].吉林中醫藥,2022,42(4):385-388.
[2] 鄢良春,華樺,田韋韋,等.基于模式生物費氏弧菌Hormesis效應的中藥非典型劑量-反應關系與定量化表征 [J].中藥藥理與臨床,2022,38(3):2-8.
[3] 蘭雨澤,朱向東,白雅黎,等.茯苓的量效關系及其臨床應用探討 [J].吉林中醫藥,2019,39(6):737-740.
[4] 張名奇,朱林平.桂枝的量效與配伍關系研究 [J].河北中醫,2021,43(9):1571-1574.
[5] 熊優,王雅琪,焦姣姣,等.黃芩酒炙過程中化學成分含量變化及其與藥效的相關性分析 [J].中國實驗方劑學雜志,2018,24(16):1-6.
[6] 劉晨笑,劉子旺,趙永烈.基于數據挖掘探究丹參的現代臨床量效關系 [J].云南中醫中藥雜志,2021,42(9):17-20.
[7] 李歡,聶斌,杜建強,等.融合softmax的偏最小二乘法及中藥數據分析研究 [J].計算機應用研究,2019,36(12):3740-3743.
[8] 蘇衛星,冉順義,劉芳,等.基于相關性變量篩選偏最小二乘回歸的多維相關時間序列建模方法 [J].信息與控制,2021,50(4):395-402.
[9] 朱志鵬,杜建強,余日躍,等.融入深度學習的偏最小二乘優化方法 [J].計算機應用研究,2017,34(1):87-90.
[10] 曾青霞,杜建強,聶斌,等.融合隨機森林的偏最小二乘法及其中醫藥數據分析 [J].計算機應用研究,2018,35(10):2940-2942+2968.
[11] 孟潔,王惠文,黃海軍,等.基于樣條變換的PLS回歸的非線性結構分析 [J].系統科學與數學,2008(2):243-250.
[12] BORISENKO V V. Construction of Optimal Bézier Splines [J].Fundamentalnaya i Prikladnaya Matematika,2016,21(3):57-72.
[13] BOYD N,HASTIE T,BOYD S,et al. Saturating Splines and Feature Selection [J].The Journal of Machine Learning Research,2016,18(1):7172-7203.
[14] University of California,Irvine. UC Irvine Machine Learning Repository [EB/OL].[2022-08-24].http://archive.ics.uci.edu/ml/index.php.
作者簡介:李歡(1995.11—),女,漢族,江西萍鄉人,助教,碩士研究生,研究方向:中醫藥信息學;萬珊(1985.08—),女,漢族,江西南昌人,講師,碩士研究生,研究方向:大學生思想政治教育;聶斌(1972.10—),男,漢族,江西吉安人,教授,博士在讀,研究方向:數據挖掘、機器學習、人工智能、中醫藥信息學。