劉淑明 ,梁浩 ,程虹 ,紀徐維晟, ,王耘
1.北京中醫藥大學中藥學院中藥信息工程研究中心,北京 102488;2.北京中醫藥大學生命科學學院,北京 102488
升降浮沉是指藥物對人體作用的不同趨向性[1]。作為中藥藥性特征之一,升降浮沉在指導臨床用藥與方劑配伍過程中具有重要作用。目前,升降浮沉理論相關研究主要集中在古籍溯源研究[1-3]、方劑內涵原理探討[4-6]、藥性考證或藥效比較[7-9]。藥理研究表明,中藥升降浮沉藥性對人體特定方向或病勢的疾病起著顯著或特殊的調節作用[10]。如藥性“升”具有催吐、發汗、升陽、開竅、清頭目、通鼻竅、聰耳明目、生津止渴的功效,藥理作用表現為興奮嘔吐中樞、催吐、發汗、解熱等[11]。
升與降、浮與沉對立統一,對具有相同作用趨勢的中藥進行共有特征探索與辨識研究,有望揭示升降浮沉的科學內涵。油雨忻等[12]提出“中藥升降浮沉藥性的物質基礎是中藥成分”假說,利用紫外指紋圖譜表征中藥成分,結合支持向量機(SVM)算法初步構建了中藥升降浮沉判別模型,為中藥藥性物質基礎與升降浮沉理論研究提供了新思路。然而,中藥指紋圖譜的優勢體現在對已知化學成分的準確鑒定,無法整體表征中藥這一復雜體系。樣品制備的要求也增加了研究的復雜性。中藥物質基礎的復雜性使草本中藥可看作由分子構成的整體集合體系,拉曼光譜為分子散射光譜,能夠對中藥進行直接檢測分析,即可以在保留中藥整體特性的情況下得到量化表征數據,進而開展后續研究。因此,本研究基于中醫藥整體觀,以“升降浮沉”為研究對象,測定中藥拉曼圖譜,經特征篩選獲取不同藥性拉曼光譜特征,結合機器學習方法建立中藥升降浮沉特性辨識模型并開展評價,以期得到基于拉曼光譜的升降浮沉藥性量化表征精準數據和辨識模型,揭示中藥升浮與沉降的科學內涵,促進升降浮沉理論的現代化發展。
SEED型近紅外拉曼光譜儀(Seabreeze Laser激光器,XS11639-B40090157光譜儀系統,上海如海光電公司),YP-2TS型壓片機(天津中世沃克有限公司),RS-FS1801型中藥材超微粉碎機(廣州榮事達有限公司)。
白芷、薄荷、蒼術、細辛、生姜、旋覆花、阿膠、枇杷葉、紫蘇子、大黃等藥材共239種(升浮藥101種,沉降藥138種),安國市桓榮中藥材有限公司提供(送貨號Q010246),經北京中醫藥大學中藥學院王耘團隊鑒定,所有藥材均符合2020年版《中華人民共和國藥典》[13]規定;超純水(屈臣氏有限公司,貨號hs6303)。
中藥材用超純水洗凈,去除表面灰塵等雜質,置于真空干燥箱中,26 ℃恒溫干燥1 h。用超微粉碎機打成粉末,過3號篩,利用小型不銹鋼壓片模具壓片,即得待測樣品。
激光器類型為板載激光器;中心波長785 nm;功率120 mW;積分時間7 000 ms;平均采集3次;平均模式為硬件平均;拉曼位移200~3 200 cm-1;基線處理條件為lambda 10 000,order 2;平滑濾鏡lambda 20,order 2。
將待測藥材粉末壓片或器皿放置于樣品臺上,隨機選取10個不同的部分依次進行檢測,采用連續掃描收集、激光自動模式,共采集10次,以10次檢測的平均拉曼譜圖作為該藥材最終表征譜圖。
2.4.1 專屬性考察
以枸杞子、山藥、茯苓、刺五加、冰片5味藥進行專屬性考察,按上述條件進行檢測。功率調至0 mW,采集特征拉曼位移(cm-1)及其所對應的峰強(I),得到空白譜圖。結果見圖1。表明不同中藥因性質的差異表現出各異的拉曼譜圖,峰形良好,無明顯熒光干擾。
圖1 中藥材拉曼譜圖專屬性考察
2.4.2 精密度考察
以柏子仁、西洋參、蘇合香、土木香、天花粉5味藥進行儀器精密度考察。經樣品預處理后,每味藥分別制備6份待測樣品,先后放置于樣品臺上進行拉曼光譜檢測,記錄中藥拉曼譜圖的特征拉曼位移及其所對應的峰強,并計算RSD。同時,對拉曼譜圖進行逆峰位匹配檢索,計算譜圖相似度。結果RSD均小于4.12%,相似度均大于86.0%,表明儀器精密度良好。
2.4.3 重復性考察
以取自不同產地(山東、河北、寧夏、江蘇、湖南)的當歸、黃柏、山藥3味藥進行重復性考察。經樣品預處理后,每味中藥待測樣品先后進行5次拉曼光譜檢測,記錄中藥拉曼譜圖的特征拉曼位移及其所對應的峰強,并計算RSD。同時進行逆峰位匹配檢索,計算譜圖相似度。結果RSD均小于3.62%,相似度均大于85.7%,表明重復性良好,且不同產地的同種中藥拉曼譜圖整體上基本一致。
按“2.3”項下方法得到101味升浮藥與138味沉降藥的拉曼譜圖數據,以1 cm-1為單位進行量化處理,每味藥得到3 000個拉曼指標,建立239味中藥的拉曼數據集?!吧蹈〕痢睌祿罁?020年版《中華人民共和國藥典》[13]和《中藥大辭典(第二版)》[14]的中藥功效作用趨向結合判定標準分析:具有解表、透疹、祛風(濕)、升陽舉陷、開竅、醒神、溫陽補火、行氣、解郁、涌吐等功效的中藥,作用趨向為“升浮”,如薄荷、柴胡、升麻、蒼術等;具有清熱、瀉下、利濕、安(養)神、止嘔、抑肝陽、息風止痙、止咳、平喘、收斂固澀、止血等功效的中藥,作用趨向為“沉降”,如白芍、葶藶子、苦杏仁、牡蠣等[2,15-16]。
本研究采用帶有交叉驗證的遞歸特征消除(RFECV)對拉曼譜圖數據進行特征篩選。該方法分為兩部分:遞歸特征消除(recursive feature elimination,RFE)[17]通過一個基模型進行模型訓練,對3 000個拉曼波段進行特征重要性排序,刪除重要性最低的特征,利用新特征集進行下一輪訓練,循環往復直至達到所需的特征數量;再通過交叉驗證(cross validation,CV)篩選出最優特征子集。本研究使用輕量級梯度提升機(LGBM)集成算法[18]作為RFE的基模型。以LGBM_RFE作為特征篩選算法篩選出與升降浮沉顯著相關的拉曼波段,交叉驗證次數為5,每次刪除的特征個數為1,最終保留126個最優拉曼波段進行中藥升降浮沉特性辨識模型的訓練。
為得到良好的辨識模型,本研究基于特征篩選后的中藥拉曼譜圖數據結合SVM、隨機森林(RF)、極度梯度提升(XGBoost)和自適應提升(AdaBoost)分類器建立中藥升浮沉降辨識模型,將數據集按7∶3比例隨機劃分為訓練集和測試集,使用不同模型進行訓練與預測,并用曲線下面積(AUC)、準確率、精確度、召回率及F1值作為模型的評價指標。以上4種分類器均通過隨機網格搜索十折交叉驗證進行參數調試和優化,最優超參數設置見表1,模型比較見表2。
表1 4種分類器的最優超參數設置
表2 4種辨識模型評價指標比較(%)
4種辨識模型的AUC均達到80%以上,其中XGBoost模型AUC達90%以上,說明該模型的分類效果極佳。相較于其他模型,XGBoost模型的準確率更高,整體效果更好;精確度和召回率更高,說明對升浮中藥和沉降中藥的區分能力更強;F1值更高說明模型更加穩健。明顯優于已報道模型(AUC為0.831 6,準確率為80.00%)[12]。綜上,XGBoost模型表現最優,可以實現對升浮中藥和沉降中藥的準確辨識。
為深入了解126個最優拉曼波段與升降浮沉中藥辨識結果之間的關系,選用SHAP(SHapley Additive exPlanations)方法[19]對基于XGBoost構建的升浮沉降辨識模型的識別結果進行解釋,以此反映最優拉曼波段對藥性識別結果的影響及其正負性,可視化部分結果見圖2。模型中最重要的前10個拉曼波段分別位于I2289、I2105、I1066、I2343、I2415、I2425、I1140、I2591、I458、I2291。圖中每個點代表1個樣本,點的顏色代表拉曼波段強度。如波段I2105,紅色點主要集中于橫坐標正值,藍色點主要集中于橫坐標負值,表明此波段拉曼強度越高其藥性辨識結果越趨于升浮,拉曼強度越低其藥性辨識結果越趨于沉降;波段I1140,紅色點主要集中于橫坐標負值區域,表明此波段拉曼強度越高其藥性辨識結果越趨于沉降。
圖2 最優拉曼波段對模型預測的影響正負性
歷代醫書、歷年版《中華人民共和國藥典》及各版《中藥學》教材對中藥性、味、歸經大多有明確記載,但均未從升降浮沉角度對單味中藥性能進行明確論述。其原因之一是升降浮沉概念較為抽象,會根據醫家個人經驗發生改動。另一重要原因在于,中藥的升降浮沉特性受性、味、歸經、用藥部位、藥材質地、炮制、配伍等因素影響。從性味來看,性熱、溫,味甘、辛、淡屬陽,多為升浮之性;性寒、涼,味酸、苦、咸屬陰,多為沉降之性。若藥物的性味陰陽屬性不同,該藥便具有升浮沉降雙重特性。氣味厚薄升降浮沉理論同樣闡述了這一原理,氣屬陽、味屬陰,中藥氣味陰陽共存,使一味中藥存在升中有降、降中有升的可能。如從四氣五味、氣味厚薄、主治功效、方劑配伍四方面對桔梗藥性進行考證,發現其不僅具有顯著的升浮之性,亦有苦泄沉降之功[20]。大黃峻下,酒制后具備清上焦血分熱毒功效。牛膝引血下行,配伍柴胡、桔梗后具有上升之力。一般來說,方劑的升降趨勢取決于方劑中具有相同趨勢的大部分藥味[21]。因此,中藥的升降浮沉特性受多種因素的影響并存在轉化關系,這在一定程度上導致該理論發展緩慢。
由于升降浮沉特性的復雜性,探尋不同藥性對應的物質基礎與科學內涵尤為重要。中藥是典型的復雜體系,藥性中性、味、歸經、升降浮沉、有毒無毒分別從不同維度對中藥整體特點進行描述,每個維度必然對應著各自的物質基礎。在探索各藥性科學內涵的過程中,應秉持整體觀思想。拉曼光譜屬分子振動散射光譜,其形成與分子極化率和能級相關。本研究中,中藥的檢測過程保持了中藥完整性,拉曼光譜從分子層面實現了中藥的整體表征。
拉曼光譜檢測中噪聲較大,經常受到熒光效應的干擾[22-25]。為抑制熒光效應,本研究采取如下方法:①選定激發光中心波長785 nm。中藥熒光檢測激發光波長大多位于紫外-可見光區,如山藥330 nm、沙苑子410 nm、熟地黃470 nm等[26],而中心波長785 nm的激發光為近紅外激光(760~830 nm),可在一定程度上抑制樣品的熒光效應;②采用屈臣氏超純水、甲醇、甲醇水輕微沖洗藥材,去除表面灰塵、沾染物等雜質,避免雜質熒光效應的干擾;③儀器采取連續掃描采集模式,延長照射時間,利用“光致漂白”效應以最大程度達到抑制熒光干擾的效果[27]。
LGBM集成算法具有訓練速度快、高準確度、適用于高維度數據等優點,可以高效、準確的對拉曼波段進行重要性排名。RFE算法通過迭代運算來選擇最重要的拉曼波段子集,從而減少特征數量,提高模型的準確度。兩者聯用的LGBM_RFE特征篩選算法可從3 000個拉曼波段中去除冗余數據,保留重要信息,篩選得到與升浮沉降相關性最強的拉曼波段子集。得到的126個最優拉曼波段是拉曼光譜在升降浮沉維度對中藥的表征。拉曼位移主要集中在1 000~3 200 cm-1,此范圍內升浮中藥的拉曼強度普遍高于沉降中藥。同時,采用SHAP方法對單味中藥升降浮沉特征拉曼波段進行可視化,以此反映最優拉曼波段對升降浮沉藥性識別結果的重要程度及正負向影響。拉曼譜圖反映的不單是中藥中的某一成分或某一元素,而是某一藥性在中藥本體的整體特征,是對藥性進行科學內涵探索的必要選擇。通過中藥拉曼光譜圖結合辨識模型,前期已經實現對中藥寒熱藥性、平性、甘味的辨識[28-30]。
本研究基于大宗中藥材進行拉曼光譜檢測,以拉曼光譜整體表征中藥升降浮沉藥性,結合LGBM_RFE算法篩選得到126個拉曼波段,在此基礎上建立升降浮沉辨識模型,闡釋升降浮沉的科學內涵,為客觀識別中藥的“升浮”和“沉降”趨勢提供一種新方法。