紀徐維晟,梁浩,劉淑明,王獻瑞,王耘*
1.北京中醫藥大學 中藥學院 中藥信息工程研究中心,北京 102488;
2.北京中醫藥大學 生命科學學院,北京 102488
在傳統中藥中,平性藥是極其重要的一類,數量占比為20%~33%,功效甚多,有廣泛的應用。對于中藥平性的認識自古以來頗有爭議,有人認為平性是相對而言的,表現在寒、熱偏向不明顯但并未超出四性范圍,不過歷代大多數醫家是肯定平性藥的獨立存在的[1]。然而由于寒熱偏性不顯著、作用相對和緩且周期過長,以及作用的雙向性和復平性[2],針對平性中藥的生物、藥理、藥效等研究難以證實平性的客觀、實際及實現中藥平性的準確辨識。因此,為證明平性的客觀存在、可入性味,并解決中藥平性辨識問題,研究學者從多角度開展研究,如有研究基于“平性自古以來便存在”“歷代醫家承認平性存在”及“平性藥臨床上的廣泛應用”3 點論據,論證了平性的客觀性[2-3]。在此基礎上,張亞超等[4]基于模式識別和定量構效關系開展了平性藥有效成分與平性的關聯分析,為“平性可入性味”在物質基礎方面提供了理論依據。劉進等[5]則基于36 味平性藥的紅外光譜檢測探討了平性與中藥紅外光譜的相關性,其所建支持向量機(SVM)模型對平性識別正確率高達83.3%,為平性的客觀存在、可入性味提供了實驗證明。
上述研究均為平性的客觀存在、可入性味提供了一定的依據,豐富了藥性內涵,但依然存在局限性:首先,研究分析的樣本量偏小;其次,以中藥不同溶劑提取成分的紅外光譜或有效成分開展平性研究,在一定程度上忽視了中醫藥的整體觀念。本研究從中藥的宏觀整體性出發,秉承整體論的觀念,結合大樣本量的中藥拉曼譜圖對平性開展研究,以達到更加準確、可靠的平性辨識分析,為平性的客觀存在、可入性味之說提供更為充分的依據。
拉曼光譜作為分子振動散射光譜,與分子極化率和能級相關,可呈現分子結構或化學基團信息。而絕大多數的中藥可看作是由分子所構成的集合體系,因此,中藥拉曼譜圖是在分子層面對中藥的整體反映,與中醫藥整體觀念相契合,能夠在分子水平作為中藥的整體表征[6-7]。基于中藥拉曼譜圖的整體性表征,對平性的藥性基礎進行探討將為平性的客觀存在、平性可入性味之說提供更為充分的依據,且建立高效精準的平性辨識模型,有利于豐富藥性理論的內涵。為此,從中藥的拉曼檢測、特征拉曼數據的篩選到模型預測的應用,本研究基于拉曼譜圖將中藥與《中華人民共和國藥典》(以下簡稱《中國藥典》)2020 年版[8]所記載藥性的屬性對應關系轉變為整體性表征下可量化的中藥拉曼譜圖與藥性的相關關系,證明平性的客觀存在,并利用模型解決平性辨識問題。
SEED 型近紅外拉曼光譜儀(Seabreeze Laser 型激光器,XS11639-B40090157 型光譜儀系統,上海如海光電公司);YP-2TS 型壓片機(天津中世沃克有限公司);RS-FS1801 型中藥材超微粉碎機(廣州榮事達有限公司)。
阿膠、赤小豆、白果、茯苓、合歡皮、靈芝、蘇木、太子參、毛冬青、莪術、藿香、華山參等中藥共計150 種(平性75 種、寒涼藥性42 種、溫熱藥性33 種)由安國市桓榮中藥材有限公司提供,經北京中醫藥大學中藥學院王耘團隊鑒定,所有藥材均符合《中國藥典》2020 年版規定,并出具鑒定報告;超純水(屈臣氏有限公司,貨號:hs6303)。
所有中藥材采用屈臣氏超純水洗凈,去除表面灰塵等雜質,放置于真空干燥箱中26 ℃恒溫干燥1 h。所有中藥材利用超微粉碎機打成粉末[9],再利用小型不銹鋼壓片模具壓片得到待測樣品以備檢測。
激光器類型為板載激光器;中心波長785 nm;功率120 mW;積分時間7000 ms;平均采集3次;平均模式為硬件平均;拉曼位移200~3200 cm-1;基線處理條件為lambda:10 000,order:2;平滑濾鏡lambda:20,order:2。
中藥材待測樣品放置于樣品臺依次進行檢測,采用連續掃描收集、激光自動模式,共計采集10次[10]。以每味中藥10 次檢測的平均拉曼譜圖作為該中藥最終表征譜圖[11],并以1 cm-1為單位進行數字量化處理。
以山藥、蘇合香、合歡花、茯苓、枸杞子為例進行專屬性考察,功率調至0 mW 采集特征拉曼位移(cm-1)及其所對應的峰強(I)得到空白譜圖(圖1),表明不同中藥因性質的差異表現出各異的拉曼譜圖,峰形良好,對中藥進行拉曼檢測無明顯熒光干擾。

圖1 中藥拉曼譜圖專屬性考察
以部分中藥如柏子仁、赤小豆、桃仁、蘇合香進行儀器精密度考察。經樣品預處理后,每味中藥分別制備6 份待測樣品,先后放置于樣品臺上進行拉曼光譜檢測,記錄中藥拉曼譜圖的特征拉曼位移(cm-1)及其所對應的I,并計算RSD。同時,對拉曼譜圖進行逆峰位匹配檢索,計算譜圖相似度。RSD 均小于2.90%,相似度均大于90.1%,結果表明儀器精密度良好。
以取自山東、河北、寧夏、江蘇、湖南的桃仁、山藥、枸杞及薏苡仁進行重現性考察。經樣品預處理后,每味中藥待測樣品先后進行5 次拉曼檢測(圖2),記錄中藥拉曼譜圖的特征拉曼位移(cm-1)及其所對應的I,并計算RSD。同時進行逆峰位匹配檢索,計算譜圖相似度。RSD 均小于3.00%,相似性均大于87.3%,結果表明重復性良好,且不同產地的同種中藥拉曼譜圖整體上基本一致。

圖2 中藥拉曼重復性考察譜圖
按2.3項下數據采集方式,得到平性與非平性中藥的拉曼譜圖,并以1 cm-1為單位進行譜圖量化處理。首先,基于平均基尼指數降低度(MDG)進行特征篩選,得到對于平性與非平性分類辨識重要性排名靠前1000 的拉曼特征數據;然后,利用非參統計檢驗對平性與非平性中藥經篩選后排名前1000的拉曼特征數據進行統計分析;最后,為了提高分類模型的性能,對基于MDG特征篩選得到的重要性排名前1000 的拉曼數據進一步篩選,分別篩選排名前100、200、300、400、500、600、700、800、900、1000 的特征拉曼數據,基于篩選得到與平性密切相關的特征拉曼數據,進一步結合隨機森林(RF)、SVM、邏輯回歸(LR)、人工神經網絡(ANN)、貝葉斯網絡(NN)算法對平性進行建模判別以開展相關性研究。
通過MDG 對中藥拉曼數據進行初步特征篩選,選取重要性排名靠前1000 的拉曼位移及其峰強數據如2623、2553、2210、2818、2212 cm-1的I等,重要性排名前30 的結果見圖3。經特征篩選出的拉曼位移主要集中在2000~3000 cm-1,在此范圍內,非平性中藥相較于平性中藥,表現出更強的拉曼散射。

圖3 基尼指數的特征篩選部分結果
為證實平性與篩選得到中藥拉曼數據的相關性,基于拉曼數據非正態、非齊性、非連續等特點,利用SPSS 18.0 對特征篩選得到的前1000 的拉曼數據進行非參數統計檢驗,平性藥組與非平性藥組均表現出顯著性差異,部分結果見表1。結果表明在拉曼位移2000~3000 cm-1范圍內,非平性中藥與平性中藥的拉曼散射差異有統計學意義。

表1 特征拉曼位移處峰強的非參數檢驗結果
為進一步提高分類模型的性能,以RF模型為框架,分別以特征篩選得到MDG 排名前100~1000 的拉曼數據分別進行建模。經縱向比較發現,隨著建模拉曼數據的增加,模型的準確性整體呈下降趨勢(圖4)。當以MDG 前100 拉曼數據建立RF 模型時,其準確度最高(表2)。基于此,可實現對平性與非平性的高效、準確評判。

圖4 RF模型準確性趨勢

表2 MDG排名前100拉曼數據所建模型的評價參數
中藥可量化的拉曼譜圖可看作是在分子層面對中藥的整體性表征。另外,從哲學的認知來講,藥性之于中藥,正如人之脾氣秉性,是整體與部分的關系,而藥性的量化表征與中藥整體性表征亦是部分與整體的范疇。并非所有拉曼數據均與平性表現出顯著相關性,這也不切實際。正如在DNA 序列結構中存在編碼區與非編碼區[12],僅編碼區進行轉錄、翻譯。因此,我們在中藥可量化整體性表征的前提下,結合平性與非平性的分類整理,利用信息學特征篩選技術,從中篩選出與平性具有強相關性的數據信息,以此建立評判模型。
在數據分析軟件Orange 3.29.3 中,基于3.1項下特征篩選得到的拉曼數據,以MDG 排名前100 的拉曼數據,結合RF、SVM、LR、ANN、NN算法建立針對平性與非平性的評判模型開展相關性分析,為平性的客觀存在、可入性味提供可靠依據。此外,經參數自動尋優在十折交叉驗證基礎上繪制受試者工作特征曲線(ROC),通過準確率、受試者工作特征曲線下面積(AUC)和精確度等進行模型評價,結果發現以MDG 排名前100 拉曼數據所建各模型均表現出良好的判別效果(圖5,表2)。

圖5 RF、SVM、ANN、LR、NN模型的ROC曲線
以AUC、準確度、精確度為首要評價標準,其值越高,代表該模型對平性分類效果越顯著,準確率和精確度越高。由表1 可知各模型的AUC 均大于0.91,表明基于篩選出的中藥拉曼數據,各模型均可高效區分平性與非平性;RF 模型準確率和精確度均大于0.93,優于其他模型的準確度和精確度,對于平性判別表現出最佳效果,為最優模型。
因此,在以中藥可量化的拉曼譜圖作為中藥整體性表征的研究體系下,本研究經特征篩選出的拉曼數據可高效、準確地實現平性與非平性的辨識分析,說明平性中藥與其拉曼譜圖具有顯著相關性。
中藥拉曼光譜檢測是基于光量子與分子的非彈性碰撞,是多個分子振動和轉動能級反映的疊加,能夠在分子層面反映樣品的整體效應[7,13]。因此,可以作為中藥在分子層面上的整體性表征,與中醫藥的整體觀念十分契合。但在進行拉曼光譜檢測過程中,會受到熒光效應的干擾[14]。為避免熒光干擾,樣品處理時,采用屈臣氏純水清洗,去除表面灰塵等雜質,以避免表面雜質熒光效應的干擾;檢測條件選定中心波長785 nm 和連續掃描采集模式。熒光波長一般大多產生在紫外區域,采用近紅外785 nm,可在一定程度上減少熒光干擾。延長對樣品的照射時間,利用光致漂白效應最大程度降低熒光干擾[14-15]。
量化的中藥拉曼圖譜包含大量數據信息,具有高維度、非正態、非線性、整體統計分布不明確等特點[16]。而流行的特征提取方法——線性判別(LDA)和主成分分析(PCA)受限于分析數據的正態分布,掩蓋原有的數據信息,是對得到的全新指標進行探索分析,難以實現本研究的目標[17-18]。MDG 指標可以識別重要變量,其描述的是一個變量對分類樹上每個節點分類效果的貢獻,值越大表示該變量的分類效果越好[19]。而且基于MDG的特征篩選不受高斯分布影響,可有效、大幅度降低數據維度,篩選得到與平性密切相關的特征拉曼數據,同時去除冗雜數據,保留數據的原有信息,不易產生過擬合的結果[20]。綜上,考慮選擇該方法進行特征篩選。
本研究在中藥整體性表征和特征篩選的基礎上所建立的相關模型均表現出良好的評判效果,尤以MDG 前100 拉曼數據所建隨機森林模型最佳,優于已報道平性與非平性的評判模型[4-5,11],且研究是在大批量中藥拉曼光譜檢測基礎上進行的,其結果更具有說服力。此外,基于平性與非平性的評判模型和非參數檢驗均表明平性和非平性與中藥拉曼譜圖具有顯著的相關性,而中藥拉曼譜圖則是中藥的真實、客觀反映。以上均可為平性的客觀存在、可入性味之說提供有力依據。