鄒華彬
(山東大學化學與化工學院,濟南,250100)

亦采用雙指標等級序列個性化模式識別法[29-30,33]對4種中藥紅外指紋圖譜進行了分析,當統計相似尺度Pg≥Pg+1.1S~Pg≥Pg+1.3S時,可以精確鑒別4種復方,且樣品的正確識別率為90.5%~95.2%。2種理論方法的分析結果等價,皆可以將4種組成相似的生物復雜體系-中藥復方進行精確鑒別分類,且相互驗證。但2個中藥品種常數具有確定的絕對定量標準,且具有鑒別判斷的簡易性、明確的物理意義和生物學意義。
1.1 儀器 美國NICOLET-5700-FT-IR傅立葉變換紅外光譜儀(光譜范圍4 000~400 cm-1,分辨力4 cm-1);高速粉碎機,壓片機,分析天平(METTLE TOLEDO),靈敏度0.1 mg。
1.2 試劑 溴化鉀(分析純,國藥集團化學試劑有限公司)。
1.3 分析樣品 桂附地黃丸、明目地黃丸、金匱腎氣丸及知柏地黃丸(皆為水丸或濃縮丸)樣品如下。見表1。
本論文中所研究的4種中藥復方組成如下[40]:
桂附地黃丸:地黃、茯苓、牡丹皮、山藥、山茱萸、澤瀉、附子、肉桂。
金匱腎氣丸:地黃、茯苓、牡丹皮、山藥、山茱萸、澤瀉、附子、牛膝、車前子、桂枝。
明目地黃丸:地黃、茯苓、牡丹皮、山藥、山茱萸、澤瀉、白芍、當歸、枸杞、蒺藜、菊花、石決明。
知柏地黃丸:地黃、茯苓、牡丹皮、山藥、山茱萸、澤瀉、黃柏、知母。
由上述4種中藥復方的組成分看,他們皆具有6種相同的草藥,金匱腎氣丸與桂附地黃丸具有7種相同的草藥。4種中藥復方之間的化學成分具有很高的相似組成,且各自的化學成分具有非常高的復雜性。因此,準確鑒別它們具有極大的困難。
2.1 理論方法 2個中藥品種常數的理論推導根據生物體系的雙指標信息理論方程-生物遺傳與變異信息理論方程[38]。任意2個樣品或任意樣品2個不同演化階段的遺傳與變異信息量為:

表1 4種中藥復方樣品
I=-(PglnPg+PalnPva+PblnPvb)(1)
下面列出各個變量定義見文獻[5-9]:
共有峰率Pg:2個比較的指紋圖譜a、b中的共有峰數與該2個指紋圖譜的獨立峰數Nd的比值。Pg它只是共有峰Ng的函數。簡化表示為P。該共有峰率指標與Jaccard及Sneath、Sokal系數[41]本質相同。
Pva:圖譜a的變異峰率。Pvb:圖譜b的變異峰率。
Pa=na/Nd,Pb=nb/Nd(5)
Pa,Pb分別是樣品a,b的變異峰占獨立峰的比例。

表2 最大信息量區間之Pg及其該區間對應的信息量變化率
注:*對稱度為α=0.5,1時,最大信息量對應的共有峰率Pg=0.61;△對稱度為α=0時,最大信息量對應的供共有峰率Pg=0.70。根據圖1信息理論方程曲線,以最大信息量點對應的Pg為中心,取其左右各變化0.05計算信息量,以直觀給出信息量的變化程度。對稱度ɑ=0,對應的最大信息量點為Pg=0.70=70%;對稱度ɑ=0.5,1,對應的最大信息量點皆為Pg=0.61=61%.插入Pg=0.66這個點,是為了增加數據點的密度

圖1 信息理論方程曲線
注:對稱變異曲線對稱度α=1(Pa=Pb),非對稱變異曲線α=0.5(Pb=1/2Pa),α=0(Pa≠0,Pb=0)
各類指紋峰之間的關系為:Nd=Ng+na+nb,Na=Ng+na,Nb=Ng+nb
Nd:2個相互比較的指紋圖譜的獨立峰,即指比較的2個指紋圖譜a、b中吸收峰的種類數。Na:指紋圖譜a的總指紋峰數。Nb:指紋圖譜b的總指紋峰數。na:圖譜a的變異峰數;nb:圖譜b的變異峰數。
該方程存在著2個極大值信息量,分別對應于對稱變異Pa=Pb,α=1,共有峰率為Pg=61.0%,及極端非對稱變異,α=0,Pa≠0,Pb=0,共有峰率為69.5%。見圖1。
根據I~Pg圖,可以發現,對于對稱變異α=1及非對稱變異α=0.5曲線的最高點在Pg=0.610,且在Pg=0.610附近存在一個平坦區域,信息量變化不大。而對于極端非對稱變異α=0,曲線的最高點在Pg=0.695,且在Pg=0.695附近存在一個平坦區域,信息量變化很小。
當對稱性系數α=1,α=0.5,最大信息量對應的Pg皆為0.61,最大信息對應的共有峰率Pg區間皆對應于0.55~0.66。
無論在對稱變異還是非對稱變異,在最大信息量對應的共有峰率Pg左右變化5%的范圍內,信息量的變化皆小于2.49%,小于3%。這說明,由于各種因素導致的生物變異的變化相對于最大信息量點之Pg±5%的范圍內,最大信息量變化小于2.49%,該變化范圍可以認為處于中藥品種特征的臨界變化區域。見表2。
2個樣品的共有峰率越高,相似性越大,品質越相似。因此,根據表1,考慮到各類因素對中藥及實驗的隨機波動性影響,可以確定Pg=61%及Pg=70%作為判別生物體系的品種常數及優化判別中藥品種的絕對理論標準,其變化區間為Pg≥(61±3)%及Pg≥(70±3)%,結合最大有效樣本數法對樣本集進行合理優化分類[37],同時可以避免為了追求基于經驗知識的完全分類而形成的過度分類,如神經網絡法中易出現的過度分類。
2.2 實驗方法
2.2.1 實驗條件 中藥樣品粉碎并過80目篩,60 ℃烘干2 h,<4 ℃保存。KBr壓片法測試紅外指紋圖譜。每個樣品平行測量指紋圖譜6次,每個樣品的紅外指紋圖譜峰波數是6次測量中出現次數的平均值。紅外指紋圖譜以約25 cm-1平滑處理,最佳靈敏度80。
2.2.2 重復性實驗和穩定性實驗 樣品S20平行測量6次,任意4次測量指紋圖譜中每個吸收峰波數的平均值構成組合數值指紋圖譜。他們之間的最低共有峰率為93%,具有優良的重復性。原藥粉末在<4 ℃下保存,具有良好的穩定性。
2.3 指紋圖譜測定與實驗數據分析
2.3.1 指紋圖譜測定 根據實驗條件,測試4類42個中藥復方原藥粉末的紅外指紋圖譜。見圖2~5。由圖2~5可見,4種復方中藥原藥粉末的紅外指紋圖譜具有很高的相似性及復雜性,極難憑觀察直觀鑒別4類中藥原藥粉末的紅外指紋圖譜。必須用數理分析方法對其指紋圖譜數據進行分析,以得到嚴謹精確的品質鑒別結果。

圖2 桂附地黃丸和金匱腎氣丸原藥粉末紅外指紋圖譜疊加圖
注:在1 600 cm-1處由下至上分別為桂附地黃丸S1,S3,S8,S10,金匱腎氣丸S11,S14,S18

圖3 明目地黃丸和知柏地黃丸原藥粉末紅外指紋圖譜疊加圖
注:在1 600 cm-1處由下至上明目地黃丸S24,S26,S32,知柏地黃丸S34,S38,S42

圖4 桂附地黃丸,金匱腎氣丸,明目地黃丸,知柏地黃丸原藥粉末紅外指紋圖譜疊加圖
注:在1 600 cm-1處由下至上分別為桂附地黃丸S1,S3,S8,S10,金匱腎氣丸S11,S14,S18,明目地黃丸S24,S26,S32,知柏地黃丸S34,S38,S42

圖5 桂附地黃丸,金匱腎氣丸,明目地黃丸,知柏地黃丸原藥粉末紅外指紋圖譜疊加圖
注:2 900 cm-1處由下至上桂附地黃丸S1,S3,S8,S10,金匱腎氣丸S11,S14,S18明目地黃丸S19,S24,S26,S32,知柏地黃丸S34,S37,S38,S42
2.3.2 實驗數據分析 采用Shapiro-Wilk檢驗方法,確定每個樣品的組合指紋圖譜峰及42個樣品的共有峰及變異峰。以任一樣品為標準,計算其他樣品與該樣品的共有峰率,并按共有峰率由高到低的方法排序,構成樣本及其對應的共有峰率的符號-數值二元序列,即雙指標序列。根據得到的2個中藥品種理論判別標準Pg=61.0%,Pg=69.5%,結合群體特征序列最大有效樣本數法[38]:
Y:群體特征序列最大有效樣本數;Nci:第i個樣本的核心特征序列中的樣本數;Nri:第i個樣本的關聯序列中的樣本數;M:群體樣本總數。Y反映了群體分類中有效分類程度,Y越大說明品質聚分類越清晰,關聯序列中的樣本數越少,核心特征序列中的樣本數越多,越接近理想聚分類。
分別在Pg≥(61±3)%,Pg≥(70±3)%優化Pg,得到4個品種的整體優化特征序列,即樣品清晰分類且具有最大有效樣本數,以實現4種中藥復方6種兩兩配對關系的精確鑒別。
當Pg≥61%,Pg≥72%時4種中藥經過優化的特征序列。見表3。
采用鑒別標準Pg≥61%,由每個樣品的特征序列看,下列5個藥品配對可以得到精確鑒別:桂附地黃丸-金匱腎氣丸;桂附地黃丸-明目地黃丸;金匱腎氣丸-明目地黃丸;金匱腎氣丸-知柏地黃丸;明目地黃丸-知柏地黃丸。
而桂附地黃丸-知柏地黃丸二者的特征序列交疊嚴重,無法清晰區分二者。因而無法得到準確鑒別。

表3 4種中藥經過優化的特征序列
注:a.核心特征序列;b,關聯序列,該序列部分中的樣品不屬于核心特征序列樣品對應的類。每個樣品的特征序列由核心特征序列+關聯序列構成。c,特征序列中的斜黑體部分,表示當鑒別標準Pg≥72%時4種中藥的特征序列,而每個樣本的整個序列表示Pg≥61%時4種中藥的特征序列
當Pg≥72%時,S35,S37的特征序列中,關聯序列等于或長于核心特征序列,因而無法正確識別,其余40個樣品得到正確的品種判別,正確識別率為40/42=95.2%,錯誤識別率為2/42=4.8%。不僅上述5個藥品對得到精確鑒別,在此情況下,桂附地黃丸-知柏地黃丸也得到精確鑒別。對于桂附地黃丸-知柏地黃丸配對,依據非對稱變異品種常數Pg=70(69.5)%,結合群體特征序列最大有效樣本數法[37],在不同Pg條件下,優化分類樣品,所得結果見表4。

表4 4種復方非對稱變異常數Pg=(70±x*)%的優化結果
x*,x=-1,0,1,2,5
由表4結果知,當Pg≥69%~75%時,桂附地黃丸-知柏地黃丸藥品對皆可得到精確鑒別。但Pg≥72%時,有效樣本數最大,分類最合理,而Pg≥75%時,雖然樣本的正確識別了100%,但有效樣本數最小,說明過度分類,并不合理。通過對實驗測量的指紋圖譜數據進行詳細分析,可以發現評判這4類中藥的品種標準可以確定為Pg≥61%,Pg≥72%。見表5。

表5 4種復方配對遵從的品種常數Pg(%)
在上述相似尺度下,6對中藥配對皆可得到準確判別分類,樣品正確識別率95.2%,具有最大有效樣本數。在類的層次上,類的正確識別率為100%。

中藥品種的科學鑒別是中藥現代研究的核心課題之一。只有在科學上絕對保證品種鑒別的可靠性,才能保證療效的可靠性,為中醫藥正名,并為中醫藥的現代深化科學研究奠定不可動搖的基礎。目前的中藥品種鑒別都基于經驗知識,即使是眾多的模式識別理論方法,也是基于經驗知識或學習樣本獲得經驗參量,這些方法皆無法得到不可懷疑的結論。本研究根據生物體系共有遺傳變異信息理論方程確定了2個中藥品種常數Pg=61%,Pg=70%,在科學上提出了2個判別中藥品種的絕對理論定量標準。基于它們建立的2個品種判別理論標準Pg≥(61±3)%及Pg≥(70±3)%,對4種組成相似的中藥復方的6種配對進行了精確鑒別。結合文獻[37-39]可以證明,基于生物遺傳與變異信息理論方程在2種變異狀態取得最大信息量所對應的共有峰率[37],確實可以反映生物體系的本質相似特征。該理論方法無需任何經驗知識、主觀設定參數,只需依據實驗測量值,結合最大有效樣本數法就可實現對某些中藥這類生物復雜體系的精確鑒別及模式識別。最大有效樣本數法可以防止其他模式識別方法容易產生的過度擬合分類現象,而保證給出最優合理結果。這也證明,在生物體系中同樣存在如同物理學、化學中的精確定理定律,有待人們去發現。
依據生物遺傳與變異信息理論推導的2個中藥品種絕對定量標準而不是依據經驗標準對中藥精確鑒別,這應是生物體系中藥鑒別理論方法的一個重要突破。該理論方法亦具有巨大的簡易性,且也應適用于任意生物體系的精確分類鑒別。另一方面,作者多年的系統實驗研究及理論研究發現,基于生物體系的紅外、液相指紋圖譜信息及分子種類信息對生物體系進行鑒別、分類、聚類及模式識別研究,結果較基于成分的含量信息更可靠。因為這些信息主要反映的是生物體系的物質結構信息,結構決定功能,結構決定品種特性。理論上,這2個品種常數適用于基于紅外指紋圖譜、液相指紋圖譜、分子種類信息的生物體系品種的絕對定量鑒別。
目前的中醫藥研究,主要聚焦于其中的化學成分、功效研究,對中醫藥數理基礎理論研究工作缺乏應有的重視。要使以幾千年經驗為基礎的中醫藥演化至以數理理論為基礎的現代科學,發現其中的精確科學原理,用于更好地指導中醫藥現代研究,還有漫漫之路有待探索。但這是能夠發揚光大祖國中醫藥學的必由之路。
致謝:本文部分數據取自我的研究生韓智峰、張新玲的畢業論文。