(1.四川大學(xué) 計算機(jī)學(xué)院, 成都 610064; 2.四川大學(xué) 華西附屬第二醫(yī)院, 成都 610041; 3.成都中醫(yī)藥大學(xué) 藥學(xué)院, 成都 610075)
摘 要:以數(shù)據(jù)挖掘?yàn)榧夹g(shù)手段,對方劑中藥對的量效關(guān)聯(lián)進(jìn)行分析,主要工作包括:根據(jù)中藥方劑中藥物劑量分布的一般規(guī)律,用聚類方法自動劃分藥物劑量的模糊區(qū)間;基于模糊關(guān)聯(lián)規(guī)則的概念,提出藥對量效關(guān)聯(lián)規(guī)則的挖掘算法;對所提出的算法進(jìn)行了實(shí)現(xiàn)和驗(yàn)證。結(jié)果表明,基于聚類和模糊關(guān)聯(lián)規(guī)則挖掘的中醫(yī)藥對量效關(guān)聯(lián)分析符合中醫(yī)藥的基本特點(diǎn),挖掘出的知識具有較高的正確率。
關(guān)鍵詞:模糊關(guān)聯(lián)規(guī)則; 聚類; 中藥配伍
中圖分類號:TP391 文獻(xiàn)標(biāo)志碼:A
文章編號:10013695(2009)01005903
Doseeffect analysis of couplet medicines in TCM
based on clustering and fuzzy association rules
YUAN Nan1, JIN Hui2, TIAN Ling1, JIANG Yongguang3, YU Zhonghua1
(1.School of Computer Science, Sichuan University, Chengdu 610064, China; 2. The 2nd West China Hospital, Sichuan University, Chengdu 610041, China; 3.College of TCM, Chengdu University of TCM, Chengdu 610075, China)
Abstract:This paper adopted data mining technology to analyze the relations on doseeffect of couplet medicines in TCM prescriptions. The main contributions included:according to the common rule of dose distribution in TCM prescriptions, automatically partitioned the fuzzy sets of medicine dose by means of clustering; proposed an algorithm of mining doseeffect relations of couplet medicines in TCM based on the concept of fuzzy association rule; implemented and tested the proposed algorithm. The experiment demonstrates that doseeffect analysis of couplet medicines based on clustering and fuzzy association rules accords with the basic characteristics of TCM. The knowledge gotten has the virtue of high accuracy.
Key words:fuzzy association rules; clustering; TCM(traditional Chinese medicine) compatibility law
0 引言
中醫(yī)有著非常悠久的歷史,是我國人民長期醫(yī)療實(shí)踐積累總結(jié)出的醫(yī)學(xué)理論體系,在研究人體生理、病理以及疾病的診斷和防治等方面具有獨(dú)特的理論風(fēng)格和卓越的診療效果,是我國優(yōu)秀民族文化的瑰寶。但中醫(yī)獨(dú)特的診療方式及辨證論治上過重依賴行醫(yī)經(jīng)驗(yàn)的特點(diǎn),使其在方劑配伍規(guī)律和藥理等方面缺乏科學(xué)理論的指導(dǎo)。作為現(xiàn)代信息處理的重要手段,計算機(jī)技術(shù)的高速發(fā)展為充分挖掘中藥配伍規(guī)律、實(shí)現(xiàn)中醫(yī)現(xiàn)代化提供了可能。
藥對是臨床上廣泛應(yīng)用的、功效較為固定的兩種藥的搭配。藥對基于藥物的“七情和合”,通過簡單的配伍產(chǎn)生或消除某種作用,從而達(dá)到特殊的治療效果。方劑功效是對全部組方藥物在人體內(nèi)綜合藥理的表述和說明,是方劑在治療、預(yù)防和養(yǎng)生方面功效的概括和總結(jié)。中醫(yī)臨床用藥歷來講究劑量與療效的關(guān)系。臨床上,藥對劑量的使用搭配可以控制方劑功效的發(fā)揮方向。因此,自動挖掘方劑中藥對劑量與功效之間的關(guān)聯(lián),對于充分理解方劑中藥物的作用機(jī)理、提升中醫(yī)藥的理論水平具有重要意義。為此,本文基于數(shù)據(jù)挖掘技術(shù),研究了中醫(yī)藥對量效關(guān)聯(lián)的挖掘問題,提出了基于聚類和模糊關(guān)聯(lián)規(guī)則的藥對量效挖掘算法,并進(jìn)行了實(shí)驗(yàn)驗(yàn)證。
1 相關(guān)工作
數(shù)據(jù)挖掘作為信息處理的嶄新技術(shù),其應(yīng)用雖然還處于起步階段,但已顯現(xiàn)出強(qiáng)大的生命力?;跀?shù)據(jù)挖掘技術(shù)的中醫(yī)藥信息處理也逐漸受到重視,并取得了一系列可喜的成果。例如,王詠梅等人[1]運(yùn)用模糊聚類和模糊歐幾里得距離分析了藥物之間的配伍,得出諸藥間的相互作用,實(shí)驗(yàn)結(jié)果符合傳統(tǒng)中醫(yī)藥理論的認(rèn)識。趙蔡斌等人[2]采用相似系數(shù)來描述方劑中各味單藥之間的差異程度,相似系數(shù)的大小反映了各單藥之間的相似程度。李力等人把關(guān)聯(lián)規(guī)則和粗糙集應(yīng)用于中藥方劑的分析,實(shí)現(xiàn)了對一些中藥復(fù)方的初步分析。何前鋒等人[3]基于數(shù)理統(tǒng)計方法,采用高頻集挖掘技術(shù),通過挖掘古代方劑與新藥方劑的高頻藥對,探討古代方劑與新藥方劑中高頻藥物組配的異同情況。盡管研究者已經(jīng)做了大量工作,取得了不少重要成果,但在藥對劑量與療效關(guān)系的方劑配伍規(guī)律挖掘方面,目前還未見相關(guān)研究的報道。
2 基于聚類和模糊關(guān)聯(lián)規(guī)則的藥對量效挖掘算法
本文旨在利用數(shù)據(jù)挖掘技術(shù),從中藥方劑[4,5]數(shù)據(jù)中分析出藥對劑量比例與方劑功效之間的關(guān)系,為此提出了基于聚類和模糊關(guān)聯(lián)規(guī)則[6]的藥對量效挖掘算法。本章將對該算法進(jìn)行描述和分析。
2.1 劑量預(yù)處理
中藥方劑數(shù)據(jù)不規(guī)范、不完整等特點(diǎn)是中藥數(shù)據(jù)挖掘的主要障礙之一。例如,劑量缺失是方劑數(shù)據(jù)中普遍存在的現(xiàn)象,本文對缺失劑量的處理采用簡單過濾的方式,將包含缺失劑量的方劑舍棄;同時,采用組成藥對的兩味藥的劑量比例來體現(xiàn)它們之間的用量關(guān)系。由于中醫(yī)藥具有模糊性、非線性的特點(diǎn),為了更加合理地反映中醫(yī)藥的規(guī)律,使挖掘出的知識易于理解,在預(yù)處理階段對藥對劑量的比例進(jìn)行了模糊化處理。
2.2 劑量中心處理
在模糊化處理之前,首先要對模糊概念進(jìn)行定義。本文采用Kmeans算法對藥對的用量比例進(jìn)行聚類,求出每個藥對用量比例的聚類中心[7]。藥對劑量比例的聚類算法如下:
描述:以k為參數(shù),把n個用量比例分為k個簇。
輸入:同一藥對的n個用量比例,簇的數(shù)目k;
輸出:k個簇,分別以簇內(nèi)的比例中心表示。
方法:
任意選擇k個用量比例作為初始的k個簇中心;
repeat
根據(jù)用量比例與每個簇中心的距離,將每個用量比例賦予最近的簇;
根據(jù)新的簇分布,重新計算每個簇的平均值作為新的簇中心;
until 不再發(fā)生變化。
在該算法中,用量比例之間的距離用它們之間差的絕對值來度量。隨機(jī)抽取的部分輸出結(jié)果如表1所示。
表1 聚類中心(k=2,比例中心=藥1用量/藥2用量)
藥1藥2比例中心1比例中心2
人參生姜0.303 3746.221 66
白術(shù)陳皮0.789 0566.666 67
白術(shù)甘草炙0.612 9354.285 71
白芍當(dāng)歸1.078 123.397 38
當(dāng)歸黃芪1.358 96.190 48
生甘草茯苓1.163 117.174 72
2.3 劑量模糊化
為了對劑量模糊化,需要根據(jù)聚類中心構(gòu)造出劑量比例上模糊概念對應(yīng)的模糊集,并導(dǎo)出隸屬度函數(shù)[8]。
a)在每個比例中心上構(gòu)造模糊集,允許兩相鄰模糊集的邊界有p%的重疊。
對以ri為聚類中心的聚類對應(yīng)的模糊集Fi,其支集上確界Bi和支集下確界bi分別定義為Bi=ri+0.5(1+p%)(ri+1-ri),bi=ri-0.5(1+p%)(ri-ri-1)。
對以ri為聚類中心的聚類對應(yīng)的模糊集Fi,其核(Fi)的下確界為Bi-1,上確界為bi+1。
b)在此基礎(chǔ)上構(gòu)造k個模糊集Fi(i=1,2,…,k)對應(yīng)的隸屬度函數(shù),如圖1所示。
其中,以r1為聚類中心的聚類對應(yīng)的模糊集F1的隸屬度函數(shù)式為
u(r1,x)=1 x<b2(B1-x)/(B1-b2)b2≤x≤B10B1≤x
以ri為聚類中心的聚類對應(yīng)的模糊集Fi的隸屬度函數(shù)式為
u(ri,x)=(x-bi)/(Bi-1-bi) bi+1<x<Bi1bi<x<Bi-1
(Bi-x)/(Bi-bi+1)Bi-1≤x≤bi+10bi≤x≤Bi-1
以rk為聚類中心的聚類對應(yīng)的模糊集Fk的隸屬度函數(shù)式為
u(r2,x)=0 x<b2(x-b2)/(B1-b2)b2≤x≤B11B1≤x
c)以劑量中心處理的結(jié)果作為模糊集的兩個核,分別得到每個藥對用量比例的模糊集隸屬度函數(shù)。
以白術(shù)和陳皮藥對為例,r1=0.789 056,r2=6.666 67,則
B1=r1+0.5×(1+p% )×(r2-r1)
B2=r2-0.5×(1+p%)×(r2-r1)
隸屬度函數(shù)式為
u(r1,x)=1 x<b2(B1-x)/(B1-b2)b2≤x≤B10B1≤x
u(r2,x)=0 x<b2(x-b2)/(B1-b2)b2≤x≤B11
B1≤x
2.4 模糊關(guān)聯(lián)規(guī)則挖掘
1)模糊關(guān)聯(lián)規(guī)則
假設(shè)D是全體事務(wù)的集合,屬性集為attr={A1,A2,…,Am},屬性Ai的值域記為dom(Ai),i∈{1,2,…,m}。對任意記錄d∈D,用d[Ai]表示記錄d在屬性Ai上的投影。
假設(shè)量化屬性Ai上的模糊概念集Ni={Ni1,Ni2,…,Nip},對任意Nir∈Ni,r∈{1,2,…,p},其對應(yīng)的定義在論域dom(Ai)上的模糊集為Fir,隸屬度函數(shù)為μFir。
相關(guān)定義如下[9]:
定義P=Ni1r1∧Ni2r2∧…∧Nikrk為模糊概念模式(簡稱模式),模式P的長度為k。Ni1r1,Ni2r2,…,Nikrk中任意t(t<k)個模糊概念構(gòu)成的模式稱為P的子模糊概念模式(簡稱子模式)。其中Nijrj是定義在Aij上的模糊概念,Aij∈attr,ij∈{1,2,…,m},rj∈{1,2,…,sij} 。
定義任意記錄d(d∈D)對模式P的支持度為
deg(P,d)=min{μFi1r1(d[Ai1]),μFi2r2(d[Ai2]),…,μFikrk(d[Aik])}
模式P在D中的支持度為
σ(P,D)=(∑d∈Ddeg(P,d))/|D|
模糊關(guān)聯(lián)規(guī)則是形如AB的蘊(yùn)涵式。其中,A、B均是模糊概念模式,且A∧B=。定義其支持度為σ(AB,D)=σ(A∧B,D),置信度為ψ(AB,D)=σ(A∧B,D)/σ(A,D)。
2) 規(guī)則過濾
模糊量效關(guān)聯(lián)規(guī)則挖掘的輸出結(jié)果可能存在冗余。例如,藥對以不同的用量比例配伍有相同的功效,雖然支持度和置信度都符合興趣度度量,但并不說明藥對用量的不同對功效的影響,因此需要將這些規(guī)則過濾掉。
2.5 具體算法
藥對量效關(guān)聯(lián)的挖掘算法描述如下:
/* preprocess the data set D*/
for all recordd∈D do
a)過濾缺失劑量;
b)統(tǒng)計D中藥對和功效的頻率,大于支持?jǐn)?shù)的分別進(jìn)入集合Drs和Eff;
c)for all 藥對ds∈Drs,計算其在D中同時出現(xiàn)的用量比例構(gòu)成集合Xds;
/* run the clustering algorithm for data setD to produce k cluster centers r */
for all 藥對ds∈Drs,根據(jù)相應(yīng)的用量比例集合Xds,調(diào)用Kmeans算法求聚類中心rds;
/* fuzzy association rules analysis */
for all藥對 ds∈Drs do
for all方效 es∈Eff do
for each fuzzy concept pattern p(ds,rds,es)∈Ndo
p.sum +=deg(p,ds);
N1={p|σ(p,D)≥min_sup,p∈N};
N2={p|ψ(p,D)≥min_conf,p∈N1};
/* rules filter */
for each fuzzy concept pattern p1,p2∈N2 do
ifds1=ds2,es1=es2,N3={p|fab(ψ(p1,D)-ψ(p2,D))≤min_dis,p1,p2∈N2};
result={p|p∈N2,pN3}
3 實(shí)驗(yàn)結(jié)果分析
實(shí)驗(yàn)環(huán)境:C++Builder 6,Celeron(R)2.40 GHz CPU,256 MB內(nèi)存,Windows XP。
實(shí)驗(yàn)數(shù)據(jù):數(shù)據(jù)庫是中醫(yī)專家提供的四君子方類庫,共包含973條方劑記錄。
實(shí)驗(yàn)中,參數(shù)設(shè)置為k=2,p=0.5,最小支持度min_sup=0.01,最小置信度min_conf=0.5。以包含白術(shù)的藥對為例,挖掘出的藥對量效模糊關(guān)聯(lián)規(guī)則及其置信度如下:
白術(shù) + 陳皮 以比例 0.789 056 ∶1養(yǎng)血 ∶0.649 156
白術(shù) + 陳皮 以比例 6.666 67 ∶1散寒 ∶0.947 005
白術(shù) + 陳皮 以比例 6.666 67 ∶1利濕 ∶0.964 876
白術(shù) + 當(dāng)歸 以比例 1.020 99 ∶1止咳 ∶0.937 499
白術(shù) + 當(dāng)歸 以比例 8.333 33 ∶1散寒 ∶0.922 318
白術(shù) + 當(dāng)歸 以比例 8.333 33 ∶1行氣 ∶0.941 738
白術(shù) + 當(dāng)歸 以比例 8.333 33 ∶1止嘔 ∶0.961 159
白術(shù) + 當(dāng)歸 以比例 8.333 33 ∶1消腫 ∶1
白術(shù) + 生甘草 以比例 0.648 554 ∶1養(yǎng)血 ∶0.678 672
白術(shù) + 生甘草 以比例 0.648 554 ∶1行氣 ∶0.784 709
白術(shù) + 生甘草 以比例 0.648 554 ∶1止嘔 ∶0.873 996
白術(shù) + 生甘草 以比例 4.179 89 ∶1散寒 ∶0.871 303
白術(shù) + 黃芪 以比例 1.137 18 ∶1利濕 ∶0.844 923
白術(shù) + 黃芪 以比例 3.742 48 ∶1散寒 ∶0.899 942
經(jīng)中醫(yī)專家鑒定,得到的大部分規(guī)則正確反映了中藥方劑中藥對的用量與方劑功效之間的關(guān)系。例如白術(shù)和陳皮是以0.789 056 ∶1的用量比例配合使用時,可發(fā)揮養(yǎng)血功效;而若想使兩者更好地發(fā)揮散寒以及利濕的功效,則以6.666 67 ∶1的劑量比較合適。這些規(guī)則都基本符合臨床實(shí)際。
4 結(jié)束語
本文將聚類和模糊關(guān)聯(lián)規(guī)則應(yīng)用于中醫(yī)藥對量效分析,符合中醫(yī)自身的用藥特點(diǎn),并且得到了較好的實(shí)驗(yàn)結(jié)果。
在進(jìn)一步的工作中,將著重考慮在數(shù)據(jù)量充足的情況下增加比例中心,使得藥對的用量分析更具有針對性,同時將研究推廣到更高的維度,進(jìn)一步揭示中藥的治病機(jī)理。
參考文獻(xiàn):
[1]王詠梅, 馬紅,劉蘇中.方劑配伍的模糊分析[J].中國實(shí)驗(yàn)方劑學(xué)雜志, 2000,6(6):5960.
[2]趙蔡斌,周魯,付超.中藥復(fù)方的模糊分析[J].中國實(shí)驗(yàn)方劑學(xué)雜志, 2003,9(2):6263.
[3]何前鋒,崔蒙,吳朝暉,等.方劑中配伍知識的發(fā)現(xiàn)[J].中國中醫(yī)藥信息雜志, 2004,11(7):655658.
[4]General guidelines for methodologies on research and evaluation of traditional medicine[EB/OL]. (200001). http://www.who.int/medicines/library/trm/whoedmtrm20001/whoedmtrm20001.pdf.
[5]周占江,于春光.淺談中藥劑量與臨床療效關(guān)系上的特點(diǎn)[J].黑龍江中醫(yī)藥, 1999(1):5758.
[6]HAN Jiawei, KAMBER M. Data mining:concepts and techniques[M].San Francisco:Morgan Kaufmann Publishers,2001.
[7]李乃乾,沈均毅.自動生成量化屬性模糊集的算法[J].計算機(jī)工程與應(yīng)用, 2002,38(21):1011.
[8]陸建江,徐寶文.挖掘典型的語言值關(guān)聯(lián)規(guī)則[J].東南大學(xué)學(xué)報, 2004,34(3): 318321.
[9]CHAN K C C, AU W H. Mining fuzzy association rules in database[C]//Proc of the 6th ACM International Conference on Information and Knowledge Management. New York: ACM Press,1997:209215.