
















摘" 要:傳統的數據挖掘方法一般從組方中所有的藥物出發,挖掘藥物的用藥規律,計算量大,且僅僅基于藥物頻次對組方進行研究,忽略了藥物劑量因素,難以發現頻次低但劑量占比高的具有良好療效的藥物。針對以上問題,提出一種改進的基于效用度(Effect Degree, ED)核心藥物發現算法,并將基于效用度的點式互信息(Pointwise Mutual Information with Herb Pair ED, PMIED)與節點度結合,定義一種新的加權相關系數作為藥物權重,在所發現的核心藥物中運用層次聚類算法研究用藥規律。實驗結果表明,該算法可有效挖掘出組方中的核心藥物,經過分析,所發現的核心藥物和藥物組合均對痰瘀互阻證具有良好療效。
關鍵詞:用藥規律;效用度;核心藥物;節點度;層次聚類
中圖分類號:TP399 文獻標識碼:A 文章編號:2096-4706(2025)01-0127-07
Research on Medication Rule Based on Drug Effect Degree
Abstract: The traditional data mining method generally starts from all the drugs in the prescriptions to mine the medication rule of drugs, which is computationally intensive and only researches the prescriptions based on the frequency of drugs, ignoring the drug dosage factor. It is difficult to find drugs with low frequency but high dosage ratio and good efficacy. To solve the above problems, this paper proposes an improved core drug discovery algorithm based on Effect Degree (ED), and combines Pointwise Mutual Information with Herb Pair ED (PMIED) with degree of a node. It defines a new weighted correlation coefficient as drug weight, and uses Hierarchical Clustering algorithm to research the medication rule among the discovered core drugs. The experimental results show that the algorithm can effectively mine the core drugs in the prescriptions. After analysis, the discovered core drugs and drug combinations have a good effect on the phlegm-blood stasis syndrome.
Keywords: medication rule; Effect Degree; core drug; degree of a node; Hierarchical Clustering
0" 引" 言
中醫作為傳統醫學體系,以整體觀念和個體化治療為特點,注重平衡和調和身體的陰陽、氣血等要素,以達到治療疾病和維護健康的目的,而中藥組方是中醫治療疾病的主要手段,基于辨證論治的思想,通過辨證用以不同組方治療疾病[1]。研究組方用藥規律能夠揭示藥物之間的相互作用,幫助醫者進一步掌握中醫的精髓。
目前關于中醫組方用藥規律的研究方法主要有頻數統計、關聯規則分析以及層次聚類[2]。頻數統計是最基本的統計方法之一,常用于統計中藥組方中各個藥物以及藥物性味歸經的出現頻次,以便識別出常用的藥物和藥物組合,揭示中藥在組方中的應用規律和特點,如文獻[3]對鎮痛中藥組方進行統計分析,發現組方中的藥物多以補氣養血、行氣活血功效為主。關聯規則方法[4]通過發現藥物在組方中共同出現的規律,揭示藥物之間的關聯關系和常見的藥物組合,從而挖掘中藥組方的用藥規律,如Apriori[5-6]算法和FP-Growth[7]算法。Apriori算法[8]作為關聯規則挖掘中經典算法之一,通過迭代識別出頻繁項集,然后生成關聯規則,如文獻[9]運用Apriori算法研究肺炎臨床用藥規律。FP-Growth與Apriori算法不同,FP-Growth算法[10]通過構建FP樹和利用樹的性質來生成頻繁項集和關聯規則,如文獻[11]采用FP-growth算法對傳統中藥組方用藥規律研究。層次聚類[12]方法的基本思想是通過衡量藥物間的相似性或距離來構建聚類樹狀結構,其主要步驟包括初始化、合并或分裂簇、重復進行合并或分裂操作,直至滿足終止條件。在層次聚類中,常用的距離或相似性度量方法包括皮爾遜相關系數[13]、曼哈頓距離[14]、歐式距離[15]等,如文獻[16]采用層次聚類研究藥物的配伍規律,類間距離測度方法為組間連接法,藥物的相似性度量選用皮爾遜相關系數。
上述方法為中醫研究打下堅實的基礎。但是以上方法主要是基于組方中所有的藥物進行研究,計算量大,且傳統的聚類方法僅考慮藥物間的關聯權重,而忽略了節點的度。周偉等人[17]提出一種基于藥物效用度的核心藥物發現算法,通過分析藥物的效用度得出核心藥物,在核心藥物的基礎上研究用藥規律,大大減少了計算量。但此方法只考慮了藥物在組方中的頻次占比,忽略了藥物的劑量因素,而劑量占比往往反映了藥物在組方中的重要性,在組合療法中,劑量占比高的藥物通常起主要治療作用,具備核心藥物的特征,如果僅僅只考慮頻次容易錯誤判斷在組方中劑量占比低的藥物,難以發現那些頻次低但劑量占比高的核心藥物。
針對以上問題,本文提出一種改進的基于效用度的核心藥物發現算法,該算法將藥物劑量占比考慮到藥物效用度中,解決藥物劑量被忽略的問題,從而能夠有效挖掘出組方中的核心藥物。同時,為使得核心藥物聚類結果更加準確合理,將基于效用度的點式互信息與節點度結合,定義一種新的加權相關系數,提供了更準確的相似性度量。
1" 算法改進
1.1" 基于藥物效用度的核心藥物發現算法
1.1.1" 藥物效用度
核心藥物是指在組方中具有主要療效、關鍵作用的藥物,從核心藥物中研究用藥規律可以大大減少計算量,發現具有良好協同作用的藥物組合[18]。傳統的基于藥物效用度的核心藥物發現算法計算出每個藥物的效用度(Effect Degree, ED),將所有藥物的效用度求和進行平均,得到一個平均值作為閾值,定義效用度大于閾值的藥物為核心藥物。用ED(h,x)表示在證型x組方中藥物h的效用度,定義見式(1):
1.1.2" 基于劑量占比的藥物效用度
由式(1)可知,在所有組方中出現頻次(Q1)和藥物在治療x證型的組方中出現頻次(Q2)是影響ED值的兩個關鍵因素,在其他條件不變的情況下,Q2與Q1的比值越接近1,ED值越高。但此方法忽略了劑量因素,頻次僅反映藥物出現的次數,但不能反映藥物的實際效力,一個高頻次出現但低劑量的藥物可能并不如一個低頻次但高劑量的藥物有效。
為此,提出一種新的效用度定義,將藥物在組方中的劑量占比考慮進效用度中。用表示藥物h在x證型組方中的平均劑量占比,具體定義見式(2):
為避免所得藥物間的ED差值過小故乘上50進行歸一化處理。
將ED值大于平均值的藥物歸類為核心藥物,x證型的平均藥物效用度表示為:
其中表示x證型中所涉及的藥物種類。
1.2" 基于加權度的層次聚類
1.2.1" 基于效用度的點式互信息
中藥的關聯數據通常以網絡的形式存在,其中節點代表不同的中藥,邊的權重代表中藥之間的關聯強度。在藥物網絡中,使用點式互信息[19](Pointwise" Mutual Information, PMI)度量藥對之間的關聯性,不僅考慮了藥物在組方中單獨出現的情況,還考慮了藥對在組方中共同出現的頻率,定義見式(5):
其中表示兩個藥物在組方中同時出現的概率;和分別表示藥物和藥物單獨出現的概率。
藥對效用度是在點式互信息的基礎上引入的一種調整因素,用于進一步衡量藥對關聯性的重要性,相比直接使用點式互信息,藥對效用度能夠大大減少計算量,排除噪聲數據干擾。藥對效用度的定義見式(6):
其中表示藥物和藥物形成的藥對,其余同式(1)。
基于效用度的點式互信息的定義見式(7):
1.2.2" 層次聚類
傳統的層次聚類方法通常依賴于簡單的距離度量,無法充分利用中藥之間的復雜關系。為了更準確地揭示中藥之間的內在關系[20],提出了一種基于改進的層次聚類算法,通過結合PMIED權重和節點度,定義新的加權相關系數,其中PMIED權重反映節點間的直接關聯強度,節點度反映節點在整個網絡中的影響力。考慮節點度在加權距離矩陣中的優勢在于它能夠準確反映節點在網絡中的重要性,提高聚類的準確性和合理性。綜合兩個因素,可以構建更準確的距離度量,提升聚類的質量。
節點度(degree of a node)是指該節點直接相連的邊的數量,度越高的節點在網絡中越重要。在藥物網絡中,度高的節點可能與多個度低的節點相連,單純依賴邊權重進行距離計算可能導致低度節點被過度聚合[21],而考慮節點度可以避免這一問題,提高聚類的分辨率。此外,考慮節點度還能夠增強算法的魯棒性,使算法能夠更好地適應網絡中的異常節點,如孤立節點或度特別高的節點,從而提高整體聚類效果。中藥hi的度di定義為與hi關聯的所有權重之和,具體定義如式(8):
其中n表示中藥的總數,PMIED(i, j)表示藥物hi和hj之間的權重。
在計算加權距離時,直接使用度和邊權重可能導致數值過大,不便于處理和比較。倒數的使用可以將這些值轉換為較小的范圍,使得計算更為穩定和可靠。考慮中藥hi和hj之間的加權距離Dij,其定義如式(9):
中藥網絡的聚類分析中采用平均鏈接法(Average Linkage)計算簇與簇之間的距離,綜合考慮到中藥之間的所有關聯強度,提供更加平衡的聚類結果。平均鏈接法的基本思想是,在聚類過程中,每次合并兩個最相似的簇時,使用簇內所有樣本之間的平均距離作為新簇與其他簇之間的距離。具體來說,給定兩個簇A和B,平均鏈接法定義簇A和簇B合并后的新簇C與另一個簇D的距離為D(C, D),具體定義見式(10):
其中nC、nD分別表示簇C和簇D的節點。
算法" 基于加權度的層次聚類算法
輸入:邊列表E
輸出:藥物聚類結果的樹狀圖
步驟1:初始化距離矩陣D。
步驟2:遍歷邊列表E,根據邊的權重和節點的度計算加權距離,并填充距離矩陣D。
步驟3:在距離矩陣中找到距離最小的兩個簇A和B,并合并成新的簇C。
步驟4:更新距離矩陣D計算新簇C與其他所有其他簇之間的距離。
步驟5:重復步驟3、4,直到所有數據節點合并為一個簇。
步驟6:根據記錄的合并步驟,構建樹狀圖,展示數據點的聚類層次結構。
2" 實驗分析
2.1" 數據集
本文以冠心病為例,研究冠心病常見證型痰瘀互阻證組方用藥規律,組方數據來源于《當代名中醫診治冠心病臨證經驗集要(毛靜遠、張伯禮主編)》[22]《國家級名老中醫冠心病驗案良方(徐江雁、王亮主編)》[23]《冠心病良方大全(毛以林、吳彬才主編)》[24],記錄了組方來源、證型、臨床表現、治法以及組方名稱,排除殘缺或重復、證型不明確、來源不明、未標注劑量的組方。中藥名稱根據《中華人民共和國藥典》(2020年版一部)[25]進行標準化,共計錄入162首組方,涉及237味中藥,其中痰瘀互阻證組45首,涉及中藥125種。
2.2" 核心藥物分析
利用改進后的效用度算法提取痰瘀互阻證組方核心藥物,得到46種核心藥物,結果如表1所示,其中ED表示藥物效用度,Q1表示在所有組方中出現頻次,Q2表示藥物在痰瘀互阻證組方中出現頻次。由核心藥物結果可知,該算法能夠有效挖掘出頻次較低但劑量占比高的核心藥物,如黃芪、黨參等,Q2與Q1的比值在0.2左右,與在所有組方中出現的頻次相比,這兩味藥在痰瘀互阻證組方中出現的頻次較低,但黃芪和黨參劑量占比都在10%以上,在組方的配伍中屬于高劑量,該算法也能夠將大棗等出現頻次高但劑量占比低的藥物排除出核心藥物行列,大棗的Q2與Q1比值為0.375,相對于其他藥物而言,大棗屬于高頻藥物,但劑量占比僅有2.56%。又如茯苓、瓜蔞、五爪龍、夜交藤、黃芪、半夏等,均為活血化瘀、化痰祛濕的良藥,能夠祛瘀,調理痰濕,常常被用以治療痰瘀互阻證,說明該算法挖掘出的核心藥物對痰瘀互阻證具良好療效。
2.3" 核心藥物用藥規律分析
2.3.1" 基于PMIED值的復雜網絡
以核心藥物為節點,藥對之間的PMIED值為邊權重,權重越高邊越粗,將PMIED平均值設為閾值,高于閾值的藥物節點建立一條邊,舍棄低于閾值的數據,建立一個關于核心藥物的無向網絡圖,排名前20的藥對PMIED值如表2所示,社團網絡如圖1所示,由結果可知,黃芪、丹參、川芎之間的三個藥對PMIED值最高,表示三者具有強關聯,分析其原因是黃芪、丹參、川芎為治療冠心病的常用藥,且三味藥經常同時出現在組方中,有活血化瘀、化痰止痛之效。
在社團網絡中,度表示網絡中與該節點相連接的其他節點的數量,用以描述一個節點在網絡中的連接情況,而度分布是網絡中所有節點度的統計分布,能夠揭示網絡的整體結構特性。核心藥物網絡節點度分布如圖2所示,橫軸(Value)表示節點的度值,縱軸(Count)表示具有該度值的節點數量。網絡中節點的平均度為10.865,表明每個節點平均連接約11個其他節點,網絡節點度的分布顯示出明顯的異質性,度值差異較大,度值分布在(1,34)區間,大部分節點的度值集中在較低范圍(1,10),表現出網絡中存在大量低度連接的節點,度值較高的節點數量相對較少,但具有顯著的連接度。在核心藥物中,度值最高的藥物為丹參,度值為34,在藥物網絡中處于中心地位,連接了許多其他關鍵節點,如郁金、川芎、黃芪等,且包含丹參的藥對效用度都較高,說明其可能被廣泛用于各種痰瘀互阻證組方中,與多種藥物組合使用。
2.3.2" 核心藥物用藥規律
以社團網絡描述核心藥物之間的關聯,運用基于加權度的層次聚類算法發現核心藥物的用藥規律,共得出10種藥物組合,聚類樹狀圖如圖3所示,具體聚類結果如表3所示。分析發現,這10組藥物均對痰瘀互阻證有良好療效。如聚類C1,北沙參和西洋參都具有滋陰清熱的作用,苦參則常用于清熱燥濕,秦艽主要用于祛風濕,表明該聚類中的藥物主要具有滋陰補肺、清熱解毒的功效;又如聚類C2,降香和五靈脂都用于活血止痛,龍齒則用于鎮靜安神,表明該聚類中的藥物主要具有鎮靜安神、活血化瘀的功效。
3" 結" 論
本文研究冠心病痰瘀互阻證組方的用藥規律問題,提出一種改進的基于藥物效用度的核心藥物發現算法,該算法從藥物在組方中出現的頻次以及藥物在組方中的劑量占比兩個方面分析核心藥物,同時,定義一種新的加權相關系數作為藥物之間的權重,基于所得核心藥物運用層次聚類分析用藥規律,相較于傳統的數據挖掘方法,本文方法考慮了藥物劑量因素,能夠更加有效挖掘出組方中劑量高的核心藥物,同時將藥物節點度值考慮進藥物的關系系數中,提高了聚類的準確性。后續考慮擴大數據集范圍,增加不同證型組方數據,驗證算法在其他證型的適用性和普適性,引入藥物功效,更加全面分析組方的用藥規律。
參考文獻:
[1] 張迪,雒琳,文天才,等.中醫辨證論治療效評價研究進展 [J].科技導報,2023,41(14):32-41.
[2] 王康,尹玉潔,李雅文,等.數據挖掘方法在中醫醫案研究中的應用 [J].世界中醫藥,2021,16(11):1659-1664.
[3] 李心怡,林生,林怡,等.中藥復方治療疼痛的用藥規律 [J].中國中藥雜志,2023,48(12):3386-3393.
[4] 趙達,曹暉,胡志希.基于關聯規則和聚類分析研究全國名中醫治療冠心病用藥規律 [J].湖南中醫藥大學學報,2021,41(11):1726-1730.
[5] 閆利霞,凌興宏,尼洪濤.基于Apriori算法的混合型數據頻繁項集挖掘算法 [J].計算機仿真,2023,40(12):538-542.
[6] LI X M,JIMENEZ E C. Application Analysis of Nursing Students' Grades in Course Relevance Based on Association Rule Mining Algorithm Apriori [J].Journal of Contemporary Educational Research,2024,8(2):213-223.
[7] WU Y L,ZHANG J. Retraction Note: Building the Electronic Evidence Analysis Model Based on Association Rule Mining and FP-growth Algorithm [J].Soft Computing,2022,27(1):621.
[8] 殷麗鳳,李明狀.基于Apriori算法的關聯規則分析應用 [J].電子設計工程,2023,31(15):11-14+19.
[9] 席瑞,謝雁鳴,孫夢華,等.基于Apriori算法真實世界連花清瘟膠囊治療社區獲得性肺炎臨床用藥特征[J].中華中醫藥學刊,2022,40(4):80-84+261.
[10] JANG H J,YANG Y,PARK S J,et al. FP-Growth Algorithm for Discovering Region-Based Association Rule in the IoT Environment [J].Electronics,2021,10(24):3091.
[11] 李德琳,魏本征,張詔,等.基于FP-growth算法的中醫抗病毒方劑配伍規律探索 [J].中華中醫藥學刊,2018,36(3):663-668.
[12] RAN X C,XI Y,LU Y G,et al. Comprehensive Survey on Hierarchical Clustering Algorithms and the Recent Developments [J].Artificial Intelligence Review,2022,56(8):8219-8264.
[13] 駱菁菁,唐衛貞,丁繼婷.基于皮爾遜系數的管制仿真訓練數據獨立化與因子分析下的數據可視化研究 [J].計算機科學,2021,48(S1):623-628.
[14] 竇家維,葛雪,王穎囡.保護隱私的曼哈頓距離計算及其推廣應用 [J].計算機學報,2020,43(2):352-365.
[15] WULANDARI C,ASTUTIK P,SOEGITO R C,et al. Hybrid MCDM Career Recommendation System for Information System Student Using AHP, VIKOR and Weighted Euclidean Distance [J].Procedia Computer Science,2024,234:364-372.
[16] 戴璐璐,陳可冀,蔣躍絨,等.基于數據挖掘探析活血化瘀類中成藥治療心腦血管病的組方規律 [J].中國中西醫結合雜志,2022,42(3):311-316.
[17] 周偉,王峰,王崇駿,等.利用效用度挖掘核心藥物及配伍規律 [J].計算機科學與探索,2013,7(11):994-1001.
[18] 馬寧,郝秀霞,白金牛,等.基于藥物劑量及作用的方劑核心用藥配伍規律復雜網絡算法的構建 [J].中醫雜志,2020,61(1):31-35.
[19] KRITSCHGAU J,KAISER D,RODRIGUEZ O A,et al. Community Detection in Hypergraphs Via Mutual Information Maximization [J/OL].arXiv:2308.04537 [cs.DM].(2023-08-08).https://arxiv.org/abs/2308.04537?context=math.OC.
[20] 鐘志敏,姜仙童,田秀珠,等.考慮節點相互影響的公交網絡節點重要性識別算法 [J].交通運輸研究,2023,9(4):93-103.
[21] 劉瑤,康曉慧,高紅,等.基于節點親密度和度的社會網絡社團發現方法 [J].計算機研究與發展,2015,52(10):2363-2372.
[22] 毛靜遠,張伯禮.當代名中醫診治冠心病臨證經驗集要 [M].北京:中國中醫藥出版社,2017.
[23] 徐江雁,王亮,楊建宇,等.國家級名老中醫冠心病驗案良方 [M].鄭州:中原農民出版社,2010.
[24] 毛以林,吳彬才,何清湖.冠心病良方大全 [M].太原:山西科學技術出版社,2016.
[25] 國家藥典委員會.中華人民共和國藥典 一部:第11版 [M].北京:中國醫藥科技出版社,2022.