999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于異構信息網絡與TF-IDF的核心藥物發現算法

2023-05-14 08:06:20梁塵逸姚遠哲
計算機時代 2023年5期

梁塵逸 姚遠哲

摘? 要: 提出一種基于異構信息網絡和TF-IDF的核心藥物發現算法。其核心思想是建立包含癥狀、方劑等多種類型對象的異構信息網絡,并使用PathSim算法得到方劑之間的相似度來完成方劑聚類。以此為基礎使用綜合了劑量因素與TD-IDF算法原理的藥物重要性系數計算方法完成核心藥物發現。本文從《傷寒論》的方劑中劃分出9個主要聚類并給出了各個聚類上重要性排名前5的藥物,該算法可以考慮到多方面的信息,合理地挖掘出核心藥物。

關鍵詞: 異構信息網絡; PathSim; TF-IDF; 聚類; 核心藥物

中圖分類號:TP311.5? ? ? ? ? 文獻標識碼:A? ? ?文章編號:1006-8228(2023)05-31-05

Core drug discovery algorithm based on heterogeneous information network and TF-IDF

Liang Chenyi, Yao Yuanzhe

(School of Information and Software Engineering,University of Electronic Science and Technology of China, Chengdu, Sichuan 610054, China)

Abstract: In this paper, a core drug discovery algorithm based on heterogeneous information network and TF-IDF is proposed. The core idea is to set up heterogeneous information network including symptoms, prescriptions and other types of objects, and use PathSim algorithm to get the similarity between prescriptions to complete the clustering of prescriptions. Based on this, the core drug discovery is completed by using a drug importance coefficient calculation method that integrates the dose factor and the principle of TD-IDF algorithm. Nine main clusters are divided from the prescriptions of "Treatise on Febrile Diseases" and the top five drugs in each cluster are given. The algorithm can take into account many kinds of information to mine the core drugs reasonably.

Key words: heterogeneous information network; PathSim; TF-IDF; clustering; core drugs

0 引言

中醫是一個巨大的知識寶庫,目前中醫領域的數據挖掘研究受到了許多學者的關注,但受制于中醫學本身的復雜性以及技術的局限性,不少研究都是基于簡單的統計分析,例如頻數統計,對藥物使用頻率、藥物味數等指標進行統計分析[1,2],能在一定程度上發掘出數據中的規律,也有一些研究者將關聯度分析[3]和復雜網絡的方法引入到中醫數據挖掘中,能夠挖掘出一些更深層的信息。

核心藥物發現是中醫數據挖掘領域一項非常有價值的工作,如果能有效地挖掘出不同類別方劑中的核心藥物,則能為開發新方劑提供參考,同時能幫助新手醫生快速掌握方劑精髓。目前大量關于核心藥物發現的研究都是針對治療某一種疾病的方劑,在此基礎上進行頻數統計與關聯度分析[4,5],這種方法不適用于有大量不同類型方劑混雜的數據集。還有一些學者基于復雜網絡及社區檢測算法來進行核心藥物發現工作[6]。

本文結合異構信息網絡與TF-IDF算法,提出一種有效的核心藥物發現算法,首先構建一個包含了癥狀、方劑等不同類型對象的異構信息網絡,利用PathSim算法全面衡量方劑之間的相似度,并以此為基礎進行聚類,然后利用綜合了劑量因素與TF-IDF算法原理的藥物重要性系數來評估各個方劑聚類中所包含藥物的重要性,得出每個聚類中的核心藥物。

1 數據預處理

本文所使用的原始方劑數據來自《傷寒論》,采用正則表達式對方劑的主治癥狀、藥物名稱與劑量等進行拆分,設置判斷條件篩選拆分不合格的數據并進行手動修正。

拆分完成后還需對癥狀和藥物進行標準化工作,例如:頭痛與頭疼表達的意思相同;黃耆與黃芪實則為同一種藥物。本文采用手動搜索替換加人工檢查的方式對數據進行標準化。并且為方劑集中包含的藥物匹配了對應的藥物功能信息,這些信息主要來源于《中藥大辭典》和《中華本草》。

對于方劑中藥物的劑量單位,重量單位統一換算為“兩”;體積單位統一換算為“斗”,其余單位如“枚”等則不變。由于本文算法需要使用藥物劑量信息,因此忽略半夏散(湯)、十棗湯、牡蠣澤瀉散、燒裈散這幾個不含劑量信息的方劑,使用剩下的109條方劑數據作為實驗數據。

2 相關技術與算法設計

整個算法的主要流程如圖1所示。

2.1 異構信息網絡與PathSim相似度

目前在方劑相似度計算上使用最多的是Jaccard相似度[7],其計算公式如式⑴,其中X與Y分別表示待對比的兩個方劑所包含的藥物組成的集合,這種方法能從藥物組成這一個維度較好地衡量兩個方劑之間的相似度。

[s_Jaccard(X,Y)=|XY||XY|]? ⑴

該算法只考慮了方劑的藥物組成,而現實中一些方劑的藥物組成可能完全一樣,例如桂枝湯與桂枝加桂湯,二者都是由桂枝、芍藥、甘草、大棗、生姜5種藥物組成,只是藥物劑量不同,但主治的病癥并不一樣,而在Jaccard相似度下,二者的相似度就是1,這顯然不合理。

本文使用PathSim算法來計算方劑之間的相似度,該算法是一種基于異構信息網絡的相似度計算方法[8],原本用于以文獻為核心的文獻信息網絡挖掘中。通過分析網絡中的多種類型對象以及不同類型對象間的多種邊,可準確地區分信息網絡中的不同語意,挖掘出更加具有意義的知識。

本文建立一個包含4種對象和3種邊的異構信息網絡,如圖2所示。其中S表示癥狀,P表示方劑,H表示藥物,F表示功能;3種邊均為無向邊且權重值為1,P-S邊表示方劑P可治療癥狀S,P-H邊表示方劑P包含藥物H,H-F邊表示藥物H擁有功能F。

通過選擇不同的元路徑可以包含不同的相似度信息,例如本文中的元路徑P-H-P代表兩個方劑使用了相同的藥物;P-H-F-H-P代表兩個方劑使用的藥物擁有相同的功能。指定元路徑下方劑之間的相似度計算方法如式⑵,其中Ml為指定的對稱元路徑l下方劑之間的路徑數量矩陣。

[s_PathSiml(px,py)=2Ml(x,y)Mlx,x+Ml(y,y)]? ⑵

M可以通過相鄰對象之間的路徑數量矩陣相乘得到,以元路徑P-H-P為例,MP-H-P=MP-HMH-P,其中MP-H表示從P到H的路徑數量矩陣。網絡中的邊均為無向邊,則MH-P=MP-HT,MP-H-P=MP-HMP-HT,其余元路徑對應的路徑數量矩陣同理可得。對不同的元路徑賦予不同的權重值w,可實現多重元路徑的組合,r條元路徑組合得到的相似度計算方法如公式⑶所示。

[s_PathSim(px,py)=l=1rwls_PathSiml(px,py)]? ?⑶

2.2 譜聚類

得到方劑之間的相似度矩陣后需以此為基礎進行聚類。目前聚類最常用的算法是經典的k-means算法,用于方劑聚類時一般通過一些量化方法將方劑用向量表示,然后運行算法[9]。然而k-means算法的步驟中有一步是計算聚類中心,直接給出方劑的相似度矩陣并不能計算聚類中心,因此無法直接使用k-means算法進行聚類。

本文采用譜聚類[10]的方法來完成聚類步驟,這是一種基于圖論的聚類方法,該算法的核心思想是:將帶權無向圖劃分為兩個或兩個以上的最優子圖,使子圖內部盡量相似,而子圖間盡量距離較遠,從而完成聚類。譜聚類的一般流程如下。

⑴ 根據輸入的相似矩陣生成方式構建樣本的相似矩陣S。

⑵ 根據相似矩陣S構建鄰接矩陣W,構建度矩陣D。

⑶ 計算出拉普拉斯矩陣L。

⑷ 構建標準化后的拉普拉斯矩陣D-1/2 L D-1/2。

⑸ 計算D-1/2 L D -1/2 最小的k1個特征值所各自對應的特征向量v。

⑹ 將各自對應的特征向量v組成的矩陣按行標準化,最終組成n×k1維的特征矩陣V。

⑺ 將V中的每一行作為一個k1維的樣本,共n個樣本,用輸入的聚類方法進行聚類,聚類維數為k2。

⑻ 得到簇劃分C(c1,c2,…,ck2)。

本文不采用譜聚類中常用的方法來生成相似矩陣,而是直接采用PathSim算法得出的相似度矩陣作為S,由于PathSim算法滿足自身最大化性質,即每個對象跟自己的相似度最大,為1,因此,S的主對角線元素全為1,則鄰接矩陣W=S-I,I為單位矩陣。

2.3 綜合了劑量因素與TF-IDF算法原理的藥物重要性系數

TF-IDF算法原本用以評估一字詞對于文件集中某一份文件的重要程度,已有研究者嘗試將其用于核心藥物的發現[11]。參考其原理,則藥物j在方劑聚類k中的重要性系數采用公式⑷來計算,其中|p_set|表示整個方劑庫大小;|{n:hj∈pn}|表示包含藥物j的方劑數量;|{n:hj∈pn,pn∈cluster(k)}|表示聚類k中包含藥物j的方劑數量,可以發現該值變大時也會導致|{n:hj∈pn}|增大從而降低log函數的值,但只要該值不過大,則不會逆轉藥物j在方劑聚類k中的出現次數優勢。

[TF_IDFjk=logp_set{n:hj∈pn}×{n:hj∈pn,pn∈clusterk}] ⑷

相比直接利用藥物出現頻率來發掘核心藥物[12],該算法綜合考慮了藥物在指定類中的出現次數與在整個方劑庫中的出現次數,能有效降低在所有類型方劑中都頻繁出現的“百搭”藥物的影響。但不同于文件中的字詞,方劑中的藥物每一次出現都伴隨著不同的劑量,只考慮藥物的出現次數不夠全面,本文采用以下步驟來引入劑量因素:

⑴ 將每種藥物各自使用最多的單位作為其指定劑量單位,采用其余單位的劑量數據則忽略,以保證同種藥物使用同種劑量單位。

⑵ 分別計算每種藥物在各方劑聚類中的代表劑量,藥物j在方劑聚類k中的代表劑量D_REPjk=median(D(hj,p1),…,D(hj,pn)),p1,…,pn∈cluster(k),D(hj,pn)表示藥物j在方劑n中的劑量,為0則不計。通過取中位數來減少特殊劑量的影響。

⑶ 將D_REPjk值標準化,藥物j在方劑聚類k中的標準化代表劑量D_STDjk用公式⑸計算,其中D_REP_MAXj為藥物j在各方劑聚類中代表劑量的最大值。使得不同藥物間的劑量有可比性。

[D_STDjk=D_REPjkD_REP_MAXj]? ?⑸

綜合考慮藥物的劑量與TF-IDF算法原理,則完整的藥物重要性系數IMPjk計算方法如公式⑹所示。

[IMPjk=TF_IDFjk×[logD_STDjk+1+1]]? ⑹

當藥物j在方劑聚類k中使用次數與劑量水平都較高且在其余類中使用次數與劑量水平都較低時,IMPjk值增大,說明藥物j在方劑聚類k中重要性較高。

3 實驗設置與結果討論

3.1 方劑相似度計算

基于2.1節中構建的異構信息網絡,本文選取5條元路徑來運行PathSim算法,每條元路徑的相似度信息及權重分配如表1所示。

計算得到方劑之間的相似度矩陣,能從多個維度綜合衡量方劑之間的相似度,例如桂枝湯與桂枝加桂湯,在使用Jaccard相似度的情況下相似度為1,而本文得出的二者相似度為0.65,更加合理。

3.2 方劑聚類

進行聚類需要決定聚類數K,在此參考清代徐大椿所著《傷寒論類方》,其將《傷寒論》中方劑分為了11個主類以及22個雜方,可知聚類數K大約為30左右,經過調試,確定聚類數K為26時聚類結果最合理。

值得注意的是,不同于其他領域數據,方劑之間大多都具有一定相似性而沒有明顯的邊界,一些方劑歸于多個類別都是合理的,并沒有一個絕對正確的結果,通過聚類算法得出的結果很難與《傷寒論類方》或其他著作基于作者主觀看法得出的結論高度一致,只能通過對比在一定程度上說明聚類結果的合理性。

忽略只包含1個或2個方劑的聚類團,僅關注較大且能在《傷寒論類方》中找到相似類的主要聚類團,則聚類情況如表2所示。

由此可以看出,本文得出的聚類結果是有效的,能夠從方劑集中較為合理地劃分出9個主要聚類團,9個類各自的大小如圖3所示。

3.3 藥物重要性系數計算

基于完整的聚類結果使用公式6計算各個方劑聚類中藥物的重要性系數,并將結果與僅計算TF_IDFjk以及使用頻數統計的情況進行對比,依然只關注主要的9個聚類,則核心藥物的挖掘情況如表3所示。

相比頻數統計,其余兩種方法都去除了一些高頻藥物,尤其是甘草,現實中甘草在各種方劑里使用非常頻繁,常起“調和諸藥”的作用,多數時候并非核心藥物,引入TF-IDF算法的思想后,能有效排除其影響。

完整算法與僅計算TF_IDFjk的情況整體區別不大,部分藥物的排名有調整,這與實際情況相符,因為TF_IDFjk已能較好評估藥物的重要性,其給出的核心藥物理應在劑量上也占有優勢,而完整算法能進一步改善其結果,例如將聚類8即桂枝湯類中的桂枝重要性提高。

需要指出的是,由于《傷寒論》方劑數量少且聚類數量多,使得部分聚類太小,其中各種藥物出現的次數都極低,這導致獨有藥物憑借劑量優勢排名較高,例如聚類7中的栝樓根,其實只在柴胡桂枝干姜湯中出現了一次。數據集大一些時,此問題便不會產生。

3.4 實驗結論

經過《傷寒論》的數據驗證,說明了構建異構信息網絡并使用PathSim算法對方劑進行相似度計算是可行的,且相較于使用傳統的Jaccard相似度,能從多個維度更加全面地評估方劑相似度,在此基礎進行方劑聚類,得到的結果也是合理的,而綜合了劑量因素與TF-IDF算法原理的藥物重要性系數能有效降低通用藥物的重要性,還能體現出藥物在劑量上的優勢,更加全面地評估藥物是否為核心藥物。

4 結束語

本文提出的基于異構信息網絡與TF-IDF的核心藥物發現算法能夠有效地對方劑數據進行相似度計算與聚類,并以此為基礎挖掘出各個方劑聚類中的核心藥物。目前中醫學領域內還有大量未被仔細研究的方劑數據,本文的方法為挖掘其中的知識提供了一種新的工具。

不過需要承認的是,本文雖然對方劑的主治癥狀手動做了一些標準化的工作并對藥物的劑量進行了換算,但由于現實中癥狀表述復雜且藥物劑量情況多樣,導致使用這些信息時很難考慮得非常全面,中醫數據挖掘的研究還需做得更細致才能取得更好的效果。

參考文獻(References):

[1] 武文星,郭盛,尚爾鑫,等.基于數據挖掘的補骨脂藥用源流及其配伍用藥特點分析[J/OL].世界中醫藥:1-23[2021-12-16].http://kns.cnki.net/kcms/detail/11.5529.R.20211118.2226.025.html

[2] 胡慧明,翁家俊,朱彥陳,等.基于數據挖掘的《中醫方劑大辭典》含山楂組方用藥規律研究[J].中國現代應用藥學,2021,38(21):2713-2720

[3] 方永光,陳楠楠,李巖.基于數據挖掘分析黃世林教授治療重癥系統性紅斑狼瘡的用藥規律[J].中國中醫急癥,2017,26(6):947-951,962

[4] 劉根,賀文彬,趙子強,等.基于中醫傳承輔助平臺對老年性癡呆防治方劑核心藥物組合的篩選研究[J].中國實驗方劑學雜志,2016,22(7):223-228

[5] 潘文.基于數據挖掘的治療原發性痛經方證與核心藥物配伍規律分析[J].西部中醫藥,2015,28(12):75-77

[6] 張云.基于知識發現的中藥方劑核心藥物識別研究[D].博士,電子科技大學,2021

[7] 李新龍,劉巖,周莉,等.基于方劑相似度的核心方藥及其適應癥挖掘方法研究——以失眠癥為例[J].中醫雜志,2021,62(2):118-124

[8] Sun Y,Han J, Yan X, et al. PathSim: Meta Path-BasedTop-K Similarity Search in Heterogeneous Information Networks[J]. Proceedings of the Vldb Endowment,2011,4(11):992-1003

[9] 劉廣,孫艷秋.基于K-Means聚類算法的消渴方劑研究[J].中華中醫藥學刊,2017,35(1):173-178

[10] Luxburg U V . A Tutorial on Spectral Clustering[J].Statistics and Computing,2004,17(4):395-416

[11] 周偉.中藥方劑核心藥物及其配伍規律挖掘[D].碩士,南京大學,2013

[12] 婁方璐,刁慶春,劉毅,等.濕疹中醫外治處方用藥規律分析[J].陜西中醫,2012,33(1):97-100

主站蜘蛛池模板: 噜噜噜久久| 人妻21p大胆| 美美女高清毛片视频免费观看| 中国一级特黄大片在线观看| 一级黄色片网| 欧美亚洲中文精品三区| 亚洲福利一区二区三区| 国产精品精品视频| 欧美性爱精品一区二区三区| 欧洲极品无码一区二区三区| 亚洲嫩模喷白浆| 欧美一级在线看| 亚洲人成人无码www| 国产丝袜无码精品| 黄片在线永久| 波多野结衣久久高清免费| 国产精品一区二区在线播放| 亚洲一级色| 国产色婷婷视频在线观看| 91小视频在线播放| 婷婷亚洲天堂| 亚洲AⅤ综合在线欧美一区| 国产精品视频免费网站| 中文字幕佐山爱一区二区免费| 亚洲va视频| 亚洲男女天堂| 国产精品尤物在线| 亚洲永久免费网站| 欧美在线黄| 国产99视频在线| 婷婷午夜天| 88av在线| 亚洲91精品视频| 九色91在线视频| 99热这里只有精品国产99| 亚洲婷婷丁香| 国产无遮挡猛进猛出免费软件| 日韩人妻少妇一区二区| 欧美激情福利| 久久99国产精品成人欧美| 免费女人18毛片a级毛片视频| 1024国产在线| 欧美人在线一区二区三区| h视频在线播放| 国产一级片网址| 色播五月婷婷| 久久精品人人做人人爽97| 国产欧美视频综合二区| 亚洲中文字幕手机在线第一页| 国产成人免费手机在线观看视频| 国产美女免费| 国产精品高清国产三级囯产AV| 萌白酱国产一区二区| 久久国产精品娇妻素人| 91九色国产porny| a在线亚洲男人的天堂试看| 成人伊人色一区二区三区| 国产精品免费福利久久播放| 久久久噜噜噜| 久久窝窝国产精品午夜看片| 2018日日摸夜夜添狠狠躁| 午夜在线不卡| 日韩精品一区二区三区中文无码 | 欧美成人手机在线视频| 91最新精品视频发布页| 一级黄色网站在线免费看| 天天综合网色中文字幕| 国产久操视频| www.精品国产| 国产黄在线免费观看| 亚洲精品国产综合99久久夜夜嗨| 国产色婷婷| 色欲色欲久久综合网| 国产剧情一区二区| 亚洲欧美色中文字幕| 国产精品第一区在线观看| 久久久久88色偷偷| 老司机精品一区在线视频| 97色婷婷成人综合在线观看| 国产办公室秘书无码精品| 青青操国产| h视频在线观看网站|