999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于TF-IDF算法的方劑構(gòu)成相似度可視化研究

2019-09-02 13:58:27郭文龍羅熊姜惠娟謝永紅陳茂建
關(guān)鍵詞:可視化

郭文龍 羅熊 姜惠娟 謝永紅 陳茂建

摘要:目的? 構(gòu)建中藥方劑數(shù)據(jù)挖掘系統(tǒng),直觀反映方劑屬性及方劑之間的相似度,為方劑研究及應(yīng)用提供參考。方法? 應(yīng)用爬蟲(chóng)框架和手工錄入方式獲取一定數(shù)量的經(jīng)典方劑,采用中文分詞工具和手工整理方式對(duì)方劑信息進(jìn)行名稱、功能、來(lái)源、中藥組成、劑量、劑量單位、炮制方法、忌宜、主治等屬性拆分,構(gòu)造語(yǔ)料詞庫(kù),Python3.5環(huán)境下采用TF-IDF算法計(jì)算方劑間相似度并進(jìn)行功能主治驗(yàn)證,采用d3.js進(jìn)行可視化展示。結(jié)果? 經(jīng)過(guò)分詞和手工整理得到不同類(lèi)型方劑7710首,包含藥物8957味,構(gòu)建的中藥方劑數(shù)據(jù)挖掘系統(tǒng)實(shí)現(xiàn)了相似度和方劑構(gòu)成等信息可視化展示。同時(shí),相似度高的方劑在功能主治方面具相似性。結(jié)論? 本研究構(gòu)建的中藥方劑數(shù)據(jù)挖掘系統(tǒng)可直觀展示方劑信息、方劑與藥物間的關(guān)聯(lián)關(guān)系及方劑之間的相似度。

關(guān)鍵詞:方劑;TF-IDF算法;相似度;可視化;中藥方劑數(shù)據(jù)挖掘系統(tǒng)

中圖分類(lèi)號(hào):R289.1;R2-05??? 文獻(xiàn)標(biāo)識(shí)碼:A??? 文章編號(hào):1005-5304(2019)07-0104-05

Abstract: Objective To construct a data mining system for TCM prescriptions; To visually reflect the prescription properties and similarity between prescriptions; To provide references for research and application of prescriptions. Methods A reptile framework and manual entry method were used to obtain a certain number of classical prescriptions. The Chinese word segmentation tool and the manual finishing method were used for splitting the information of prescriptions according to the name, function, source, TCM composition, dosage, dosage unit, processing method, contraindication and indication. The corpus was constructed. In Python 3.5 environment, the TF-IDF algorithm was used to calculate the similarity between prescriptions and to perform functional indication verification, and d3.js was used for visual display. Results Through word segmentation and manual finishing, 7710 kinds of prescriptions of various types were obtained, including 8957 kinds of Chinese materia medica. The constructed TCM prescription data mining system realized information visualization of similarity and prescription composition. At the same time, prescriptions with high similarity were similar in terms of functional indications. Conclusion The TCM prescription data mining system constructed in this study can visually display the relationship between the prescription information, the prescription and the Chinese materia medica, and the similarity between the prescriptions.

Keywords: prescriptions; TF-IDF algorithm; similarity; visualization; TCM prescription data mining system

部分中藥方劑包含的藥物數(shù)據(jù)非常相似,組成藥物僅有微小差別,總體成分大致相同。這些相似方劑在治療某一種或某一類(lèi)病證時(shí)的功效存在某種潛在聯(lián)系。從所有的方劑中找出與之相似的方劑可提供用藥的多維度參考[1]。因此,通過(guò)方劑的相似性分析可較好挖掘其相似關(guān)系。目前中藥方劑相似度模型主要從成分和功效兩方面進(jìn)行相似性分析。

本研究在Python3.5環(huán)境下應(yīng)用TF-IDF(term frequence-inverse document frequence)算法進(jìn)行方劑相似性的計(jì)算,把所有方劑看作一個(gè)方劑集合整體,每一方劑的藥物構(gòu)成看作關(guān)鍵詞,并構(gòu)造詞庫(kù),計(jì)算TF-IDF值后,依照系數(shù)矩陣計(jì)算相似性。構(gòu)建中藥方劑數(shù)據(jù)挖掘系統(tǒng),直觀反映方劑屬性及方劑之間的相似度,為方劑研究及應(yīng)用提供參考。

1? 方劑相似度計(jì)算方法

不同研究者從多角度進(jìn)行了方劑的相似度研究,取得了一定成績(jī)。操牡丹等[2]在《中醫(yī)藥方劑近似度模型》中提出基于字符串的方劑名稱的相似度計(jì)算,分別應(yīng)用基于編輯距離的算法、基于最大公共字符串的算法和基于統(tǒng)計(jì)和字典的名稱相似度算法,在方劑名稱層面進(jìn)行研究。黃運(yùn)高等[3]在《基于K-means和TF-IDF的中文藥名聚類(lèi)分析》中使用TF-IDF方法計(jì)算藥名相似的方法并采用K-means聚類(lèi)算法進(jìn)行藥名的聚類(lèi)。朱志鵬等[4]在《基于LDA主題模型的中醫(yī)藥方劑相似度計(jì)算》中利用LDA主題模型發(fā)掘“方劑-證型-組成成分”的隱含關(guān)系的方法,將“方劑-組成成分”轉(zhuǎn)換成“方劑-證型”和“證型-組成成分”2個(gè)概率分布,并利用KL距離來(lái)計(jì)算相似度,但由于在LDA主題模型中馬氏鏈的平穩(wěn)狀態(tài)需要迭代多少次才能到達(dá)卻很難確定,所以迭代次數(shù)只能依賴人為設(shè)置。顧錚[5]《基于文本分類(lèi)技術(shù)計(jì)算中醫(yī)方劑相似度》利用自然語(yǔ)言處理領(lǐng)域的知識(shí),基于KNN算法,計(jì)算方劑相似度,而KNN算法中K值的選擇直接影響計(jì)算結(jié)果。

本研究從方劑的藥物組成層面,在計(jì)算過(guò)程中根據(jù)藥物的重要程度依照TF-IDF算法賦予其權(quán)值,在給定方劑集合中計(jì)算與某一首方劑相似度高的其他方劑。

2? 基于TF-IDF算法的方劑藥物構(gòu)成相似度計(jì)算原理

TF-IDF主要應(yīng)用于搜索、文獻(xiàn)分類(lèi)、網(wǎng)絡(luò)信息相關(guān)性的分析和其他相關(guān)領(lǐng)域[6-7]。

本研究把每首方劑看作由中藥名稱構(gòu)成的關(guān)鍵詞的集合,即1首方劑包含n個(gè)關(guān)鍵詞w1,w2,…,wn,其在1首特定方劑中的詞頻分別是tf1,tf2,…,tfn。TF計(jì)算公式如下:

ni,j是該關(guān)鍵詞在所有方劑dj中的出現(xiàn)次數(shù),而分母則是在所有方劑dj中所有字詞的出現(xiàn)次數(shù)之和。

如果作為關(guān)鍵詞w的一種中藥在Dw首方劑中出現(xiàn),Dw的值越大,藥物w在方劑中區(qū)別于其他方劑的作用就越小。如甘草是很多的方劑中的組成藥物,出現(xiàn)的頻率非常高,但是它在方劑中的區(qū)分度貢獻(xiàn)小。因此,可以給方劑中的每種藥物賦予一定的權(quán)重,如果它很少在方劑中出現(xiàn),通過(guò)比較可以較容易找到相似方劑,在方劑中用于區(qū)別其他方劑的作用大,其權(quán)重也就越大,反之其權(quán)重越小。

IDF逆向文本頻率指數(shù)是信息檢索中應(yīng)用最多的權(quán)重計(jì)算方法,同樣可以使用到中藥方劑中藥物的計(jì)算。計(jì)算公式如下:

| D|:語(yǔ)料庫(kù)中的方劑總數(shù)

|{j:t∈dj}|:包含藥物ti的文件數(shù)目(即ni,,j≠0的文件數(shù)目)如果該藥物不在語(yǔ)料庫(kù)中,就會(huì)導(dǎo)致被除數(shù)為零,因此一般情況下使用1+|{j:t∈dj}|

假定方劑數(shù)量D=1000首,若甘草在所有方劑中均出現(xiàn),則其idf=log(1000/1000)=log(1)=0,若當(dāng)歸在20首方劑中出現(xiàn),則其idf=log(1000/20)= log(50)=1.698 97。

因此,采用TF-IDF=tfi×idfi的值可評(píng)價(jià)某種中藥組成在某首方劑中的重要程度。計(jì)算某首方劑所有組成的tf×idf和sim,從而評(píng)價(jià)方劑之間的相似性。

上述相似度計(jì)算公式可有以下tf×idf的和,即:

依據(jù)以上公式,可把1首方劑分解成關(guān)鍵詞集合,然后在所有的方劑中計(jì)算這些關(guān)鍵詞的tf×idf的和,從而找出相似度高的方劑。

3? 應(yīng)用計(jì)算過(guò)程

方劑相似度的計(jì)算及中藥方劑數(shù)據(jù)挖掘系統(tǒng)構(gòu)建流程見(jiàn)圖1,其對(duì)象模型空間關(guān)聯(lián)關(guān)系見(jiàn)圖2。

3.1? 數(shù)據(jù)收集

數(shù)據(jù)集包括方劑表、中藥表和方劑中藥關(guān)系表。經(jīng)過(guò)分詞和手工整理得到不同類(lèi)型方劑7710首,包含藥物8957味,方劑表、中藥表和方劑中藥關(guān)系表的關(guān)聯(lián)見(jiàn)圖3。

3.2? 計(jì)算過(guò)程

1首方劑的藥物組成可看做由若干個(gè)關(guān)鍵字構(gòu)成的整體,每味藥物的名稱即為1個(gè)關(guān)鍵字。

用集合p={chm1,chm2,chm3,…,chmi}表示方劑p由i個(gè)藥物chmk組成。其中chmk是經(jīng)過(guò)分詞和相關(guān)處理形成的中藥名稱,因此,可避免語(yǔ)義方面引入的處理問(wèn)題,降低了難度。如方劑小青龍湯p=

{麻黃,芍藥,細(xì)辛,干姜,甘草,桂枝,五味子,半夏}。

3.3? 方劑組成元素的分解

首先把每一方劑分解成若干個(gè)關(guān)鍵字,并構(gòu)成[[杏仁,甘草,桂枝,麻黃,生姜,大棗,石膏],[附子,芍藥,甘草],[麻黃,芍藥,細(xì)辛,干姜,甘草,桂枝,五味子,半夏],[前胡,柴胡,知母,貝母,牡丹皮,桔梗,羌活,獨(dú)活,荊芥穗,黃芩,山茵陳,山梔,升麻,麻黃,大黃,麥門(mén)冬,杏仁,紫菀,玄參,秦艽],[柴胡,黃芩,人參,半夏,甘草,生姜,大棗],……]方劑集合。

3.4? 詞頻統(tǒng)計(jì)

把方劑分解的結(jié)果合并到一起,并統(tǒng)計(jì)各組成藥物的頻次。部分統(tǒng)計(jì)結(jié)果見(jiàn)表1。

3.5? 計(jì)算TF-IDF和相似度

從以上的統(tǒng)計(jì)結(jié)果中可以看出,甘草在中藥方劑中的應(yīng)用頻次最高,但在方劑中的重要程度并不是最高,適合使用TF-IDF計(jì)算其重要程度。計(jì)算每一方劑中的所有方劑中藥組成的tf×idf的和。

如抽取方劑小青龍湯與所有方劑一一計(jì)算相似度。在500首方劑中計(jì)算與小青龍湯的相似度高的方劑,小青龍湯的組成是{麻黃,芍藥,細(xì)辛,干姜,甘草,桂枝,五味子,半夏},在500首方劑中的頻次分別是{41,18,33,35,181,7,36,60},即以{麻黃,芍藥,細(xì)辛,干姜,甘草,桂枝,五味子,半夏}為關(guān)鍵字分別在500首方劑中計(jì)算相關(guān)性。

4? 結(jié)果分析

得出的相似度結(jié)果中,以大青龍湯為例,對(duì)與其相似度較高的桂枝加芍藥湯、麻桂各半湯、小柴胡湯、杏子散、麻黃湯、小青龍湯、溫肺湯、麥湯散、百部丸、保真湯等,從主治功能方面進(jìn)行分析驗(yàn)證。結(jié)果見(jiàn)表3。

結(jié)果表明,與大青龍湯相似度高的方劑在功能與主治方面有較高相似性,主治風(fēng)寒引起的發(fā)熱、頭身疼痛、肺熱等證,而且麻黃湯、小青龍湯同屬辛溫解表方。因此,應(yīng)用TF-IDF進(jìn)行方劑計(jì)算有實(shí)用價(jià)值。

5? 可視化展示

構(gòu)建中藥方劑數(shù)據(jù)挖掘系統(tǒng),應(yīng)用d3.js可視化技術(shù)對(duì)以上計(jì)算的方劑相似度結(jié)果和方劑構(gòu)成進(jìn)行可視化展示,顯示與某一方劑相似度較高的若干方劑、方劑的構(gòu)成、方劑的信息和組成中藥相關(guān)信息,見(jiàn)圖4。

在中藥方劑數(shù)據(jù)挖掘系統(tǒng)界面左側(cè)的方劑列表或方劑欄目中選擇某首方劑(如核桃承氣湯)作為輸入,得到的結(jié)果以橫向柱狀圖形式直觀展示了與方劑核桃承氣湯相似性高的方劑名和相似度值,見(jiàn)圖5。與核桃承氣湯相似度較高的方劑有厚樸七物湯(30.83%)、溫脾湯(24.81%)、小承氣湯相(23.71%)、三化湯(20.54%)、苓桂術(shù)甘湯(20.52%)、麻黃湯(15.92%)等。

6? 小結(jié)

本研究從藥物構(gòu)成研究方劑,應(yīng)用TF-IDF算法實(shí)現(xiàn)了中藥方劑相似度的計(jì)算,結(jié)果精確度較高。構(gòu)建的中藥方劑數(shù)據(jù)挖掘系統(tǒng)可直觀展示方劑信息、方劑與藥物間的關(guān)聯(lián)關(guān)系及方劑之間的相似度,并通過(guò)可視化框架進(jìn)行表達(dá),推薦相似度高的方劑。數(shù)據(jù)分析應(yīng)用Python3.5實(shí)現(xiàn),可視化應(yīng)用d3.js實(shí)現(xiàn)。但研究維度相對(duì)單一,今后研究可從藥物、劑量、藥性、藥物成分等多維度計(jì)算相似度,并給出合理閾值,確定相似度模型。

參考文獻(xiàn):

[1] PETERS C. Cross-language information retrieval and evaluation[C]//Proc. of Intl Conf. on Lecture Notes in Computer Science. Berlin:Springer Verlag,2001.

[2] 操牡丹,何前鋒,王柏.中醫(yī)藥方劑相似度模型[J].計(jì)算機(jī)工程,2009, 16(8):275-277.

[3] 黃運(yùn)高,王妍,邱武松,等.基于K-means和TF-IDF的中文藥名聚類(lèi)分析[J].計(jì)算機(jī)應(yīng)用,2014,34(S1):173-174.

[4] 朱志鵬,杜建強(qiáng),劉英鋒,等.基于LDA主題模型的中醫(yī)藥方劑相似度計(jì)算[J].計(jì)算機(jī)應(yīng)用研究,2017,34(6):1668-1670,1676.

[5] 顧錚.基于文本分類(lèi)技術(shù)計(jì)算中醫(yī)方劑相似度[J].微計(jì)算機(jī)信息, 2010,26(12):199-201.

[6] 徐建民,王金花,馬偉瑜.利用本體關(guān)聯(lián)度改進(jìn)的TF-IDF特征詞提取方法[J].情報(bào)科學(xué),2011,29(2):279-283.

[7] 吳軍.數(shù)學(xué)之美[M].北京:中國(guó)工信出版社,2014:104-109.

猜你喜歡
可視化
無(wú)錫市“三項(xiàng)舉措”探索執(zhí)法可視化新路徑
基于CiteSpace的足三里穴研究可視化分析
自然資源可視化決策系統(tǒng)
三維可視化信息管理系統(tǒng)在選煤生產(chǎn)中的應(yīng)用
思維可視化
師道·教研(2022年1期)2022-03-12 05:46:47
基于Power BI的油田注水運(yùn)行動(dòng)態(tài)分析與可視化展示
云南化工(2021年8期)2021-12-21 06:37:54
自然資源可視化決策系統(tǒng)
基于CGAL和OpenGL的海底地形三維可視化
可視化閱讀:新媒體語(yǔ)境下信息可視化新趨勢(shì)
“融評(píng)”:黨媒評(píng)論的可視化創(chuàng)新
主站蜘蛛池模板: 香蕉eeww99国产在线观看| 亚洲欧美日韩中文字幕一区二区三区| 国产成人乱无码视频| 91精品综合| 国产成人精品2021欧美日韩| 狠狠干欧美| 午夜福利在线观看成人| 国产精品一区在线观看你懂的| 国内精品小视频在线| 午夜啪啪福利| 国产18页| a天堂视频| 一级爱做片免费观看久久| 国产福利一区在线| av色爱 天堂网| 无码中文AⅤ在线观看| 国产高清免费午夜在线视频| 高清无码不卡视频| a级毛片在线免费| 亚洲国产欧洲精品路线久久| 波多野结衣AV无码久久一区| 欧美午夜理伦三级在线观看| 国产精品页| 伊人久久综在合线亚洲91| 国产精品护士| 一级做a爰片久久免费| 欧美成人免费一区在线播放| 特级欧美视频aaaaaa| 亚洲综合九九| 免费黄色国产视频| 日日拍夜夜操| 成人福利在线观看| 日本一区中文字幕最新在线| 国产福利拍拍拍| 成人字幕网视频在线观看| 午夜丁香婷婷| 天天躁日日躁狠狠躁中文字幕| 国产极品粉嫩小泬免费看| 国产激爽爽爽大片在线观看| 蝴蝶伊人久久中文娱乐网| 污视频日本| 小说 亚洲 无码 精品| 蜜桃视频一区二区三区| 激情亚洲天堂| 国产网站免费| a毛片在线免费观看| 玖玖精品在线| 26uuu国产精品视频| 九九热精品视频在线| 亚洲色图欧美视频| 国产又爽又黄无遮挡免费观看| 欧美啪啪精品| 国产精品欧美在线观看| 久久久久人妻精品一区三寸蜜桃| V一区无码内射国产| 国产中文一区二区苍井空| 亚洲Av综合日韩精品久久久| 免费看黄片一区二区三区| 久久综合色天堂av| 日韩高清欧美| 中国精品久久| 国产精品yjizz视频网一二区| 国产浮力第一页永久地址| 亚洲不卡无码av中文字幕| 亚洲美女一级毛片| 精品国产网站| 亚洲伊人久久精品影院| 亚洲视频一区| 欧美日韩在线第一页| 91在线免费公开视频| 国内老司机精品视频在线播出| 婷婷亚洲综合五月天在线| 欧美午夜网站| 中字无码av在线电影| 亚洲成人福利网站| 国产精品污污在线观看网站| 久久综合丝袜长腿丝袜| 一本一本大道香蕉久在线播放| 2021亚洲精品不卡a| 亚洲国产中文在线二区三区免| 久久国语对白| 潮喷在线无码白浆|