中醫(yī)藥數(shù)據(jù)挖掘系統(tǒng)的構(gòu)建與應(yīng)用

2021-08-23 02:08:11王晰李海燕亢力劉靜邢雁輝楊策楊樂李小陽雷蕾

中國中醫(yī)藥圖書情報(bào) 2021年4期

王晰李海燕亢力劉靜邢雁輝楊策楊樂李小陽雷蕾

摘要：目的? 針對(duì)中醫(yī)藥數(shù)據(jù)的特點(diǎn)和數(shù)據(jù)挖掘的需求，開發(fā)中醫(yī)藥數(shù)據(jù)挖掘系統(tǒng)（TCM Miner）。方法? TCM Miner基于中醫(yī)藥術(shù)語詞表，圍繞中醫(yī)藥數(shù)據(jù)挖掘工作中的數(shù)據(jù)清洗、集成、變換、選擇等需求，分別構(gòu)建用于數(shù)據(jù)清洗的數(shù)據(jù)拆分與合并、正異名替換、文本內(nèi)容抽取、矩陣轉(zhuǎn)換、中醫(yī)藥文本ETL等功能模塊，用于數(shù)據(jù)挖掘的關(guān)聯(lián)關(guān)系挖掘、聚類挖掘、貝葉斯處理等功能模塊，及用于中醫(yī)藥翻譯的專業(yè)文章翻譯模塊。結(jié)果? TCM Miner有效地解決了中醫(yī)藥數(shù)據(jù)挖掘過程中數(shù)據(jù)非標(biāo)準(zhǔn)化、個(gè)性化等問題，能夠輔助科研人員進(jìn)行數(shù)據(jù)清洗、數(shù)據(jù)挖掘及中醫(yī)藥文章翻譯，節(jié)省了科研人員的時(shí)間精力。結(jié)論? TCM Miner為中醫(yī)藥數(shù)據(jù)清洗和分析提供了有效工具，為中醫(yī)藥傳承創(chuàng)新提供有效途徑。

關(guān)鍵詞：中醫(yī)藥;數(shù)據(jù)挖掘;數(shù)據(jù)清洗

中圖分類號(hào)：R2-05;TP311.5??? 文獻(xiàn)標(biāo)識(shí)碼：A??? 文章編號(hào)：2095-5707（2021）04-0001-06

DOI： 10.3969/j.issn.2095-5707.2021.04.001??????? 開放科學(xué)（資源服務(wù)）標(biāo)識(shí)碼（OSID）：

Construction and Application of TCM Miner

WANG Xi， LI Hai-yan， KANG Li， LIU Jing， XING Yan-hui， YANG Ce， YANG Le， LI Xiao-yang， LEI Lei*

（Institute of Information on Traditional Chinese Medicine， China Academy of Chinese Medical Sciences， Beijing 100700， China）

Abstract： Objective To develop TCM Miner in view of the characteristics of TCM data and the needs of data mining. Methods Based on the vocabulary of TCM terms， focusing on the data cleaning， integration， transformation， selection， and other requirements in the data mining of TCM， TCM Miner built function modules for data cleaning， such as data splitting and merging， positive synonym replacement， text content extraction， matrix conversion， TCM text ETL， etc.， functional modules for data mining， such as association relationship mining， cluster mining， Bayesian processing for data mining， and professional article translation modules for TCM translation. Results TCM Miner could effectively solve the problems of non-standardization and personalization of data in the process of data mining of TCM， which can be used to assist researchers in data cleaning， data mining and translation of TCM articles， saving researchers time and energy. Conclusion TCM Miner provides an effective tool for TCM data cleaning and analysis， offering an effective way for TCM inheritance and innovation.

Key words： TCM; data mining; data cleaning

基金項(xiàng)目：中國中醫(yī)科學(xué)院基本科研業(yè)務(wù)費(fèi)自主選題（ZZ140304、ZZ140309、ZZ11-106）

第一作者：王晰，E-mail： 3317669472@qq.com

*通訊作者：雷蕾，E-mail： leilei@mail.cintcm.ac.cn

在大數(shù)據(jù)時(shí)代背景下，數(shù)據(jù)挖掘工作逐步在中醫(yī)藥領(lǐng)域開展起來，目前數(shù)據(jù)挖掘技術(shù)在中醫(yī)證候歸納、中醫(yī)方劑、名中醫(yī)臨床經(jīng)驗(yàn)、中藥藥性、中藥知識(shí)圖譜、針灸取穴規(guī)律、針灸方法選擇與應(yīng)用等領(lǐng)域均有大量應(yīng)用，為臨床診治疾病、新藥開發(fā)、醫(yī)學(xué)科研等提供了參考、奠定了基礎(chǔ)[1-2]。然而由于中醫(yī)藥數(shù)據(jù)的不規(guī)范性、小樣本寬數(shù)據(jù)蘊(yùn)含復(fù)雜信息的特點(diǎn)[3]，中醫(yī)藥數(shù)據(jù)尤其是醫(yī)案數(shù)據(jù)的挖掘和傳統(tǒng)的“數(shù)據(jù)挖掘”有不少差別。目前主流的數(shù)據(jù)挖掘工具如SPSS、R Software、RapidMiner、Weka等已經(jīng)廣泛應(yīng)用于自然科學(xué)、技術(shù)科學(xué)、社會(huì)科學(xué)的各個(gè)領(lǐng)域。然而，它們并未考慮中醫(yī)藥數(shù)據(jù)的特點(diǎn)，因此在中醫(yī)藥數(shù)據(jù)清洗和挖掘方面有一定局限性。為此，我們開發(fā)了針對(duì)中醫(yī)藥數(shù)據(jù)特點(diǎn)的中醫(yī)藥數(shù)據(jù)挖掘系統(tǒng)（TCM Miner，http：//tcmminer. cintcm.com：8023/tcm/index.jsp），它是整合數(shù)據(jù)清洗工具、數(shù)據(jù)挖掘工具和中英文翻譯工具的軟件系統(tǒng)，為中醫(yī)藥科研工作者提供數(shù)據(jù)清洗、數(shù)據(jù)挖掘計(jì)算及中醫(yī)藥文獻(xiàn)翻譯服務(wù)，既能滿足學(xué)者對(duì)于一般數(shù)據(jù)的挖掘分析，如文獻(xiàn)計(jì)量分析、穴位組配規(guī)律分析、中藥組方規(guī)律分析等;又能滿足中醫(yī)藥數(shù)據(jù)特定需求，如輔助中藥、證候、穴位名稱的規(guī)范。TCM Miner于2017年正式發(fā)布，已經(jīng)用于中醫(yī)藥數(shù)據(jù)挖掘領(lǐng)域。藺亞東等[4]使用TCM Miner完成了基于數(shù)據(jù)挖掘的中醫(yī)治療糖尿病腎病用藥規(guī)律分析，可為臨床辨治糖尿病腎病提供參考。張伏芝等[5]利用TCM Miner完成了基于中醫(yī)臨床文獻(xiàn)的糖尿病周圍神經(jīng)病變用藥規(guī)律分析，為其中醫(yī)臨床用藥和中藥新藥開發(fā)提供參考。王偉斌[6]以古今郁證醫(yī)案為基礎(chǔ)，利用TCM Miner分析挖掘郁證辨治規(guī)律，為現(xiàn)代郁證的臨床治療提供參考。

1? 中醫(yī)藥數(shù)據(jù)挖掘系統(tǒng)的構(gòu)建

1.1? 中醫(yī)藥數(shù)據(jù)挖掘系統(tǒng)總體設(shè)計(jì)

TCM Miner由頁面表現(xiàn)層、模塊應(yīng)用層、功能服務(wù)層、核心技術(shù)層、數(shù)據(jù)管理層5個(gè)部分組成，見圖1。頁面表現(xiàn)層為所有用戶登錄的入口;模塊應(yīng)用層是系統(tǒng)內(nèi)所有的模塊劃分及對(duì)應(yīng)的功能模塊;功能服務(wù)層為系統(tǒng)內(nèi)用到的所有服務(wù)，包括文檔服務(wù)、搜索服務(wù)、關(guān)聯(lián)服務(wù)等;核心技術(shù)層利用Spring Security構(gòu)成了核心的權(quán)限驗(yàn)證體系，并通過日志審計(jì)等操作規(guī)范用戶行為;數(shù)據(jù)管理層主要包括TCM Miner后臺(tái)數(shù)據(jù)庫，存儲(chǔ)用戶角色權(quán)限、日志統(tǒng)計(jì)等相關(guān)數(shù)據(jù)。

1.2? 中醫(yī)藥數(shù)據(jù)挖掘系統(tǒng)功能設(shè)計(jì)

數(shù)據(jù)挖掘又稱為知識(shí)發(fā)現(xiàn)，即從數(shù)據(jù)中挖掘知識(shí)[7]。常用的數(shù)據(jù)挖掘方法有關(guān)聯(lián)規(guī)則、聚類、分類與預(yù)測等[8]，其一般流程包括數(shù)據(jù)處理、數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)三部分，具體包括數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)選擇、數(shù)據(jù)變換、數(shù)據(jù)挖掘、模式評(píng)估和知識(shí)表示等步驟。目前，數(shù)據(jù)挖掘工具的功能多集中在數(shù)據(jù)處理和數(shù)據(jù)挖掘方面。TCM Miner基于中醫(yī)藥數(shù)據(jù)的特點(diǎn)，針對(duì)數(shù)據(jù)處理和數(shù)據(jù)挖掘設(shè)計(jì)了10個(gè)功能模塊，見圖2。⑴數(shù)據(jù)清洗：包括數(shù)據(jù)拆分與合并、頻次統(tǒng)計(jì)、正異名替換、文本內(nèi)容抽取、矩陣轉(zhuǎn)換、中醫(yī)藥文本ETL（數(shù)據(jù)抽取、轉(zhuǎn)換和加載）和專業(yè)文章翻譯模塊。⑵數(shù)據(jù)挖掘：包括關(guān)聯(lián)關(guān)系挖掘、聚類挖掘和貝葉斯處理模塊。

1.2.1? 數(shù)據(jù)拆分與合并模塊? 中醫(yī)藥處方數(shù)據(jù)多以“草河車、白芷、防風(fēng)、大黃……”這樣的數(shù)據(jù)格式呈現(xiàn)，在數(shù)據(jù)分析過程中常常需要對(duì)中藥名稱進(jìn)行統(tǒng)計(jì)、替換、修正。TCM Miner數(shù)據(jù)處理模塊可以實(shí)現(xiàn)數(shù)據(jù)的拆分與合并，便于進(jìn)一步對(duì)術(shù)語進(jìn)行統(tǒng)計(jì)與規(guī)范。

1.2.2? 頻次統(tǒng)計(jì)模塊? 對(duì)于數(shù)據(jù)拆分與合并后的結(jié)果，可以通過頻次統(tǒng)計(jì)模塊完成數(shù)據(jù)的統(tǒng)計(jì)。此外，對(duì)于中藥、證候的正異名統(tǒng)計(jì)問題，TCM Miner內(nèi)置中藥和證候等中醫(yī)藥術(shù)語詞表，可以輔助統(tǒng)計(jì)輸入數(shù)據(jù)中規(guī)范術(shù)語的頻次。

1.2.3? 正異名替換模塊? 在對(duì)中醫(yī)藥文本進(jìn)行處理時(shí)，常常需要將中醫(yī)藥異名替換為正名，工作繁瑣又耗時(shí)。正異名替換模塊內(nèi)置中醫(yī)藥術(shù)語詞表，包括2015年版《中華人民共和國藥典》、《中華本草》《GB/T 16751.1-1997中醫(yī)臨床診療術(shù)語疾病部分》《GB/T 16751.2-1997中醫(yī)臨床診療術(shù)語證候部分》《中國中醫(yī)藥學(xué)主題詞表》（第3版）、2016年版《醫(yī)學(xué)主題詞表（中文）》等，支持用戶進(jìn)行中醫(yī)藥數(shù)據(jù)的規(guī)范化處理，提高了數(shù)據(jù)挖掘的針對(duì)性和實(shí)用性及中醫(yī)藥術(shù)語翻譯的準(zhǔn)確性。

1.2.4? 文本內(nèi)容抽取模塊? 中醫(yī)醫(yī)案多以大段文本的形式存儲(chǔ)，而且夾雜著大量無效信息，不利于數(shù)據(jù)分析與挖掘。TCM Miner通過自然語言處理技術(shù)和內(nèi)置的中醫(yī)藥術(shù)語詞表，可以提取處方數(shù)據(jù)，為進(jìn)一步分析處方用藥規(guī)律奠定基礎(chǔ)。

1.2.5? 矩陣轉(zhuǎn)換模塊? 數(shù)據(jù)挖掘領(lǐng)域常用的SPSS、RapidMiner等軟件有著強(qiáng)大的計(jì)算功能，而中醫(yī)藥處方數(shù)據(jù)存儲(chǔ)格式大多不符合它們的格式要求。TCM Miner的矩陣轉(zhuǎn)換模塊可以將一組具有固定分隔符號(hào)的數(shù)據(jù)轉(zhuǎn)換成不同形式的矩陣格式，包括數(shù)據(jù)矩陣、共現(xiàn)矩陣、邊權(quán)矩陣等，輔助用戶與SPSS、RapidMiner等軟件聯(lián)合使用。此外，對(duì)于數(shù)據(jù)矩陣，該模塊還提供逆矩陣計(jì)算，可以將數(shù)據(jù)矩陣轉(zhuǎn)換成固定符號(hào)分隔的數(shù)據(jù)，極大地方便科研工作的回溯。

1.2.6? 中醫(yī)藥文本ETL模塊? 在實(shí)際科研工作中，文本或pdf格式的數(shù)據(jù)無法直接進(jìn)行數(shù)據(jù)分析，需要將數(shù)據(jù)轉(zhuǎn)換為Excel格式，通過中醫(yī)藥文本ETL模塊，可以進(jìn)行txt、doc、docx、xls、xlsx、pdf等多種格式的相互轉(zhuǎn)化。

1.2.7? 關(guān)聯(lián)關(guān)系挖掘模塊? 關(guān)聯(lián)關(guān)系挖掘可以發(fā)現(xiàn)存在于數(shù)據(jù)中的隱藏關(guān)系[9]，TCM Miner基于Apriori算法[10]，通過設(shè)置最小支持度和最小置信度完成關(guān)聯(lián)分析。如使用TCM Miner關(guān)聯(lián)關(guān)系挖掘模塊分析針灸取穴規(guī)律，挖掘不同穴位的組配關(guān)系。

1.2.8? 聚類挖掘模塊? 聚類是數(shù)據(jù)挖掘、模式識(shí)別等研究方向的重要研究內(nèi)容之一[11]，把1組個(gè)體按照相似性歸成若干類別。TCM Miner使用聚類經(jīng)典算法k-means算法，在使用時(shí)需要設(shè)置k值，即聚類個(gè)數(shù)。

1.2.9? 貝葉斯處理模塊? 貝葉斯分類是一種統(tǒng)計(jì)學(xué)分類方法，可以在已知的樣本類型數(shù)據(jù)中學(xué)習(xí)一個(gè)模型后預(yù)測未知類型樣本屬于特定類的概率[12]。通過貝葉斯處理模塊，可以計(jì)算中藥、證候、癥狀等要素之間的概率關(guān)系。

1.2.10? 專業(yè)文章翻譯模塊? 中醫(yī)藥翻譯對(duì)中西文化交流起到非常重要的橋梁作用。目前常用的翻譯軟件如百度翻譯、谷歌翻譯、有道翻譯等對(duì)中醫(yī)藥類型文本的翻譯不夠準(zhǔn)確。TCM Miner內(nèi)置2016年版《醫(yī)學(xué)主題詞表（中文）》，可以有效進(jìn)行中醫(yī)藥術(shù)語的英文翻譯工作。

1.3? 中醫(yī)藥數(shù)據(jù)挖掘系統(tǒng)工作流程設(shè)計(jì)

⑴文件上傳：用戶將本地文件上傳到TCM Miner，上傳結(jié)束后，頁面有上傳文件數(shù)據(jù)的展示。⑵配置參數(shù)：不同功能模塊有不同的參數(shù)配置需求，用戶根據(jù)需要進(jìn)行參數(shù)設(shè)置。⑶結(jié)果展示：點(diǎn)擊運(yùn)行，頁面會(huì)出現(xiàn)運(yùn)行結(jié)果展示。⑷結(jié)果下載：用戶可以將運(yùn)算結(jié)果下載到本地。

2? 中醫(yī)藥數(shù)據(jù)挖掘系統(tǒng)的應(yīng)用

文獻(xiàn)計(jì)量分析可以定量揭示某一學(xué)科領(lǐng)域的發(fā)展歷程、研究熱點(diǎn)及發(fā)展方向，是中醫(yī)藥數(shù)據(jù)挖掘領(lǐng)域的主要研究方向之一，主要涉及期刊、主題詞/關(guān)鍵詞、作者、機(jī)構(gòu)、發(fā)表年份、基金等指標(biāo)的統(tǒng)計(jì)挖掘。本文以針灸治療失眠的文獻(xiàn)計(jì)量研究為例，展示TCM Miner的應(yīng)用步驟，見圖3。

2.1? 文本處理

以中國生物醫(yī)學(xué)文獻(xiàn)服務(wù)系統(tǒng)為數(shù)據(jù)來源，并以（"入睡和睡眠障礙"[不加權(quán)：擴(kuò)展] AND "針灸療法"[不加權(quán)：擴(kuò)展]）AND 2016-2020[日期]為檢索式，得到459條記錄，下載為.txt文本格式，然后使用TCM Miner中醫(yī)藥文本ETL模塊將文本題錄轉(zhuǎn)換成Excel格式，見圖4。

2.2? 頻次統(tǒng)計(jì)

對(duì)于以固定分隔符分隔的一組數(shù)據(jù)，例如關(guān)鍵詞、作者、機(jī)構(gòu)等，可以通過TCM Miner的數(shù)據(jù)拆分與合并模塊將數(shù)據(jù)轉(zhuǎn)換為單個(gè)詞，然后使用頻次統(tǒng)計(jì)模塊對(duì)詞頻進(jìn)行統(tǒng)計(jì)，見圖5。對(duì)于本身為單個(gè)詞的數(shù)據(jù)，例如發(fā)表年份、期刊等，可以直接使用TCM Miner的頻次統(tǒng)計(jì)模塊進(jìn)行統(tǒng)計(jì)，見圖6。

2.3? 主題詞/關(guān)鍵詞聚類分析

對(duì)主題詞/關(guān)鍵詞聚類分析可以了解一個(gè)領(lǐng)域的研究熱點(diǎn)。有學(xué)者使用SPSS的層次聚類方法對(duì)2003-2013年國內(nèi)生物醫(yī)學(xué)類科技期刊的主題詞進(jìn)行分析，探討國內(nèi)可吸入顆粒物PM2.5研究的熱點(diǎn)[13]。使用TCM Miner的矩陣轉(zhuǎn)換模塊將關(guān)鍵詞列轉(zhuǎn)換為數(shù)據(jù)矩陣，然后輸入到SPSS中進(jìn)行層次聚類分析，見圖7。

2.4? 作者高頻組合分析

使用TCM Miner的關(guān)聯(lián)關(guān)系挖掘模塊對(duì)作者頻繁項(xiàng)集和強(qiáng)關(guān)聯(lián)關(guān)系進(jìn)行分析，可以找出作者的高頻組合，進(jìn)一步明確研究團(tuán)隊(duì)的情況，見圖8。

3? 總結(jié)與展望

做好中醫(yī)藥數(shù)據(jù)挖掘工作是中醫(yī)藥傳承創(chuàng)新的重要方面，然而費(fèi)時(shí)費(fèi)力的數(shù)據(jù)處理讓研究者對(duì)數(shù)據(jù)挖掘工作望而卻步。一般來說，在整個(gè)數(shù)據(jù)挖掘工作中，至少60%的精力和時(shí)間花在數(shù)據(jù)處理上[14]。中醫(yī)藥數(shù)據(jù)有著自身的特點(diǎn)，例如中藥、證候等同物異名現(xiàn)象廣泛存在，中醫(yī)醫(yī)案存儲(chǔ)形式多為大段文本，規(guī)范術(shù)語需要耗費(fèi)大量的人力，給中醫(yī)藥數(shù)據(jù)挖掘工作帶來不便。TCM Miner以中醫(yī)藥術(shù)語詞表為支撐，形成了服務(wù)于中醫(yī)藥領(lǐng)域數(shù)據(jù)清洗、數(shù)據(jù)挖掘、文本翻譯領(lǐng)域的應(yīng)用系統(tǒng)，有效幫助科研人員進(jìn)行中醫(yī)藥數(shù)據(jù)拆分與合并、頻次統(tǒng)計(jì)、正異名替換、文本內(nèi)容抽取、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)挖掘、文本翻譯等工作，節(jié)省了科研人員的時(shí)間與精力，為中醫(yī)藥領(lǐng)域的處方用藥規(guī)律分析、文獻(xiàn)分析、針灸取穴規(guī)律分析等提供了有效工具。

由于數(shù)據(jù)的更新速度快，原有的詞表需要不斷更新，而且隨著數(shù)據(jù)挖掘的算法越來越多，系統(tǒng)功能模塊也需要不斷增加和優(yōu)化。TCM Miner將不斷完善內(nèi)置中醫(yī)藥術(shù)語詞表和功能模塊，更好地為中醫(yī)藥科研人員提供服務(wù)。

參考文獻(xiàn)

[1] 徐靜雯，夏菁，邸若虹，等.數(shù)據(jù)挖掘技術(shù)在中醫(yī)藥研究中的應(yīng)用進(jìn)展[J].醫(yī)學(xué)綜述，2019，25（18）：3672-3676，3681.

[2] 曾悅，張君.數(shù)據(jù)挖掘技術(shù)在中醫(yī)藥領(lǐng)域應(yīng)用[J].中國中醫(yī)藥信息雜志，2012，19（3）：99-100.

[3] 朱彥，朱玲，崔蒙.論中醫(yī)藥數(shù)據(jù)挖掘[J].中華中醫(yī)藥雜志，2016， 31（8）：2932-2935

[4] 藺亞東，張伏芝，雷蕾，等.基于數(shù)據(jù)挖掘的中醫(yī)治療糖尿病腎病用藥規(guī)律分析[J].中國中醫(yī)藥信息雜志，2020，27（5）：102-106.

[5] 張伏芝，藺亞東，雷蕾，等.基于中醫(yī)臨床文獻(xiàn)分析糖尿病周圍神經(jīng)病變的用藥規(guī)律[J].中國實(shí)驗(yàn)方劑學(xué)雜志，2020，26（13）：199-205.

[6] 王偉斌.基于古今醫(yī)案的郁證辨治規(guī)律研究[D].北京：中國中醫(yī)科學(xué)院，2019.

[7] 胡雪琴，楊寅，崔蒙.關(guān)于中醫(yī)藥數(shù)據(jù)挖掘研究理念變遷的探討[J].中國中醫(yī)藥圖書情報(bào)雜志，2017，41（1）：12-15.

[8] HAN J W， Kamber M， PEI J.數(shù)據(jù)挖掘概念與技術(shù)（原書第3版）[M].范明，孟小峰，譯.北京：機(jī)械工業(yè)出版社，2012.

[9] 周琳，劉樹春.關(guān)聯(lián)規(guī)則在中醫(yī)臨床信息分析中的應(yīng)用[J].中國中醫(yī)藥圖書情報(bào)雜志，2014，38（4）：13-15，21.

[10] 常少春.高效頻繁項(xiàng)集發(fā)現(xiàn)方法與Apriori的改進(jìn)[D].鎮(zhèn)江：江蘇科技大學(xué)，2011.

[11] 孫吉貴，劉杰，趙連宇.聚類算法研究[J].軟件學(xué)報(bào)，2008，19（1）：48-61.

[12] 邢雁輝，崔蒙，儲(chǔ)戟農(nóng)，等.基于貝葉斯分類算法的治療中風(fēng)中藥組方研究[J].中西醫(yī)結(jié)合心腦血管病雜志，2015，13（4）：471-474.

[13] 李玉潔，雷蕾，劉栩岑，等.2003-2013年國內(nèi)生物醫(yī)學(xué)類科技期刊可吸入顆粒物相關(guān)研究文獻(xiàn)分析[J].中國實(shí)驗(yàn)方劑學(xué)雜志，2015， 21（3）：1-5.

[14] 陳亞楠，卓佳，廖廷悟.淺談數(shù)據(jù)預(yù)處理理論[J].中國證券期貨， 2010（9）：153.

（收稿日期：2021-02-03）

（修回日期：2021-02-28;編輯：鄭宏）