聶佳,任玉蘭,江蓉星,許霞
成都中醫藥大學,四川 成都 610075
巴蜀中醫藥古籍醫案數據挖掘系統構建及應用
聶佳,任玉蘭,江蓉星,許霞
成都中醫藥大學,四川 成都 610075
中醫藥古籍是中醫藥傳承發展寶貴的知識財富,巴蜀中醫藥古籍特色突出。承載醫家豐富理論和臨床經驗的醫案,是知識發現不可或缺的研究對象。構建基于關聯規則方法分析的巴蜀中醫藥古籍醫案數據挖掘系統,不僅能深入研究巴蜀中醫藥學術流派的特色,亦能為中醫藥古籍數據挖掘系統開發和應用提供有效的支持。
巴蜀;中醫藥;古籍;醫案;數據挖掘系統;構建
巴蜀地區獨特的地理和文化環境,造就了一批在傳統中醫藥方面卓有成就的名醫大家,如北宋的唐慎微、清代的齊秉慧等,尤其在中醫診療、方藥方面特色突出,給后人留下了寶貴的醫案記錄,為祖國的醫藥事業繼承和發展作出了不朽的貢獻。本研究基于所收集1063部巴蜀中醫藥古籍中醫案的特點,利用現代計算機技術,構建數據挖掘系統,旨在深層次發現巴蜀歷代醫家辨證論治的知識信息,發揚巴蜀中醫藥文化。
1.1 總體思路
數據挖掘能從大量的、不完全的、有噪聲的、模糊的、隨機的數據集中提取有效的、新穎的、潛在有用的知識和規律,具有處理海量模糊性、非線性數據及知識發現的優勢。本研究以中醫藥古籍資源的分析利用和知識發現為目的,在試驗相關數據挖掘技術特點和適用性基礎上,結合巴蜀中醫藥名家診治思路和特點,探索性地建立了基于關聯規則的辨證施治、用藥規律挖掘模型,并驗證了其可行性,建立符合中醫臨床規律的數據分析方法,建造巴蜀中醫藥古籍數據挖掘的計算機模型[1-2]。
1.2 主要構建步驟
構建步驟共兩部分。第一部分先明確研究需要,定義研究數據,將原始數據通過數據轉換、加工等數據預處理方式,抽取正確可靠的數據,構建多維的數據倉庫挖掘模型;第二部分即根據不同的查詢條件進行數據挖掘,根據研究需要,選用恰當的數據挖掘算法,計算出滿足條件的模式集合,以數據條形式表達出來,調整參數進行模式篩選,通過挖掘前臺系統向導進行數據挖掘操作,將數據挖據信息以關聯規則形式展現給用戶,總過程如圖1所示。
1.2.1 數據的轉換和加工 從數據源中抽取的數據不一定完全滿足目的庫的要求,例如數據格式的不一致、數據輸入錯誤、數據不完整等,因此有必要對抽取出的數據進行數據轉換和加工,包括數據過濾、數據清洗、數據替換、數據計算、數據驗證、數據加解密、數據合并、數據拆分等。本研究根據抽取數據的特點進行數據轉換和加工研究,主要包括數據清洗、噪音處理、數據規范[3-5]。

圖1 巴蜀中醫藥數據挖掘系統構建步驟
1.2.1.1 缺失值的處理 在中醫處方信息中,有時會出現期望有數據的地方卻沒有數據的情況,如對臨床決策有重要價值的藥量等數據的缺失。針對數據的特點和對決策意義的不同,采用不同的缺失值填充算法,補充缺失數據。如針對樹脂類數據,缺失值采用平均值填充法[6-7]。
1.2.1.2 噪音數據的處理 主要指針對一詞多義、多詞一義、詞義模糊、詞義交叉或涵蓋等噪音數據進行處理。處理方法主要是根據《中華人民共和國藥典》《中醫診斷術語標準》《中醫證候鑒別診斷學》《中醫癥狀鑒別診斷學》《中藥學》《方劑學》等標準進行刪除或規范處理。
1.2.1.3 藥物名稱的規范處理 針對處方中對藥物的描述存在大量異藥同名、同藥異名等現象,本研究采用改進的編輯距離算法,對數學名稱進行自動化、智能化的規范處理。規范處理過程通過兩級數據規范實現[8-10]。
1.2.1.4 癥狀名稱的規范 中醫古籍文獻對癥狀的描述常存在不規范性,多表現為癥狀名稱不標準以及癥狀表述的模糊性。為了使系統可以正確處理對癥狀的描述,本研究根據癥狀規范采用改進的編輯距離算法,對癥狀進行自動化、智能化的規范處理。規范過程與藥物規范一致[11-13]。
1.2.2 數據倉庫的實施 構建巴蜀中醫藥古籍數據倉庫的目標數據庫由藥物表、癥狀表、疾病表等構成。數據庫中各表根據情況向下細化到不能分解的原數據。各表之間的數據可以借助外鍵建立聯系,從而形成一個龐大的中醫體系結構。
1.2.3 建造數據挖掘模型 為了從多個維度、不同概念層次對藥物運用規律進行漸進分析,本項目基于中醫數據存在復雜冠詞,結合關聯規則建立了癥候關聯、藥物配伍等挖掘模型。
1.2.4 數據挖掘 運用多維關聯規則分析在不同維度下癥狀、證候、藥物的頻次和支持度,提取中醫某一疾病的多發癥狀、證候及治療所需常用藥物;運用關聯規則分析的頻繁項集分析中醫醫案中癥狀與證候、藥物與藥物等的配伍規律,計算癥狀、證候、藥物項集的支持度和置信度,提取常用二元或者多元癥狀、證候、藥物配伍;采用多維關聯規則挖掘算法分析中醫辨證思路、處方選藥規律,分析不同年代、出處、文獻類型等條件下辨證論治規律[14-16]。
2.1 功能界面操作
用戶通過用戶名和密碼登錄巴蜀中醫藥數據挖掘系統,進入數據挖掘操作界面,見圖2。首先選擇“導入數據”選項,在目標文件中選擇準備數據挖掘的源數據,導入數據挖掘系統,然后根據研究需要,分別選擇藥物關聯、癥候關聯(癥狀與證候關聯)等選項,實現疾病與藥物、病因與癥狀等之間的關聯規則分析,達到數據挖掘的目的。

圖2 巴蜀中醫藥數據挖掘系統操作界面
2.2 藥物關聯分析展示
以《圣余醫案》為例,導入所要進行數據挖掘的源數據,點擊“藥物關聯分析”按鈕,在病名下拉選項中選擇“咳嗽”,在藥物復選框中選中“全部藥物”,在支持度和置信度選項中選擇0.5,點擊“數據挖掘分析”按鈕,顯示出如下結果。見表1。

表1 《圣余醫案》藥物關聯情況
從表1中可以看出,在《圣余醫案》中治療咳嗽所用的藥物配伍組合,支持度和置信度>50%的共有12條數據。其中,半夏與白術組合的支持度為78.95%,置信度為100.00%。說明該書記載咳嗽病醫案中,半夏和白術同時出現的頻率為 78.95%;而當半夏或白術二者其中一味出現時,另一味中藥出現的概率為100.00%。可見,在《圣余醫案》中,醫家治療咳嗽時,半夏與白術是常用藥對,而且其單味藥使用頻率也是最高,均為 15。半夏燥濕化痰、降逆止嘔,白術健脾益氣、燥濕利水,二者伍用倍增鎮咳化痰之功。
本研究引進現代計算機技術,針對巴蜀中醫藥古籍醫案,探索性地構建基于關聯規則方法分析的數據挖掘系統,以期為中醫藥古籍數據挖掘系統的開發和應用提供有效的支持。關聯規則是中醫藥領域數據挖掘研究常用的方法,對于蘊含豐富的理論知識和實踐經驗的中醫藥古籍而言,應嘗試不同的方法,多角度發現知識。將數據挖掘技術應用于不同種類的中醫藥古籍,將是下一步研究工作的重點。
[1] 舒正渝.淺談數據挖掘技術及其應用[J].中國西部科技,2010,9(5): 38-39.
[2] 鄭頻捷.數據挖掘在數據分析中的應用[J].福建電腦,2010,26(10): 104-106.
[3] 崔有文,周金海.基于KETTLE的數據集成研究[J].計算機技術與發展, 2015,25(4):153-157.
[4] 羅強,何利力,王曉菲.數據倉庫中數據清洗技術分析[J].電腦編程技巧與維護,2015(2):61,76.
[5] 李志堅,莫建麟.一種改進的基于概念格的數據挖掘算法[J].重慶師范大學學報(自然科學版),2013,30(2):92-95.
[6] 王汾雁,李志蜀,鐘涵,等.數據挖掘技術在中藥自動發藥系統中的應用[J].計算機應用研究,2007,24(9):31-33.
[7] 于力超,金勇進,王俊.缺失數據插補方法探討——基于最近鄰插補法和關聯規則法[J].統計與信息論壇,2015,30(1):35-40.
[8] 符永馳,李斌,郭敏華,等.中醫古籍電子化系統的研究與實現[J].中國中醫藥信息雜志,2008,15(2):103-104.
[9] 孫志勇.中醫“方劑、藥物、病癥”數據歸一化技術的研究[J].黑龍江科技信息,2012(4):35.
[10] 王俊文,崔蒙,趙英凱.中醫臨床醫案信息的抽取、規范和計量規則[J].西部中醫藥,2012,25(1):95-96.
[11] 孫海舒,李斌,王蕊,等.中醫古籍書目數據庫標注中若干問題的探討[J].中國中醫藥信息雜志,2007,14(10):103-104.
[12] 張志強,王永炎,蓋國忠.論中醫癥狀名稱規范五原則[J].北京中醫藥大學學報,2010,33(9):595-596.
[13] 劉保延,張啟明.構建中醫臨床科研信息一體化平臺需要解決的癥狀規范問題[J].中醫雜志,2011,52(20):1714-1716.
[14] 胡波,譚工.基于關聯規則的中醫治療乳腺增生病用藥規律研究[J].中國實驗方劑學雜志,2012,18(15):12-17.
[15] 王亞強,金暉,于中華,等.基于關聯規則的中醫癥狀組團分析[J].四川大學學報(自然科學版),2009,46(6):1650-1654.
[16] 于琦,王映輝,李敬華,等.中醫名醫醫案分析系統研究[J].中國數字醫學,2015,10(3):51-53.
Construction and Application of Data Mining System of Bashu Ancient TCM Book Records
NIE Jia, REN Yu-lan, JIANG Rong-xing, XU Xia
(Chengdu University of TCM, Chengdu Sichuan 610075, China)
Ancient TCM books are the valuable wealth of knowledge for TCM inheritance and development, among which Bashu TCM books are with prominent features. With wealthy theories and clinical experience, medical records are the essential research object for knowledge discovery. Construction of data mining system of Bashu ancient TCM book records based on association rules analysis, not only can deeply study the characteristics of Bashu TCM academic schools, but also can provide effective support for development and application of TCM ancient book data mining system.
Bashu; TCM; ancient book; medical record; data mining system; construction
10.3969/j.issn.2095-5707.2015.04.004
教育部人文社會科學研究西部和邊疆地區項目(10XJA870003);成都中醫藥大學校基金項目(ZRMS201362)
聶佳,助理研究員,研究方向為中醫藥古籍數字化。E-mail: 7919536@qq.com
2015-04-17;編輯:魏民)