梅泰中 許 吉 張 洋 李小娟 鄧宏勇
(上海中醫藥大學 上海 201203)
數據挖掘(Data mining, DM)一般是指從大量的數據中通過算法提取出隱藏的有價值信息的過程,常用于復雜非線性特征數據分析。中醫作為有著幾千年歷史的古老學科,其所累積的數據量規模巨大,且模糊性和非線性特點明顯,因此不易被常規的數理統計方法處理[1]。近年來,隨著人工智能興起,大數據時代到來,越來越多研究人員開始采用數據挖掘技術從浩瀚的中醫藥知識寶庫中提取精準有效而又新穎的知識。本課題組曾于2012年發文[2],對2011年之前的中醫藥數據挖掘研究情況進行分析,本文在此基礎上作進一步更新,從多個角度對近年中醫藥數據挖掘類研究進行分析總結,以期在一定程度上反映數據挖掘技術在中醫藥領域應用的現狀及趨勢。
檢索中國生物醫學文獻數據庫(SinoMed)和中國期刊全文數據庫(CNKI)的題錄及并獲取全文。檢索時間范圍:2012年1月1日~2017年11月2日;檢索完成時間:2017年11月2日。
檢索詞選取與數據挖掘相關的自由詞“數據挖掘”、“機器學習”、“人工智能”、“算法”、“數據分析”、“文本挖掘”、“知識發現”和“大數據”,另選取與中醫藥相關的自由詞“中醫”、“中藥”、“中草藥”、“針灸”、“方劑”、“復方”、“配伍”、“性味”、“辯證”、“證候”、“醫案”和“病案”。使用布爾邏輯算符“AND”和“OR”根據檢索需要構造檢索式,檢出與中醫藥數據挖掘相關的文獻。
將從不同數據庫檢索出的所有相關題錄導入文獻管理軟件(ENDNOTE),結合人工查重和篩選,確定最終納入分析的文獻,下載全文。采用文獻計量的方法,從出版年、作者單位、文獻類型、研究領域、數據挖掘方法、數據挖掘軟件、關鍵詞等方面對全文進行人工拆分處理,并提取數據。利用Excel2016和中醫處方辨證論治特征分析及數據挖掘軟件[3]的相應功能對提取數據進行分析,得到中醫藥領域數據挖掘研究狀況的文獻計量結果。
共檢出相關題錄4034條,經篩選后,最終獲取全文并納入統計1675篇。
2012~2017年中醫藥數據挖掘研究文獻年度變化情況見圖1,總體呈現逐年增長趨勢。

圖1 2012~2017中醫藥數據挖掘文獻年度分布
據統計,6年間發文作者所在單位總計約550家,其中以中國中醫科學院發文量最大(182篇),北京中醫藥大學和山東中醫藥大學分列2、3位,分別有180、164篇??傮w來看國內各中醫高等院校為發文主體,但不容忽視的是,蘭州大學(15篇)、復旦大學(7篇)等一批國內非傳統中醫藥類機構也開始涉足中醫藥數據挖掘領域,并呈現逐漸增長的趨勢和特征。
本文將中醫藥數據挖掘類文獻從類型角度分為應用研究、方法學研究、一般性論述和綜述4類[2]。文獻類型的年度分布見表2,由表可見,應用研究類文獻逐年穩步增長,其他類文獻無明顯變化。
本文對文獻所屬的研究領域進行了分類,分別是:方劑、證候、名老中醫經驗、病案、中藥藥性、中藥現代研究、診斷、針灸腧穴和其他[3]。各研究領域文獻數量的年度分布見表3,從中可見,方劑研究一直是中醫藥數據挖掘的重要領域,而名老中醫經驗和腧穴的數據挖掘研究在近年也有較為明顯的增長。此外,我們通過詞頻分析對文獻的關鍵詞進行研究,在剔除頻次最高的“數據挖掘”關鍵詞后,出現頻度較高的關鍵詞有“用藥規律”、“關聯規則”、“組方規律”等。
表1 發文量前5名單位

排序單位篇數百分比1中國中醫科學院18210.9%2北京中醫藥大學18010.7%3山東中醫藥大學1649.8%4廣州中醫藥大學1257.5%5南京中醫藥大學1126.7%
表2 不同類型中醫藥數據挖掘文獻年度分布(篇)

文獻類型201220132014201520162017應用研究133180203279360360方法學研究16248221213一般性論述321016綜述810107116
表3 中醫藥數據挖掘類文獻在不同領域的年度分布

研究領域201220132014201520162017方劑667784135179170名老中醫經驗254154689898證候243318311920病案9121581617中藥藥性394647腧穴91715353638中藥現代研究47710109診斷535143其他151720141823
中醫藥領域應用的數據挖掘方法主要有頻數分析、關聯規則、聚類分析、因子分析等,使用了隱結構模型、遺傳算法、隨機森林等模型及算法。同時也出現了以往相關文獻中較少出現的的數據挖掘方法,如屬性偏序結構等。圖2為主要數據挖掘方法的分布情況。

圖2 主要挖掘方法使用情況
中醫藥數據挖掘多數使用商業或開源的通用數據分析工具軟件,如SPSS(Clementine/Modeler)、SQL Server(Analysis Services)、SAS、Matlab 和Weka等。但自從2012年中國科學院自動化研究所和中國中醫科學院中藥研究所聯合開發成功中醫傳承輔助系統軟件[4]后,該軟件在中醫藥數據挖掘研究中得到廣泛使用,此外還有江蘇省方劑研究重點實驗室開發的中醫藥關聯規則挖掘軟件 V1.0[5]等較具有特色的專業軟件。

圖3 主要挖掘軟件使用情況
數據挖掘技術在中醫藥領域得到廣泛應用,正是近年來中醫藥多學科交叉研究的一個縮影。筆者在對納入的文獻逐篇閱覽過程中,發現有相當數量的文章同時運用頻數分析、關聯規則、聚類分析等方法對名老中醫經驗進行數據挖掘,在發現總結名老中醫的診療特色的同時,還可以得到用來治療具體某一類疾病的藥物范圍和頻率,形成藥物的核心組合或新方,這些結果在臨床實踐中有極大的應用價值。
數據挖掘軟件是進行數據挖掘工作的必需工具,近年來專業的中醫藥數據挖掘軟件相繼出現并得到較好應用,如中醫傳承輔助系統[4]和基于形式概念分析、偏序理論的非統計偏序結構模式發現新方法[6]等,這些工具軟件一方面打破了早期通用型數據挖掘工具壟斷使用的局面,同時也改變了以往專業中醫藥數據挖掘軟件應用頻率較低、使用范圍較窄等狀況。
我們在研究中也發現了一些目前中醫藥數據挖掘研究中存在的不足,如個別作者為追求發文數量而濫用數據挖掘技術,以及多數文獻使用的挖掘方法較為單一,相對復雜的挖掘方法使用頻率不高等,但相信通過更多的跨專業領域合作,以及普及數據挖掘技術、開發更強大便利的挖掘工具等手段,可以進一步推動中醫藥數據挖掘的發展。總之,隨著大數據時代的到來,中醫藥要想得到更好的發展,勢必要和數據挖掘等各領域學科進行交叉發展,不斷提高中醫藥數據的應用水平,優化臨床有效性及安全性,為廣大患者帶來健康,為弘揚中醫藥提供助力。