★ 張鑫 朱明峰 杜建強郝竹林 王國龍 (江西中醫藥大學計算機學院 南昌330004)
中醫數據挖掘算法研究進展*
★ 張鑫 朱明峰 杜建強**郝竹林 王國龍 (江西中醫藥大學計算機學院 南昌330004)
伴隨大數據時代的到來和數據挖掘技術的興起,中醫數據挖掘也逐步走向熱門。本文對數據挖掘進行系統概述,著重對中醫數據挖掘的研究進展進行了具體的趨勢分析,對相關方法的研究進行了梳理,以期為相關科研工作者進行中醫領域數據挖掘的研究提供有價值的文獻參考。
數據挖掘;中醫;決策樹;隨機森林;深度學習
千百年來累積的大量中醫數據資料是歷史傳承下來的寶貴財富,隨著數據庫技術的發展,基于數據庫的中醫信息管理變得越來越便利,且聚集其中的中醫藥數據也在持續激增,這些海量中醫藥數據背后必隱藏許多有價值的信息。通過對大規模中醫藥數據的挖掘分析,能夠為中醫診斷提供決策支撐,探索中藥配伍規律,對中醫研究產生重大意義;也能促進中醫文獻古籍研究,促進中醫信息的數字化、自動化和智能化的全面快速發展。當前,數據倉庫、人工智能、機器學習等數據挖掘相關學科帶動了數據挖掘的發展,因此也推動了數據挖掘在中醫領域的廣泛應用并迅速走向熱門。
1.1 數據挖掘 所謂數據挖掘,是指從大量的、不完全的、有噪聲的、模糊的實際應用數據中,提取隱含在其中的、人們事先未知的但是有潛在應用價值的信息和知識的過程[1]。數據挖掘是一門涉及面很廣的交叉學科,包含機器學習、數理統計、神經網絡數據庫、模式識別、粗糙集、模糊數學等相關技術。
1.2 中醫數據挖掘 近十幾年,隨著數據庫技術的發展和中醫領域數據的暴漲,數據挖掘方法開始引入到中醫藥研究上,產生中醫數據挖掘。不同于傳統科學數據,中醫藥數據有自己的特點。胡金亮[2]歸納其特點包括:癥狀的模糊性、證候的多態性、證候與癥狀間的非線性、中醫藥數據的多維性,以及挖掘的復雜性。基于此類特點,傳統簡單的統計分析工具已經不能滿足中醫現代化、信息化發展的根本需求。而中醫數據挖掘技術正適合于復雜多維的數據分析,運用相應的算法可以從海量的中醫藥數據中發現知識。
1.3 常用中醫數據挖掘分析方法 中醫藥研究過程中針對不同子領域的分析模式可選用不同的數據挖掘方法,常用的有關聯規則、聚類分析、人工神經網絡、決策樹等方法,還有一些其他分析方法,包括遺傳算法、貝葉斯信念網絡、小波變換、主成分分析、時間序列分析和孤立點分析等。岳路[3]將決策樹算法應用于小兒肺炎中醫辨證,構建出一種小兒肺炎分類模型,該模型中小兒肺炎辨證分類的準確率達到80%,可用于臨床輔助診斷。馬金剛[4]基于關聯規則研究方劑配伍的規律,所得到的分析結果與中醫理論和臨床經驗總結總體相符,為進一步研究提供了依據。郜巒[5]借助聚類分析技術,初步揭示了新安醫家對于中風病病因病機、辨證論治的獨特見解,挖掘出其臨床治療思路,為臨床防治中風病提供了一定的借鑒作用。楊濤[6]在應用人工神經網絡探討心系病位、病癥特性與基礎證的相關性研究中發現,BP神經網絡能較好地模擬心系病位、病癥特性與基礎證的非線性映射,此類研究成果可以進一步應用于五臟系統辨證體系中,為病癥規范化和診斷信息化提供參考。謝家宇[7]借助連續小波變換算法分析脈象信號,能較好地從人體的脈象信號中提取人體病變的特征信息。
近年來,為進一步促進中醫領域的信息化、智能化發展,數據挖掘在中醫藥相關研究上越來越深入。筆者著重對目前中醫數據挖掘的研究方向進行了具體分析,其主要呈現以下三個趨勢。
2.1 改進傳統挖掘算法
2.1.1 基于傳統經典算法局部改進 即改進傳統經典醫學數據挖掘算法,彌補算法的某些不足,以提高算法的效率和精度。馬建[8]針對傳統貝葉斯算法在訓練數據方面未考慮數據屬性間的相關性而造成對數據分析的冗余、資源浪費以及分析效率下降等不足進行改進,并結合中醫醫案數據復雜、易缺失等特點,應用改進的貝葉斯網絡算法對“內生五邪”醫案進行中醫規律的挖掘和分析,通過與傳統的貝葉斯網絡方法分類的結果相比較,發現前者具有更高的分析準確率。趙丹丹[9]以治療糖尿病的中藥方劑數據為研究樣本,通過改進的Apriori算法來發現中藥配伍規律,從而提取出使用中藥治療糖尿病的整體用藥規律。高麗君[10]針對缺失數據處理和決策樹分類對噪聲數據敏感的不足,提出了基于灰色關聯分析理論的填充算法,和基于尺度函數的變精度粗糙集屬性選擇標準的決策樹改進算法,并將其嵌入冠心病的中醫輔助診療系統,實現對冠心病數據集的中醫診斷證型分類。張志順[11]結合中醫舌象的特點,利用可克服小波卷積濾波因非零軸對稱而導致邊緣重疊現象的改進型小波算法,對舌象圖像邊緣進行檢測,從而解決了傳統邊緣檢測算法對去除噪聲和獲取精細邊緣之間的矛盾,獲得比較理想的邊緣檢測效果。
2.1.2 組合傳統經典挖掘算法 即撿取兩種或兩種以上數據挖掘算法,吸收其算法優點,彌補某種算法的不足,以取得更好的挖掘效果。為了提高神經網絡的學習速度和泛化能力,謝錚桂[12]構建的中醫舌診智能診斷系統采用了一種改進的基于免疫聚類的RBF神經網絡算法,可以通過學習訓練集樣本中每個病例的舌象特征參數,從而得出相應的病證。吳嘉瑞[13]采用關聯規則Apriori算法和復雜系統熵聚類等無監督數據挖掘算法,分析處方中藥物使用頻次及藥物之間的關聯規則、處方規律,探討顏正華教授治療氣滯證的用藥經驗,驗證了其學術思想。吳蕓[14]同樣將組合算法用于舌診研究,考慮到神經網絡優化程度受到訓練樣本種類和數量的限制,其利用遺傳算法尋優的特點對神經網絡權值和結構等多方面進行優化,使中醫舌診神經網絡能夠在滿足封閉性的同時也具有良好的開放性,提高其臨床實用能力。
2.2 引進新的挖掘算法和技術 引入中醫領域的傳統數據挖掘方法多是基于分類、聚類以及關聯分析等思想,近年除分類聚類之外,一些新型的數據挖掘算法也被運用到此領域,包括隨機森林和深度學習等當前熱門算法,以及數據挖掘可視化技術等熱門技術,這也是中醫領域數據挖掘發展的第二個方向。
2.2.1 隨機森林 隨機森林(RF)是Breiman提出基于統計學習理論的組合分類器算法,此方法是利用bootsrap重抽樣法從原始樣本中隨機抽取自助樣本集,對每個自助樣本集構建決策樹模型,然后組合多棵樹的預測,通過投票輸出最終預測結果[15]。大量實踐證明,隨機森林都有比較好的預測精度及良好的魯棒性,因此隨機森林在中醫領域得到廣泛應用。洪燕珠[16]利用隨機森林方法對慢性疲勞(CF)進行中醫癥候要素特征癥狀的提取,得到CF的4個癥候要素癥狀集的模型均達到94%以上,此結果表明隨機森林對CF癥候要素具有良好的分類性能。李雨[17]以中藥藥性為響應變量,基原性狀為預測變量,分別用Logistic回歸、支持向量機、決策樹、隨機森林、主成分-線性判別和偏最小二乘等六種方法建立判別模型,對植物性中藥進行藥性判別,并比較各種模型的判別效果,發現隨機森林判別分析的準確率和預測準確率均最高。
2.2.2 深度學習 深度學習是一種新興的多層神經網絡學習算法,又被稱為無監督的特征學習。深度學習結構特征是含多隱含層的多層感知器,通過組合低層特征形成更加抽象的高層表示(屬性類別或特征),以發現數據的分布式特征[18]。通過深度學習,可實現復雜函數的逼近,能夠從少數樣本集中學習數據集本質特征。王立文[19]以慢性胃炎患者中醫問診數據為研究樣本,從挖掘樣本特征之間關系和挖掘類別標簽之間關系兩個角度出發,采用二類相關和深度置信網絡,或深度玻爾茲曼機模型的基于深度學習的多標記學習法,分別建立深度學習和條件隨機場模型,對中醫慢性胃炎患者問診數據進行訓練和預測,得到五個常見指標下的實驗結果符合中醫理論,明顯優于其他常見方法。
2.2.3 數據挖掘可視化 可視化數據挖掘技術是可視化技術和數據挖掘技術的有機結合,是應用計算機圖形學、圖像處理技術等,將數據挖掘的源數據、中間結果和最終結果轉換成直觀、易于理解的圖形或圖像的方式,并進行交互處理的理論、方法和技術[20]。可視化數據挖掘技術通過觀察數據在多重維數和圖形窗體中的存在狀態,可以直觀、迅速揭示數據趨勢和相互聯系的特點,使其應用頗為廣泛。王玫[21]將可視化數據挖掘技術應用于HIS中的電子病歷信息,可以幫助醫生更直觀更方便地分析和獲得隱藏在病歷數據中的信息和規律。支雅男[22]運用數據挖掘方法將中醫古籍中的龐大數據信息進行可視化,以FCA理論為基礎,借助概念格為可視化工具,為《傷寒論》中7個方劑集合構建屬性偏序結構圖,通過此圖可以直觀顯示配伍研究與量效關系研究之間緊密的聯系。
2.3 拓展中醫藥數據挖掘的應用領域 第三個趨勢是擴展經典算法在中醫藥數據領域的應用。中醫領域頗廣,數據挖掘可應用的方向很多,也有很多學者將經典且研究很深的挖掘算法引入到中醫數據研究的各個領域。主要有四大方向:一是在中醫診斷領域,體現在中醫四診客觀化、中醫癥候規范化和中醫辨證智能化;二是在中藥領域的研究,主要包括方劑藥對和中藥配伍規律探索、中藥藥性分類判斷、中藥藥效量效分析等;三是中醫信息學領域,包括中醫信息處理,中醫文獻古籍、中醫醫案及名老中醫診療經驗研究;四是中醫系統平臺研究,包括中醫輔助診斷系統、中醫診斷效果評估系統,以及基于檢索的中醫文獻查詢系統研究。關聯分析在中醫領域的應用極其廣泛,代治國[23]將關聯分析中的頻繁模式增長算法(FP-Growth算法)用于中醫辨證診斷中經驗數據挖掘,即從病癥與辨證之間、辨證與處方之間、病癥與處方之間挖掘歸納中醫專家的辨證規律并模擬其診斷過程,其結果符合傳統典型的中醫理論。張潤順[24]通過名老中醫肝脾不調醫案,應用關聯規則對其治療肝脾不調證的用藥規律進行分析。李文林[25]將關聯規則用于分析明清古籍中疫病文獻的藥-證關系,其結果與中醫疫病的治法及用藥基本相符,能初步揭示明清醫家對疫病診療的學術思想和治疫經驗。
中醫的現代化、信息化、智能化是中醫迅速發展并走向世界的必行之路。數據挖掘技術在中醫領域的應用,極大地推動了中醫藥研究的規范化進程。目前,由于中醫藥數據自身的特殊性,基于此領域的數據挖掘研究比較有限,因此中醫數據挖掘有廣闊的研究空間。如何結合中醫藥數據的特點,在算法和技術上有更多突破,以提高挖掘的效率和準確性,同時也將更多熱門算法引入到中醫相關領域,也是未來研究的關鍵點。
[1]Han J.W,Kamber M著.范明,孟小峰譯.數據挖據:概念與技術[M].第2版.北京:機械工業出版社,2007:253.
[2]胡金亮,李建生,李素云.數據挖掘技術在中醫證候研究的應用進展[J].遼寧中醫雜志,2009,36(1):148-150.
[3]岳路,馬凌燕,魏本征.基于決策樹算法的小兒肺炎臨床辨證分類模型研究[J].電子測試,2013(5):243-244.
[4]馬金剛,胡志帥,曹慧,等.基于關聯規則挖掘的方劑配伍規律初步研究[J].中國實驗方劑學雜志,2013,19(7):351-353.
[5]郜巒,李鋒剛.基于聚類分析的新安醫家防治中風辨治規律探索[J].中國中醫藥信息雜志,2007,14(12):92.
[6]楊濤,吳承玉.基于人工神經網絡的心系基礎證診斷模型構建[J].中國中醫基礎醫學雜志,2013,19(9):765-766.
[7]謝家宇,蔡坤寶.基于連續小波變換的中醫脈象信號處理[J].生物醫學工程學雜志,2004,21(3):469-472.
[8]馬健,盛魁.基于改進的貝葉斯網絡算法在中醫醫案中的應用研究[J].惠州學院學報,2013,33(3):52-56.
[9]趙丹丹.Apriori算法改進及其在中藥知識發掘中的應用[J].計算機與現代化,2007(8):23-25.
[10]高麗君.面向缺失數據的變精度粗糙集決策樹分類算法研究[D].大連海事大學,2013.
[11]張志順.改進的小波變換在中醫舌象邊緣檢測中的研究 [J].計算機工程與應用,2012,48(35):135-138.
[12]謝錚桂,韋玉科,鐘少丹.基于免疫聚類的RBF神經網絡在中醫舌診診斷中的應用[J].計算機應用與軟件,2009,26(4):42-43.
[13]吳嘉瑞,郭位先,張冰,等.基于關聯規則和復雜系統熵聚類的顏正華治療氣滯證用藥規律研究 [J].中國中醫基礎醫學雜志,2013,19(9):837-839.
[14]吳蕓,周昌樂,張志楓.中醫舌診神經網絡的優化遺傳算法[J].計算機應用研究,2007,24(9):50-52.
[15]Breiman L.Random forests[J].Machine learning,2001,45(1):5-32.
[16]洪燕珠,周昌樂,張志楓,等.基于隨機森林法的慢性疲勞證候要素特征癥狀的選擇[J].中醫雜志,2010,51(7):634-638.
[17]李雨.基于植物性中藥基原性狀藥性判別模型的比較[D].山東大學,2011.
[18]孫志軍,薛磊,許陽明,等.深度學習研究綜述[J].計算機應用研究,2012,29(8):2 806-2 810.
[19]王立文.基于深度學習與條件隨機場的多標記學習方法的中醫問診建模研究[D].華東理工大學,2013.
[20]張俊.可視化數據挖掘技術的研究與實現[J].重慶工商大學學報.自然科學版,2013,30(3):58-61.
[21]王玫,張蘭華,張月東.電子病歷中可視化數據挖掘技術的應用[J].微計算機信息,2011,27(7):239-240.
[22]支雅男.《傷寒論》中藥配伍量效群結構知識發現方法研究[D].燕山大學,2013.
[23]代治國.關聯規則挖掘在中醫辨證診斷中的應用研究[D].哈爾濱工程大學,2007.
[24]張潤順,周雪忠,姚乃禮,等.基于關聯規則挖掘肝脾不調證中藥配伍規律研究[J].中國中醫藥信息雜志,2010,17(2):97-99.
[25]李文林,屠強,彭麗坤,等.基于關聯規則分析明清古籍中疫病文獻的藥-癥關系[J].時珍國醫國藥,2010,21(4):957-959.
Research Progress of Data M ining A lgorithm in Traditional Chinese M edicine
ZHANG Xin,ZHU M ing-feng,DU Jian-qiang,HAO Zhu-lin,WANG Guo-long
School of Computer Science,JiangxiUniversity of Traditional Chinese Medicine,Nanchang 330004,China.
With the arrival of the era of big data and the rise of data mining techniques,traditional Chinese medicine data mining gradually becomes popular.This articlemade a system summary of the datamining,putemphasis on the detailed trend analysis of the research progress of traditional Chinesemedicine datamining,and sorted the relevantmethods,which provided an important reference value of literature for the relevant research workers on traditional Chinesemedicine datamining.
Datamining;Traditional Chinese Medicine;Decision tree;Random forest;Deep learning
R2-03
A
2014-03-11)編輯:萬崇毅
江西省教育廳青年基金項目(GJJ12539);江西省衛生廳中醫藥科研計劃項目(2013A060);江西中醫藥大學重點學科青年教師培養資助計劃項目(2013jzzdxk019)。
**通信作者:杜建強。E-mail:jianqiang_du@163.com。