馬夢羽 沈璐 文天才 夏勇
摘要:經過中華民族幾千年的傳承和發展,中醫學形成了特有的理論體系,其療效受到廣泛認可,但因中醫理論更關注有關疾病的癥、治、效之間的關聯關系,而不是現代自然科學所探究的因果關系,導致其科學性屢遭質疑。近年來,基于真實世界的臨床研究模式和“大數據”理念日益受到重視,因此,越來越多的研究人員開始將研究重點放在疾病干預措施與結局指標的相關關系上,這一轉變以及計算機數據挖掘與分析技術的進步,無疑給中醫理論與實踐的進一步發展帶來重大契機。本文歸納總結了近年來中醫診療中用到的數據挖掘技術,如聚類分析、決策樹、貝葉斯網絡、神經網絡和多示例學習等,展示了如何運用這些方法從大量中醫病癥數據中揭示中醫診療規律,發現隱藏在數據中的知識,以數據為支撐而顯示中醫學的有效性。
關鍵字:中醫診療;數據挖掘;聚類分析;決策樹;多示例學習;神經網絡;述評
DOI:10.3969/j.issn.1005-5304.2016.07.037
中圖分類號:R2-05 文獻標識碼:A 文章編號:1005-5304(2016)07-0132-05
Application of Data Mining Technology for Data Analysis of TCM Diagnosis and Treatment MA Meng-yu1, SHEN Lu2, WEN Tian-cai1,3, XIA Yong1 (1. School of Computer Science, Northwestern Polytechnical University, Xian 710072, China; 2. Shaanxi Provincial Hospital of Traditional Chinese Medicine, Xian 710003, China; 3. China Academy of Chinese Medical Sciences, Beijing 100700, China)
Abstract: Through several thousand years inheritance and development by Chinese people, traditional Chinese medicine (TCM) has formed its unique theoretic system, whose efficacy has been widely accepted. However, because TCM theory focuses on the relationships among syndromes, treatment and efficacy, instead of the cause-and-effect relationship explored by modern natural science, the scientificity of TCM has always been questioned. In recent years, because virtual-world clinical research mode and the concept of “big data” were emphasized, increasing researchers began to put their research emphasis on the correlativity between intervening measures of diseases and outcome indicators. This change and the advancement of computer data mining and analysis technology, bring great opportunities for the further development of TCM theory and practice. This article concluded data mining technology used in TCM diagnosis and treatment in recent years, such as clustering analysis, decision tree, Bayesian network, neural network and multi-instance learning, which showed how to apply these methods to reveal rules of TCM diagnosis and treatment from a large number of TCM syndrome data, find knowledge hidden in data, and show TCM effectiveness supported by data.
Key words: traditional Chinese medicine diagnosis and treatment; data mining; cluster analysis; decision tree; multi-instance learning; neural network; review
中醫學是以中醫藥理論與實踐經驗為主體,研究人類生命活動中健康與疾病轉化規律及其預防、診斷、治療、康復和保健的綜合性科學[1]。傳統的中醫辨證診治過程主要依靠醫生的望、聞、問、切等主觀手段來獲取疾病資料,以取象比類的方法對病因病機進行認識,依據中藥的性味歸經并進行配伍來達到治
通訊作者:夏勇,E-mail:yxia@nwpu.edu.cn
療疾病的目的。由此可以看出,傳統中醫更關注有關疾病的癥、治、效之間關聯關系,而不是現代生物醫學所討論的因果關系。因此,中醫研究的范式與現代自然科學并不相同,由此導致中醫辨證論治的科學性屢遭質疑。
然而,盡管現代生物醫學取得巨大的成功,但因人體是一套復雜巨系統,即使運用現代生物醫學也無法完全解釋疾病發生發展及診斷治療的全過程。近年來發展起來的基于真實世界的臨床研究模式和“大數據”理念,使研究者不需要再去刻意尋求疾病發生發展全過程的原理,而是將重點放在疾病干預措施與結局指標的相關關系研究上,這無疑給中醫藥發展帶來重大契機[2]。而且,隨著各種新興觸感器,如舌診議、脈診儀、可穿戴設備等出現和應用,以及醫院信息系統的普及,極大豐富了中醫數據。從數據入手,運用智能計算機技術,以“大數據”的思想分析挖掘中醫數據進行中醫臨床研究已成為必然趨勢。
現代中醫醫院的診療數據具有明顯的“全數據”特點,它不僅包括傳統中醫的望、聞、問、切信息,還包括各類理化生物學指標,包括本質、現象、穩定的、不穩定的,形成全面的描述[3]。但與此同時,中醫病例數據可能混雜有不規范描述、缺少定量的癥狀分析,往往以癥狀程度的輕、中、重來形容,造成數據清洗困難,具有系統性、整體性、復雜性、不確定性等特點,難以適用于傳統的數據分析方法。數據挖掘通過統計分析、信息檢索、機器學習和模式識別等諸多方法,尋找大數據下的隱藏知識和規律,現已廣泛用于處理醫學數據研究。常見的數據挖掘方法包括決策樹、貝葉斯網絡、神經網絡、聚類、多示例學習和多標記學習等。筆者現對上述數據挖掘技術在中醫診療數據分析中的應用情況總結如下。
1 聚類分析
聚類分析(cluster analysis),是在沒有先驗知識的情況下,對無類別標記的數據資料進行分類,根據物以類聚的樸素道理,認為同類的樣本之間距離小,不同類的樣本之間距離大,分類后使類間的相似性最小,而盡可能增大類內的相似性。聚類分析常用于分析中醫診療中癥狀組合規律、用藥規律等,現已表明聚類分析在中醫診療領域具有一定推動作用。
有研究收集國家級名老中醫治療腫瘤處方和肝病處方,采用關聯規則Apriori算法和復雜系統熵聚類方法計算得到處方中各單味藥物頻次、藥物組合頻次、藥物之間的關聯規則和核心組合等[4-5]。張氏[6]對350例肺癌患者癥狀、體征和舌脈象等臨床資料進行聚類分析,將肺癌患者中醫證候分為痰濁阻肺證、氣虛證、肝郁化火證和瘀血阻絡證4類,結果解釋比例為71.58%,并初步確定了各證候的診斷要點。楊氏等[7]收集365例肝癌患者62項四診信息并量化計分,運用聚類分析歸納出肝癌的中醫辨證分型為肝郁證、脾虛證、濕熱證、血瘀證及陰虛證,其中以脾虛證多見,肝郁證、陰虛證、血瘀證、濕熱證次之,由此認為聚類分析結果有利于中醫證型規范化。盧氏等[8]通過制定“中醫證候臨床觀察表”,對106例兒童中間型β地中海貧血患者進行中醫證候調查,采用聚類分析等統計學方法得出廣州地區中間型β地中海貧血患兒中醫證候分布順序為氣血兩虛證>肝腎陰虛證>脾腎陽虛證>陰陽兩虛證。
當然,中醫癥候錯綜復雜,使用聚類分析可能存在一些問題。首先,在聚類分析中,每個樣本只能被聚到某一類,而現實往往有許多患者屬于錯雜體質,應屬于多種證候。其次,聚類分析需要研究者憑借經驗及相關知識判定分為幾類,而不能根據數據自身結構特點自主的判定分類數量。所以,研究者需要多次嘗試、反復分析如何定義聚類的數量及樣本間的距離才是最優的。
2 決策樹
決策樹(decision tree)是一個樹形結構的預測模型,樹中每個節點表示某個樣本屬性,每個分支則代表對該屬性的判斷,而每個葉子結點則對應最終的類別。決策樹的學習速度很快,且不需要研究者學習與數據相關的背景知識,產生的分類規則簡單直觀,分類準確率較高,是數據挖掘中常用的分類方法。最早的決策樹算法有ID3,后又發展形成C4.5、C5.0和CART算法,常用于歸納名老中醫辨證過程、論證中醫的診療準則。
查氏等[9]收集397例已確診活動期類風濕性關節炎患者癥狀及檢查結果,構造決策樹實現了證病信息和療效的相關關系探索,得出可從證候信息的角度獲得藥物治療的最佳適應證,從而實現個體化治療。肖氏[10]收集了一位名老中醫的慢性胃炎臨床診斷醫案,構造決策樹反映其辨證規律,并用“IF AND THEN”語句表示,如:IF喜熱喜暖=“正常”AND舌苔=“舌苔薄白”AND脈象=“脈細弦”AND性情=“性情急躁”,THEN分類證型=“肝胃不和證”,說明決策樹直觀有效。史氏等[11]收集了411例不穩定性心絞痛病例,采用卡方自動交互檢測決策樹方法從89個臨床常規檢測指標中提取痰瘀互阻證的識別規律。結果顯示,該決策樹模型靈敏度為72.46%,特異度為81.29%,檢驗正確率為79.81%。說明決策樹模型直觀簡潔,便于歸納識別規律有用信息,適用于研究總結癥狀與證型的對應模式。
3 貝葉斯網絡
貝葉斯網絡(Bayesian networks)是一種概率圖模型,可用于預測,其結構為一個有向無環圖(DAG),由節點和連接這些節點有向邊構成。一般而言,節點表示隨機變量,可以是已知或未知參數;節點間的有向邊記錄了兩節點間條件概率,以此類推表示所有節點間的關系。這種概率模型結構能充分利用先驗知識,可以處理有噪聲、不完全、不精確的知識,所以被多次運用到中醫診療問題上。運用貝葉斯網絡可以揭示癥狀之間及癥狀與證型之間的關系,定量評判各癥狀對準確辨證的影響,從而歸納出該證型具有代表性的癥狀,不僅有助于確定證候診斷的標準和規范,還可作為輔助診療的參考[12]。但是,貝葉斯網絡的建造是一個復雜的任務,需要該領域專家的參與并不斷完善;其次,如果各節點之間關系復雜,那么條件概率表就會變得難以計算且不便使用。
吳氏等[13]收集了115例名老中醫的冠心病醫案,運用貝葉斯網絡提取常見癥候要素,如血瘀、痰濁、氣虛、陽虛等8個,貝葉斯網絡以條件概率形式表示出各種癥狀在中醫診療中的貢獻度,將名老中醫的辨證經驗轉化成定量表示,對中醫經驗的傳承發展有十分重大的意義。徐氏等[14]收集了835例冠心病患者信息,構造貝葉斯網絡對四診證候信息進行分類識別,其中心氣虛、心陽虛、心陰虛、血瘀、痰濁5個證型的識別率分別為69.34%、84.85%、65.12%、83.87%和65.12%。張氏等[15]對287例肝炎后肝硬化的癥狀、體征,利用樹增廣的樸素貝葉斯分類算法,構建了肝炎后肝硬化中醫證候分類模型,結果這種模型對肝炎后肝硬化的5種主要證候分類的符合率達83%。龔氏等[16]以2501例2型糖尿病的臨床數據為基礎,運用貝葉斯網絡的方法進行分析。結果發現,空腹血糖異常的患者以陰虛熱盛多見,餐后2 h血糖異常的患者以陰虛多見,糖化血紅蛋白異常的患者以陰虛熱盛多見,血脂異常者以氣虛為主,血壓異常者伴見血瘀。該結果基本符合中醫理論和臨床實際。
4 粗糙集理論
粗糙集理論(rough set)可以處理分析不精確或有噪聲的數據,適用于特征變量是離散化的數據,對不完整的知識進行推理,識別并評估數據之間的依賴關系。粗糙集理論的特點是利用已知的樣本中的信息,近似粗糙地表示不精確或不確定的信息,從而達到分類預測的效果。該理論的一大優勢在于其無需先驗信息,如隸屬度函數和變量的概率統計分布,而這些先驗知識往往比較難得到。粗糙集是一種優秀的機器學習方法,貼近中醫信息中時有混雜的噪聲及不確定描述的特點,所以利用其分析中醫數據,歸納診療規則,有望獲得成功。
陳氏等[17]收集450例老年細菌性肺炎患者在就診過程中的285項指標,采用粗糙集方法分析得到7種中老年肺炎的證候診斷標準,為療效評價指標提供了客觀依據。孫氏等[18]采用粗糙集與支持向量機(SVM)結合的方法對293例中醫肝硬化患者臨床信息建立證候決策信息表,提取出代表性癥狀輸入SVM進行分類學習,準確率約為84.4%。陳氏等[19]從古今醫案中收集與原發性高血壓相關的237例病案,運用粗糙集理論進行數據分析,獲得了原發性高血壓肝陽上亢證的專家知識。
5 人工神經網絡
人工神經網絡(artificial neural network,ANN)是模仿生物神經系統中神經元的一種數學處理方法,無需考慮各變量之間是否獨立及是否滿足正態分布等條件,而且也不像傳統統計分析那樣給出明確的方程,但它能給出結構參數。從某種意義上說,神經網絡能更有效地表述實際問題,特別是當有些問題并不需要明確的數學表達式或根本無法找到明確的數學公式表達時,神經網絡就更顯示其優越性。但因ANN采用梯度下降算法調節參數,可能陷入局部最優,所以常需多次設置不同初始值,多次嘗試迭代求得可能的最優結果會增加額外開銷。運用ANN進行中醫數據分析,尋找癥狀與證型的關系,可將癥狀作為輸入單元,證型為最終的輸出結果,建立癥狀與證型的非線性映射函數,常見的神經網絡有誤差反向傳播(BP)網絡和Hopfiled網絡等。
燕氏等[20]運用ANN實驗對脈象識別和分類,結合脈象特點選取特征值設計多種分類器。結果顯示,運用ANN實現的脈象識別,有助于深入開展脈象形成機制的研究工作。白氏等[21]運用ANN建立糖尿病腎病證候診斷模型,采用改進的共軛梯度學習算法,結果神經網絡模型預測證候的平均單證特異性為81.32%,平均單證準確率為96.25%,平均診斷準確率為92.21%。說明ANN技術是中醫證候非線性建模的可行方法。
6 多示例學習和多標記學習
在多示例學習(multi-instance learning,MIL)中,樣本由若干個具有概念標記的包(bag)組成,每個包含有若干無概念標記的示例。若一個包中至少有1個正例,則該包被標記為正(positive);若一個包中所有示例都是反例,則該包被標記為反(negative)。MIL屬于以往機器學習研究的一個盲區,被認為是一種新的學習框架。而且由于其包的定義與中醫“全數據”的概念非常相似,因此,將MIL用于中醫數據分析受到越來越廣泛的重視。
多標記學習(multi-label learning,MLL)方法中每個樣本并不只對應一個類別,而是和多個類別相關聯,所以很好地解決了分類問題的歧義性。這與真實世界中的現象十分接近,現實生活中的某一對象往往不只具有單一含義,而是可能具有多義性的。MLL技術是數據挖掘、模式識別等領域的一個新的研究熱點,為提高分類精度,特征降維成為改善MLL方法的又一研究方向。將MLL用于中醫數據處理,將會有效解決中醫病例數據中多語義的特點。
沈氏[22]將MIL和MLL方法應用在聲診中,采集臨床包括氣虛、陰虛和氣陰兩虛患者的五音作為示例,患者證型作為類別標記,使用MIL和MLL框架得到較好的分類模型。王氏[23]以慢性胃炎患者中醫問診數據為研究樣本,采用MLL方法建立分類模型,實驗結果顯示MLL方法分類準確率達到83%。邵氏等[24]運用MLL結合混合優化的特征選擇算法,用于冠心病中醫問診數據分析,建立中醫冠心病數據模型,并獲得了冠心病問診癥狀的最優特征子集。
7 多種方法結合
上述方法雖能取得良好的實驗結果,啟發了之后的研究方向,但每種方法依然存在自身的缺陷。如神經網絡中隱層的含義難以解釋,且不能從模型中提取分類規則,不便于理解,這是ANN的較大缺陷。目前,已有學者將粗糙集理論與神經網絡結合,有較好的實驗結果。秦氏等[25]利用粗糙集技術對ANN進行預處理,求取核屬性,構造粗糙ANN,并應用到中醫類風濕病分型診斷建模,計算機仿真結果證明了用粗糙集輔助設計ANN,改善了網絡的學習能力,并在實踐中取得了滿意的效果。
SVM是以結構風險最小化為原則的機器學習方法,巧妙地通過核函數將低維輸入空間的特征整向量投射到高維數據空間,使樣本在高維空間線性可分,由此求得最優分類的超平面,解決非線性分類問題。SVM不僅可以處理高維的特征向量,而且,即便在樣本數較少時也能獲得較好分類效果,這使SVM成為近年來應用十分火熱的分類方式,在處理中醫臨床數據時也被大量使用。王氏等[26]收集115例名醫診治冠心病典型醫案,運用SVM提取出8個主要證候要素并確定其定量診斷。楊氏等[27]收集1個家系虛寒證的相關基因信息,選取5例虛寒證和5例正常人差異表達基因的表達值作為分類的正負樣本,使用SVM、K近鄰分類法等方法建立二分類模型,得到較好結果。現已有研究將多種數據挖掘技術對中醫臨床數據的分析處理結果進行對比,希望尋找到更合適中醫數據特點的研究方法。如許氏等[28]采集臨床心血管疾病的病例,根據癥狀的“有”和“無”分別賦值為“1”和“0”,將癥狀作為輸入樣本,證型作為輸出類別,使用SVM和ANN進行分析,結果對心氣虛、心陽虛、心陰虛、痰濁、氣滯、血瘀等心血管疾病常見中醫證型,ANN的識別準確率較高,均在60%以上,其中心氣虛和心陽虛證分別高達92.4%、82.9%。
8 展望
基于上述分析,筆者提出以下幾點建議:
首先,在“大數據”時代,通過對大量數據的研究挖掘漸漸替代了對模型的研究,從大量的現象中尋找隱藏的規律,中醫學有望據此證明自身的有效性。然而,現如今大量的中醫數據未得到很好的應用,是因數據較為雜亂,缺失完整病例信息,并且中醫病例描述常有一詞多義或語義不清等問題。但數據挖掘技術對于數據的規范性要求較高,如何規范化中醫數據信息也成為中醫信息化、現代化的熱點問題。所以,加強計算機學科、數學學科、信息學科與中醫理論體系的交叉合作,建立普遍適用的中醫醫療大數據庫,是現在中醫實現信息化、現代化發展的當務之急。
其次,現階段數據挖掘技術在中醫診療領域的應用,往往局限于某一名老專家的行醫經驗或某一疾病的辨證施治,如何對各種數據挖掘方法的結果進行科學合理的評估也將是很有意義的一個研究方向。
最后,如何集各種數據挖掘方法之長于一體,若能找到一種或幾種最適合中醫數據特點的算法以對某一數據庫進行挖掘分析,將為中醫學的繼承發展帶來不可估量的貢獻。
參考文獻:
[1] 中醫藥學名詞審定委員會.中醫藥學名詞[M].北京:科學出版社,2005:1-4.
[2] 劉保延.真實世界的中醫臨床科研范式[J].中醫雜志,2013,54(6):451-455.
[3] 崔蒙,李海燕,雷蕾,等.“大數據”時代與中醫藥“知識密集型”數據[J].中國中醫藥圖書情報雜志,2013,37(3):1-3.
[4] 宋京美,吳嘉瑞,姜迪.基于數據挖掘的國家級名老中醫治療腫瘤用藥規律研究[J].中國中醫藥信息雜志,2015,22(6):50-53.
[5] 吳嘉瑞,宋京美,張冰,等.基于數據挖掘的國家級名老中醫治療肝病用藥規律研究[J].中國中醫藥信息雜志,2014,21(6):30-33.
[6] 張月.中晚期肺癌患者中醫證候的聚類分析研究[D].北京:北京中醫藥大學,2008.
[7] 楊素芳,林永廉.基于聚類分析的原發性肝癌介入治療前中醫證型特點研究[J].中國中醫藥信息雜志,2012,19(10):11-10.
[8] 盧焯明,錢新華.以聚類分析法研究兒童中間型β地中海貧血的中醫證候分布規律[J].中華中醫藥雜志,2012,27(3):607-611.
[9] 查青林,何羿婷,喻建平,等.基于決策樹分析方法探索類風濕性關炎證病信息與療效的相關關系[J].中國中西醫結合雜志,2006,26(10):871-873.
[10] 肖光磊.名老中醫經驗傳承中的數據挖掘技術研究[D].南京:南京理工大學,2008.
[11] 史琦,王偉,陳建新,等.基于決策樹的冠心病痰瘀互阻證識別模式研究[J].中華中醫藥雜志,2013,28(12):3523-3526.
[12] 李志更,王天芳,任婕,等.中醫科研中幾種常用數據挖掘方法淺析[J].中醫藥學報,2008,36(2):29-32,83.
[13] 吳榮,聶曉燕,王階,等.基于貝葉斯網絡的名老中醫治療冠心病辨證規律研究[J].中國中醫藥信息雜志,2010,17(5):98-99.
[14] 徐璡,許朝霞,許文杰,等.基于貝葉斯網絡原理的835例冠心病病例中醫證候分類研究[J].上海中醫藥雜志,2014,48(1):10-13.
[15] 張躍宏,劉平,張琴,等.基于粗糙集與廣義關聯度系數的貝葉斯中醫證候分類模型[J].統計與決策,2008(12):159-161.
[16] 龔燕冰,倪青,高思華,等.2型糖尿病主要理化指標與中醫證候相關性的貝葉斯網絡分析[J].中華中醫藥雜志,2010,25(1):31-33.
[17] 陳楚湘,沈建京,陳冰,等.運用粗糙集理論建立中老年肺炎中醫癥候診斷標準[C]//中國自動化學會控制理論專業委員會.第二十九屆中國控制會議論文集.上海,2010:40-42.
[18] 孫繼佳,蘇式兵,陸奕宇,等.基于粗糙集與支持向量機的中醫辨證數據挖掘方法研究[J].數理醫藥學雜志,2010,23(3):261-265.
[19] 陳素玲,付爽,高云,等.基于飛粗糙集理論的原發性高血壓肝陽上亢證辨證系統的建立[J].山東中醫藥大學學報,2010,34(3):201-203.
[20] 燕海霞,王憶勤,宮愛民,等.人工神經網絡在中醫脈象識別分類研究中的應用概況[J].世界科學技術—中醫藥現代化,2009,11(4):522- 526.
[21] 白云靜,孟慶剛,申洪波,等.基于改進的BP神經網絡的糖尿病腎病中醫證候非線性建模研究[J].北京中醫藥大學學報,2008,31(5):308- 311.
[22] 沈慶韡.數字化中醫聲診五臟五音信息提取和識別研究[D].上海:華東理工大學,2012.
[23] 王立文.基于深度學習與條件隨機場的多標記學習方法的中醫問診建模研究[D].上海:華東理工大學,2013.
[24] 邵歡,李國正,劉國萍,等.多標記中醫問診數據的癥狀選擇[J].中國科學:信息科學,2011,41(11):1372-1387.
[25] 秦中廣,毛宗源.粗糙神經網絡及其在中醫智能診斷系統中的應用[J].計算機工程與應用,2001,37(18):34-35,74.
[26] 王階,吳榮,周雪忠.基于支持向量機的名老中醫治療冠心病證候要素研究[J].北京中醫藥大學學報,2008,31(8):540-543,560.
[27] 楊麗萍,黃睿,張洛欣,等.用特征功能模塊法挖掘一個虛寒證家系的基因表達譜[J].中華中醫藥雜志,2010,25(5):683-685.
[28] 許朝霞,王憶勤,顏建軍,等.基于支持向量機和人工神經網絡的心血管疾病中醫證候分類識別研究[J].北京中醫藥大學學報,2011,34(8):539-543.
(收稿日期:2015-07-11)
(修回日期:2016-02-16;編輯:梅智勝)