李治 殷云霞 楊艷
摘要:以WEKA數據挖掘平臺為挖掘工具,對收集到的AECOPD病案數據展開辨證分型相關研究,建立分型模型,為AECOPD在中醫證候學上的研究提供有效的參考依據,也表明決策樹分類方法在中醫診斷領域中的應用具有重要價值。
關鍵詞:WEKA;數據挖掘;AECOPD;辨證分型
中圖分類號:TP311 文獻標識碼:A 文章編號:1007-9416(2018)06-0086-02
1 引言
在中醫學領域運用數據挖掘技術,可以加速了解各種疾病與癥狀之間的相互關系、各種疾病的發生發展規律、考量各類治療方案的診療效果。從數據挖掘角度來看,中醫的辨證分型過程可以看成是一個分類問題[1]。本課題以慢性阻塞性肺疾病急性加重期(AECOPD)的中醫辨證臨床病案數據為研究對象,對分類方法在該疾病中醫診療中的數據挖掘應用展開分析研究。
2 算法研究
分類和預測是數據挖掘中非常重要的方法,具有描述數據、構建模型并預測未知數據發展趨勢的功能。數據挖掘中分類的方法有很多,如決策樹、神經網絡、貝葉斯網絡等[2]。
決策樹算法屬于貪心算法的一種,采用自上而下、分而治之的遞歸方式來構造一棵決策樹。它遞歸地將數據拆分成若干子集,決策樹一般由決策節點、葉子、分支三部分組成。位于最上端的節點稱為根節點,它是決策節點的開始,樹中的每個節點是根據輸入屬性來標記的,代表一個問題或決策,每個分支形成一個新的決策節點或葉子,代表一種可能的分類結果,在對決策樹進行遍歷的過程中,不同的節點上會產生不同的分支,每一條從根節點到葉節點的路徑就是一條規則,利用若干個變量判斷所屬的類別,這就是利用決策樹來進行分類的過程[3]。表1是部分血瘀證診斷情況的數據,包括3個條件屬性(舌下靜脈曲張,脈澀,舌質青紫)和一個分類屬性(是否患血瘀證)。圖1是一棵根據血瘀證中醫診斷情況數據建立的決策樹模型。內部所有節點用橢圓形表示,樹葉節點用圓角矩形表示。
通常,一棵決策樹從根到葉節點的每一條路徑都對應著一組屬性測試的合取(Conjunction)規則,整棵決策樹就對應著這些合取規則的析取(Disjunction)表達式。對于構建的每一棵決策樹,都可以提取出IF-THEN形式的分類表達規則。根據圖1的血瘀證決策樹分類模型,提取出的分類規則,舉例如下:
IF舌下靜脈曲張=“無”AND脈澀=“無”,THEN診斷結論=“非血瘀證”。
IF舌下靜脈曲張=“輕”AND舌質青紫=“中”,THEN診斷結論=“血瘀證”。
……
由此可以更加直觀地看到,決策樹的內部節點(非葉節點)是屬性或屬性的集合,一棵決策樹自上而下在內部節點進行屬性的比較,并由屬性判定從該節點向下的分支,最終在葉節點得到結論。
3 應用實例
本課題以WEKA數據挖掘平臺為挖掘工具,采用決策樹相關算法對收集到的400余例AECOPD病案數據展開辨證分型相關研究。WEKA(Waika to Environment for Knowledge Analysis)是由新西蘭懷卡托大學開發的開源數據挖掘平臺。WEKA是由JAVA語言實現的,可以運行在目前所有的操作系統中。
作為一款開放的數據挖掘工作平臺,數據挖掘用戶可使用Weka平臺執行數據預處理,分類,回歸,聚類,關聯分析等任務。同時,它具有很強的兼容性和擴展性,用戶可以在WEKA系統中封裝個性化的算法,實現數據處理及算法性能評估的目的[4]。
3.1 中醫數據的預處理
中醫臨床診斷中的癥狀、辨證都是用文字去表述,缺乏統一的標識,同時,由于受到中醫望、聞、問、切4種診斷方法的限制,醫生因其個人表述習慣的不同而使得病案記錄常存在對于同一癥狀用不同術語表述的情況。針對這些特點,課題進行病案數據預處理的相關流程主要為:
在中醫專家的指導下,對出現頻率極低、不影響分型的癥狀屬性進行了消減,同一部位的癥狀屬性進行了合并,此外,根據出現頻率的高低,對病案數據中的辨證證型進行了篩選,選出了出現頻率較高的證型。數據規約后,部分數據如表2所示。
通過對收集醫案的所有癥狀歸類、統計、預處理,對照中醫名詞委頒布的《中醫藥學基本名詞術語》對癥狀的名稱的規定進行規范,得到了用于研究本課題的基本癥狀統一名稱。此外,為滿足數據挖掘進行數字化運算和分析的要求,還需要對各癥狀、癥狀表現及證型按照統一的字符或符號進行標準化編碼,如Nadai表示納呆,F表示食欲正常,T表示食欲不振,Tanre表示痰熱郁肺,Tanyu表示痰瘀阻肺,Tanzhu表示痰濁阻肺等。
3.2 實驗過程及結果
利用WEKA平臺將數據首先進行預處理,將數據轉化為.arff文件。由于WEKA平臺要求訓練數據和測試數據具有完全一致的屬性格式,包括屬性列出的順序,所以利用UltraEdit軟件將訓練樣本和測試樣本進行比對,以保證數據屬性格式完全一致。這些準備工作完成之后,將數據載入WEKA平臺(圖3),再選取相關算法,采用10折分層交叉驗證法作為驗證方法,運行平臺,建立模型(圖4)。
4 結語
課題以收集到的AECOPD中醫病案數據展開基于WEKA平臺的辨證分型研究。首先對數據中癥狀和辨證兩維屬性進行了數據預處理,然后利用新西蘭懷卡托大學開發的WEKA數據挖掘平臺建立了分型模型,為AECOPD在中醫證候學上的研究提供了有效的參考依據,同時也表明決策樹分類方法在中醫診斷領域中的應用具有重要價值。
參考文獻
[1]陳克龍,樊永平.數據挖掘中的分類算法及其在中醫證候學中的應用[J].中華中醫藥雜志,2011,26(3):469-473.
[2]牟冬梅,馮超,王萍.數據挖掘方法在醫學領域的應用及SWOT分析[J].醫學信息學雜志,2015,36(1):53-57.
[3]張棪,曹健.面向大數據分析的決策樹算法[J].計算機科學,2016,43(6A):374-378.
[4]程斐斐,王子牛,侯立鐸.決策樹算法在Weka平臺上的數據挖掘應用[J].微型電腦應用,2015,31(06):63-65.
Abstract:The Syndrome differentiation and classification for the cases of Acute Exacerbation of Chronic Obstructive Pulmonary Disease(AECOPD) is based on the WEKA data mining platform,building the model of TCM syndrome differentiation.Some meaningful reference is Provided to the symptomatology studies of TCM,and indicating the Importance of Decision tree classification in Diagnosis of TCM.
Key words:WEKA;data mining;AECOPD;syndrome differentiation and classification