張振,田雪飛,郜文輝,何鳳姣,鄧天好,宋曉燕,鄭飄,黃振
基于決策樹及貝葉斯網絡建立原發性肝癌肝郁脾虛證診斷模型研究
張振1,田雪飛1,郜文輝1,何鳳姣2,鄧天好2,宋曉燕3,鄭飄1,黃振1
1.湖南中醫藥大學中西醫結合學院,湖南 長沙 410208;2.湖南省中醫藥研究院附屬醫院腫瘤診療中心,湖南 長沙 410008;3.湖南大學數學與計量經濟學院,湖南 長沙 410208
建立原發性肝癌肝郁脾虛證診斷模型,形成原發性肝癌肝郁脾虛證判別模式,挖掘其核心診斷屬性,為進一步研究原發性肝癌標準化提供依據。搜集2014年6月1日-2019年6月1日湖南省中醫藥研究院附屬醫院腫瘤診療中心原發性肝癌住院患者的病癥信息,進行規范,經2名主任醫師進行二次辨證,建立原發性肝癌中醫病癥-證候數據庫,運用CHAID(卡方自動交互檢測)、QUEST(快速、無偏、高效統計樹)、CART(分類回歸樹)、C5.0決策樹算法及貝葉斯網絡建立診斷模型。共納入患者741例,包括肝郁脾虛、肝膽濕熱、脾虛濕困、肝腎陰虛、肝熱血瘀5個證型。測試樣本驗證結果顯示,CHAID、QUEST、CART、C5.0決策樹算法判別正確率分別為91.26%、90.86%、91.47%、92.67%,C5.0正確率略高于其他3種;貝葉斯網絡分析顯示,各病癥存在一定關聯,如肝區疼痛-脘腹脹滿,脘腹脹滿-納呆厭食,倦怠乏力-納呆厭食,肝區疼痛-納呆厭食,脈細-脈弦細,脈弦-脈弦細,夜寐欠安-苔少,舌淡-舌胖,苔白-苔少,口干-口苦,雙下肢浮腫-舌淡,苔白-脘腹脹滿;在貢獻度方面,排名前8位病癥分別為脈弦細、納呆厭食、口干、舌淡、倦怠乏力、肝區疼痛、口苦、脘腹脹滿,與決策樹算法結果基本吻合。決策樹及貝葉斯網絡均可從繁雜、無序的數據庫中挖掘出原發性肝癌肝郁脾虛證核心診斷屬性;脈弦細在肝郁脾虛證診斷中起決定性作用,結合肝區疼痛、舌淡、倦怠乏力、口干、口苦、納呆厭食等病癥信息,可形成比較符合肝郁脾虛證的判別模式,為原發性肝癌肝郁脾虛證提供較客觀的診斷依據。
原發性肝癌;肝郁脾虛證;決策樹;貝葉斯網絡
2018年Globalcan統計顯示,原發性肝癌發病率在惡性腫瘤中居第6位,死亡率居第4位,我國肝癌死亡人數占全球一半以上[1]。研究表明,中醫藥治療原發性肝癌在穩定瘤體、抗復發轉移及提高患者生存質量等方面發揮著積極作用[2-3]。肝郁脾虛證是原發性肝癌常見的證候之一[4],臨床中缺乏較為客觀、統一的辨證標準。機器學習為中醫藥辨證規律的研究提供了新的思路和方法,包括決策樹、神經網絡、支持向量機、貝葉斯網絡等[5]。決策樹和貝葉斯網絡目前已被應用于證候特征規范化、中醫辨證模型及中醫藥療效判定等多個方面[6-8]。本研究通過回顧性研究湖南省中醫藥研究院附屬醫院腫瘤診療中心原發性肝癌住院患者資料,利用決策樹及貝葉斯網絡建立原發性肝癌肝郁脾虛證診斷模型,形成原發性肝癌肝郁脾虛證判別模式,挖掘核心診斷屬性,為進一步研究原發性肝癌標準化提供依據。
搜集湖南省中醫藥研究院附屬醫院腫瘤診療中心2014年6月1日-2019年6月1日住院原發性肝癌患者823例,收集病例資料。參照《實用中醫辨證手冊》[9]、《中醫診斷學實訓教材》[10]對資料進行規范,如右上腹疼痛、右上腹脹痛規范為肝區疼痛,全身乏力、神疲倦怠、全身倦怠、乏力倦怠規范為倦怠乏力,飲食欠佳、默默不欲飲食、納差、食欲不振規范為納呆厭食。
參照《原發性肝癌診療規范(2011年版)》[11]制定原發性肝癌西醫診斷標準。
參照《中醫病證診斷療效標準》[12]制定肝郁脾虛證辨證標準:脅肋脹痛,胸悶腹脹,食欲減退,大便不實或溏,精神不振,舌淡苔白,脈細弦。由2名主任醫師且具有5年以上臨床經驗的腫瘤科專家對規范后的資料進行二次辨證,剔除2次辨證不同的病例。
①臨床診斷或病理診斷確診為原發性肝癌;②年齡≥18歲;③Child-Pugh分級為A、B級[11]。
①繼發性肝癌者;②病歷資料不全者;③伴嚴重消化道出血、肝性腦病者。
對所搜集的病癥資料進行賦值,“是”賦值為“1”,“否”賦值為“0”,建立原發性肝癌中醫病癥-證候數據庫。采用IBM SPSS Modeler 20.0,對數據庫資料進行主成分分析,篩選出貢獻率>90%的病癥。
采用IBM SPSS Modeler 20.0軟件中的CHAID、QUEST、CART、C5.0決策樹算法進行識別規律挖掘;建立貝葉斯網絡,計算各病癥的條件概率。
經專家二次辨證,排除82例,最終納入741例,共出現肝郁脾虛、肝膽濕熱、脾虛濕困、肝腎陰虛、肝熱血瘀5個證型,其中肝郁脾虛證患者306例,非肝郁脾虛證患者435例。肝郁脾虛證患者共出現28個病癥信息,結果見表1。
對原發性肝癌中醫病癥-證候數據庫進行主成成分分析,排名前16位(頻率>10%)的病癥要素貢獻率超過了全部指標的90%,表明部分病癥要素冗余性較大,故將排名前16位的病癥要素作為本研究目標變量。
應用CHAID決策樹算法對16個因素進行分析,訓練樣本設置為80%,測試樣本設置為20%,決策樹深度為4,共篩選出脈弦細、肝區疼痛、口干、倦怠乏力、舌淡5個屬性,共12個節點,7個終結點。形成7條肝郁脾虛證的判別路線(見圖1)。本研究中,分類正確的樣本數占樣本總數比例為正確率[13],測試樣本驗證結果顯示其判別正確率為91.26%。
表1 306例原發性肝癌肝郁脾虛證患者病癥分布
病癥頻次頻率/% 病癥頻次頻率/% 肝區疼痛25884.31 脈細4113.40 脈弦細20968.30 雙下肢浮腫3912.75 脘腹脹滿17356.54 厭油24 7.84 納呆厭食17356.54 小便色黃21 6.86 舌淡16955.23 腹部膨隆20 6.54 倦怠乏力16754.58 舌質紫黯18 5.88 苔白15550.56 皮膚色黃18 5.88 舌胖13544.12 小便量少16 5.23 苔少13343.46 惡心15 4.90 便溏10333.66 頭暈15 4.90 口苦 9932.35 苔膩14 4.57 夜寐欠安 9230.07 胸悶氣促10 3.27 口干 8929.08 嘔吐 9 2.94 脈弦 5818.95 胃脘部疼痛 3 0.98

圖1 原發性肝癌肝郁脾虛證CHAID算法決策樹模型
應用QUEST決策樹算法對16個因素進行分析,訓練樣本設置為80%,測試樣本設置為20%,決策樹深度為4,共篩選出脈弦細、肝區疼痛、舌淡、納呆厭食、夜寐欠安5個屬性,共12個節點,7個終結點。形成7條肝郁脾虛證的判別路線(見圖2)。測試樣本驗證結果顯示其判別正確率為90.86%。
應用CART決策樹算法對16個因素進行分析,訓練樣本設置為80%,測試樣本設置為20%,決策樹深度為4,共篩選出脈弦細、肝區疼痛、舌淡、納呆厭食、苔白、口苦6個屬性,共14個節點,8個終結點。形成8條肝郁脾虛證的判別路線(見圖3)。測試樣本驗證結果顯示其判別正確率為91.47%。

圖2 原發性肝癌肝郁脾虛證QUEST算法決策樹模型

圖3 原發性肝癌肝郁脾虛證CART算法決策樹模型
應用C5.0決策樹算法對16個因素進行決策樹分析,篩選出脈弦細、舌淡,納呆厭食、脘腹脹滿4個屬性。該模型深度為5,共8個節點,5個終結點。形成5條肝郁脾虛證的判別路線(見圖4)。測試樣本驗證結果顯示其判別正確率為92.67%。

圖4 原發性肝癌肝郁脾虛證C5.0算法決策樹模型
以肝郁脾虛證為目標變量,16個病癥為輸入變量,得到有向無環的貝葉斯網絡結構圖形(見圖5)。該圖直觀反映出各病癥間的關聯,如肝區疼痛-脘腹脹滿、脘腹脹滿-納呆厭食、倦怠乏力-納呆厭食、肝區疼痛-納呆厭食、脈細-脈弦細、脈弦-脈弦細、夜寐欠安-苔少、舌淡-舌胖、苔白-苔少、口干-口苦、雙下肢浮腫-舌淡、苔白-脘腹脹滿等。

圖5 原發性肝癌肝郁脾虛證病癥間貝葉斯網絡圖
貝葉斯公式描述的是先驗概率和后驗概率間的關系。M代表某一假設,在本研究中為肝郁脾虛證。N為一組證據,本研究中Nn(n=1,2,...,16)代表篩選出的16種病癥因素。貝葉斯公式為:

式中,P(M)表示先驗概率,P(Nn|M)表示似然函數,P(Nn)表示邊際分布。根據公式可以計算出在每個病癥因素Nn條件下M的后驗概率P(M|Nn),即條件概率[13]。
本研究以篩選出的16種病癥為條件,肝郁脾虛證為目標,80%訓練樣本,20%為測試樣本,得到各病癥的條件概率(見表2)。條件概率代表病癥對肝郁脾虛證的貢獻度,排名前8位的病癥分別為脈弦細、納呆厭食、口干、舌淡、倦怠乏力、肝區疼痛、口苦、脘腹脹滿。測試樣本驗證正確率為89.32%。
表2 原發性肝癌肝郁脾虛證各病癥條件概率
病癥條件概率 病癥條件概率 脈弦細0.85 舌胖0.42 納呆厭食0.70 苔少0.29 口干0.71 苔白0.26 舌淡0.66 脈弦0.23 倦怠乏力0.65 便溏0.21 肝區疼痛0.60 夜寐欠安0.19 口苦0.55 脈細0.16 脘腹脹滿0.44 雙下肢浮腫0.14
肝癌屬中醫學“積聚”“肝積”“鼓脹”“脅痛”等范疇。有學者認為,肝脾同居中焦,生理上相互聯系,病理上相互影響,脾胃運化功能有賴于肝臟疏泄功能的正常發揮[14]。肝為剛臟,喜條達而惡抑郁。若肝氣郁結,則脾胃運化功能失常。《金匱要略》有“見肝之病,知肝傳脾,當先實脾”,肝郁犯脾,常引起脾氣升降功能失常。故原發性肝癌肝郁脾虛證患者臨床常見肝區疼痛、脘腹脹滿、納呆厭食、倦怠乏力、便溏、口干、口苦、舌淡苔白、脈弦細等。
決策樹算法是機器學習中用于分類和預測的模型之一,是對無秩序、無規則的數據進行分類的過程,并將所有可能發生的結局的概率分布用樹形圖表達,包括CHAID、QUEST、CART及C5.0決策樹算法[15]。其中CHAID及CART主要是根據自變量對因變量進行分類檢測并將分類指標帶入函數中,根據所得函數值判斷指標應歸入的類別。QUEST是在CHAID算法的基礎上進行改進的二次元算法,經過方差分析、卡方檢驗、聚類分析和判別分析等生成精確的二叉樹模型。C5.0是基于ID3及C4.5發展起來的一種決策樹算法。
貝葉斯網絡借助有向無環圖來刻畫屬性之間的依賴關系,并使用條件概率表描述屬性間的聯合關系[16]。它能為不確定學習和推斷提供基本框架并有效表達屬性間的條件獨立性。中醫辨證是利用不同病癥集合推斷“證”的過程,不同病癥間可能存在一定關聯。貝葉斯網絡能通過對數據的處理實現病癥之間關聯,并以條件概率形式表示各病癥對證候的貢獻度。
我們運用決策樹算法挖掘原發性肝癌中醫病癥-證候數據庫所包含的信息,我們共篩選出原發性肝癌肝郁脾虛證病癥中包括脈弦細、肝區疼痛、舌淡、倦怠乏力、口干、口苦、納呆厭食、夜寐欠安、脘腹脹滿在內的9個中醫屬性。用訓練樣本進行驗證,4種決策樹算法準確率均超過90%,其中C5.0決策樹算法的準確率最高(92.67%),略高于其他3種算法;貝葉斯網絡結果提示,在肝郁脾虛證模型中,病癥間存在一定相互關系,如肝區疼痛-脘腹脹滿、脘腹脹滿-納呆厭食、倦怠乏力-納呆厭食、肝區疼痛-納呆厭食、脈細-脈弦細、脈弦-脈弦細、夜寐欠安-苔少、舌淡-舌胖、苔白-苔少、口干-口苦、雙下肢浮腫-舌淡、苔白-脘腹脹滿等。在貢獻度方面,排名前8位的病癥分別為脈弦細、納呆厭食、口干、舌淡、倦怠乏力、肝區疼痛、口苦、脘腹脹滿,與決策樹算法結果基本吻合。
本研究結果提示,決策樹及貝葉斯網絡均能從繁雜、無序的數據庫中挖掘出肝癌肝郁脾虛證的核心診斷屬性,脈弦細在肝郁脾虛證診斷中起決定性作用,同時,結合肝區疼痛、舌淡、倦怠乏力、脘腹脹滿、口干、口苦、納呆厭食等信息,可形成比較符合肝郁脾虛證的判別模式,為原發性肝癌肝郁脾虛證提供較為客觀化的診斷依據。綜上所述,本研究采用決策樹及貝葉斯網絡建立原發性肝癌肝郁脾虛證模型,優勢互補,更能達到預期目的。
[1] SIEGEL R L, MILLER K D, JEMAL A. Cancer statistics, 2018[J]. CA A Cancer Journal for Clinicians,2018,60(5):277-300.
[2] 張振,郜文輝,王亞琪,等.益氣化瘀解毒方加減聯合索拉非尼治療原發性肝癌療效研究[J].陜西中醫,2019,40(3):322-324.
[3] 謝璐帆,蔡艷陽,楊京京,等.吳良村運用滋水涵木法治療原發性肝癌經驗擷菁[J].中國中醫藥信息雜志,2018,25(3):121-122.
[4] 侯鳳剛,凌昌全.原發性肝癌中醫辨證分型文獻中專家觀點統計分析[J].云南中醫學院學報,2003,26(2):6-7,12.
[5] MICHIE D, SPIEGELHALTER D J, TAYLOR C C, et al. Machine learning, neural and statistical classification[M]. New York:Ellis Horwood,1995.
[6] 田艷鵬,丁學義,朱羽碩,等.基于決策樹和神經網絡的高血壓病痰濕壅盛證診斷模型研究[J].中華中醫藥雜志,2018,33(8):3579-3584.
[7] 楊洋,黃啟云,劉追星.基于貝葉斯網絡之胃癌的辨證標準研究[J].陜西中醫藥大學學報,2019,42(2):119-126.
[8] 朱曉玥,沈俊杰,桑靈麗,等.藥物治療骨關節炎的療效比較:網絡Meta分析[J].中華疾病控制雜志,2018,22(4):396-401.
[9] 朱文鋒.實用中醫辨證手冊[M].長沙:湖南科學技術出版社,2009:156-183.
[10] 陸小左.中醫診斷學實訓教材[M].北京:中國中醫藥出版社,2010:174-203.
[11] 中華人民共和國衛生部.原發性肝癌診療規范(2011年版)[J].臨床肝膽病雜志,2011,27(11):1141-1159.
[12] 國家中醫藥管理局.中醫病證診斷療效標準[M].南京:南京大學出版社,1994:87-109.
[13] HARRINGTON P.機器學習實戰:Machine learning in action[M].李銳,李鵬,曲亞東,譯.北京:人民郵電出版社,2013:103-105,174-203.
[14] 張振,郜文輝,曾普華,等.曾普華從癌毒致虛論治原發性肝癌經驗[J].湖南中醫雜志,2019,35(2):18-21.
[15] 唐華松,姚耀文.數據挖掘中決策樹算法的探討[J].計算機應用研究,2001,18(8):18-19.
[16] FRIEDMAN N, GEIGER D, GOLDSZMIDT M. Bayesian network classifiers[J]. Machine Learning,1997,29(2/3):131-163.
Study on Diagnosis Model of Liver Stagnation and Spleen Deficiency Syndrome of Primary Liver Cancer Based on Decision Tree and Bayesian Network
ZHANG Zhen1, TIAN Xuefei1, GAO Wenhui1, HE Fengjiao2, DENG Tianhao2,SONG Xiaoyan3, ZHENG Piao1, HUANG Zhen1
To establish a diagnosis model of liver stagnation and spleen deficiency syndrome of primary liver cancer; To form an identification mode for liver stagnation and spleen deficiency syndrome of primary liver cancer; To mine its core diagnostic attributes; To provide a basis for further research on the standardization of primary liver cancer.The disease information of inpatients diagnosed with primary liver cancer in Tumor Diagnosis and Ttreatment Center of Affiliated Hospital of Hunan Institute of Traditional Chinese Medicine from 1st June 2014 to 1st June 2019 was collected, and the information was standardized, unified, and received the second syndrome differentiation by 2 chief physicians. A database of TCM syndromes-symptoms of primary liver cancer was established. A diagnosis model was established by using decision tree of CHAID, QUEST, CART, C5.0 algorithm and Bayesian network.Totally 741 patients were involved, including 5 syndromes of liver depression and spleen deficiency, liver and gallbladder dampness-heat, spleen deficiency and dampness, liver and kidney yin deficiency, liver heat and blood stasis. The results of test sample verification showed that the correct rates of CHAID, QUEST, CART, C5.0 decision tree algorithm were 91.26%, 90.86%, 91.47%, and 92.67%, respectively, and the correct rate of C5.0 was slightly higher than that of the other three types. The results of Bayesian network analysis showed that there was a certain correlation between the symptoms, such as liver pain-epigastric distension, epigastric distension- anorexia, burnout and fatigue-anorexia, liver pain-anorexia, pulse thin-pulse string thin, pulse string-pulse string thin, sleeplessness-less moss, tongue light-tongue fat, moss white-moss less, mouth dry-mouth bitter, both lower extremities edema-tongue light, moss white-epigastric distension, etc. In terms of contribution, the top 8 disease symptoms were pulse string thin, anorexia, mouth dry, tongue light, fatigue, liver pain, mouth bitter, and epigastric distension, and the results basically agreed with the results of decision tree.Both decision tree algorithm and Bayesian network can mine the core diagnostic attributes of liver depression and spleen deficiency syndrome from the complicated and disordered database of primary liver cancer. Pulse string thin plays a decisive role in the diagnosis of liver depression and spleen deficiency syndrome. At the same time, combined with the symptoms of liver pain, tongue light, fatigue, mouth dry, mouth bitter, anorexia and so on, the identification mode of liver depression and spleen deficiency syndrome can be formed, which can provide more objective diagnostic basis for liver depression and spleen deficiency syndrome of primary liver cancer.
primary liver cancer; liver depression and spleen deficiency syndrome; decision tree; Bayesian network

R273.57;R2-05
A
1005-5304(2020)09-0115-06
10.3969/j.issn.1005-5304.201907482
國家自然科學基金(81603603、81473617);湖南省教育廳開放平臺基金(16K066);湖南省科技計劃(2017SK50310)
田雪飛,E-mail:003640@hnucm.edu.cn
(2019-07-31)
(2019-09-03;編輯:季巍巍)