楊 聰,鄭 剛,2*,齊 婧,劉 盼,徐佳萌,王艷琴,鐘 偉,胡玉樂
(1.陜西中醫藥大學,陜西 咸陽 712046;2.陜西中醫藥大學第二附屬醫院,陜西 咸陽 712000; 3.陜西中醫藥大學第二附屬醫院 心腦血管病研究所,陜西 咸陽 712000)
原發性高血壓(Essential hypertension,EH)是一種常見的心血管系統疾病,也是引起腦卒中、冠狀動脈粥樣硬化性心臟病的主要危險因素。EH中醫證候分型的客觀化研究逐漸成為當前中西醫結合臨床的一項重要內容。數據挖掘是從眾多的數據中尋找規律性,在海量的數據中提取出有效信息,適用于中醫證候研究[1]。本文基于常見數據挖掘方法,分析EH中醫證候分布規律及其相關性,為EH中醫證候診斷的信息化、客觀化與規范化研究提供借鑒,現報道如下。
聚類分析是根據變量間屬性相似度進行歸類,通過減少組內變量差異,增加組間差異,從而減少數據處理中由于主觀判斷而引起的誤差,對于中醫數據來說,選用聚類分析方法對數據結果進行分析會更加客觀、合理。王慶高等[2]對2 000例EH患者的中醫證候進行分類,收集的四診信息采用系統聚類中的指標聚類方法進行分析,通過對每類證候的判定,結果顯示EH的主要證型為痰濕壅盛、肝陽上亢、瘀血阻絡、氣血虧虛證,其中痰濕壅盛證最為多見。盧雙雙等[3]采集944例EH患者的四診信息,選用58個臨床癥狀為變量進行K-means聚類分析,其中聚類為7類癥狀分布最明顯,具體為痰濕壅盛型(21.2%)、陰陽兩虛型(17.5%)、氣虛血瘀型(15.6%)、肝火亢盛型(14.5%)、中氣不足型(13.8%)、陰虛陽亢型(8.9%)、腎陽不足型(8.6%),其中痰濕壅盛型占比最高。以上提示廣西地區EH患者證型多為痰濕壅盛證,地域性可能影響一些變量表達和證候歸納精確性,因此后期需要多中心、大樣本的流行病學調查。
因子分析是一種簡化、分析高維數據的統計方法,由英國心理學家C.E.斯皮爾曼提出[4]。因子分析法在系統綜合評價中有獨特優勢,對各因子權重有較好的客觀評價。王麗穎等[5]采集1 508例EH患者的四診信息,通過因子分析方法提取10個特征根大于1的公因子,最后將其歸納、合并得到7個證素:氣虛(15.93%)、痰(29.95%)、陽虛(10.42%)、內火(8.16%)、陽亢(10.76%)、陰虛(10.83%)、瘀血(10.35%)。其中證素痰、氣虛的出現頻率相對較高,提示臨證時應重視痰、氣虛等重要因素。陳炳為等[6]采集1 500例EH患者的臨床四診信息,收集100個中醫癥狀指標,通過因子分析模型對79個觀測變量進行分析,最終選擇最適合的5個因子對應的中醫證候:肝腎陰虛、心腎兩虛、陰虛陽亢、肝火亢盛、痰濁內蘊證型,最后指出從整體結果上看,對于有序資料的因子分析,基于多項相關的模型要更加接近真實情況。金香蘭等[7]對428例EH患者證候要素分布情況進行因子分析,得出血瘀、陰虛、熱、氣虛、血虛等26個公因子,主要證素為虛證(61.3%)、火(29. 4%)、血瘀(21. 7%)、痰(17. 6%),以上提示虛證是EH的主要證型,且夾雜火、痰、瘀等病理因素。胡元會等[8]通過因子分析131例鹽敏感性EH患者的中醫證候類型,歸納出貢獻值最高的5個公因子,分析其所代表的病位臟腑、證候要素,結果各臟腑分布的高低順序為脾腎(42.75%)、脾(21.37%)、肝脾(18.32%)、腎(17.56%);證候要素分布的高低順序為陽虛(60.31%)、氣虛(42.75%)、氣滯(39.69%)、痰濕(21.37%)、熱(21.37%)、氣逆(21.37%)、水飲(20.61%)、陰虛(18.32%)、精虧(17.56%)、氣陷(17.56%)。以上證素分布情況為EH中醫證型的客觀化研究提供了有效參考。
決策樹是一種比較強大的分類方法,自上而下逐步對數據進行分類,其基本方法是找出分類效果最好的屬性對數據庫進行劃分,直到所有分類包含同一類型的所有數據,能夠最直觀地展示分類模型[9-10]。人工神經網絡的本質是由許多小的非線性函數組成的大的非線性函數,反映的是輸入變量到輸出變量間的復雜映像關系,具有自動學習和識別變量間關系的能力,善于處理模糊的、非線性的數據。田艷鵬等[11]采用決策樹算法對926例EH痰濕壅盛證患者的證候屬性進行分析,判斷準確率達93.74%,篩選出頭重昏蒙、嘔惡、吐痰涎、胸滿悶、精神倦怠、痞滿、苔白膩7種中醫屬性。通過徑向基函數及多層感知器兩種神經網絡法分析35種分類屬性,得出病痰濕壅盛證EH的最佳識別變量頭重昏蒙。趙書穎等[12]通過決策樹與神經網絡兩種聯合方法建立EH陰陽兩虛證的診斷模型,采集390例EH患者四診信息,其中陰陽兩虛證237例,對32個證候因子進行決策樹分析,發現最佳識別屬性是腰膝酸軟,出現頻率為92.9%,同時結合畏寒肢冷、心悸、乏力等其他四診信息,形成較為符合EH陰陽兩虛證診斷的組合判斷模式。為提高證候診斷模型的客觀化和準確度,聯用多種統計分析方法進行相互補充、相互驗證是較為可取的方法,能夠為規范中醫證候提供更客觀的依據。但是仍需將這些結論在臨床中加以檢驗,或進行更大樣本量、多層次的研究。
貝葉斯網絡又稱信念網絡,是概率論與圖論相結合的產物,其可描述變量之間相互依賴聯系的概率網絡圖模型,常用于分析復雜系統影響因素之間的關系,主要包括定性層面和定量層面兩方面內容[13]。朱詠華等[14]將貝葉斯網絡與中醫辨證系統聯合起來,建立起中醫辨證數據庫,并建成中醫辨證貝葉斯網絡結構及概率表。呂胤[15]基于貝葉斯網絡對116例EH患者進行證型分類,識別率的高低順序依次為陰陽兩虛、痰濕壅盛、肝火亢盛、陰虛陽亢、瘀血內阻及沖任失調等證型。何旭等[16]收集2 752例心血管疾病患者的病歷資料,通過貝葉斯網絡發掘出多個心血管疾病與其他慢性病之間的因果關系,發現EH患者罹患糖尿病的概率為0.352 2。貝葉斯網絡分類算法具有準確率高、耗時短等優勢,但是貝葉斯網絡要求網絡結構必須是無環的,這可能會丟失一些疾病之間存在的反饋現象。
支持向量機方法是基于統計學習理論的一種模式識別的機器學習方法,根據有限的樣本信息在模型的復雜性和學習能力之間尋求最佳折衷,以期獲得最好的推廣能力[17]。中醫的數據是離散型的,支持向量機的函數支持離散型數據,能夠充分挖掘大量有價值的信息。支持向量機結構簡單、客觀實用,是建立四診合參診療模型的有效方法,在中醫證候應用方面有一定的優勢。許明東等[18]采用C-支持向量機方法對549例EH患者的癥狀、舌苔、舌體、脈象進行融合處理,構建EH患者的中醫診斷模型,其中痰瘀互結、陰虛陽亢、肝火亢盛及腎氣虧虛等證型的預測準確率較高,整體準確率達到90.0%。通過前期的探索,許明東等[19]繼續通過支持向量機構建EH的中醫癥狀、舌脈與血脂、血尿酸、血糖的組合診斷模型。結果顯示整體的準確率達到90.8%,各證候準確率依次為痰瘀互結>陰虛陽亢>肝火亢盛>腎氣虧虛>其他,其中痰瘀互結(96.7%)、陰虛陽亢(93.9%)數值較大。以上說明EH患者證候與血脂、血尿酸、空腹血糖等指標存在一定的相關性。由于中醫癥狀信息本身具有非線性和多維性,運用支持向量機的優勢,從數據挖掘的角度分析EH中醫辨證分型與理化指標之間存在的復雜關聯性具有優勢。
文獻挖掘的研究對象主要是非結構化數據,是一種從文本中發現潛在、隱藏、歸納性知識的方法[20]。祁怡馨等[21]納入3 986篇標準文獻,提取出18類癥狀描述,共涉及57個證候名稱,排名靠前的證型為肝陽上亢(25.32%)、肝火熱盛(18.07%)、痰濁阻滯(8.23%)、肝腎陰虛(7.01%)、陰陽兩虛(6.99%)。肝、腎、心是EH的主要病位,證候要素有陽亢(25.68%)、內火(25.09%)、內熱(20.99%)、陰虛(15.14%)、痰濁(10.25%)、氣虛(7.71%)、肝風(5.3%)等。朱靈妍等[22]搜索近20年相關文獻,分析EH患者相關中醫證候特點,搜索范圍覆蓋全國24個省市地區。結果EH常見證候類型為:陰虛陽亢證、痰濕壅盛證、肝火亢盛證、陰陽兩虛證、肝陽上亢證、肝腎陰虛證及瘀血阻竅等。其中東北地區多見陰虛陽亢證、肝火亢盛證及陰陽兩虛證等證型,華北地區多見痰濕壅盛證,西北地區多見瘀血阻竅證,華中、西南地區分別以肝腎陰虛證、肝陽上亢證型多見。以上提示患者中醫證候差異明顯,應根據不同地域高血壓患者證候特征,辨證論治、三因制宜等針對性用藥。朱金妹[23]通過統計近10年來EH證型,發現最常見證型為陰虛陽亢證,其次為肝陽上亢、痰濕壅盛、肝火亢盛、肝腎陰虛及陰陽兩虛等證型。徐強等[24]納入3840篇關于EH辨證的文獻,分析顯示高血壓常見癥狀以肝系為主,最常見證候類型為肝陽上亢證和肝火熾盛證。文獻分析方式由于樣本信息量大且缺乏明確統一標準,因此難免會存在誤差,有一定的局限性。
Meta分析是循證醫學中的重要研究方法之一,又稱薈萃分析、元分析、統分分析等[25]。美國Stony Brook University生態與進化學系杰西卡·古雷維奇等[26]在Nature正刊撰寫綜述介紹Meta分析,認為其作為一種重要的工具,通過量化已知、識別未知以促進科學的快速發展。李思潔[27]基于系統評價探討EH中醫辨證分型與血脂的關系,通過計算機檢索相關文獻124篇,最終納入文獻10篇,對各證型EH患者的膽固醇、甘油三脂、高密度脂蛋白、低密度脂蛋白等進行定性定量分析。結果發現,EH組與正常對照組患者的血脂水平比較差異有統計學意義,提示EH患者血脂的異常數量較正常人群多。其中甘油三酯、低密度脂蛋白水平升高,高密度脂蛋白降低可作為痰濕壅盛證的客觀指標,低密度脂蛋白水平升高可作為陰陽兩虛證的客觀指標,膽固醇升高在各證型中均無明顯差異。以上說明血脂的異常可作為EH辨證分型的依據。駱始華等[28]采用系統評價方法明確中醫辨證或中醫辨證聯合血管緊張素轉換酶抑制劑(ACEIs)治療EH的療效,結果表明單用中醫辨證或中醫辨證聯合ACEIs治療逆轉左心室肥厚的療效優于ACEIs治療。
Logistic回歸分析是一種廣義的線性回歸分析模型,因此與多重線性回歸分析有很多相同之處,常用于數據挖掘、疾病診斷等領域。戴國華等[29]觀察356例EH患者與飲食的相關性,相關證候比例為痰濕壅盛(39.89%)、肝火亢盛(28.37%)、陰陽兩虛(22.47%)、陰虛陽亢(9.27%)等。其將年齡、性別、吸煙史、飲酒史、食鹽量、家族史、素食強度等設為自變量,中醫證型設為應變量,以上引入logistic回歸分析,各因素與中醫證型結果顯示:素食強度是肝火亢盛證及陰虛陽亢證的相關因素,素食強度、年齡、食鹽量等是痰濕壅盛證的相關因素,年齡是陰陽兩虛證的相關因素。因此,通過調整素食比例可一定程度上降低痰濕壅盛證、肝火亢盛證及陰虛陽亢證型EH的發生率。郭嬌等[30]納入775例EH患者的四診信息進行分析,臨床證型按頻率的高低依次為痰瘀阻絡、氣虛痰瘀、氣陰兩虛、肝腎陰虛及肝陽上亢等,占全部證候的69%。對五種證候的性別、年齡、吸煙史、飲酒史、EH家族史等15個危險因素進行Logistic回歸分析,結果顯示痰瘀阻絡證的危險因素為高密度脂蛋白和血糖,氣陰兩虛證的危險因素為年齡,肝腎陰虛證的危險因素為甘油三脂,氣虛痰瘀證和肝陽上亢證未見有明顯統計學意義的危險因素。
隨著我國經濟發展與社會老齡化的加快,EH發病率呈上升趨勢。近年來中醫藥對慢性病的防治優勢逐漸彰顯,通過數據挖掘方法能夠分析中醫古籍和現代醫案的用藥規律,還可以綜合癥狀與證候為中醫藥的臨床發展提供數據支撐[31]。證候是疾病發生、發展過程中的病理概括,是疾病病機的外在反映,在整個中醫理論體系中處于核心地位[32]。目前對EH中醫辨證分型大多基于個人經驗、古籍論述及流行病學調查,辨證分型標準不可避免地具有主觀性。運用數據挖掘方法研究EH辨證分型,可一定程度上減少中醫診斷的主觀性,提高中醫辨證的客觀性以及為中醫辨證的持續性研究提供保障。由于中醫證候具有多元性和復雜性,簡單而單一的統計學方法并不能完整地對中醫證候進行描述。為避免中醫證型研究的偏倚,從繁雜的數據中挖掘出簡單的普適規律,需要采用多維的、復雜的數據挖掘方法,有時還需要將多種挖掘方法聯用[33]。
中醫證候的數據挖掘方面目前存在以下問題:①證候的演變規律是無序的,目前尚無證據說明證候與疾病之間演變的同步性,中醫辨證治療后證候的變化并不能說明西醫疾病的好轉,導致評價的觀察終點難以確定[2]。②由于疾病的錯綜復雜性,辨證論治的過程即是醫師知識與經驗交織的過程,雖然參考相應的標準,但是辨證過程仍然存在一定的主觀性。因此,現代研究需更加客觀、準確地獲取四診信息。③EH前期中醫證候、隨著病情進展各證候間的關系,以及EH中醫證候與EH分級間的關系等相關數據分析研究較少,以上均可指導患者的預防與治療,對降低該病的發生率均有重要意義。④建立EH中醫臨床信息采集平臺,聯合多元分析方法,完善系統評價體系,實現信息的有效輸出與歸納,是EH中醫證候進行數據挖掘的重要環節。⑤每種數據挖掘方法都存在一定的局限性,應將多種數據挖掘方法聯合起來,協同合作,共同解決數字化中醫辨證中存在的問題并取長補短,提高中醫智能辨證系統的準確度、科學性。
綜上所述,數據挖掘技術將會更加多元化,充分利用現代科學技術實現中西醫結合,從臨床實際入手,又回到臨床實際中去,可更加有效、方便地掌握患者的病情并指導臨床。