999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

幾種數據挖掘方法用于中醫證候分析的對比研究

2019-12-30 01:38:36許玉龍盛夢園王哲王曉輝呂雅麗修沁
中國中醫藥信息雜志 2019年12期
關鍵詞:中醫證候

許玉龍 盛夢園 王哲 王曉輝 呂雅麗 修沁

摘要:目的 ?探討不同無監督數據分析方法分析中醫證候的效果差異。方法 ?基于臨床采集的肝炎肝硬化患者中醫癥狀數據,比較層次聚類、因子分析、復雜網絡、K-means方法從癥狀和患者角度分析中醫癥狀數據、挖掘其潛在規律、根據醫學知識對數據分類及歸納得到證候的差異。結果 ?從癥狀角度分析,層次聚類基于癥狀變量之間的距離關系進行聚類,能反映近似的癥狀從而推導出證候;因子分析用降維尋求少數潛在變量來綜合反映原始指標的大部分信息,能反映出證候的主要癥狀。但這2種方法都無法將一癥狀同時歸納到多個證候,不適合臨床實際中某癥狀屬于多種證候的情況。復雜網絡通過癥狀及癥狀的關系構建網絡,較適合于對某種確定證候所涉及的癥狀進行分析,但不太適合對證候的推導與辨證。從患者角度分析,層次聚類和K-means對患者人群聚類后,可把相似的患者聚為一類,但不能同時從多個側面進行聚類,即無法體現一個患者同時具有多種證候,不適合實際臨床中的多種證候兼夾情況;對比專家組經驗并分析頻次發現,二者聚類結果一般。結論 ?使用常規數據挖掘方法分析中醫數據,在挖掘從癥狀到證候的關系時,單個方法能完成單一角度分析,但無法同時滿足癥狀屬于多種證候、患者具有多種證候的兼夾情況等多角度分析,需要改進或嘗試采用新的方法研究從癥狀到證候的數據挖掘問題。

關鍵詞:層次聚類;因子分析;復雜網絡;K-means;中醫證候

中圖分類號:R241;R2-05 ???文獻標識碼:A ???文章編號:1005-5304(2019)12-0097-06

DOI:10.3969/j.issn.1005-5304.2019.12.020 ?開放科學(資源服務)標識碼(OSID):

Comparative Study on Data Mining Methods for Analysis on TCM Syndromes

XU Yulong1, SHENG Mengyuan1, WANG Zhe1, WANG Xiaohui1, LYU Yali1, XIU Qin2

1. Institute of Information and Technology, Henan University of Chinese Medicine, Zhengzhou 450046, China; 2. Tingzhou Hospital of Fujian Province, Longyan 366300, China

Abstract: Objective To explore the differences in the effects of different unsupervised data analysis methods in the analysis on TCM syndromes. Methods?Based on the collected clinical data?of TCM symptoms of hepatitis cirrhosis?patients, four methods including hierarchical clustering, factor analysis, complex networks and K-means were compared to analyze TCM symptom data, mine potential rules, classify data according to medical knowledge and conclude syndromes from the perspective of symptoms and patients. Results?From the perspective of symptom analysis, hierarchical clustering considered the distance relationship between symptom variables to cluster, which could reflect the approximate symptoms and derive the syndromes; Factor analysis used dimension reduction to find a small number of potential variables to comprehensively reflect most of the information of the original indicators, which could reflect the main symptoms of syndromes. However, neither of these methods could summarize a symptom into multiple syndromes at the same time, and was suitable for the?situation in which a certain symptom belonged to multiple syndromes in clinical practice. Complex networks built networks through the symptoms and their relationship, which were more suitable for analyzing the symptoms involved in some certain syndromes, but were not suitable for the derivation and differentiation of syndromes. From the perspective of patients, hierarchical clustering and K-means clustered patients and grouped similar patients into one category, but could not cluster from multiple aspects at the same time. That meaned, it?could not reflect a patient with multiple syndromes at the same

time, and then was not suitable for a variety of syndromes in the actual clinical situation; By comparing the experience of the expert group and analyzing the frequency, it was found that the results of the two clusters were mediocre. Conclusion?In the case of using conventional data mining methods to analyze TCM data, a single method can finish analysis with a single angle when mining the relationship from symptom to syndrome. However, it is impossible to simultaneously satisfy multi-angle analysis with the conditions of symptoms belonging to multiple syndromes and patients having multiple syndromes. It is necessary to improve or try to use new methods to study the data mining problem from symptom to syndrome.

????Keywords:?hierarchical clustering; factor analysis; complex networks; K-means; TCM syndromes

中醫辨證施治的過程,即從癥狀到證候的分析與確定是中醫診病的關鍵步驟[1]。但中醫證候的隱匿性、模糊性等特點導致其診斷過程難以形成統一的標準[2]。現代技術研究中醫證候的常用方法有統計分析、因子分析、聚類算法等[3]。統計分析僅能統計出癥狀出現的次數、均值、方差等。因子分析把癥狀視為實數值變量,并假設其由一組相互獨立的實數值隱變量(代表證候)通過線性關系來確定。聚類算法是對癥狀進行分析,并基于數據的知識將其聚成不同的類別[3-6]。隱結構分析是特殊聚類算法[7],依據統計學和概率知識對癥狀數據分析,找出隱變量并建立相應隱結構模型,然后依據模型對患者進行聚類劃分。

筆者基于肝炎肝硬化患者的中醫臨床癥狀數據,采用層次聚類、因子分析、復雜網絡、K-means方法,分別從癥狀和患者角度挖掘證候,并參考專家組經驗辨證結果,將挖掘結果分析對比,探討不同方法在中醫證候挖掘中的合理性,為相關研究提供參考。

1 ?幾種數據挖掘方法簡介

1.1 ?層次聚類

層次聚類分為分裂法和凝聚法。常用的是凝聚法[8],即由下向上對小的類別進行聚合,其基本過程為:①給定要聚類的N個對象及N×N的距離矩陣(或相似性矩陣)。②將每個對象歸為一類,共得到N類,每類僅包含1個對象,類與類之間的距離就是它們所包含對象的距離。③找到最接近的2個類合并為一類,類的總數減少1個。④重新計算新類與所有舊類之間的距離。⑤重復③④,直到最后合并為1個類為止(此類包含了N個對象),樹的頂層是聚類的根節點,根節點覆蓋了全部的數據點。層次聚類的優點是可以一次性得到整個聚類過程,缺點是計算量較大,分析大數據時,花費時間較長。

1.2 ?因子分析

因子分析是從分析多個原始指標的相關關系入手,找到支配這種關系有限的不可觀測的潛在變量,即公因子,并用這些潛在變量來解釋原始指標之間相關性的多元統計分析方法[9-10]。換言之,因子分析是用降維視角,從多個原始指標的相關系數矩陣出發,探索能綜合大部分指標信息的獨立潛在變量,即尋求少數的幾個變量來綜合反映所有變量信息。因子分析是多元統計分析中的一個重要方法,其特點是消除癥狀的多元共線性,對癥狀進行降維。

1.3 ?復雜網絡

復雜網絡是對現實生活中事務的抽象表達,是圖的一種重要應用[11]。復雜網絡中用圖的頂點表示實體,用邊表示實體之間的聯系,隨著數據量的增加,實體之間的聯系更為錯綜復雜,便形成了高度復雜的網絡。復雜網絡的優點是可以顯示絕大部分的聯系;缺點是復雜度高,不宜觀察和分析。復雜網絡采用網絡化建模研究復雜現象,把每個癥狀看作節點,癥狀之間的關系看作邊,癥狀及其之間的關系便可以用復雜網絡來描述[11]。通過分類、篩選等分析方法對網絡圖進一步分析,可以挖掘中醫數據的潛在信息。

1.4 ?K-means

K-means算法是基于距離的劃分聚類算法,通過不斷地迭代和重新計算聚類中心,直至收斂進行聚類[12-13]。其步驟為[13]:①從n個數據對象任意選擇k個對象作為初始聚類中心。②根據每個聚類對象的均值(中心對象),計算每個對象與這些中心對象的距離;并根據最小距離重新對相應對象進行劃分。③重新計算每個(有變化)聚類的均值(中心對象)。④當每個類不再發生變化時,結束,n個數據對象被劃分為k類;否則,跳轉到②。K-means算法的優點是快速、簡單、效率高,缺點是聚類效果受K值的影響,需事先給定K值,當它難以預估時聚類效果不理想。

2 ?數據來源

本研究采用肝炎肝硬化患者的臨床數據,數據來源于2011年11月-2012年9月在解放軍302醫院、湖北省中醫院、首都醫科大學附屬北京地壇醫院、首都醫科大學附屬北京佑安醫院、北京中醫藥大學東方醫院、中國中醫科學院西苑醫院、首都醫科大學附屬北京中醫醫院及廣西中醫藥大學第一附屬醫院的門診或住院患者。選取100例,每例有97個癥狀變量,包含舌象變量22個,脈象變量11個。數據原始編號為采集數據時的患者編號,為方便數據分析,將數據重新編號為0、1、2……

課題組參照現行的肝硬化診療共識、指南及指導原則[14-17],結合前期文獻回顧和臨床調查結果,再經多位臨床肝病專家進行論證后,形成《肝炎肝硬化常見證候要素辨識標準》。參照標準對患者是否存在氣虛證、氣滯證、熱證、濕證、水停證、血瘀證、陽虛證、陰虛證共8個基本證候要素進行判定,結果用0和1表示。數據除編號列外,其他列中1代表有此證候或癥狀,0代表沒有此證候或癥狀。在聚類分析時,專家組辨證結果不參與計算,僅作為理論值,驗證不同方法的分析效果。專家組由北京中醫藥大學、河南中醫藥大學中醫診斷學的多名教授學者組成。

3 ?不同方法從癥狀劃分角度挖掘數據

3.1 ?層次聚類

從癥狀劃分角度對數據進行層次聚類,聚類效果見圖1。層次聚類先自動聚成樹狀圖,然后根據需要對數據進行分類,圖連接度采用complete-linkage[8],圖中縱坐標0~96代表癥狀,橫坐標代表不同類之間的距離。將圖1劃分為8個類,依據其對應的癥狀信息和中醫知識,推導出的證候見表1。聚類結果把同類近似的癥狀劃分在一起,推導出相關證候。臨床上某一癥狀往往會出現在多種證候中,但該方法無法將某個癥狀同時劃分到多個證候。另外,層次聚類沒有對主要癥狀和次要癥狀進行篩選。

3.2 ?因子分析

將收集到患者四診信息進行頻率分析,篩選得到出現頻率≥30%的癥狀共40個,用于因子分析。進行KMO檢驗及Bartlett球形檢驗以判斷數據是否適合進行因子分析。若KMO<0.5,則認為各變量間相關性較差,樣本量小,需要擴大樣本量;若KMO>0.5,即可認為共同因子多,相關性好,可以進行因子分析。Bartlett球形檢驗用于檢驗相關矩陣是否為單位矩陣,一般來說,P<0.05表明原始變量之間可能存在有意義的關系,適合因子分析,P>0.10則表明數據不適宜應用因子分析。

采用主成分相關性矩陣法抽取公因子,因子旋轉協方差法,分別對本研究數據進行上述檢驗,得到KMO=0.624,Bartlett球形檢驗P=0.000(方差=1581.289,自由度=780),故認為可以進行因子分析。

采用主成分分析法,40個癥狀總方差解釋表的表頭信息包括成分、起始特征值(合計、方差、累積)、提取平方和載入(合計、方差、累積)、旋轉平方和載入(合計)。相應的碎石圖見圖2。

根據總方差解釋表和碎石圖,選擇特征值>1的成分作為公因子。依據因子結構矩陣(行名為癥狀,列名為13個公因子編號,值代表載荷系數),認為載荷系數>0.4的值有意義,提取到13個公因子的主要癥狀及證候分析,見表2。可以看出,因子分析在對癥狀解釋時,每個因子的大部分癥狀可對應1個或多個證候,且涉及的病位較少,可見因子分析在提取證候方面具有一定的優勢。但它與層次聚類類似,無法將某個癥狀同時劃分到多個證候,而臨床實際中一個癥狀往往會出現于多種證候中。

3.3 ?復雜網絡

借助中醫藥挖掘系統及復雜網絡分析軟件Uci6進行數據處理和網絡構建[11]。首先利用中醫藥挖掘系統將數據進行整理[11],得到相關的關系矩陣,見表3。

計算各癥狀的點度中心度和中介中心度,并使用Newdraw繪制網絡圖,見圖3。點度中心度比較靠前的主要有乏力、弦脈、潤苔、肝掌、面色晦黯、薄苔、急躁易怒等,中介中心度比較靠前有腰膝酸軟、腹水、神疲、乏力、浮腫、急躁易怒、胸悶等,見表4。運用Newdraw→Analysis→SubGroup→Factions進行分類,并依據中心度大小顯示節點情況的可視化圖,共分為8個子群,見表5。

根據點度中心度及出現頻率≥30%篩選癥狀。子群一:腹水、神疲、乏力、懶言、自覺發熱、抑郁、煩躁、急躁易怒、肝掌、肌膚干燥、面色黑、面色晦黯、目澀、目昏、頭暈、胸悶、太息、脅脹、脅痛、胃脘脹滿、腹脹、腰膝酸軟、納呆、厭油膩、口苦、口黏膩、口咽干燥、失眠、尿色深黃、性欲減退、舌色紫黯、舌下絡脈異常、黃苔、潤苔、細脈、弦脈。辨證為:虛實夾雜證。子群二:黃疸、舌色紅絳、白苔、薄苔。辨證為:熱證。

可以看出,復雜網絡通過癥狀及癥狀的關系構建網絡,只能得出2個證候,難以推導出多個不同的證候。該方法較適于對某種確定證候所涉及的癥狀進行分析,根據中心度值來確定某證候主要與次要的癥狀,但不太適合對多種證候的推導與辨證。

4 ?不同方法從患者劃分角度挖掘數據

4.1 ?層次聚類結果

從患者角度進行層次聚類,聚類過程和結果與從癥狀劃分方法類似。從聚類結果來看,得到的8個類別中,每個類包含患者個數都不相同,且每個類中的患者大都有多種證候要素兼夾,但聚類結果只能把該類別歸為一種證候。

但從全局來看,聚類效果較差,原因是1個患者可能同時具有多種證候,而層次聚類只能將1個患者劃分到1個證候類。與從癥狀劃分的聚類結果相比,該聚類組Ⅵ與從癥狀劃分的聚類組Ⅰ有較少部分相似;但有些類缺乏較好對應,說明層次聚類的2種角度分析結果既相似又有區別。

4.2 ?K-means聚類結果

設定K=8,K-means算法運行后將聚成8類。

參考專家組辨證經驗,8個聚類組中,除類Ⅰ、Ⅶ外,特別是類Ⅱ和Ⅳ的患者大都有多種證候要素兼夾,無法推斷出某聚類組屬于哪個類。類Ⅰ和Ⅶ的效果較好,類Ⅰ把濕證和熱證的證候要素聚在一組,但數量較少;類Ⅶ把血瘀證候要素聚在一起,可以推測聚類組為血瘀證類。該聚類的類Ⅱ與層次聚類對患者的類Ⅳ相同;該類Ⅰ與層次聚類對患者的類Ⅰ相似,因此K-means聚類和層次聚類在對患者聚類后得到的結果相似。

由于患者存在多種混合證候,且K-means的聚類效果受K值的影響很大,故嘗試將K值設為9、10、11類,結果變化不大,聚類效果仍不理想。整體而言,K-means聚類效果略優于層次聚類,但由于大多數分組存在證候混合情況,而K-means也僅能將患者劃分到一個類別,所以整體效果不理想。

5 ?小結

本研究對比4種不同的無監督方法在挖掘中醫證候時的差異。①從癥狀劃分角度來看,層次聚類和因子分析能在一定程度上提取證候,但聚類效果一般。復雜網絡聚類效果較差,更適合于確定單一證候后,對該證候所涉及的所有癥狀進行分析,不適于多種癥狀-證候的分析。②從對患者人群劃分角度來看,層次聚類和K-means效果類似,能將相似的患者劃分到一起,但效果一般。因為不能同時從多個側面進行聚類,即無法體現一個患者同時具有多種證候,不適合實際臨床中的多種證候兼夾情況。對于層次聚類,上述2種角度分析的結果既相似又有區別,相比而言,層次聚類從癥狀角度分析得到的結果更好

由上述可以認為,常規聚類算法在對癥狀聚類、對癥狀數據劃分時,一個癥狀只能屬于或不屬于某一個證候類。所得到的是癥狀變量的類,不是癥狀事件的類,其含義不是一些患者(證候)同時具有一些癥狀。在實際情況中,證候是對患者人群的劃分,用于揭示樣本某方面的特征和性質,且一個患者可能同時具有多種證候,每個證候都涉及相應的多種癥狀。而常規聚類在對患者人群劃分時,不能處理證候兼夾情況,無法分析樣本的特征和性質,不能揭示證候在樣本中的分布規律。

綜上所述,目前常用的單一數據挖掘方法不能同時滿足分析癥狀屬于多種證候、患者具有多種證候的兼夾情況。需要改進、合并多種算法,或嘗試使用其他方法(如隱結構分析方法[7,18])來研究中醫癥狀到證候的數據挖掘問題。

參考文獻:

[1] 寇冠軍,唐健元.中醫證候研究現狀及證候中藥研究關鍵[J].中藥藥理與臨床,2017,33(4):213-214.

[2] 王階,李海霞,孫占全,等.基于復雜算法的中醫證候研究[J].北京中醫藥大學學報,2006,29(9):581-585.

[3] 蔡偉達.證候研究中常用的數據分析方法的文獻研究及基于隱類的抑郁癥隱變量分析[D].北京:北京中醫藥大學,2015.

[4] 張連文,周雪忠,陳弢,等.論證候研究中變量聚類結果的詮釋[J].中國中醫藥信息雜志,2007,14(7):102-103.

[5] 魏華鳳,季光,鄭培永.證候診斷規范化研究的現狀分析[J].中西醫結合學報,2007,5(2):115-121.

[6] 李仁義.數據挖掘中聚類分析算法的研究與應用[D].成都:電子科技大學,2012.

[7] 王天芳,張連文,趙燕,等.隱結構模型及其在中醫證候研究中的應用[J].北京中醫藥大學學報,2009,32(8):519-527.

[8] JOHNSON S C. Hierarchical clustering schemes[J]. Psychometrika, 1967,32(3):241-254.

[9] 于小林,張艷霞,張曉梅.基于因子分析法的重癥肺炎中醫證候分布及演變規律研究[J].環球中醫藥,2018,9(11):1337-1342.

[10] 王強,張弦,王盛隆,等.基于因子分析的支氣管哮喘急性發作期患者中醫證候[J].世界中西醫結合雜志,2017,12(12):1637-1641.

[11] 劉佳佳,林樹元,鄭衛軍,等.基于復雜網絡的太陰中風證臨床診斷指征篩選[J].上海中醫藥雜志,2018,52(12):14-17.

[12] 王千,王成,馮振元,等.K-means聚類算法研究綜述[J].電子設計工程,2012,20(7):21-24.

[13] 吳夙慧,成穎,鄭彥寧,等.K-means算法研究綜述[J].現代圖書情報技術,2011(5):28-35.

[14] 張育軒.肝硬化臨床診斷、中醫辨證和療效評定標準(試行方案)[J].中國中西醫結合雜志,1994,14(4):237-238.

[15] 危北海,張萬岱,陳治水,等.肝硬化中西醫結合診治方案(草案)[J].中國中西醫結合雜志,2004,24(10):869-871.

[16] 劉成海,危北海,姚樹坤.肝硬化中西醫結合診療共識[J].中國中西醫結合消化雜志,2011,19(4):277-279.

[17] 李延龍,吳秀艷,王天芳,等.基于因子分析的801例肝炎肝硬化患者的證候研究[J].遼寧中醫雜志,2018,45(4):673-675.

[18] 許玉龍,吳秀艷,李延龍,等.基于隱結構分析建立中醫證候分型規則的三種方法[J].世界科學技術-中醫藥現代化,2019,21(1):101-108.

(收稿日期:2018-08-19)

(修回日期:2019-04-05;編輯:陳靜)

猜你喜歡
中醫證候
中醫證候理念的更新者張震研究員
帕羅西汀聯合柴胡加龍骨牡蠣湯加味治療抑郁癥42例
麻黃附子細辛湯合右歸丸加減治療緩慢性心律失常臨床觀察
口干是否類風濕關節炎中醫陰虛證候關鍵指標的臨床研究
雙唑泰棉栓聯合中藥沖洗、定君生治療霉菌性陰道炎的臨床分析
心血管多重危險因素與中醫“風痰毒瘀虛”診斷結合的研究
心血管多重危險因素與中醫“風痰毒瘀虛”診斷結合的研究
原發性失眠癥中醫證候群篩選的研究
主站蜘蛛池模板: 久久久受www免费人成| 国产爽歪歪免费视频在线观看 | 久久99精品久久久久纯品| 国产精品深爱在线| 日韩无码白| 亚洲欧美成aⅴ人在线观看| 热思思久久免费视频| 在线播放91| 99国产精品免费观看视频| 老色鬼久久亚洲AV综合| 永久免费无码成人网站| 中文国产成人久久精品小说| 久久伊伊香蕉综合精品| 人妻夜夜爽天天爽| 国产99视频精品免费观看9e| 麻豆国产在线观看一区二区| 国产女人18毛片水真多1| 国产精品久久国产精麻豆99网站| 免费无码网站| 大陆国产精品视频| 欧美视频在线不卡| 国产成人精品优优av| 欧美.成人.综合在线| 国产欧美综合在线观看第七页| Jizz国产色系免费| 久久亚洲黄色视频| 日韩欧美综合在线制服| 无码粉嫩虎白一线天在线观看| 亚洲九九视频| 欧美成在线视频| 国产精品蜜芽在线观看| 爆乳熟妇一区二区三区| 国产女人爽到高潮的免费视频| 精品黑人一区二区三区| 亚洲人成人伊人成综合网无码| 91精品国产情侣高潮露脸| 久久青草免费91线频观看不卡| 狠狠色丁香婷婷| 午夜三级在线| 国产成人AV综合久久| 98超碰在线观看| 国产99在线观看| 中文字幕在线看| 婷婷丁香在线观看| 91小视频在线播放| 久久精品人妻中文视频| 亚洲精品无码AV电影在线播放| 久久精品人妻中文视频| 东京热一区二区三区无码视频| 青青操视频在线| 亚洲日本一本dvd高清| 国产精品女主播| 欧美视频在线播放观看免费福利资源| 午夜免费视频网站| 国产视频大全| 国产成a人片在线播放| 欧美va亚洲va香蕉在线| 精品国产成人av免费| 成人va亚洲va欧美天堂| 国产大片喷水在线在线视频 | 国产综合另类小说色区色噜噜| 91精选国产大片| 久久久久久久蜜桃| 制服丝袜一区二区三区在线| 午夜丁香婷婷| 亚洲激情区| 干中文字幕| 久一在线视频| 国产激爽爽爽大片在线观看| 国产一二三区视频| 天堂网国产| 丁香婷婷综合激情| 热久久这里是精品6免费观看| 国产人成午夜免费看| 国产又粗又猛又爽视频| 日韩美毛片| 在线播放国产99re| 欧美在线一二区| A级毛片高清免费视频就| 国产福利小视频在线播放观看| 91在线高清视频| 92精品国产自产在线观看|