999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

聚類算法在高脂血癥辨證分型研究中的應用*

2011-03-13 09:30:26涂泳秋易法令樸勝華周蘇娟
自動化與信息工程 2011年2期
關鍵詞:分類

涂泳秋 易法令 樸勝華 周蘇娟

(1.廣東藥學院醫藥信息工程學院 2.國家中醫藥管理局高脂血癥調肝降脂重點研究室3.國家中醫藥管理局脂代謝三級實驗室)

1 概述

高脂血癥是血管及臟器疾病的主要基礎病變之一,隨著人們生活水平的提高,高脂血癥的發病率呈逐年上升的趨勢。中醫藥在防治高脂血癥方面因其毒副作用小、療效明顯的優勢而日益受到醫學界的廣泛重視。但是,由于傳統中醫沒有高脂血癥的病名,且病證分散,臨床病變復雜,導致目前對高脂血癥的辨病和辨證分型尚未有統一的標準[1],不利于高脂血癥中醫辨證的規范化及對有效治療方案的歸納總結,影響科研成果的客觀評估和臨床推廣應用[2]。中醫對于建立一個完善的規范化、客觀化的高脂血癥辨證體系的研究已持續了三十年[3]仍沒有完全達到目標,探究其原因主要有以下兩條:其一,中醫對高脂血癥的辨證分型主要根據古籍文獻理論、患者主觀表現及臨床經驗來確認,用來統計分析的樣本存在片面性;其二,辨證體系、分型層次、學術流派及對兼夾證型認識的不同導致證型分類不統一,影響辨證分型的規范化[4]。

利用計算機挖掘技術建立疾病的中醫辨證模型的研究正日益受到關注和重視[5~7],高脂血癥辨證分型的規范化研究一個重要難點在于證型分類不統一,利用聚類分析算法對臨床四診信息進行自動分類,獲得統計學意義上的分類結果,并依此與已有證候表征進行比對,經過確定證型類別,發現了高脂血癥四診信息與辨證分型間的統計學規律,為高脂血癥辨證分型標準化研究奠定基礎,同時具有重要研究價值。

2 調查指標的設置

分析樣本為臨床采集的316例高脂血癥患者中醫四診調查數據。通過對其進行聚類分析,獲得相應的證型特點,與傳統的證型分類方法進行比較,以進一步佐證傳統分類方法的科學性。臨床樣本中記錄了316例患者的基本信息、血液查驗信息、中醫相關癥狀的臨床資料,包括患者的望診、問診、脈診信息等共54項。部分信息如圖1所示。

3 聚類分析方法

聚類分析,是按研究對象在性質上的親疏關系進行分類的一種多元統計方法,能夠反映變量或樣本間的內在組合關系。基本思想是,從一批樣品的多個觀測指標中,找出能度量樣品之間或指標之間的相似程度的統計量,構造一個對稱的相似性矩陣,在此基礎上進一步找尋各樣本之間或樣本組合之間的相似程度,按相似程度的大小,把樣本逐一歸類。關系密切的歸類聚集到小的分類單位,關系疏遠的聚類到大的分類單位,直到所有樣品或變量都聚集完畢,形成一個親疏關系譜系圖,用以更自然、更直觀地顯示分類對象的差異和聯系[8~10]。

聚類分析使用相似統計量進行分類,相似統計量是依據觀測數據所建立的分類指標。本文中用到的相似統計量為距離系數、夾角余弦以及相關系數,其計算公式如(1)~(3)所示。

3.1 相似統計量

3.1.1 距離系數

假設有n個樣本,每個樣本有m個分量。這時每個樣本可以看成是m維變量空間中的一個點,每個變量可以看成是n維樣本空間中的一個點。用點的歐幾里德距離表示研究對象的親疏關系。距離越小,關系越密切;距離越大,關系越不密切。

用行表示樣本、列表示變量的觀測數據矩陣,樣本間的距離系數如式(1)所示:

式中i,j = 1,2,...n,其中i,j均表示樣本的序號,k表示樣本中的分量號。

上面所定義的距離系數與變量的量綱有關,比如以米為單位時某變量為1,以厘米為單位時,就變成100,這會影響到距離的計算結果。為克服這個問題,在計算前需要對數據進行預處理。

此外,上面的距離系數要求與變量之間沒有相關性。如果變量之間存在相關性,則會影響分類結果。有多個相關變量支持的分類特征比沒有多個相關變量支持的特征,意味著有更大的權,在分類時會受到額外的“照顧”,因而有失公平。因此在算法實現中將使用逐步回歸法剔除相關變量。

3.1.2 夾角余弦

夾角余弦用角度的分割表示樣本之間的相似程度。在對樣本進行分類時,可以把每個樣本看成m維變量空間中的一個向量,樣本Xi= (xi1,xi2,...,xim)與樣本 Xj= (xj1,xj2,...,xjm) 之間的相似程度就可以用這兩個向量之間的夾角余弦cosθ表示,cosθ的值在1和-1之間變化,如果等于1則表示兩個樣本非常相似,接近1則很相似,如果數值很小,則表示樣本差異極大。夾角余弦的表達式如式(2)所示:

其中,i,j = 1,2,...,n。

3.1.3 相關系數

樣本之間的相關系數如式(3)所示:

式中i,j = 1,2,...,n,i和j是樣本號,n 是樣本個數,m是變量個數。xia和xja分別表示i樣本和j樣本的平均值。

3.2 聚類分析的數據預處理

聚類分析的結果與量綱有關,為了消除量綱的影響,算法中用到了標準差標準化的數據預處理方法。計算公式如公式(4)~(6)所示。

標準差標準化預處理是將各個觀測值減去觀測值的平均值,再除以觀測值的標準差,即:

xia是平均值,其表達式為:

si是標準差如式(7)所示,經過標準差標準化處理的所有觀測值的平均值為0,標準差等于1。

3.3 聚類算法構造

3.3.1 聚類算法思想

在聚類分析過程中,需要經過將類由多變少的聚類過程。其具體思想是:

(1)開始

每個樣本自成一群;

(2)合并

① 計算類的分類統計量(距離系數、夾角余弦、相關系數);

② 按某種分類統計量,將分類統計量最接近的兩個樣本(或群)合并成一群;

(3)求群的變量值

利用加權平均的方法求新群的各變量值。假定Li群與Lj群合并,Li群有Ni個樣本,Lj群有Nj個樣本,這時新群的k變量為:

(4)終止

重復(2)到(3),直到所有的類歸為一群。

3.3.2 聚類算法

設定相似性條件P:0<=P<=1

(1)開始

所有樣本歸入同一群;

(2)計算:假如已分解為n個群C1,C2,………, Cn

① 計算類的分類統計量(距離系數、夾角余弦、相關系數):假如 Cm中有 k個樣本,則:Sm=sigma(cos(thetai,j))/k(k-1)

② 計算類平均相似性:S = (S1 + ……+Sn)/n

(3)判別

如果S>=P跳到(5)終止。否則下一步。

(4)分解

對Sm<P的每個類Cm, 對其中的每個樣本I:

① 為I創建一個新類Cn+1,或將I歸入其它類C1,…Cm-1,Cm+1,…,Cn中。分別計算S,使S增加最多的類獲勝。

② 若Sm>P,返回(3)

(5)終止

4 實驗結果與評價

利用該程序對前期搜集到的316例高脂血癥患者臨床癥狀資料進行聚類分析,設置相似度閾值為75%,如圖2所示。

圖2 設置閾值界面

對預處理過的數據進行聚類分析,如圖3所示,其中f1,f2……,f54分別對應中醫癥狀特征信息如:體胖身重,心悸……,脈細等。程序得到的最終聚類結果如圖4所示,將總樣本自動分為5類,得到每類的相似性得分以及每類對應的實例個數。同時得到了每個分類中最具代表性和最不具代表性的樣本實例所具有的特征,如圖5所示。以第一類為例,最具代表性的樣本具有體胖身重,頭暈,失眠……等特征;而最不具代表性的樣本具有體胖身重,頭暈,面色淡白等特征。

圖3 316例患者54種臨床癥狀記錄表截圖

圖4 316個樣本的聚類分析結果

圖5 第一種分類中最典型與最不典型癥狀表

將聚類算法得到的五類實例與中醫師的證候判斷結果對比發現,這五類實例中80%以上的樣本分別對應于“痰濕內阻型”、“肝郁氣滯型”、“氣滯血瘀型”、“肝陽痰火型”、“脾腎陽虛型”五類證型,其中“肝陽痰火型”為兼雜證型。

5 小結

實現聚類分析算法并將其用于高脂血癥臨床病癥中醫證候研究中,通過對采集的臨床四診信息的聚類得到證候分型結果,與傳統經驗獲得的證候分類相對照,得到基于統計分析的客觀分類結果,為高脂血癥證候標準化研究奠定了基礎。

雖然聚類獲得的五個分型結果都得到了 70%左右的相似度,但第四類與第五類證型的實例數較前三類明顯偏低,因此高脂血癥臨床采集數據仍有待進一步擴充,使聚類的結果更科學客觀。除此之外,下一步工作的重點是將模糊規則理論引入到聚類算法中解決兼雜證型的分類問題,將兼雜證型與其相關證型關聯起來,而不再是完全獨立的一個分型。

[1]黃波夫.中醫治療高脂血癥研究進展[J].廣西中醫學院學報,2008,11(4): 102-104.

[2]陳建民.癌癥患者血液高黏度狀態與活血化瘀治療[J].中西醫結合雜志, 1985,5:89-91.

[3]唐沙玲.高脂血癥中醫研究進展[J].Internal Medcine of China.2008,3(1):129-131.

[4]錢小奇,陳紅,田曉虹等.高脂血癥中醫辨證分析不一致探因[J].深圳中西醫結合雜志,2007,17(2):25-26.

[5]王階,李海霞,孫占全等.基于復雜算法的中醫證候研究[J].北京中醫藥大學學報, 2006, 29 (9) : 581 – 585.

[6]白云靜,申洪波,孟慶剛等.基于人工神經網絡的中醫證候非線性建模研究[J].中國中醫藥信息雜志.2007, 14(7):3-6.

[7]聶莉芳,于大君,余仁歡等.308例IgA腎病中醫證候分布多中心前瞻性研究[J].北京中醫藥大學學報,2005,28(4):66-68.

[8]XU Rui, Wunsch., D. Survey of Clustering Algorithms[J].IEEE Transaction on Neural Networks, 2005,16(3):645-678.

[9]WANG Shi-tong, JIANG Hai-feng, LU Hong-jun. A New Integrated Clustering Algorithm GFC and Switching Regressions[J]. International Journal of Pattern Recognition and Artificial Intelligence, 2002,16(4):433-446.

[10]JIANG Sheng-yi, LI Xia. A Hybrid Clustering Algorithm[C].Fuzzy Systems and Knowledge Discovery, 2009, 1:366.

猜你喜歡
分類
2021年本刊分類總目錄
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
星星的分類
我給資源分分類
垃圾分類,你準備好了嗎
學生天地(2019年32期)2019-08-25 08:55:22
分類討論求坐標
數據分析中的分類討論
按需分類
教你一招:數的分類
主站蜘蛛池模板: 免费无码在线观看| 久久性视频| 午夜限制老子影院888| 老司机久久精品视频| 91在线精品免费免费播放| 免费大黄网站在线观看| 欧美日韩在线观看一区二区三区| 噜噜噜久久| 国产91视频免费观看| 国产色偷丝袜婷婷无码麻豆制服| 9啪在线视频| 国产麻豆aⅴ精品无码| 97超爽成人免费视频在线播放| 中日韩一区二区三区中文免费视频 | 国产欧美日韩91| 欧洲极品无码一区二区三区| 成人免费午夜视频| 看你懂的巨臀中文字幕一区二区| 色首页AV在线| 久久久久亚洲AV成人人电影软件 | 国产剧情伊人| 亚洲色偷偷偷鲁综合| 日本在线亚洲| 久久人与动人物A级毛片| 在线欧美a| 天天色天天操综合网| 亚洲国产黄色| 2020国产免费久久精品99| 无码精品福利一区二区三区| 精品视频91| 国产拍揄自揄精品视频网站| 91精品综合| 在线观看国产网址你懂的| 最新日本中文字幕| 国产大片喷水在线在线视频| 亚洲高清在线天堂精品| 欧美在线观看不卡| 啪啪国产视频| 国模私拍一区二区| 日韩av电影一区二区三区四区| 91精品伊人久久大香线蕉| 亚洲精品自拍区在线观看| 欧美一级夜夜爽www| 在线观看国产黄色| 成人福利免费在线观看| 久久综合婷婷| 精品久久久久久久久久久| 好吊色妇女免费视频免费| 亚洲水蜜桃久久综合网站 | 国产精品私拍99pans大尺度| 青草视频网站在线观看| 国产精品自在线拍国产电影| 亚洲第一av网站| 亚洲综合色区在线播放2019| 538国产视频| 喷潮白浆直流在线播放| 亚洲第一成年人网站| 中文字幕第4页| 国产成人精品在线| 久久久久无码国产精品不卡| A级毛片无码久久精品免费| 国产迷奸在线看| 国产精品无码AV中文| 国产91在线|日本| 9999在线视频| 高清码无在线看| 日韩欧美亚洲国产成人综合| 国产在线小视频| 中文字幕在线看视频一区二区三区| 中文毛片无遮挡播放免费| 在线观看国产网址你懂的| 欧美在线视频a| 99re在线视频观看| 国产精品福利社| 国产精品无码久久久久久| 免费在线成人网| 中美日韩在线网免费毛片视频| 久久永久精品免费视频| 波多野结衣在线一区二区| 国产一级精品毛片基地| 国产精品欧美日本韩免费一区二区三区不卡| 日韩经典精品无码一区二区|