摘 要:在對模糊C均值聚類算法原理進行簡要分析的基礎上,進行了實驗仿真。首先利用聚類樹形圖估計分類數,再利用模糊C均值聚類算法進行分類,結果表明算法具有較好的分類效果。
關鍵詞:FCM 聚類樹形圖 隸屬度
中圖分類號:TP391.41 文獻標識碼:A 文章編號:1672-3791(2014)2(b)-0000-00
1 引言
聚類分析是一種多元統計分析方法,屬于無監督模式識別方法,被廣泛應用于模式識別、圖像處理、數據分析等領域[1-3]。模糊聚類分析建立了樣本對類別的不確定描述,更能客觀地反應樣本的實際情況,從而成為聚類分析的主要方法 [4-5]。
在模糊聚類算法中,模糊C均值聚類算法(Fuzzy C-means, 簡稱FCM)應用最為廣泛。FCM是基于目標函數的模糊聚類算法中理論最完善、應用最廣泛的一種算法。為了借助目標函數法求解聚類問題,類內平方誤差和WGSS(Within-Groups Sum of Squared Error)成為聚類目標函數的普遍形式。隨著模糊劃分概念的提出,Dunn[6]首先將其推廣到加權WGSS函數,后來由Bezdek[7]擴展到加權WGSS的無限族,形成了FCM聚類算法的通用聚類準則。
2 模糊C均值聚類算法原理
模糊C均值聚類算法原理[8]描述如下:
設樣本空間為: ,數據矩陣為:
。
FCM思想即將n個樣本劃分為c類( ),記 為c個類的聚類中心,其中 。
令 為隸屬度矩陣, 表示第k個樣本 屬于第i類的隸屬度( ), 。定義目標函數: , 。
FCM的聚類準則即確定U、V,使 最小。
FCM一般步驟如下:
Step1:初始化,確定c、m、初始隸屬度矩陣 及隸屬度終止容限 和最大迭代次數;
Step2:利用下式計算第 步的聚類中心 :
;
Step3:修正隸屬度矩陣 ,計算目標函數 :
其中: ;
Step4:判斷是否滿足終止條件,滿足則退出程序;否則, ,轉Step2。
3 實驗仿真
為了驗證算法的有效性,選取數據如表1所示。數據選自2013年《中國統計年鑒》[9]。
程序利用matlab軟件編寫,具體流程如下:
Step1:利用matlab內置函數dendrogram繪制聚類樹形圖,根據樹形圖大概確定分類數c;
Step2:初始化,m=3, =1e-6,隨機化 ;
Step3:調用fcm函數。
樹形圖如圖1所示:
由圖1可知,大體上可以分為四類,所以c=4。調用fcm函數,結果如下:
第一類:北京、上海、廣州;
第二類:石家莊、長春、哈爾濱、福州、濟南、鄭州、長沙、西安;
第三類:太原、呼和浩特、合肥、廈門、南昌、南寧、海口、貴陽、昆明、拉薩、蘭州、西寧、銀川、烏魯木齊;
第四類:天津、沈陽、大連、南京、杭州、寧波、青島、武漢、深圳、重慶、成都。
4 結論
由實驗結果可知,FCM算法能較好地對數據樣本進行分類,但由于算法本身對初始聚類中心、初始隸屬度的依賴性較強,所以,要使其發揮更好地作用,則需要進一步對其進行改進。
參考文獻
[1] E. Hartuv and R. Shamir, A clustering algorithm based on graph connectivity [J], Inf. Process. Lett., 76, 175 -181,2000.
[2] Laszlo M,Mukherjee S.A genetic algorithm using hyper-quadtrees for low-dimensional K-means clustering[J]. IEEE Trans. Pattern Analysis and Machine Intelligence . 28(4),533 – 543,2006.
[3] 肖宇.聚類分析及其在圖像處理中的應用[D]. 北京交通大學,2012.
[4] J. Chiang and P. Hao, A new kernel-based fuzzy clustering approach: Support vector clustering with cell growing [J]. IEEE Trans. Fuzzy Syst, 2003,11(4),518-527.
[5] 曾山. 模糊聚類算法研究[D]. 華中科技大學,2012.
[6] 高新波. 模糊聚類分析及其應用[M]. 西安電子科技大學出版社, 2004.
[7] Bezdek J C. Pattern Recognition with Fuzzy Objective Function Algorithms [M]. Plenum Press, New York, 1981.
[8] 何正風. MATLAB概率與數理統計分析(第2版) [M], 機械工業出版社,2012.
[9] 中國統計年鑒,http://data.stats.gov.cn, 2013.
○1作者簡介:張洪艷:女,講師,碩士研究生。主要研究方向:機電一體化,檢測技術與自動化裝置,人工智能等。endprint
摘 要:在對模糊C均值聚類算法原理進行簡要分析的基礎上,進行了實驗仿真。首先利用聚類樹形圖估計分類數,再利用模糊C均值聚類算法進行分類,結果表明算法具有較好的分類效果。
關鍵詞:FCM 聚類樹形圖 隸屬度
中圖分類號:TP391.41 文獻標識碼:A 文章編號:1672-3791(2014)2(b)-0000-00
1 引言
聚類分析是一種多元統計分析方法,屬于無監督模式識別方法,被廣泛應用于模式識別、圖像處理、數據分析等領域[1-3]。模糊聚類分析建立了樣本對類別的不確定描述,更能客觀地反應樣本的實際情況,從而成為聚類分析的主要方法 [4-5]。
在模糊聚類算法中,模糊C均值聚類算法(Fuzzy C-means, 簡稱FCM)應用最為廣泛。FCM是基于目標函數的模糊聚類算法中理論最完善、應用最廣泛的一種算法。為了借助目標函數法求解聚類問題,類內平方誤差和WGSS(Within-Groups Sum of Squared Error)成為聚類目標函數的普遍形式。隨著模糊劃分概念的提出,Dunn[6]首先將其推廣到加權WGSS函數,后來由Bezdek[7]擴展到加權WGSS的無限族,形成了FCM聚類算法的通用聚類準則。
2 模糊C均值聚類算法原理
模糊C均值聚類算法原理[8]描述如下:
設樣本空間為: ,數據矩陣為:
。
FCM思想即將n個樣本劃分為c類( ),記 為c個類的聚類中心,其中 。
令 為隸屬度矩陣, 表示第k個樣本 屬于第i類的隸屬度( ), 。定義目標函數: , 。
FCM的聚類準則即確定U、V,使 最小。
FCM一般步驟如下:
Step1:初始化,確定c、m、初始隸屬度矩陣 及隸屬度終止容限 和最大迭代次數;
Step2:利用下式計算第 步的聚類中心 :
;
Step3:修正隸屬度矩陣 ,計算目標函數 :
其中: ;
Step4:判斷是否滿足終止條件,滿足則退出程序;否則, ,轉Step2。
3 實驗仿真
為了驗證算法的有效性,選取數據如表1所示。數據選自2013年《中國統計年鑒》[9]。
程序利用matlab軟件編寫,具體流程如下:
Step1:利用matlab內置函數dendrogram繪制聚類樹形圖,根據樹形圖大概確定分類數c;
Step2:初始化,m=3, =1e-6,隨機化 ;
Step3:調用fcm函數。
樹形圖如圖1所示:
由圖1可知,大體上可以分為四類,所以c=4。調用fcm函數,結果如下:
第一類:北京、上海、廣州;
第二類:石家莊、長春、哈爾濱、福州、濟南、鄭州、長沙、西安;
第三類:太原、呼和浩特、合肥、廈門、南昌、南寧、海口、貴陽、昆明、拉薩、蘭州、西寧、銀川、烏魯木齊;
第四類:天津、沈陽、大連、南京、杭州、寧波、青島、武漢、深圳、重慶、成都。
4 結論
由實驗結果可知,FCM算法能較好地對數據樣本進行分類,但由于算法本身對初始聚類中心、初始隸屬度的依賴性較強,所以,要使其發揮更好地作用,則需要進一步對其進行改進。
參考文獻
[1] E. Hartuv and R. Shamir, A clustering algorithm based on graph connectivity [J], Inf. Process. Lett., 76, 175 -181,2000.
[2] Laszlo M,Mukherjee S.A genetic algorithm using hyper-quadtrees for low-dimensional K-means clustering[J]. IEEE Trans. Pattern Analysis and Machine Intelligence . 28(4),533 – 543,2006.
[3] 肖宇.聚類分析及其在圖像處理中的應用[D]. 北京交通大學,2012.
[4] J. Chiang and P. Hao, A new kernel-based fuzzy clustering approach: Support vector clustering with cell growing [J]. IEEE Trans. Fuzzy Syst, 2003,11(4),518-527.
[5] 曾山. 模糊聚類算法研究[D]. 華中科技大學,2012.
[6] 高新波. 模糊聚類分析及其應用[M]. 西安電子科技大學出版社, 2004.
[7] Bezdek J C. Pattern Recognition with Fuzzy Objective Function Algorithms [M]. Plenum Press, New York, 1981.
[8] 何正風. MATLAB概率與數理統計分析(第2版) [M], 機械工業出版社,2012.
[9] 中國統計年鑒,http://data.stats.gov.cn, 2013.
○1作者簡介:張洪艷:女,講師,碩士研究生。主要研究方向:機電一體化,檢測技術與自動化裝置,人工智能等。endprint
摘 要:在對模糊C均值聚類算法原理進行簡要分析的基礎上,進行了實驗仿真。首先利用聚類樹形圖估計分類數,再利用模糊C均值聚類算法進行分類,結果表明算法具有較好的分類效果。
關鍵詞:FCM 聚類樹形圖 隸屬度
中圖分類號:TP391.41 文獻標識碼:A 文章編號:1672-3791(2014)2(b)-0000-00
1 引言
聚類分析是一種多元統計分析方法,屬于無監督模式識別方法,被廣泛應用于模式識別、圖像處理、數據分析等領域[1-3]。模糊聚類分析建立了樣本對類別的不確定描述,更能客觀地反應樣本的實際情況,從而成為聚類分析的主要方法 [4-5]。
在模糊聚類算法中,模糊C均值聚類算法(Fuzzy C-means, 簡稱FCM)應用最為廣泛。FCM是基于目標函數的模糊聚類算法中理論最完善、應用最廣泛的一種算法。為了借助目標函數法求解聚類問題,類內平方誤差和WGSS(Within-Groups Sum of Squared Error)成為聚類目標函數的普遍形式。隨著模糊劃分概念的提出,Dunn[6]首先將其推廣到加權WGSS函數,后來由Bezdek[7]擴展到加權WGSS的無限族,形成了FCM聚類算法的通用聚類準則。
2 模糊C均值聚類算法原理
模糊C均值聚類算法原理[8]描述如下:
設樣本空間為: ,數據矩陣為:
。
FCM思想即將n個樣本劃分為c類( ),記 為c個類的聚類中心,其中 。
令 為隸屬度矩陣, 表示第k個樣本 屬于第i類的隸屬度( ), 。定義目標函數: , 。
FCM的聚類準則即確定U、V,使 最小。
FCM一般步驟如下:
Step1:初始化,確定c、m、初始隸屬度矩陣 及隸屬度終止容限 和最大迭代次數;
Step2:利用下式計算第 步的聚類中心 :
;
Step3:修正隸屬度矩陣 ,計算目標函數 :
其中: ;
Step4:判斷是否滿足終止條件,滿足則退出程序;否則, ,轉Step2。
3 實驗仿真
為了驗證算法的有效性,選取數據如表1所示。數據選自2013年《中國統計年鑒》[9]。
程序利用matlab軟件編寫,具體流程如下:
Step1:利用matlab內置函數dendrogram繪制聚類樹形圖,根據樹形圖大概確定分類數c;
Step2:初始化,m=3, =1e-6,隨機化 ;
Step3:調用fcm函數。
樹形圖如圖1所示:
由圖1可知,大體上可以分為四類,所以c=4。調用fcm函數,結果如下:
第一類:北京、上海、廣州;
第二類:石家莊、長春、哈爾濱、福州、濟南、鄭州、長沙、西安;
第三類:太原、呼和浩特、合肥、廈門、南昌、南寧、海口、貴陽、昆明、拉薩、蘭州、西寧、銀川、烏魯木齊;
第四類:天津、沈陽、大連、南京、杭州、寧波、青島、武漢、深圳、重慶、成都。
4 結論
由實驗結果可知,FCM算法能較好地對數據樣本進行分類,但由于算法本身對初始聚類中心、初始隸屬度的依賴性較強,所以,要使其發揮更好地作用,則需要進一步對其進行改進。
參考文獻
[1] E. Hartuv and R. Shamir, A clustering algorithm based on graph connectivity [J], Inf. Process. Lett., 76, 175 -181,2000.
[2] Laszlo M,Mukherjee S.A genetic algorithm using hyper-quadtrees for low-dimensional K-means clustering[J]. IEEE Trans. Pattern Analysis and Machine Intelligence . 28(4),533 – 543,2006.
[3] 肖宇.聚類分析及其在圖像處理中的應用[D]. 北京交通大學,2012.
[4] J. Chiang and P. Hao, A new kernel-based fuzzy clustering approach: Support vector clustering with cell growing [J]. IEEE Trans. Fuzzy Syst, 2003,11(4),518-527.
[5] 曾山. 模糊聚類算法研究[D]. 華中科技大學,2012.
[6] 高新波. 模糊聚類分析及其應用[M]. 西安電子科技大學出版社, 2004.
[7] Bezdek J C. Pattern Recognition with Fuzzy Objective Function Algorithms [M]. Plenum Press, New York, 1981.
[8] 何正風. MATLAB概率與數理統計分析(第2版) [M], 機械工業出版社,2012.
[9] 中國統計年鑒,http://data.stats.gov.cn, 2013.
○1作者簡介:張洪艷:女,講師,碩士研究生。主要研究方向:機電一體化,檢測技術與自動化裝置,人工智能等。endprint