作者簡介:郭凱紅(1973-),男,河南鎮平人,教授,博導,博士,主要研究方向為不確定性建模與智能計算、信息融合、決策理論與方法;吳崢(1999-),男,山東濟南人,碩士研究生,主要研究方向為不確定性建模與智能計算、模糊聚類分析;李冬(1979-),男(通信作者),遼寧沈陽人,副教授,碩導,博士,主要研究方向為數據挖掘、人工智能、社交網絡(dongli@lnu.edu.com).
摘 要:針對聚類算法中特征數據對聚類中心貢獻的差異性及算法對初始聚類中心的敏感性等問題,提出一種基于知識量加權的直覺模糊均值聚類方法。首先將原始數據集直覺模糊化并改進最新的直覺模糊知識測度計算知識量,據此實現數據集特征加權,再利用核空間密度與核距離初始化聚類中心,以提高高維特征數據集的計算精度與聚類效率,最后基于類間樣本距離與最小知識量原理建立聚類優化模型,得到最優迭代算法?;赨CI人工數據集的實驗結果表明,所提方法較大程度地提高了聚類的準確性與迭代效率,分類正確率及執行效率分別平均提高了10.63%和31.75%,且具有良好的普適性和穩定性。該方法首次將知識測度新理論引入模糊聚類并取得優良效果,為該理論在其他相關領域的潛在應用開創了新例。
關鍵詞:知識測度;直覺模糊均值聚類算法;數據加權;聚類中心初始化
中圖分類號:TP182 文獻標志碼:A 文章編號:1001-3695(2023)04-021-1088-07doi: 10.19734/j.issn.1001-3695.2022.07.0444
Abstract:Aiming at the differences in the contribution of feature data to the cluster centers in the clustering algorithm and the sensitivity of the algorithm to the initial cluster centers, this paper proposed a weighted knowledge amount-based intuitionistic fuzzy C-means method(WKAIFCM). Firstly, this method fuzzed the original dataset intuitionistically and improved the latest intuitionistic fuzzy knowledge measure to calculate the knowledge amount which utilized in the feature weighting of dataset. Secondly, this method initialized the cluster centers to improve the calculation accuracy and clustering efficiency of high-dimensional feature dataset by kernel space density and kernel distance. Finally, based on the principle of sample distance between clusters and the principle of minimum knowledge amount, this method established a clustering optimization model to get the optimal iterative algorithm. The experimental results based on the UCI artificial dataset show that the proposed method can greatly improve the accuracy and iterative efficiency of clustering. The classification accuracy and execution efficiency are increased by 10.63% and 31.75% respectively, and this method has good universality and stability. This paper introduces a new theory of knowledge measure into fuzzy clustering for the first time and gets extraordinary results, which creates a new case for the potential application of this theory in other related fields.
Key words:knowledge measure; intuitionistic fuzzy C-means method; weighted data; initialization of the cluster
0 引言
模糊均值聚類算法(fuzzy C-means method,FCM)[1,2]是對復雜樣本進行分類的一種有效方法,目前廣泛應用于圖像處理、模式識別等研究領域。FCM算法將K均值聚類算法擴展到模糊領域,把確定的0,1值改造為隸屬度函數使聚類的迭代效果更加精確,從而更加高效地處理不確定信息。但傳統FCM算法存在某些不足之處,如數據各維度對聚類中心貢獻缺少差異性、算法對初始聚類中心的敏感性等。事實上,傳統FCM算法主要有兩類缺陷:a)算法中默認待聚類樣本的各維特征對聚類的貢獻是相同的,而在實際聚類迭代中,各維數據對于聚類中心的貢獻是有差異的,因此需要通過特征加權的方式體現這種差異;b)算法中對于初始聚類中心的確定,大多數仍然基于隨機樣本法,這種方法不僅會增加迭代次數和減慢迭代速度,還有可能使目標函數陷入局部最小值這樣的困境。為解決這類問題,逐漸有學者提出加權的FCM算法[3~10],這種方法通過對原始數據集加權來體現各維數據對聚類中心貢獻的差異性。加權FCM算法主要分為三類:a)使用距離度量的加權方法[3~5];b)使用蝙蝠算法等特殊方法的加權方法[6, 7];c)直覺模糊熵權法[8~10]。其中,直覺模糊熵權法過去多用于決策領域,近年來逐漸應用于模糊聚類方法中。Kumar等人[8]提出直覺模糊信息熵的核模糊聚類算法,在聚類算法目標函數中同時引入信息熵和核函數的概念,但這一類方法在直覺模糊熵優化目標函數時,為同時滿足類間距離最小和直覺模糊熵最大的優化條件,將直覺模糊熵改為對立值形式,即當直覺模糊熵的對立值最小對應直覺模糊熵最大時獲得最佳分布,沒有詳細分析取熵的對立值最小的原因。劉群[9]提出一種基于直覺模糊熵加權的聚類算法,但使用的相似矩陣聚類方法不適用于大型數據。Wang等人[10]提出一種基于直覺模糊熵加權的模糊均值聚類方法,在加權過程中僅使用熵的對立信息,未具體分析熵與權重的內在關系。
已有文獻指出,直覺模糊熵[11]在理論上存在某種固有缺陷。為克服直覺模糊熵中的反直覺問題,Szmidt等人[12]首次提出直覺模糊知識測度的概念。關于這方面,有學者進行了更加深入的研究[11,12],指出直覺模糊知識量相對于直覺模糊熵的優勢。本文基于FCM算法及最新知識測度理論,提出一種基于知識量加權的直覺模糊均值聚類方法(weighted knowledge amount-based intuitionistic fuzzy C-means method,WKAIFCM)。首先將原始數據集直覺模糊化并利用直覺模糊知識量實現數據集特征加權;然后利用核空間密度與核空間距離實現聚類中心初始化,改善FCM算法對初始聚類中心的敏感性問題,同時提高高維特征數據集的聚類效率;最后基于最小知識量原理建立聚類非線性優化模型,得到最優迭代算法。通過UCI人工數據集實驗及對比分析,驗證了所提方法的優良性。本文首次將知識測度新理論引入模糊聚類并取得優良效果,為該理論在其他相關領域的潛在應用開創了新例。
1 知識測度相關工作
Zadeh[13]提出模糊集的概念,Atanassov[14]進一步將其推廣至直覺模糊集。鑒于直覺模糊集理論在應對不確定性方面的高度靈活性,在過去10年里,相關學者從不同角度對其進行了廣泛探索。直覺模糊熵作為一個研究熱點一直備受關注。就基本結構而言,模糊熵有直覺型熵[15]、概率型熵[16]和非概率型熵[17]三種類型。直覺型熵只考慮從猶豫度方面建模。概率型熵則借鑒了香農熵的概念。這兩種熵在公理結構上與非概率型熵有很大的不同,而后者顯然受到了更多的關注。盡管如此,非概率型熵仍存在一些缺陷,特別是針對隸屬度和非隸屬度相等這一特殊情形,直覺模糊熵無法作出有效的區分與判決。事實上,直覺模糊熵是直接從經典模糊熵環境中衍生出來,在熵的度量過程中難以處理未知信息這一層面[10]。
針對上述問題,Szmidt等人[17]獨辟蹊徑對直覺模糊集所傳遞的知識量展開創新性研究。知識可視為特定環境下有用的信息,具有規律性、確定性、新穎性等特點。一般認為,知識的度量可視為模糊系統中熵的否定(negation)[18~20]。Guo[21]提出在直覺模糊背景下,知識的度量不應該簡單地視為熵的否定,認為在引入猶豫度后,知識量與熵沒有完全的自然邏輯關系。到目前為止,不同學者從不同角度嘗試處理直覺模糊知識的度量問題。一些研究強調了隸屬度與非隸屬度所傳遞的信息量[19,20],另一些則更關注直覺模糊集固有的模糊性[18,21,22]。Guo等人[23,24]對此有更詳盡的評述。必須指出,以上所述知識測度公理及模型都與熵直接相關[18~22],且未同時考慮信息量和固有模糊性。在最新的研究成果中,Guo等人[25]指出并論證了直覺模糊知識量的兩個主要方面,即信息量與信息清晰度,據此開創性地提出非依賴熵直覺模糊知識測度公理系統,并建立一種能夠描述主體對未知信息態度的單參測度模型。Guo等人[23]進一步提出能夠同時描述主體態度與偏好的雙參直覺模糊知識測度模型,以揭示在直覺模糊環境中某些心理認知方面的處理技巧。另一方面,Guo等人[24]提出一種從經典模糊集到區間直覺模糊集的知識測度建模的統一框架。郭凱紅等人[26]改進Hamming-Hausdorff距離,提出一種非參區間直覺模糊知識測度,首次將直覺模糊知識測度理論應用于圖像處理領域[24,26],取得優良效果。受此啟發,本文首次將知識測度最新成果引入模糊聚類中,提出基于知識量加權的直覺模糊聚類新方法。
4 實驗分析
為驗證本文方法的有效性和魯棒性,在真實數據集上進行仿真實驗,并與同類代表性方法進行對比分析。實驗分為三部分:a)算法有效性驗證實驗,實驗對象為包含iris、wine等在內的UCI人工數據集,并選用幾類有代表性的模糊聚類算法進行對比分析;b)數據集加權效果驗證實驗,利用幾種不同熵權方法對空中目標數據集進行加權,分別對加權后的聚類結果進行對比分析;c)聚類中心初始化效果驗證實驗,通過不同方法生成初始聚類中心及其真實類別,以此驗證方法的有效性及對聚類的影響。實驗所用數據集與仿真實驗環境如表1、2所示。此外,實驗中采用多種隸屬度函數生成方法并最終取效果最佳的方法。
4.1 聚類算法有效性驗證
本實驗利用所提WKAIFCM方法在UCI人工數據集上實現聚類分析,同時對比了經典的模糊均值聚類(FCM)、核模糊均值聚類(KFCM)、直覺模糊均值聚類(IFCM)等算法,重點比較最新提出的一些代表性方法,包括基于相異性度量的聚類方法(IK-DM)[30]、直覺模糊熵權聚類算法(IFEWFCM)[8]、基于高斯距離的核直覺模糊均值聚類算法(DBKIFCM)[31]、螢火蟲優化的模糊均值聚類算法(IFAFCM)[32]等不同方法,綜合對比分析以上各方法的性能指標及整體優良性。
首先以iris數據集及本文方法為例,簡述聚類實驗的基本策略。iris的實際分類和本文方法結果對比如圖1、2所示。iris數據集是四維數據,這里使用x、y、z軸來表示前三維數據,使用點的面積表示第四維數據,使用點的形狀表示該數據類別。其中,第一類能夠完全分開,第二、三類因數據集本身的相似性,不易被完全分離。從后續的聚類指標看,本文方法依然可以對iris數據集實現有效聚類。
UCI人工數據集的完整實驗結果如表3所示,性能表現最好的指標數據均加粗表示。從各類算法的具體過程而言,FCM和KFCM算法默認樣本各維對聚類中心的貢獻相同,沒有體現各維的差異性,且利用隨機樣本法初始化聚類中心,因此聚類正確率較低且迭代速度較慢。IK-DM算法利用聚類中心初始化方法提高了迭代速度,但聚類正確率仍然較低。IFEWFCM算法僅對數據進行特征加權,未改進目標函數的最優化求解過程,因此在聚類正確率上仍不理想。IFAFCM算法利用螢火蟲優化算法提高了聚類精度,在數據集維數較多的情況下所得優化結果可能會更精確,因此在wine數據集上的正確率優于本方法,但其計算復雜性減慢了迭代速度,相比本文方法效率很低。事實上,就wine而言,本文方法相比其他方法取得的雖不是最好的性能指標,就整體性能而言,無疑是優良的方法之一。綜合以上比較可知,本文所提WKAIFCM方法同時利用聚類中心初始化方法與知識量特征加權方法,對于各類數據集具有一定普適性,不僅聚類正確率明顯提高,在各數據集上的聚類迭代次數也銳減,整體性能明顯優于其他同類方法。
4.2 加權效果驗證
本實驗利用知識量實現空中目標數據集加權,對比了幾種不同直覺模糊熵權方法[9,10],檢驗不同加權聚類方法的權重中間結果與及聚類結果??罩心繕藬祿癁榉冻啥Y等人[33]提取20個彈道中段威脅目標的動態RCS,其均值特征、方差特征、極大極小值特征作為聚類指標的常用聚類數據集。
由不同方法生成的空中目標數據集特征權重如表4所示。本文的知識量權值排序與文獻[9]的兩種非概率型直覺模糊熵權排序一致,而文獻[10]所提直覺模糊熵的權值排序由于其內在缺陷性與其他測度的排序不一致。
空中目標數據集加權后的聚類結果如表5所示。原始數據集中,20個直覺模糊樣本分為三類,本文所提知識量加權聚類方法與文獻[9,10]聚類結果一致,驗證了本文所提知識量加權聚類方法的有效性。特別地,文獻[10]所得權值排序雖與其他方法不同,但其權重具體數值差距較小且數據類別較少,因此對最終聚類結果影響不大。
4.3 聚類中心初始化驗證
本實驗使用不同方法,包括本文方法、直覺模糊熵權初始化方法[10]、IK-DM方法[30]等,對UCI數據集實現聚類中心初始化,得到iris、wine等數據集不同的初始聚類中心及其真實類別,以驗證各方法的有效性及對聚類的影響。
本文及對比方法的聚類中心初始化效果如表6所示。為進一步直觀比較算法的運行效率,圖3給出不同算法在UCI數據集上運行的正確率和迭代次數。從識別出的類別數、準確率、迭代次數等方面看,本文所提聚類中心方法在所選數據集上能夠有效地生成初始聚類中心,具有較高的聚類迭代效率(迭代次數少),初始化正確率均高于其他方法,主要優勢在于:a)充分考慮數據集各維特征的差異性,利用客觀知識量實現數據集特征加權后進行聚類中心初始化;b)引入核密度等概念及最大最小值方法,更精確地從高密度區域中選擇出具有差異性的初始聚類中心。
5 結束語
針對傳統聚類算法中數據集各維特征對聚類中心貢獻的差異性及算法對初始聚類中心的敏感性等問題,提出一種基于知識量加權的直覺模糊均值聚類方法。本文主要創新工作包括:a)改進最新直覺模糊知識測度模型,利用客觀知識量實現原始數據集特征加權,真實體現數據集各維特征對聚類中心貢獻的差異性;b)引用核密度與核空間距離等高維空間概念與方法,提高加權數據集在高維特征下初始聚類中心的計算精度與聚類效率;c)利用最小知識量原理構造聚類優化模型,得到直覺模糊均值聚類的最優迭代算法。在五個數據集上分別設計了算法有效性、特征加權效果、聚類中心初始化效果三個不同驗證實驗,從不同角度檢驗所提方法的性能。實驗結果表明,本文方法能夠較大程度地提高聚類的準確性與迭代效率,具有良好的普適性與魯棒性,整體性能明顯優于同類其他聚類方法。
參考文獻:
[1]Dunn J C. A fuzzy relative of the ISODATA process and its use in detecting compact well-separated clusters [J]. Journal of Cyberne-tics,1973,3(3): 32-57.
[2]Bezdek J C. Pattern recognition with fuzzy objective function algorithms[M]. [S.l.]:Kluwer Academic,1981.
[3]孫冬璞,祁光宇. 一種基于熵和距離加權的多視角模糊聚類算法: 中國,CN110503138A [P]. 2019-08-06. (Sun Dongpu,Qi Guangyu. A multi-view fuzzy clustering algorithm based on entropy and distance weighting: China,CN110503138A [P]. 2019-08-06.)
[4]Hou Wenhui,Wang Yiting,Wang Jianqiang,et al. Intuitionistic fuzzy C-means clustering algorithm based on a novel weighted proximity measure and genetic algorithm [J]. International Journal of Machine Learning and Cybernetics,2021,12(3): 859-875.
[5]張煜,陸億紅,黃德才. 基于密度峰值的加權猶豫模糊聚類算法 [J]. 計算機科學,2021,48(1): 145-151. (Zhang Yu,Lu Yihong,Huang Decai. Weighted hesitant fuzzy clustering based on density peaks [J]. Computer Science,2021,48(1): 145-151.)
[6]趙興旺,梁吉業. 一種基于信息熵的混合數據屬性加權聚類算法 [J]. 計算機研究與發展,2016,53(5): 1018-1028. (Zhao Xingwang,Liang Jiye. An attribute weighted clustering algorithm for mixed data based on information entropy [J]. Journal of Computer Research and Development,2016,53(5): 1018-1028.)
[7]常雪,石鴻雁. 基于改進蝙蝠算法優化的FCM聚類算法 [J]. 計算機與現代化,2020(5): 29-33,38. (Chang Xue,Shi Hongyan. An optimal FCM clustering algorithm based on improved bat algorithm [J]. Computer and Modernization,2020(5): 29-33,38.)
[8]Kumar D,Agrawal R K,Verma H. Kernel intuitionistic fuzzy entropy clustering for MRI image segmentation [J]. Soft Computing,2020,24(6): 4003-4026.
[9]劉群. 基于熵權相似度的直覺模糊聚類分析研究及其應用 [D]. 南充: 西華師范大學,2017. (Liu Qun. Research and application of intuitionistic fuzzy cluster analysis based on entropy weight similarity [D]. Nanchong: China West Normal University,2017.)
[10]Wang Fei,Geng Yushui,Zhang Huanying. An improved fuzzy C-means clustering algorithm based on intuitionistic fuzzy sets [C]// Proc of the 9th International Conference on Computer Engineering and Networks. 2020: 333-345.
[11]Guo Kaihong,Song Qian. On the entropy for Atanassov’s intuitionistic fuzzy sets: an interpretation from the perspective of amount of know-ledge [J]. Applied Soft Computing,2014,24: 328-340.
[12]Szmidt E,Kacprzyk J,Bujnowski P. How to measure the amount of knowledge conveyed by Atanassov’s intuitionistic fuzzy sets [J]. Information Sciences,2014,257: 276-285.
[13]Zadeh L A. Fuzzy sets [J]. Information and Control,1965,8(3): 338-356.
[14]Atanassov K T. Intuitionistic fuzzy sets [J]. Fuzzy Sets amp; Systems,1986,20(1): 87-96.
[15]Burillo P,Bustince H. Entropy on intuitionistic fuzzy sets and on interval-valued fuzzy sets [J]. Fuzzy Sets and Systems,1996,78(3): 305-316.
[16]Hung Wenliang,Yang Miinshen. Fuzzy entropy on intuitionistic fuzzy sets [J]. International Journal of Intelligent Systems,2010,21(4): 443-451.
[17]Szmidt E,Kacprzyk J. Entropy for intuitionistic fuzzy sets [J]. Fuzzy Sets amp; Systems,2001,118(3): 467-477.
[18]Das S,Dutta B,Guha D. Weight computation of criteria in a decision-making problem by knowledge measure with intuitionistic fuzzy set and interval-valued intuitionistic fuzzy set [J]. Soft Computing,2016,20(9): 3421-3442.
[19]Nguyen N. A new knowledge-based measure for intuitionistic fuzzy sets and its application in multiple attribute group decision making [J]. Expert Systems with Applications,2015,42(22): 8766-8774.
[20]Nguyen N. A new interval-valued knowledge measure for interval-valued intuitionistic fuzzy sets and application in decision making [J]. Expert Systems with Applications,2016,56: 143-155.
[21]Guo Kaihong. Knowledge measure for Atanassov’s intuitionistic fuzzy sets [J]. IEEE Trans on Fuzzy Systems,2016,24(5): 1072-1078.
[22]Guo Kaihong,Zang Jie. Knowledge measure for interval-valued intuition-istic fuzzy sets and its application to decision making under uncertainty [J]. Soft Computing,2019,23(16): 6967-6978.
[23]Guo Kaihong,Xu Hao. Knowledge measure for intuitionistic fuzzy sets with attitude towards non-specificity [J]. International Journal of Machine Learning and Cybernetics,2019,10(7): 1657-1669.
[24]Guo Kaihong,Xu Hao. Preference and attitude in parameterized knowledge measure for decision making under uncertainty [J]. Applied Intelligence,2021,51(10): 7484-7493.
[25]Guo Kaihong,Xu Hao. A unified framework for knowledge measure with application: from fuzzy sets through interval-valued intuitionistic fuzzy sets [J]. Applied Soft Computing,2021,109(1): 107539.
[26]郭凱紅,王紫晴. Hamming-Hausdorff 距離下的區間直覺模糊知識測度及應用[J]. 軟件學報,2022,33(11):4251-4267. (Guo Kai-hong,Wang Ziqing. Hamming-Hausdorff distance-based interval-valued intuitionistic fuzzy knowledge measure and its application [J]. Journal of Software,2022,33(11):4251-4267.)
[27]Müller K R,Mika S,Rtsch G,et al. An introduction to kernel-based learning algorithms [J]. IEEE Trans on Neural Networks,2001,12(2): 181-201.
[28]Mercer J. Functions of positive and negative type,and their connection with the theory of integral equations [J]. Philosophical Trans of the Royal Society of London. Series A,1909,209: 415-446.
[29]Yager R R. Some aspects of intuitionistic fuzzy sets [J]. Fuzzy Optimization amp; Decision Making,2009,8(1): 67-90.
[30]廖紀勇,吳晟,劉愛蓮. 基于相異性度量選取初始聚類中心改進的K-means聚類算法 [J]. 控制與決策,2021,36(12): 3083-3090. (Liao Jiyong,Wu Sheng,Liu Ailian. Improved K-means clustering algorithm for selecting initial clustering centers based on dissimi-larity measure [J]. Control and Decision,2021,36(12): 3083-3090.)
[31]Gosain A,Dahiya S. A new robust fuzzy clustering approach: DBKIFCM[J]. Neural Processing Letters,2020,52(3): 1-22.
[32]孟學堯,郭倩倩,郭海儒. 一種改進螢火蟲算法的模糊聚類方法 [J]. 小型微型計算機系統,2021,42(6): 1165-1170. (Meng Xue-yao,Guo Qianqian,Guo Hairu. Fuzzy clustering method based on improved firefly algorithm [J]. Journal of Chinese Computer Systems,2021,42(6): 1165-1170.)
[33]范成禮,邢清華,付強,等. 基于直覺模糊核聚類的彈道中段目標識別方法 [J]. 系統工程與電子技術,2013,35(7): 1362-1367. (Fan Chengli,Xing Qinghua,Fu Qiang,et al. Technique for target recognition in ballistic midcourse based on intuitionistic fuzzy kernel clustering [J]. Systems Engineering and Electronics,2013,35(7): 1362-1367.)