鮑國強,應文豪,蔣亦樟,張英,王駿,王士同
(1. 江南大學 數字媒體學院,江蘇 無錫 214122; 2. 江蘇省媒體設計與軟件技術重點實驗室,江蘇 無錫 214122;3. 常熟理工學院 計算機科學與工程學院,江蘇 常熟 215500)
近年來,面向復雜非線性數據的模糊聚類問題得到了研究人員的廣泛關注[1-6]。在無監督學習環境中為了提高復雜非線性數據的可分性,一個重要的研究思路是使用非線性映射將數據映射到高維空間中。在眾多非線性映射方法中,核方法作為經典的隱性映射方法得到了廣泛的應用[5-13]。研究表明,核方法通過使用核函數代替內積運算,將待分類數據隱性地映射到高維空間,從而有助于復雜非線性數據的學習。但是,核方法還存在著諸多局限性,尤其是如何針對不同的問題選擇合適的核函數和相關參數,這都會影響算法的聚類效果。
模糊系統因其強大的不確定性系統建模能力、優良的可解釋性和出色的泛化能力,近年來在復雜非線性數據學習問題中得到了大量的研究。在已有的經典模糊系統中,Takagi-Sugeno-Kang(TSK)[14-17]模糊系統由于其良好的解釋性和簡潔性得到了廣泛應用。在TSK模糊系統中,其規則前件部分通過顯性映射方式(本文稱之為模糊特征映射),將輸入數據映射到高維空間中去。從本質上講,模糊特征映射可以視為一種特殊的非線性映射方式。基于此,本文將輸入數據進行相應的非線性映射。在具體實現過程中我們發現,經模糊特征映射后的特征維數過高,這會增加計算量,同時也導致了數據的冗余。為此,本文通過引入多層遞階融合機制和主成分分析,提出新型的基于多層遞階融合的模糊特征映射新方法。并將之與經典模糊聚類技術相結合,進一步提出基于多層遞階融合模糊特征映射的模糊C均值聚類新方法。經實驗驗證,本文算法在處理復雜非線性數據時能夠取得比傳統模糊聚類算法更有效的聚類效果。
Takagi-Sugeno-Kang模糊系統模型[18-23]是最重要的用于建模與智能控制的模糊模型之一。對于經典的TSK模糊模型,最常用的模糊推理規則的定義如下:
第k條模糊規則:



通常采用高斯函數作為模糊隸屬函數,其計算公式為








TSK模糊模型的訓練問題轉化為式(13)線性回歸模型的參數學習問題[24]:

從式(13)中可以觀察到,輸入向量經式(8)~(10)計算,可以變換為一個維的高維向量,本文中我們將這一轉換過程稱為模糊特征映射。與已有核方法中的隱性映射相比,模糊特征映射具有以下特點:1)它是一種顯性映射方式,用戶可以在高維特征空間中得到數據的顯式表示方法;2)模糊特征映射基于模糊規則進行構建,而模糊規則本身具有較強的可解釋性;3)輸入向量經模糊特征映射后得到的高維特征向量的維數可以由模糊規則數確定,這有利于用戶控制高維空間中數據的復雜程度。
原數據通過模糊特征映射,得到其在高維空間中的新表示。但是作為單層映射結構,會因映射后的特征維數過高使得數據變得混亂和冗余,繼而影響算法后續的聚類效果。研究表明[25-26],將單層映射結構改造為多層映射結構,可以有效地提高算法對復雜非線性數據的學習能力。為此,本文引入多層遞階融合的概念來構造新型的映射,提出基于多層遞階融合的模糊特征映射新方法(MLHFFFM)。通過對每層模糊特征映射之后的高維特征表示進行PCA降維,再進行相應的信息補充,形成新的融合層,依次進入下一層的壓縮融合過程,其結構如圖1所示。

圖 1 MLHFFFM算法結構圖Fig. 1 Structure of MLHFFFM algorithm
基于多層遞階融合的模糊特征映射新方法MLHFFFM算法描述如下:
輸入 給定一個數據集D={X, Y},設置初始模糊規則數K,分層融合層數S。
1) 對原數據進行第一層的模糊特征映射(初始層)
④ 再經過式(8)~(10)的轉化,得到映射后高維空間中的數據矩陣。
2) 多層遞階融合
② For i=2:(S-1);
③ 重復步驟1),對原數據進行模糊特征映射,得到數據矩[陣];
⑥ end;
本節中,將多層遞階融合模糊特征映射與經典模糊聚類算法FCM相結合,提出基于多層遞階融合模糊特征映射的模糊C均值聚類算法。MLHFFFM-FCM算法描述如下:
輸入 給定一個數據集D={X, Y},設置初始模糊規則數K,分層融合層數S。
1) 通過基于多層遞階融合的模糊特征映射,將輸入數據X轉化為。
輸出 模糊劃分矩陣U。
為了驗證MLHFFFM-FCM算法在復雜非線性數據分析上的有效性,本節從3個方面進行對比分析:1)各FCM演變算法之間聚類效果的對比實驗;2)單層映射結構與多層遞階融合映射結構的聚類效果對比實驗; 3)關鍵參數敏感性的對比實驗。
為了對各類算法的聚類性能進行對比,本文采用NMI(normalized mutual information)和RI(rand index)作為實驗評價指標。這兩個指標的值越接近1,說明算法聚類性能越好。其計算公式如下:
1) NMI

2) RI

我們采用UCI真實數據集(http://archive.ics.uci.edu/ml/)來評估本文算法。為了測試實驗應用數據集的廣泛性以及避免選取數據集的偶然性,選擇其中7個具有代表性的數據集Ar2、Diabetes、Zoo、Australian、Breast、Heart、Chronic_Kidney_Disease進行測試,其中數據集的相關信息如表1所示。同時本文選取5種經典的聚類算法與MLHFFFM-FCM算法進行對比實驗,分別為FCM算法、PCA-FCM算法、ELM-FCM算法、KFCM-K算法以及KFCM-F算法。所有實驗運行平臺的配置如下:酷睿 i3 3.6 GHz CPU,3.42 G RAM,32位Windows 7操作系統,MATLAB R2012b編程環境。另外各算法相關說明及其參數設置如表2所示,其中各算法涉及的模糊指數m的尋優范圍均為{1.2, 1.4, 1.6, 1.8, 2.0, 2.2, 2.4, 2.6, 2.8, 3.0, 3.2,3.4, 3.6, 3.8, 4.0}。

表 1 實驗數據集Table 1 Experimental data sets

表 2 各算法的說明以及相關參數設置Table 2 The description of the algorithm and related parameters
為了驗證MLHFFFM-FCM算法的有效性,本節對算法進行對比實驗測試。在本實驗中,將初始模糊規則數r設置為30,多層遞階融合層數設置為5層,并根據表2的實驗相關參數設置,分別對各算法重復運行10次。最終的實驗中各算法的參數取值情況和實驗結果如表3和表4所示。

表 3 各算法參數取值情況Table 3 Parameter values of each algorithm

表 4 各算法的運行結果Table 4 Results of each algorithm
從表4中可以明顯地看出,在聚類精度上,文中涉及的對比算法只能在某個或某幾個數據集上取得較優的結果,而MLHFFFM-FCM算法不僅在所有的測試數據集上取得滿意的結果,并且還有著明顯的提高。這說明了MLHFFFM-FCM算法的有效性,也進一步說明了該算法處理復雜非線性數據的強大能力。
為了體現本文算法引入的多層遞階融合方法的優越性,本節實驗針對多層遞階融合映射結構對FCM算法性能的影響進行實驗與分析。實驗在模糊規則數設置相同的情況下,分別采用單層映射結構和多層遞階融合映射結構對原輸入數據進行非線性映射,將映射后的數據采用FCM進行聚類。實驗最終的參數取值情況和結果如表5和表6所示,其中因受篇幅所限,僅在表6中給出RI指標結果,NMI與之有類似的結果,不再列出。
從表5和表6中可以明顯地觀察出,相比于單層映射結構,基于多層遞階融合映射結構的模糊聚類方法能夠取得更好的學習效果。這是由于在單層映射之后的數據存在冗余信息,而在壓縮之后又會導致信息缺失。但是多層遞階融合的映射結構是建立在單層映射結構的基礎上,采用PCA技術對每一層模糊特征映射得到的高維特征表示進行壓縮,再對應地結合每一層數據信息融合形成的。因此通過多層遞階融合的方法,可以有效地精簡冗余信息,同時對每一層進行適當的信息彌補。這也充分體現了本文提出的多層遞階融合映射結構的優越。

表 5 兩種算法結構的參數取值情況Table 5 Parameter selection of two algorithms

表 6 兩種算法結構的RI_mean性能指標Table 6 Performance index of two algorithms
模糊規則數r作為MLHFFFM-FCM算法中的關鍵參數,本節針對該參數進行參數敏感性實驗。這里為了讓實驗結果能夠直觀地進行觀察與對比,我們同時對KFCM-F算法中的關鍵參數進行參數敏感性實驗,進而研究模糊規則數這一關鍵參數對MLHFFFM-FCM算法性能的影響。實驗中,MLHFFFM-FCM模糊規則數r的實驗取值范圍為{5, 10, 15, 20, 25, 30, 35, 40, 45, 50},KFCM-F算法中核參數的實驗取值范圍為{0.1,1.5, 10, 50, 100, 150, 200, 500, 1 000},實驗最終結果分別如圖2和圖3所示。

圖 2 KFCM-F算法性能隨變化的影響Fig. 2 Effect of on the performance of KFCM-F

圖 3 MLHFFFM-FCM算法性能隨模糊規則數r變化的影響Fig. 3 Effect of fuzzy rules r on the performance of MLHFFFM-FCM
本文提出的MLHFFFM-FCM算法,是一種采用新型的顯性映射方式來處理復雜非線性數據的無監督學習方法。相比于現有的核函數映射方法,MLHFFFM-FCM算法在取得良好聚類效果的同時,還對算法中模糊規則數不敏感,這更有利于算法在實際應用中的選用。但是本文提出的MLHFFFM-FCM算法仍然具有一定的缺陷,例如對于高維數據,其時間開銷較大。如何有效克服這些問題,將是今后進一步研究的重點。