李星星

摘 ?要:隨著科技的不斷發展,數據壓縮技術的不斷成熟,海量信息特征的時代也隨之到來。而這些信息樣本之間很多是模糊近似關系,那么在這種類似場合中,我們可以用模糊等價關系(fuzzy equivalence relation)來進行聚類分析,度量信息樣本的相似性程度,最終可用于判別分類。
關鍵詞:信息特征;模糊等價關系;信息度量
以上闡述了模糊粗糙集模型中的一些信息度量方法[1,2],本文中也采用了其中的交互信息來逐一判斷某一特征所攜帶的信息量以及特征與特征之間是否是冗余的,并分析其在最終的分類模型中的判別能力。
二、交互信息的應用
交互信息(mutual information)的應用范圍非常廣泛,涉及到機器學習中的特征選擇(feature selection)、醫學影像學(medical imaging)、統計力學(statistical mechanics)、宇宙學(cosmology)等眾多領域。在很多應用范疇內,具有最大化的交互信息便可以提高隸屬性,當然,這通常等同于最小化條件熵。
在機器學習范疇內,交互信息經常用來作為特征選擇的一個準則。它可以被用來描述樣本之間的相關性以及冗余性,從而可以用來選擇出那些判別能力強而相互之間又不會出現冗余現象的特征。
交互信息還可以用來確定某一數據集中兩個不同聚類之間的相似性。因此,相對于傳統的蘭德指數(Rand index)來說,交互信息具有更大的優勢。
交互信息的應用極其廣泛,除了上面列舉的幾個不同的領域,還有很多領域內均有涉及交互信息,在此就不會逐一介紹了。
參考文獻
[1] ?Wang C,Qi Y,Shao M,et al. A Fitting Model for Feature Selection With Fuzzy Rough Sets[J]. IEEE Transactions on Fuzzy Systems,2017,25(4):741-753.
[2] ?Hu Q,Yu D. ENTROPIES OF FUZZY INDISCERNIBILITY RELATION AND ITS OPERATIONS[J]. International Journal of uncertainty,fuzziness and knowledge-based systems,2008,12(05):575-589.