鄰域系統的一種粒化方法及應用
羅 來 鵬
(華東交通大學 理學院,南昌 330013)

摘要:鄰域系統是一類具有兼容性與應用性的系統,關于它的粒化一般采用相似度加閾值的方法.基于該方法在閾值確定上的主觀性以及不確定計算上結果復雜性,提出一種模糊聚類加統計量的方法,該方法在計算上不僅仍保留Pawlak粗糙集系統一些不確定性度量性質,而且在閾值的確定上更為客觀;最后示例說明了該方法的有效性.
關鍵詞:鄰域系統;粗糙集;粒計算;模糊聚類
doi:10.16055/j.issn.1672-058X.2015.0011.004
收稿日期:2015-05-04;修回日期:2015-06-10.
作者簡介:羅來鵬(1973-),男,江西吉水人,副教授,碩士,從事粗糙集與粒計算研究.
中圖分類號:TP311.32文獻標志碼:A
粒計算是近些年發展起來的一種信息處理方法,是人工智能研究的一個熱點,它融合了模糊集理論、粗糙集理論、商空間理論等新型智能信息處理理論,在模式識別、數據挖掘、圖像處理等鄰域得到了廣泛應用,極大地推動了信息科學的發展.粗糙集[1]是1965年由波蘭學者Z.Pawlak提出的一種處理不確定性問題的數學理論,是目前三大粒計算模型之一,在信息科學、管理科學等領域有著廣泛應用.它以等價關系為基礎,建立論域分類,在此基礎上通過計算分類與概念之間的集合關系對數據庫進行屬性約簡,同時利用集合的上、下近似關系獲取分類規則.等價關系以及由此決定的等價類是Pawlak粗糙集的基礎性內容.等價類構成這個系統的基本知識,因而粗糙知識具有粒度性.近幾年從粒的角度來理解和發展粗糙集取得了很多成果[2,3].在現實中,由于數據的復雜性、不確定性、不完備性,很多數據很難滿足Pawlak粗糙集條件,也就是說,很多信息系統很難從等價關系角度建立系統的基本知識.為此,很多學者對Pawlak粗糙集進行推廣,比如鄰域系統就是一種更加貼近實際應用的一種系統.由于鄰域系統的屬性是連續的,通過等價類建立它的基本知識意義不大,因此開展鄰域系統的粒化工作是粗糙集的一個值得研究重要問題,近一些年取得很多成果[4-10].縱觀這些方法,發現研究的出發點是從原來的等價關系變為鄰域關系,將等價類變為鄰域來刻畫.此時,一個對象的鄰域怎么來計算就顯得很重要.大多數情況下是根據相似度加閾值的方法來計算一個對象的鄰域,但是該方法閾值選取具有很大的主觀性和隨機性,而且相似性不滿足傳遞關系,使得計算一個集合的近似刻畫結構不清晰.基于這些,此處采用聚類方法計算一個對象的鄰域,并通過引入一個統計量的方法計算最佳的閾值方法.
1Pawlak粗糙集[1]


Pawlak粗糙集建立在等價關系上,要求數據是離散型的,而在實際應用中數據比這個復雜得多,比如連續型數據就是一種非常普遍的信息系統,對于這類系統如果從等價類角度來建立基本知識顯然不可取,意義不大.因此為了更好拓廣應用范圍,必須將Pawlak粗糙集進行拓展,將等價關系拓展為更為一般的關系.
2鄰域粗糙集
定義3[4,5]設I=(U,R,V,F,δ)為一個鄰域信息系統,U是有限對象的集合,R為屬性集,V為屬性值域,F為對象在屬性上的映射,δ為鄰域閾值,并且0≤δ≤1,如果R=C∪D,C表示條件屬性,D表示決策屬性,那么鄰域系統又稱為鄰域決策系統.


3等價關系與鄰域關系
等價關系滿足自反性、對稱性、傳遞性,而鄰域關系滿足自反性、對稱性,傳遞性未必能滿足.當δ=0時,鄰域關系就退化為等價關系,因此等價關系只是鄰域關系的一種特殊情形,而鄰域關系是在Pawlak系統基礎上建立的一種新的更具有普遍性的關系,這種關系極大豐富了粗糙集的理論與應用研究.Pawlak粗糙集等價類構成論域上的一個劃分,而鄰域粗糙集鄰域構成論域上的一個覆蓋.正因為這樣,計算一個概念在鄰域系統上的上、下近似和精度比Pawlak的系統要復雜.
在鄰域系統中,閾值δ的大小決定一個對象的鄰域,從而也就影響到一個概念在鄰域系統的上、下近似集以及系統分類精度等問題,通常情況下,δ越小,鄰域系統粒化的粒就越大,δ越大,鄰域系統的粒就越小,顯然這兩種粒化所得到結果都不能很好刻畫系統真實本身,都不利于從粒度角度研究粗糙鄰域系統,比如鄰域分類精度問題.因此,如何更為客觀地確定δ的大小,對于一個鄰域系統的粒化及不確定度量非常重要.為此,引入模糊聚類加統計量的方法對δ的取值進行優化,從而得到系統更好的粒化結果.該方法主要是根據統計學中方差分析理論,對不同的δ進行評價,最終得到一個較合理的值.
4模糊聚類
聚類是數據挖掘中比較重要的一種技術,它是基于所討論對象相似性大小的一種非監督學習方法,該方法在模式識別等很多領域都有廣泛的應用.模糊聚類是一種根據對象的特征,通過建立相似矩陣,計算等價矩陣,最后根據閾值得出聚類結果的一種動態聚類技術.它一般要求數據對象的特征是數值連續型,因此將模糊聚類引入到鄰域系統的粒化研究是完全可以的.模糊聚類一般分4步:數據預處理;相似矩陣的建立;模糊等價矩陣的計算;根據閾值,由等價矩陣得出聚類結果.
類中元素相似度大,而類之間元素相異度大,說明分類顯著,為此引一個統計量.

5實例應用
表1是9個地點的水質檢測情況,其中x1,x2,…,x9表示9個檢測地點,pH*,DO,CODMn,NH3-N為檢測指標,顯然這是一個鄰域系統,下面對其進行粒化處理,所使用的方法是模糊聚類加參數閾值評價方法,具體結果如表1.
(1) 根據模糊聚類方法利用傳遞閉包得到等價矩陣如下(圖1):

表1 水質測量

圖1 等價矩陣
(2) 根據表1具體值粒化分類,有幾種結果:當閾值λ=0.9時,系統可以粒化為三類:{x1,x2,x3,x4,x6,x8},{x5,x7},{x9};λ=0.94時,系統可以粒化為4類:{x1,x2,x3,x4,x6,x8},{x5},{x7},{x9};λ=0.95時,系統可以粒化為6類:{x1},{x2,x6},{x3,x4,x8},{x5},{x7},{x9}.
(3) 將不同的λ值所對應的分類,設置顯著性水平為0.25進行F統計方差分析,各臨界值分別為F0.25(λ=0.9)=7.16,F0.25(λ=0.94)=7.76,F0.25(λ=0.95)=14.9,F檢驗值分別為Fλ=0.9=4.46,F0.94=7.78,F0.95=9.47.
(4) 綜合上述分析,當λ=0.94時分類特別顯著,因此系統最好的粒化結果應該為{x1,x2,x3,x4,x6,x8},{x5},{x7},{x9}.
6結論
主要討論了鄰域系統的一種粒化方法,該方法是根據以往常見的方法,針對閾值確定問題就如何提高它的有效性進行展開的,該方法比相似度加閾值方法具有更好的優越性,為進一步拓展鄰域系統的粒化提供了另外一種思路.從應用實例來看,所得結果基本反映實際情況.
參考文獻:
[1] PAWLAK Z.Rough Sets[J].International Journal of Computer and Information Science,1982,11(5):341-356
[2] 郭翠峰,胡鵬,胡展閎.區間值模糊目標信息系統的規則提取[J].重慶工商大學學報:自然科學版,2011,28(5):509-512
[3] 孫文.基于雙論域的一般多粒度模糊粗糙集[J].重慶工商大學學報:自然科學版,2015,32(3):12-15
[4] 唐朝輝,陳玉明.鄰域系統的不確定性度量方法[J].控制與決策,2014,29(4):691-695
[5] 楊習貝,楊靜.鄰域系統粗糙集模型[J].南京理工大學學報,2012,36 (2):291-295
[6] LIN G P,QIAN Y H,LI J J.NMGRS: Neighborhood-based Multigranulation Rough Sets[J].International Journal of Approximate Reasoning,2012(53):1080-1093
[7] WANG L J,YANG X B,YANG J Y,et al.Relationships among Generalized Rough Sets in Six Coverings and Pure Reflexive Neighborhood System[J].Information Sciences,2012(207):66-78
[8] CHEN Y M,WUA K SH,CHEN X H,et al.An Entropy-based Uncertainty Measurement Approach in Neighborhood Systems[J].Information Sciences,2014(279):239-250
[9] YANG X B,ZHANG M,DOU H L,et al.Neighborhood Systems-based Rough Sets in Incomplete Information System[J].Knowledge-based Systems,2011(24):858-867
[10] SYAU Y R,LIN E B.Neighborhood Systems and Covering Approximation Spaces[J].Knowledge-based Systems,2014(66):61-67
A Granulation Approach and Application in Neighborhood System
LUO Lai-peng
(School of Sciences,East China Jiaotong University,Nanchang 330013,China)
Abstract:Neighborhood system is a system with more compatibility and application.Its granulation generally adopts the method of similarity and the threshold.The main shortcomings of the method are the subjectivity of threshold and the complex of calculation results.In this paper, a new approach that adopts fuzzy clustering and statistics is supposed.The approach can not only keep some uncertainty measurement properties of Pawlak rough set system,but also is more objective in the threshold.The example shows the effectiveness of the approach.
Key words: neighborhood system; rough set; granular computing; fuzzy clustering