李敏 楊亞鋒 李麗紅

摘要:屬性約簡是粗糙集理論的核心內容之一,傳統(tǒng)的屬性約簡每次只考慮去掉一個屬性后對原來知識系統(tǒng)的影響,或者利用區(qū)分函數(shù)進行約簡,但是當數(shù)據(jù)集較大時,區(qū)分函數(shù)范式轉換獲得解集具有一定的困難性,降低約簡效率。針對決策系統(tǒng)的屬性約簡與高效決策的粒度選擇問題,將?;攘亢途垲愊嘟Y合,由聚類結果選擇粒結構,再由?;攘康玫礁髁=Y構的重要度,從而進行屬性約簡。考慮同時去掉多個屬性,提高了效率;最后結合實例驗證此方法約簡與利用區(qū)分矩陣的方法約簡結果一致。
關鍵詞:屬性約簡;?;??;匾?區(qū)分矩陣
中圖分類號:TP18? ? ? ? 文獻標識碼:A
文章編號:1009-3044(2019)26-0246-03
開放科學(資源服務)標識碼(OSID):
隨著現(xiàn)實世界中不確定信息的不斷增加,粗糙集[1]、模糊集等這些處理不精確、不一致,不完整信息的數(shù)學工具受到越來越多人的關注,粗糙集理論是利用屬性約簡、信息熵[2]等概念來確定信息表達系統(tǒng)中差別屬性的重要性 ,簡化知識表達空間,并從數(shù)據(jù)中挖掘特征規(guī)則,通常是通過刪除冗余屬性來實現(xiàn)的。粒計算方法是以粒為求解問題的基本單位,人類在處理大量復雜信息時,由于人類認知能力有限,往往會把大量復雜信息按其各自特征和性能將其劃分為若干較為簡單的塊,每個被分出來的塊就被看成是一個粒,這樣處理信息的過程就稱為信息粒化,自1979年Zadeh提出信息粒度之后,研究人員便對信息粒度化的思想產生了濃厚的興趣,其中將?;瘑栴}與屬性約簡相結合,從相關實際問題的研究背景出發(fā),提出了多種信息系統(tǒng)屬性約簡的方法。史進玲,張倩倩,徐久成提出了多粒度決策系統(tǒng)屬性約簡的最優(yōu)粒度選擇[3];朱紅,丁世飛在基于屬性區(qū)分能力和AP聚類的基礎上,給出了屬性?;姆椒╗4];將二進制粒與粒計算結合,陳玉明等人提出了基于二進制粒與粒計算的屬性約簡[5];文獻[6-10]給出了基于粒計算,多粒度和鄰域熵下的屬性約簡。近年來,知識粒度作為一種新的屬性約簡方式受到研究人員們的關注,因此本文采用二進制粒對決策表進行?;?,計算屬性之間的相對依賴度及距離進行聚類;然后根據(jù)聚類結果選擇粒結構,計算不同粒結構下的粒集,再由?;攘康玫礁髁=Y構的重要度,進行屬性約簡,最后結合實例驗證方法的合理性。
1 基本知識
1.1屬性約簡相關概念
粗糙集中由于知識庫里的屬性并不是同等重要的,甚至其中某些屬性是冗余的,不利于分析問題,因此使得屬性約簡成為粗糙集理論比較重要的內容,有著廣泛的應用價值,屬性約簡即在保持知識庫分類能力不變的條件下,刪除其中不相關或不重要的屬性。
1.2 屬性粒化相關概念
為了更好地剖析和解決復雜的問題,粒計算將其抽象化為簡單的問題,信息粒在我們實際生活中普遍存在,抽象概括了現(xiàn)實問題。?;菍⒖傮w分解為部分,信息?;从沉巳祟惾绾翁幚砗痛鎯π畔ⅰ?/p>
3 實例分析
例:給定一個決策表[S=(U,A,V,f)]:其中對象集合[U={1,2,3,4,5}],條件屬性集[A={a,b,c,d}],決策屬性為[D],如表1所示。試化簡該決策表,并求出約簡。
第三步:根據(jù)屬性之間的相對依賴度,計算屬性之間的距離,并根據(jù)距離關系進行聚類。
計算屬性[a]與其他屬性之間的距離之和為[ab+ac+ad≈3.0115],同理屬性[b]與其它屬性距離之和為3.5804,屬性[c]與其它屬性距離之和為4.0048,屬性[d]與其它屬性距離之和為2.7268。根據(jù)距離關系,將屬性聚類為兩類:[{a,d}]、[{c,b}]。
第六步:通過區(qū)分矩陣的方法驗證合理性
依據(jù)決策表可以得到對應的區(qū)分矩陣,如表所示:
得到該決策系統(tǒng)的屬性約簡集合也為[{a,b}]或[{b,d}],從而驗證了此方法的合理性。
4 結論
以往的決策表屬性約簡的研究有基于信息熵、博弈論、區(qū)分矩陣等進行的,但是大多都基于等價關系給出,這種單一的方法不符合大數(shù)據(jù)時代所要求的效率問題。因此針對以上不足,本文基于?;攘颗c屬性重要度考慮同時去掉多個屬性,為屬性約簡開辟了新的途徑,使得約簡更加高效;本文所提出的算法中如果決策表里有新增加的屬性,只需計算該屬性與其他屬性的依賴程度和距離,重新考慮聚類,再計算?;攘亢土;匾冗M行約簡即可,同時也適用于動態(tài)約簡,比傳統(tǒng)的約簡算法節(jié)省了時間。
本文只是以一個簡單實例給出了可以多個屬性同時約簡的新方法,依然還有很多值得提高的地方,比如是否可以找到更合適的屬性聚類的方法與?;攘拷Y合,或者大數(shù)據(jù)時代何時選用這種方法等問題,這需要我們以后繼續(xù)深入研究,給出更加合理有效的約簡算法。
參考文獻:
[1] 劉保相.粗糙集對分析理論與決策模型[M].北京:科學出版社,2010:11-55.
[2] 于迎春.覆蓋粗糙集中基于信息熵的幾個定義[J].商業(yè)文化,2012(2):344.
[3] 史進玲,張倩倩,徐久成.多粒度決策系統(tǒng)屬性約簡的最優(yōu)粒度選擇[J].計算機科學,2018,45(2):153-156.
[4] 朱紅,丁世飛.基于屬性區(qū)分能力和AP聚類的屬性?;椒╗J].計算機科學,2016,43(2):95-97.
[5] 陳玉明,苗奪謙,焦娜.基于二進制粒與粒計算的屬性約簡.廣西師范大學學報(自然科學版),2008,26(2):81-84.
[6] 胡清華,于達仁,謝宗霞.基于鄰域粒化和粗糙逼近的數(shù)值屬性約簡[J].軟件學報,2008,19(3):640-649.
[7] 楊田,伍秀華,王玉芳.覆蓋粗糙集屬性約簡的新算法[J].模糊系統(tǒng)與數(shù)學,2013,27(2):183-190.
[8] 許晴媛,李進金,張燕蘭.覆蓋決策信息系統(tǒng)的約簡[J].山東大學學報 (理學版),2010,45(1):89-93.
[9] 譚安輝,李進金,吳偉志. 多粒度粗糙集和覆蓋粗糙集間的近似與約簡關系[J].模式識別與人工智能2016,29(8):691-697.
[10] 張小紅,裴道武,代建華.模糊數(shù)學與rough集理論[M].北京:清華大學出版社,2013:264-265.
[11] 秦克云,敬思惠.決策系統(tǒng)基于不可區(qū)分關系及區(qū)分關系的約簡[J].計算機科學,2018,45(6):247-250.
[12] 顧沈明,萬雅虹,吳偉志,等.多粒度決策系統(tǒng)的局部最優(yōu)粒度選擇[J].南京大學學報(自然科學),2016,52(2):280-288.
【通聯(lián)編輯:唐一東】