◆趙滿旭 景運革
一種基于分布數據的正域屬性約簡算法
◆趙滿旭 景運革
(運城學院數學與信息技術學院 山西 044000)
由于計算機網絡及存儲技術的迅猛提高,分布數據處理已經涉及很多領域,如何有效挖掘分布數據的相關知識是人工智能領域研究的一個熱點。本文我們首先介紹了如何計算分布數據的等價關系及誘導矩陣的方法,設計了一種基于分布數據的約簡算法,然后,給出一些例子來解釋計算分布數據的正域的過程,最后,在機器學習網站下載了3個UCI數據集并進行了大量的實驗,實驗結果表明了該算法能夠有效解決分布數據約簡問題。
分布數據;正域;關系矩陣;屬性約簡
由于計算機網絡及存儲技術的迅速提高,分布數據處理已經涉及很多領域,如何有效挖掘分布數據的相關知識是人工智能領域研究的一個熱點。近十多年,用來處理分布數據的一些方法和技術已經運用到醫療技術評估[1]、資源評估[2]及營養評價[3]等各個領域。
如何有效地解決分布信息系統知識挖掘和知識發現等問題,一些學者已經在這方面做了很多研究工作。Liang等把一個大的信息系統分解成多個子信息系統,并分別求解多個子信息系統的約簡,最后把每個子信息系統的約簡融合起來,最后可獲得大的信息系統的約簡[4];Jing等從多粒度角度考慮,利用“分而治之”策略,針對分布信息系統對象動態變化時如何快速更新動態大數據約簡的問題,提出了一種有效解決分布數據約簡的算法[5];Huang等針對“多源數據集”動態變化問題,根據模糊信息粒度,提出了多源區間值數據融合的算法[6];Zitnik等提出了一個基于矩陣分解的數據融合方法[7];Li等把矩陣方法和“粗糙集”理論結合起來,給出了一種處理分布數據的方法,提出了一種分布數據“近似集”的計算方法[8];Cai等基于貝葉斯網絡模型提出了一種分布式信息融合方法,并把該算法應用到地源熱泵系統模型的故障檢測中[9];Bandara等提出了一種基于分布式數據網絡中多用戶、多應用、多傳感器有效數據的融合算法[10];Qian等介紹了一種悲觀多粒度粗糙集模型融合的方案,給出了基于粗糙集模型“多源數據”的融合算法[11];Lin等把“粒計算理論”和證據理論相結合,給出了一些數據融合的性質,設計了多源異構數據的融合算法[12];Qian等針對大數據屬性約簡的問題,探討決策表在不同粒度下的關聯準則,提出基于“云計算”平臺的屬性約簡算法[13]。根據上面分析,發現通過關系矩陣去求解分布數據的約簡算法報道較少。
本文后面相關內容安排如下:在第部分,介紹粗糙集的相關定義;在第二部分,給出分布數據的相關概念及求解分布數據的等價關系矩陣、誘導矩陣及“正區域”的方法,并設計了分布數據的“正區域”屬性約簡方法,第三部分我們做了一些實驗仿真,并對實驗結果進行了分析和總結。最后本文做了總結,并指出將來研究的方向。
這節主要介紹粗糙集的一些相關概念和知識[14-18]。







根據上述分布信息的定義及其定理,提出了分布信息系統的正域約簡算法如下:
為了驗證我們所提出的分布系統約簡算法的可行性,在機器學習網站上分別下載了Cancer、Tic-tea-toe及Mushroom 3個數據集,數據集的具體描述如表1所示。另外,實驗過程中的硬件配置:CPU:Intel 酷睿i5 6400,內存:8.0 GB。實驗所使用的軟件環境:程序代碼設計語言為MATLAB 2010。個人計算機所安裝的操作系統為:Windows 7.0。

表1 數據集描述
在計算分布信息系統屬性約簡的過程中,為了模擬分布信息系統,我們把表1中的每個數據集隨機分成3個子信息系統,分別利用本文提出的分布信息系統約簡算法去求解每個數據集的約簡、約簡的數目及約簡的計算時間。計算結果如表2所示。

表2 UCI數據集屬性約簡結果
現實生活中,很多領域都涉及分布數據,如何處理分布數據的挖掘和知識發現是計算機科學領域亟須解決的一個熱點問題。本文針對分布數據屬性約簡問題,給出了計算分布數據等價關系矩陣、誘導矩陣及“正區域”的方法,在此基礎上設計了分布信息系統約簡算法。另外,在機器學習網站上下載了3個UCI數據集,并用所提出的算法分別計算每個數據集的約簡,實驗結果表明了該算法能夠有效解決分布信息系統約簡問題。由于許多分布數據會隨著時間變化而發生動態變化,未來的工作將進一步研究分布數據集中對象或屬性變化的增量屬性約簡方法。
[1]M. H. Rafiei,H. Adeli,A novel unsupervised deep learning model for global and local health condition assessment of structures[J]. Engineering Structures 156(2018)598C607.
[2]K. Eurek,P. Sullivan,M. Gleason,D. Hettinger,D.Heimiller,A. Lopez,An improved global wind resource estimate for integrated assessment models[J]. Energy Economics 64(2017)552C567.
[3]J.da Silva Fink,E. D. de Mello,M. G. Beghetto,V.C. Luft,S. M. de Jezus Castro,P. D.de Mello,Nutritional Assessment Score:A newtool derived from Subjective Global Assessment for hospitalized adults[J]. Clinical Nutrition 37(2)(2018)706C711.
[4]Liang J.Y.,Wang F.,Dang C.,Qian Y.H. An efficient rough feature selection algorithm with a multi-granulationview[J]. International Journal of Approximate Reasoning,2012,53(6):912-926.
[5]Jing Y.G.,Li T.R.,Fujita H.,Yu Z.,Wang B. An incremental attribute reduction approach based on knowledge granularity with a multi-granulation[J]. Information Sciences,2017,411:23-38.
[6]Huang Y.Y.,Li T.R.,Luo C,Fujita H.,Horng S.j. Dynamic Fusion of Multi-source Interval-valued Data by Fuzzy Granulation[J]. IEEE Transactions on Fuzzy Systems,2018:1-15.
[7]Zitnik M.,Zupan B. Data fusion by matrix factorization[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2015,37(1):41-53.
[8]Li S.Y.,Hong Z.Y.,Li T.R.. Efficient Composing Rough Approximations for Distributed Data[J]. Knowledge-Based Systems,2019,182.
[9]Cai B.P.,Liu Y.H.,Fan Q.,Zhang Y.W.,Liu Z.K.,Yu S.L.,Ji R.J. Multi-source information fusion based fault diagnosis of ground-source heat pump using Bayesian network[J]. Applied Energy,2014,114:1-9.
[10]Bandara H.D.,Jayasumana A.P. Distributed,multi-user,multi-application,and multi-sensor data fusion over named data networks[J]. Computer Networks,2013,56(17):3235-3248.
[11]Qian Y.H.,Li S.Y.,Liang J.Y.,Shi Z.Z.,Wang F. Pessimistic rough set based decisions:A multigranulation fusion strategy[J]. Information Sciences,2014,264:196-210.
[12]Lin G.P.,Liang J.Y.,Qian Y.H. An information fusion approach by combining multigranulation rough sets and evidence theory[J]. Information Sciences,2015,314:184-199.
[13]Qian,J.,Lv P.,Yue X.D.,Liu C.H.,Jing Z. J. Hierarchical attribute reduction algorithms for big data using MapReduce[J]. Knowledge-Based Systems,2015,73:18-31. [14]Jing Y.G.,Li T.R.,Luo C.,Horng S.J.,Wang G.Y.,Yu Z. An incremental approach for attribute reduction basedon knowledge granularity[J]. Knowledge-Based Systems,2016,104:24-38.
[15]景運革,李天瑞. 一種基于關系矩陣的決策表正域約簡算法[J]. 計算機科學,2013,40(11):261-264,286.
[16]劉少輝,盛秋戩,史忠植.一種新的快速計算正區域的方法[J].計算機研究與發展,2003,40(5):637-642..
[17]劉清. Rough set及Rough推理[M].北京:科學出版社,2001.
[18]閆鑫,景運革.矩陣增量屬性約簡算法[J]. 小型微型計算機系統,2018,39(6):1245-1249.
山西省應用基礎研究計劃項目(201801D121148);運城學院院級項目(YQ-2017028);運城學院院級項目(JG201733)