林民山





摘 要:粗糙集屬性應急數據存在冗余特征,降低挖掘效率,提出基于信息熵的粗糙集屬性應急數據去重挖掘算法。將粗糙集理論和信息熵相結合,離散化處理應急數據,離散化完成后,約簡對于決策表的條件信息熵大小不產生任何影響的屬性,設定決策屬性集合和條件屬性集合,選取將同約簡屬性集合B的屬性組合數目最小的熵值實現約簡,去除冗余特征,完成應急數據去重挖掘。以大型船舶應急數據為研究對象展開數據去重挖掘,結果表明:可有效去重挖掘到船舶旋回性相關應急數據,利用數據增比特征能夠分析到各因素對船舶旋回性的影響,并且所研究算法的挖掘效率較高,在數據量為1400條時,耗時僅為0.33 s。
關鍵詞:信息熵;粗糙集屬性;應急數據;去重挖掘;離散化;約減
中圖分類號:TP18 ? ? ?文獻標識碼:A
監控預警信息、突發事件信息、交互信息等應急數據信息海量增加的同時,也為應急數據帶來的大量重復性冗余信息,為此,如何實現應急數據的快速分析、處理、挖掘是目前亟待解決的問題[1-3]。粗糙集理論是一種新型的處理模糊和不確定知識的數學工具,廣泛應用于人工智能、知識與數據發現以及故障檢測等方面[4]。粗糙集屬性約簡可以在有效保證數據分類能力不變的基礎上對不相關和不重要的屬性進行去除,消除冗余特征,有效縮減參與數據挖掘的數據量,提升數據挖掘效率[5]。
在利用粗糙集理論進行數據挖掘時,通常要求實際數據形成的決策表中數據屬性為離散化表達,若數據為連續的,則需先進行離散化處理,然后再利用基于信息熵的粗糙集屬性約簡去重挖掘應急數據,獲取知識結果簡單易懂的應急數據[6,7]。
1 基于信息熵的粗糙集屬性應急數據去重
挖掘算法
1.1 信息熵基本概念
信息熵是信息總體的平均不確定性量度,對于特定信息源而言,信息熵只有一個,不同信息源的熵值不同。其中信息熵值越大代表變量的不確定性越大[8,9]。
綜上所述,通過設定決策屬性集合和條件屬性集合,選取將同約簡屬性集合B的屬性組合數目最小的熵值實現約簡,去除冗余特征,完成應急數據去重挖掘。
2 算法驗證
為驗證提出的應急數據去重挖掘算法有效性,以某船舶研究部分積累的大量應急數據為研究對象。采用三臺機器搭建Hadoop 集群環境,每個節點的操作系統都是Ubuntu12.04,每臺機器的配置如表1所示。
數據來源為大連海事大學航海研究院提供的日本現在持續運營中的40000噸以上的超大型船只主要應急數據,采用本文算法對該應急數據實施離散化處理,結果如表2所示。屬性C1-C12的程度均用0,1,2,3表示,分別代表程度低、較低、中、高;其中根據專家知識評定可知,最大橫距越小,表明旋回性越好,決策屬性D中,0,1,2,3分別表示旋回性好、較好、一般、差。H表示船號。
采用本文算法對表1數據實施屬性約簡,獲取:核為{C4,C5,C6,C7,C10},約簡屬性集為{C4,C5,C6,C7,C10},將表2約簡后去除重復集不相容屬性后,獲取到的約簡結果,即去重挖掘結果如表3所示。
從表4可以看出,船舶旋回性與各影響因素之間的關系為,船舶旋回性與方形系數、垂線間寬度、最大縱距以及深度呈正相關性;與舵面積比和垂線間長度呈負相關性。結果表明本文算法可有效挖掘到的船舶旋回性與影響因素間的增比變化。
為驗證本文算法在數據去重挖掘的時的時間效率,研究不同應急數據條數下的本文算法挖掘所需時間,結果如圖3所示。
分析圖3可知,伴隨應急數據量的增加,算法去重挖掘耗時呈上升趨勢,當數據量達到1400條時,挖掘耗時僅為0.33 s,實驗結果表明,本文算法數據去重挖掘效率較高。
對離散化和約簡之后的數據進行挖掘和對原數據進行挖掘的對比結果如圖4所示。
上圖反映了隨著數據集規模的增大,原數據空間復雜度呈指數增長,離散化以及約簡后的數據空間復雜度呈線性增長,在空間復雜度上具有很大的優勢。主要原因在于數據離散化以及約簡后,應急數據屬性所包含的屬性值種類較少,即數據屬性離散化后的空間維數應盡量減少,降低了空間復雜度,使得數據挖掘性能增強。
3 結 論
通過研究基于信息熵的粗糙集屬性應急數據去重挖掘算法,利用粗糙集理論可以不依靠任何附加信息,利用隱藏在數據中的真實特性做決策特點以及信息熵可作為信息總體不確定性量度的特點,將二者有效結合在一起,對應急數據實時去重挖掘,獲取知識結構清晰、簡單應急數據,并將其更好的應用到各個領域。
參考文獻
[1] 姜智涵,朱軍,周曉鋒,等.基于信息熵的混合屬性數據譜聚類算法[J].計算機應用研究,2019,36(8):2256-2260.
[2] 張倚萌, 賈修一, 唐振民. 基于條件信息熵的區間集決策信息表不確定性度量[J]. 南京理工大學學報(自然科學版), 2019, 43(4):393-401.
[3] 高陽,劉遵仁,紀俊.基于矩陣保留策略的鄰域粗糙集屬性約簡算法[J].計算機應用研究,2019,36(12):3570-3573.
[4] 姚晟,汪杰,徐風,等.不完備鄰域粗糙集的不確定性度量和屬性約簡[J].計算機應用,2018,38(1):97-103.
[5] 梁律.基于語言值聚合算法的數據去重產品選擇[J].控制工程,2018,25(1):176-182.
[6] MNDEZ P, MEDEIROS M. Density modelling of ionic liquids using the electrolyte Soav-Redlich-Kwong equation of state[J]. The Journal of Chemical Thermodynamics,2017,105:414-422.
[7] 郝艷妮, 吳素萍, 田維麗. 數據挖掘算法在葡萄酒信息數據分析系統中的研究[J]. 計算機科學, 2017, 44(s1):491-494.
[8] 于軍,丁博,何勇軍.基于平均多粒度決策粗糙集和NNBC的滾動軸承故障診斷[J].振動與沖擊,2019,38(15):209-215.
[9] 陳偉,居江寧.基于大數據可視化技術的審計線索特征挖掘方法研究[J].審計研究,2018(1):16-21.
[10]楊陽,丁家滿, 李海濱, 等. 一種基于Spark的不確定數據集頻繁模式挖掘算法[J]. 信息與控制, 2019, 48(3):257-264.
[11]吳勝磊,溫穎,宋超然,等.融合粗糙集和信息熵的復合絕緣子污閃狀態評估[J].高壓電器,2019,55(6):131-136.
[12]王征,汪梅.信息熵多屬性約簡的煤粉塵圖像特性機理[J].西安科技大學學報,2019,39(4):713-719.
[13]廖寒遜,滕歡,盧光輝.基于MapReduce的電力大數據增量式屬性約簡方法[J].電力系統自動化,2019,43(15):186-192.
[14]趙曉君,張立梅,杜坤.基于聚類算法和粗糙集理論的分布式電源狀態約簡[J].電力系統及其自動化學報,2019,31(5):103-109.
[15]FENG Ting-ting, GUO Yu-chun, CHEN Yi-shuai.A novel user behavioral aggregation method based on synonym groups in online video systems[J].Science China(Information Sciences),2016,59(2):237-239.