廖美紅
(廣西工商職業技術學院,南寧 530003 )
煤炭行業控制生產流程時需要布置數以百計的監控點,收集和積累大量的數據,并將這些數據集合起來成作為監控數據。如果計算機能從這些歷史數據中自動提取知識或規則,應用所提取的知識來評估或預測即將發生的事件,并實時糾正偏差,煤炭行業就能在數據集成后,引入數據挖掘技術,實現系統智能化和自動化??茖W有效的管理手段可以提供更有效的方法來保證煤礦生產安全,產生良好的經濟效益和社會效益[1]。
煤炭系統數據主要是關于空間定位和空間關系的地理數據。這些數據擁有一般數據所沒有的特征[2]:
1)空間性:空間數據描述了空間位置、結構和空間拓撲關系;2)抽象性:人工選擇數據,使數據生成多語義;3)多尺度和多態性:不同的觀測尺度有不同的準確性;4)多時空性:空間數據不僅具有空間信息,而且包含非信息附屬信息;5)多語義:當解決問題時,不同的系統有不同的重點,因此他們可能存在語義差異。
總之,煤炭系統的測量數據和生產數據具有多源性和異構性。系統應該為用戶挖掘多源和異構數據提供一個統一的訪問接口,使用戶可以更加方便有效地訪問異構信息源。多源異構數據挖掘的最重要特征是用戶將專注于調查的內容,而不是調查的方法,因此,為了從煤礦系統的測量數據和生產數據中得到有用的信息,我們需要建立煤礦系統的多源空間數據挖掘模型。
數據挖掘方案和數據挖掘算法的選擇是煤礦安全監控空間數據挖掘所應解決的關鍵問題[3]。雖然很多數據挖掘算法和實現方案,但是對于空間數據挖掘,尤其是煤礦安全數據的空間數據挖掘,可選的方案并不是很多。煤礦安全空間數據挖掘可以從以下四個方面實現。
1)基于數據庫的空間數據挖掘
這個方案簡單可靠。轉化空間數據需要考慮空間的自相關性和拓撲結構特征,根據空間數據的特點,系統設計新算法,并將算法插件集成到數據庫中,但是這個方法的可視化效果不好。
2)基于地理信息系統(GIS)的空間數據挖掘
這個方案實現了地理信息系統(GIS)強大的空間數據管理能力和結果可視化功能。然而,地理信息系統(GIS)軟件通常僅限于空間數據分析,對空間數據挖掘算法的考慮較少,這需要在現有的地理信息系統(GIS)軟件中集成數據挖掘插件或挖掘功能模塊,因此它對編程能力具有較高的要求。
3)使用現有的空間數據挖掘軟件
GeoMiner軟件是關系數據庫的挖掘系統DB Miner的擴展版本。它能夠挖掘空間數據特征規則,對規則進行關聯和比較。該軟件旨在二維空間數據的挖掘,如果將其用于煤礦三維空間數據的挖掘,會受到很大的限制。
4)開發自己的設計SDM
這個方案可以針對實際的煤礦數據來設計,所以具有很強的針對性。但這種方法對編程能力的要求最高,它對數學、計算機科學、煤礦和其他學科進行整合,所以是最困難的。
空間數據挖掘的四種方案比較如表1所示。

表1 不同空間數據挖掘方法的比較
這四個方案有各自的優缺點?;跀祿斓目臻g數據挖掘和基于地理信息系統(GIS)的空間數據挖掘方案更可行。正如本文上面所提到的,這兩個方法都很難獨立地完全實現煤礦安全監控系統中的空間數據挖掘和結果可視化。本文提取兩種方案的優點,提出了結合SDM和地理信息系統(GIS的)空間數據挖掘方案。
這個方案基于數據庫系統,保持研究對象作為一個或多個特定屬性的空間數據的空間自相關性。它使用數據庫系統的數據挖掘模塊來進行煤礦安全監控空間數據的空間數據挖掘操作。數據挖掘生成若干模式。該系統利用地理信息系統(GIS)來找出有用的模式,然后GIS對這些有用的模式進行可視化處理。
這個方案操作相對簡單,不僅考慮到空間數據的空間自相關性,而且充分發揮了數據庫軟件的數據管理功能和數據挖掘功能,以及地理信息系統(GIS)軟件的可視化功能。
空間數據挖掘系統可分為三層體系結構(如圖1所示)。第一層是一個數據源,利用空間數據庫或數據倉庫管理系統提供的索引,查詢優化功能,訪問并完善詞問題域的相關數據或者直接使用空間數據庫中的數據。
第二層是數據挖掘,首先進行數據處理,原始數據可以轉化為數據挖掘算法的目標格式。之后,系統刪除冗余數據和不相關數據,轉換原始數據并進行特征提取。接下來,使用空間數據挖掘系統中的數據挖掘方法來分析所提取的空間數據。最后,系統使用挖掘算法從大量數據集合中確定模式,并在挖掘過程中通過可視化技術,調整閾值和參數。
第三層是用戶界面。在這一層中,系統通過可視化工具將獲得的信息和發現的知識展現給用戶。
用戶對發現的知識進行分析和評估,然后將知識提供給支持空間決策,或者將有用的知識存儲到知識倉庫中。
安全監控系統中的空間數據挖掘主要包含三方面的內容。分別是數據處理、空間數據挖掘過程和知識表達。
1)數據處理
本系統中數據處理可分為四類:
(1)數據提純:填補數據空缺值、識別異常值、排除干擾數據、修正不一致數據。
(2)數據集成:集合多個數據源的數據,并將數據存儲在一個數據存儲器中,例如數據倉庫。
(3)數據轉換:將數據轉換成適于挖掘的格式。它涉及到數據平滑度、數據集合、數據泛化和標準化、屬性構建等。

圖1 煤礦安全監測系統模型
(4)數據簡化:由小型數據集合形成大型數據集合,但仍然保證原始數據的完整性。
2)空間數據挖掘過程
空間數據挖掘與大多數的數據挖掘和知識發現具有相同的過程。這個過程可以分為數據選擇、數據處理、數據轉換、數據挖掘、模式判讀或知識評價等。數據選擇是定義感興趣的目標及其屬性,數據處理是排除干擾數據及處理丟失數據,數據變換是通過數學變換和降維技術來提取數據特征,模式判讀或知識評價是采用人機交互模式執行目標數據的模式或知識分析(如圖2所示)。

圖2 空間數據挖掘過程模型
3)知識表達
知識表達使挖掘的知識滿足知識庫的要求,并通過人機交互的方式顯示、驗證和評價挖掘的知識。知識表達的方法主要有基于規則的知識表達、基于模式的知識表達、面向過程的知識表達、面向對象的知識表達等。
為了反映空間對象的結構,以及空間和空間(或空間和非空間)之間的關聯規則、空間挖掘需要設計一組空間。圖2所示空間數據挖掘過程模型來判斷表達空間關系??臻g關聯規則是空間數據挖掘的重要內容。關聯規則可以表示為X_Y(c%, s%, I%),X和Y表示空間屬性(空間元素或其屬性),以及屬性集合。C %, S %, I%分別顯示了可信度,支持度和興趣度三方面的程度[4]。
空間關聯規則包括不同空間屬性,不僅表達空間對象的拓撲關系,例如相鄰、共生、包含、覆蓋、重疊等,也表達距離信息,比如接近,交叉,遠離等。所有的這些空間屬性可以總結為廣義接近(g_close_to)和粗略接近(coarse_g close_to)。
為了驗證空間關聯規則算法,從空間數據庫中挖掘空間關聯規則,脫離空間屬性,獲得拓撲關系的概念層次結構。概念層次樹如圖3所示。
在許多應用程序中,我們很難從原始數據或更低層次的數據項中找到的強關聯規則,但可以從更高層次的概念結構中找到強關聯規則,可以提供普遍重要的知識。因此,我們設計的任何數據挖掘工具,都應該提供從一系列的概念層次中挖掘空間關聯規則以及在不同概念空間中方便地轉換的功能。

圖3 拓撲關系概念層次樹
空間數據挖掘算法的選擇與煤礦安全所需要的空間知識和模式有關。一般來說,空間數據挖掘包括三種主要模式:1)分類和預測模型;2)集群和單點檢測模型;3)空間關聯規則。
空間關聯規則是一種重要的知識??臻g關聯規則是指空間數據價值和數據項之間關系描述的相關知識。這些知識可以顯示特定的參數和空間位置之間的共生關系,表示在某些地區現象出現的可能性。顯然,對于煤礦安全分析來說,這些知識具有十分重要的意義。
關聯知識挖掘的核心算法是Agrawal在1993年設計的Apriori算法,目前此算法已經發展了多種修正版本。
煤礦安全數據的空間關聯規則將適用于方法的雙向挖掘。雙向挖掘是在在對象和對象屬性中同時挖掘關聯規則。
空間關聯規則的雙向挖掘可以分為兩個步驟。第一步是根據統計結果得到非空間項目。第二步是使用算法來生成規則,或者返回到多維關聯規則挖掘的空間關聯。煤礦安全監測系統中空間關聯規則的雙向挖掘如圖4所示。
空間數據庫中的空間對象關系在拓撲表中被隱藏。使用專業的空間分析工具,基于空間數據挖掘的地理空間對象數據抽象模型和抽象數據類型操作可以完成大部分的空間分析計算和部分復雜空間分析。

圖4 煤礦安全監測系統空間關聯規則的雙向挖掘
基于空間數據挖掘的煤礦安全監測系統可以提供相關的地下動態操作的信息,采用信息處理的不同挖掘工具,為決策提供有用信息,并通過網絡將信息發送到監控中心??臻g數據挖掘為煤礦安全監測中空間數據處理和解釋提供了智能管理,目的是為了從海量的數據中挖掘目前未知的、可能有用的知識,為煤礦提供安全保障。
[1] 劉艷霞, 劉曉華, 等. 網絡系統指導煤礦生產的優越性[J].煤炭技術, 2012, 31(2): 67-69.
[2] 崔滬. 國外煤礦安全管理對國內礦難的啟示[J]. 煤礦現代化, 2005(2): 32-33.
[3] 范明, 孟小峰, 等. 數據挖掘概念與技術[M]. 北京: 機械工業出版社, 2000.
[4] 盧啟程, 鄒平. 數據挖掘的研究與應用進展[J]. 昆明理工大學學報, 2002, 27 (5): 62-66.