董婷
(榆林學(xué)院 信息工程學(xué)院,陜西 榆林 719000)
近年來,有關(guān)礦井安全安全的監(jiān)控系統(tǒng)得到了非常廣泛的應(yīng)用。面對如此大量并且復(fù)雜的監(jiān)控數(shù)據(jù)。如何從數(shù)據(jù)中發(fā)現(xiàn)隱含的信息才是煤礦安全監(jiān)測的主要目的和任務(wù)。簡單的說,面對各監(jiān)控設(shè)備實時的數(shù)據(jù),我們?nèi)绾蝸砼袛嗝旱V的生產(chǎn)環(huán)節(jié)是否合理,生產(chǎn)環(huán)境是否安全,生產(chǎn)狀態(tài)是否存在潛在的危險。也就是說,煤礦安全監(jiān)測系統(tǒng)的部署,其最終目的是通過系統(tǒng)監(jiān)測到的信息,對安全和潛在的危險做出一種可靠的、穩(wěn)定的評估和預(yù)測[1]。如何從數(shù)據(jù)中挖掘有關(guān)安全的判別模式從技術(shù)上很容易實現(xiàn),重要的是這樣的安全決策是否具有實際的意義和價值,其次選用什么要的方法能訓(xùn)練出具有推廣能力和魯棒性的決策模型就成為了一個適用性的研究問題[2]。
煤礦安全性監(jiān)測數(shù)據(jù)在時間序列上是變動的隨機(jī)變量,是一個離散的隨機(jī)過程[3],這一過程具有統(tǒng)計特性,它能從偶然性中揭示必然性的客觀規(guī)律,即依據(jù)煤礦安全決策的理論基礎(chǔ)和實質(zhì)。
影響煤礦安全問題的因素很多,主要來源于自然環(huán)境的改變,瓦斯爆炸、地底透水、塌方地陷、人員操作失誤造成的安全事故。通過監(jiān)測系統(tǒng)的指數(shù)評價方法,根據(jù)監(jiān)控系統(tǒng)各個數(shù)據(jù)采集點返回的監(jiān)測數(shù)據(jù)可以對諸如溫度、CO、礦道頂板壓力等信息進(jìn)行單指標(biāo)系統(tǒng)的評估來對整個生產(chǎn)環(huán)境的安全做出判定[4]。但是自然環(huán)境的參數(shù)存在一定的相互影響,在煤礦安全生產(chǎn)環(huán)境中,某個監(jiān)控數(shù)據(jù)的變化在很大程度上是引發(fā)其它參數(shù)變化的誘因,或者是其它環(huán)境變量的改變導(dǎo)致此數(shù)據(jù)的變化。也就是說,從整體監(jiān)測數(shù)據(jù)出發(fā),研究其相互系數(shù)或者內(nèi)在模式,可以對煤礦的安全生產(chǎn)決策提供有力的依據(jù)和信息支持。
從煤礦安全監(jiān)測系統(tǒng)抽取數(shù)據(jù),監(jiān)測系統(tǒng)采集的數(shù)據(jù)存放在安全信息數(shù)據(jù)庫。對于來源于數(shù)據(jù)節(jié)點的數(shù)據(jù)要進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化的操作:實際系統(tǒng)中收集到的原始數(shù)據(jù)往往具有不完整性、噪聲、和不一致性的特點。數(shù)據(jù)標(biāo)準(zhǔn)化就是要去除數(shù)據(jù)源中的噪聲數(shù)據(jù)和無關(guān)數(shù)據(jù),處理遺漏數(shù)據(jù),考慮時間順序和數(shù)據(jù)變化;整理不確定屬性,忽略或刪除含有異常、孤立數(shù)據(jù)的記錄,清除與產(chǎn)生關(guān)聯(lián)規(guī)則無關(guān)的屬性,減少數(shù)據(jù)空間復(fù)雜度[5]。如:清理各數(shù)據(jù)表中訓(xùn)練決策模型無關(guān)的數(shù)據(jù),如數(shù)據(jù)采集點、采集設(shè)備屬性等,對于空缺數(shù)據(jù)可以人為添加或刪除此記錄。
表1中列出煤礦安全監(jiān)測系統(tǒng)采集的自然因素參數(shù),數(shù)據(jù)來源于大劉塔煤礦的監(jiān)測數(shù)據(jù),經(jīng)過數(shù)據(jù)參數(shù)剔除后保留了7個特征對得到的原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理和簡單統(tǒng)計分析,得到表2。
關(guān)聯(lián)規(guī)則是數(shù)據(jù)挖掘的主要方法之一,通過對事務(wù)數(shù)據(jù)庫、關(guān)系數(shù)據(jù)庫和其他信息中的大量數(shù)據(jù)進(jìn)行隱含信息挖掘,尋找數(shù)據(jù)中頻繁出現(xiàn)的模式。關(guān)聯(lián)規(guī)則挖掘問題源于對超市購物數(shù)據(jù)的分析,1993年由R.Agrawal等人提出[6]。通過對一個時間段內(nèi),零售店顧客購買商品的信息進(jìn)行分析,發(fā)現(xiàn)一些固定的規(guī)律,在人們?nèi)粘5馁徫锴鍐沃校行┥唐方?jīng)常被顧客一起購買,例如,“80%的顧客在購買面包和黃油的同時也會購買牛奶”,“70%的男性顧客在購買紙尿褲的同時也會買啤酒”等等通過分析顧客的購物清單,可以找出顧客購買商品之間的關(guān)聯(lián)關(guān)系,那么商家就可以根據(jù)這種關(guān)系來指導(dǎo)進(jìn)貨、安排貨架和制定有針對性的營銷策略等,從而擴(kuò)大銷售量[7]。關(guān)聯(lián)規(guī)則挖掘就是發(fā)現(xiàn)具有用戶指定最小置信度和最小支持度的關(guān)聯(lián)規(guī)則。置信度太低,說明規(guī)則的可信程度差;支持度太低,說明規(guī)則不具一般性。關(guān)聯(lián)規(guī)則的挖掘是數(shù)據(jù)挖掘諸多方法中應(yīng)用最為廣泛的一種,首先由Agrawal等人提出,用來處理事務(wù)型數(shù)據(jù)庫,后來又推廣到關(guān)系型數(shù)據(jù)庫,現(xiàn)在已成為數(shù)據(jù)瓦局領(lǐng)域中一個非常重要的研究課題[8]。代表算法有Aprioi算法、基于劃分的算法、FP-樹頻集算。

表1 自然因素參數(shù)Tab.1 Natural factors

表2 統(tǒng)計分析表Tab.2 Statistical analysis table
數(shù)據(jù)庫中不可分割的最小信息單元,稱為項,一般用i表示。 項的集合稱為項集。 設(shè)集合I={i1,i2,…,ik}是項集,I中的項目的數(shù)量為k,則集合I稱為k-項集。
關(guān)聯(lián)規(guī)則挖掘的數(shù)據(jù)集記為T(T為事務(wù)集數(shù)據(jù)庫),T={t1,t2,t3,…tk,…tn},其中 tk={i1,i2,…ik}(k=1,2,3…n)為一條事務(wù)。令I(lǐng)={i1,i2,…in}是項目集,D是全體事務(wù)的集合。事務(wù)T是I上的一個子集,集合T?I,每個事務(wù)用唯一的標(biāo)志TID來標(biāo)識。關(guān)聯(lián)規(guī)則是形如X?Y的蘊含式,其中X?I,Y?I且X∩Y=?,X稱為規(guī)則的條件(前項),Y稱為規(guī)則的結(jié)果(后項)。
關(guān)聯(lián)規(guī)則的X?Y對事物集D的支持度定義為D中同時包含有事務(wù)X和Y的交易數(shù)與所有交易數(shù)之比,即:support(X?Y)=(包含 X 和 Y 的事務(wù)數(shù)/事務(wù)總數(shù))*100%。支持度反映了項集X和項集Y中所包含的項在數(shù)據(jù)集中同時出現(xiàn)的頻率。
關(guān)聯(lián)規(guī)則X?Y對事務(wù)集合D的置信度定義為D中包含有X和Y的交易數(shù)與包含X的交易數(shù)之比。即:confidence(X?Y)=(包含 X和 Y的事務(wù)數(shù)/包含 X的事務(wù)數(shù))*100%。置信度反映了數(shù)據(jù)集中出現(xiàn)項集X的同時又出現(xiàn)項集Y的條件概率。
關(guān)聯(lián)規(guī)則的支持度和置信度分別反映了所發(fā)現(xiàn)規(guī)則的有用性和確定性,一般的用戶可以定義兩個閾值,分別為最小支持度閾值和最小置信度閾值[9]。當(dāng)挖掘出的關(guān)聯(lián)規(guī)則的支持度和置信度都滿足這兩個閾值時,我們就認(rèn)為這個規(guī)則是有效的,否則,就是無效的。這兩個閾值一般由領(lǐng)域?qū)<一蛴脩粼O(shè)定。
通常用戶為了達(dá)到一定的要求,需要指定規(guī)則必須滿足的支持度和置信度閾值,當(dāng) Suppport(X?Y),Confidence(X?Y)分別大于等于各自的閾值時,認(rèn)為X?Y是有意義的,這兩個值稱為最小支持度閾值和最小置信度閾值[10]。其中,最小置信度閾值描述了關(guān)聯(lián)規(guī)則的最低重要性,并規(guī)定了關(guān)聯(lián)規(guī)則必須滿足的最低可靠性。
置信度和支持度均大于給定閾值稱為強(qiáng)規(guī)則:否則稱為弱規(guī)則。
數(shù)據(jù)挖掘的目的就是對強(qiáng)規(guī)則的挖掘。通過設(shè)置最小支持度和最小置信度可以了解某些數(shù)據(jù)之間的關(guān)聯(lián)程度。
如果項集 U={u1,u2,u3...,uk}出現(xiàn)的頻率大于或等于最小支持度計數(shù),即滿足最小支持度閾值,則稱它為頻繁項集,頻繁項集的集合通常記為Lk。
性質(zhì)(1)強(qiáng)規(guī)則X?Y對應(yīng)的項集(X∪Y)必定是頻繁集。
性質(zhì)(2)非頻繁項集的超集也一定是非頻繁項集。
因此,可以把關(guān)聯(lián)規(guī)則挖掘劃分為以下兩個子問題:
1)根據(jù)最小支持度找出事務(wù)集D中的所有頻繁項集。
2)根據(jù)頻繁項集和最小置信度產(chǎn)生關(guān)聯(lián)規(guī)則。
Apriori算法對本文監(jiān)測數(shù)據(jù)進(jìn)行關(guān)聯(lián)規(guī)則挖掘,使用模式識別算法軟件包weka3.5作為工具,設(shè)定最小支持度為0.6得到各監(jiān)測數(shù)據(jù)的相關(guān)規(guī)則挖掘信息,結(jié)果顯示安全監(jiān)測數(shù)據(jù)之間存在較強(qiáng)的相互關(guān)系,這里給出挖掘得到的具有高關(guān)聯(lián)性的規(guī)則,表3中列出具體的相關(guān)規(guī)則。
利用數(shù)據(jù)挖掘技術(shù)對煤礦生產(chǎn)的歷史數(shù)據(jù)的挖掘得到安全生產(chǎn)的模式,從而對實時的現(xiàn)狀進(jìn)行判別決策,對煤礦生產(chǎn)狀態(tài)進(jìn)行分析和預(yù)測,可以得出預(yù)見性的結(jié)論,是正確決策和科學(xué)管理的重要前提和保障。

表3 關(guān)聯(lián)規(guī)則表Tab.3 Association rules table
[1]梁循.數(shù)據(jù)挖掘算法與應(yīng)用[M].北京:北京大學(xué)出版社,2006:35-39.
[2]于忠清,王金龍.數(shù)據(jù)挖掘原理與算法[M].2版.北京:科技出版2009:45-49.
[3]陳京民.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)[M].北京:電子工業(yè)出版社,2002:25-29.
[4]TANG Zhao-hui,Maclennan J.Data Mining with SQL Server 2005[M].Wiely Publishing,2005:15-19.
[5]福州大學(xué)空間數(shù)據(jù)挖.[EB/OL].http://kj.fjedu.gov.en/html/NewsView-222.html.
[6]毛國君.數(shù)據(jù)挖掘原理與算法[M].北京:清華大學(xué)出版社,2005:30-40.
[7]薩師煊,王珊.數(shù)據(jù)庫系統(tǒng)概論[M].北京:高等教育出版社,2006.
[8]劉芝怡.關(guān)聯(lián)規(guī)則挖掘算法的分析、優(yōu)化及應(yīng)用[D].蘭州:蘭州大學(xué),2007:13-20.
[9]Agrawal R,Srikant S·Fast Algorithms for Mining Association Rules[C]//VLDB’94.Santiago,Chile:[s.n.],1994:487-499.
[10]李代平.軟件工程[M].北京:清華大學(xué)出版社,2008.