田曉紅, 何新衛(wèi)
(1.陜西能源職業(yè)技術學院, 煤炭與化工產(chǎn)業(yè)學院, 陜西, 咸陽 712000; 2.西安愛生技術集團公司, 陜西, 西安 710065)
在我國甚至世界范圍中,煤炭等礦藏都是至關重要的礦物質(zhì)資源,在國家發(fā)展經(jīng)濟的過程中發(fā)揮著重要的促進作用[1]。但是煤礦深埋地底,在挖掘開采過程中會遇到各種阻力,而且也存在復雜的安全隱患。煤礦挖掘的大部分生產(chǎn)工作都存在潛在安全風險,一旦危險爆發(fā),會造成極大經(jīng)濟損失,煤礦行業(yè)本身就是安全隱患較高的行業(yè),許多影響因素都會干擾煤礦工程的安全生產(chǎn)[2-4]。影響煤礦企業(yè)安全生產(chǎn)的因素包括設備、環(huán)境、人員、管理等。設備因素指煤礦企業(yè)沒有依照國家標準購買規(guī)定的設備,同時沒有定期維護,設備無法正常運行,設備空間無法滿足正常作業(yè);環(huán)境因素指煤礦礦井周邊環(huán)境,包含巖石層、粉塵、地質(zhì)條件隱患等;人員因素指工作人員不安全操作行為,或者不符合規(guī)范進行工作,例如酒后、帶病工作等,也存在無證上崗、未經(jīng)培訓等情況;管理因素主要指職工教育培訓不足、制度不合理等[5-7]。
大數(shù)據(jù)主要指有限時間范圍中使用常規(guī)軟件捕捉、處理、管理數(shù)據(jù)集合,使用新處理模式實現(xiàn)更強大的洞察發(fā)現(xiàn)力、更強的決策力、高效流程優(yōu)化能力等情況下多樣化、海量、高增長率的信息資產(chǎn)。近年來,大數(shù)據(jù)與云計算技術緊密結合,發(fā)揮重要影響力。移動互聯(lián)網(wǎng)和物聯(lián)網(wǎng)等新興計算形態(tài)助力大數(shù)據(jù)革命,讓大數(shù)據(jù)發(fā)揮更大的影響力[8]。聚類分析是把抽象對象或者物理內(nèi)容集合分組成的根據(jù)類似對象組合而成的數(shù)個分類分析過程。大數(shù)據(jù)聚類是人類一種重要行為,其目標就是在相似的基礎上對大數(shù)據(jù)分類[9]。聚類從多個領域發(fā)展而來,來源包含計算機科學、數(shù)學、生物學、統(tǒng)計學和經(jīng)濟學。在不同的應用領域均飛速發(fā)展大數(shù)據(jù)聚類技術,使用聚類描述大數(shù)據(jù),對不同數(shù)據(jù)之間的相似性實行衡量,把數(shù)據(jù)源分類到不同的簇中,實現(xiàn)大數(shù)據(jù)的歸類分析。
對于煤礦安全風險評估與預警,有學者[10]提出煤礦安全隱患風險評價研究方法,綜合評價研究區(qū)域的隱患風險,計算得出綜合隱患風險值,與區(qū)域?qū)嶋H情況設定預警等級,評估煤礦隱患和風險趨勢,但該方法在數(shù)據(jù)運算時間上存在一定欠缺,不能實現(xiàn)良好的效率;還有學者[11]提出基于AHP和模糊數(shù)學的區(qū)域煤礦安全風險評價方法,該方法通過層次分析法評價煤礦區(qū)域安全情況,但是在預警方面的工作不夠完善,還需要進一步改善。
本文將大數(shù)據(jù)技術作為基礎,利用聚類算法獲得指標體系,研究煤礦安全風險智能評價和預警。
在評價和預警煤礦安全風險之前,本文使用大數(shù)據(jù)聚類方法確定評價指標。運用離散型時間序列分析方法建立多維離散數(shù)據(jù)信息流模型,提取多維離散數(shù)據(jù)信息流時延尺度特征值,將這些時延尺度特征值作為多維離散數(shù)據(jù)目標函數(shù),同時對該目標函數(shù)求解,獲得最優(yōu)聚類中心[12],具體流程如下。
使用并統(tǒng)計大數(shù)據(jù)流的早期階段,建立多維離散數(shù)據(jù)變量時間序列{xn},N表示該時間序列的樣本長度。樣本數(shù)據(jù)流分類特征屬性設定為X和Y,為實現(xiàn)數(shù)據(jù)映射處理,樣本數(shù)據(jù)使用空間重構分析方法實行分析,選取最優(yōu)延遲和最小漸入維數(shù)τ和m,假如數(shù)據(jù)特征平均速度得到滿足,使用式(1)表示多維離散數(shù)據(jù)信息流模型:
xn=x(t0+nΔt)=h[z(t0+nΔt)]+wn
(1)
式中,t0、z與wn分別表示聚類中心檢索、時延尺度特征和時延尺度,h代表多維離散數(shù)據(jù)時間序列各單獨樣本相似特征向量。
數(shù)據(jù)離散性時間序列特征通過計算多維數(shù)據(jù)關聯(lián)度表示,數(shù)據(jù)離散性時間序列特征分布軌跡通過重構相空間獲得:
X=[x(t0),x(t0+Δt),…,x(t0+(K-1)Δt)]
(2)
式中,x(t0)與J分別表示樣本采集時間和多維數(shù)據(jù)相關系數(shù),m與Δt分別表示嵌入維數(shù)和抽樣時間間隔,K=N-(m-1)J代表大數(shù)據(jù)時間序列分類最大屬性。多維離散數(shù)據(jù)特征時間序列向量模型通過數(shù)據(jù)投射法獲得:
{x(t0+iΔt)},i=0,1,2,…,N-1
(3)
使用式(4)表示特征空間多維離散數(shù)據(jù)矢量:
X=(xn,xn-τ,…,xn-(m-1)τ)
(4)
式中,τ代表多維離散數(shù)據(jù)時間延遲。
時延尺度輸入特征是上文中構建的大數(shù)據(jù)流,建立對應數(shù)據(jù)目標函數(shù)時依據(jù)特征值屬性,式(5)表示大數(shù)據(jù)屬性集的分布模型:
(5)
式中,ai與bi分別表示數(shù)據(jù)采樣幅值和大數(shù)據(jù)最優(yōu)分類屬性;a0和xn-1分別表示初始數(shù)據(jù)采樣幅值和具有相同數(shù)量時間序列,搜索時使用模糊C均值聚類算法,由此得出有限數(shù)據(jù)集向量:
X={x1,x2,…,xn}∈R
(6)
式中,R表示大數(shù)據(jù)屬性集的隨機變量。
經(jīng)屬性集分類,獲得多維離散數(shù)據(jù)流數(shù)據(jù)樣本數(shù)量n。使用式(7)表示樣本xi(i=1,2,…n)的多維離散數(shù)據(jù)信息增益矢量:
xi=(xi1,xi2,…,xin)T
(7)
在數(shù)據(jù)集內(nèi)選取k個實例,獲得多維離散數(shù)據(jù)目標函數(shù)最優(yōu)聚類中心:
(8)
式中,μik表示聚類中心非劣解,c表示常數(shù),dik與djk均表示樣本大數(shù)。
1.2.1 煤礦安全風險指標體系
根據(jù)上文大數(shù)據(jù)聚類后的計算結果,結合分析并判斷煤礦危險源,根據(jù)專家評價和相關參考文獻,遵循可操作性、完整性、科學性等原則,從5個方面分析煤礦安全風險影響因素,建立風險預警指標體系,詳見圖1。本文指標體系中,第一層為目標層,第二層為一級指標,包含人員因素、設備因素、環(huán)境因素、管理因素、信息因素等5個因素。各因素下又劃分出18個二級指標,針對這些指標體系,開展以下分析。

圖1 煤礦安全風險智能評價指標體系
1.2.2 煤礦安全風險可拓模型
通過可拓論,建立煤礦安全風險智能評價和預警的節(jié)域矩陣、典域矩陣、待評物元矩陣;基于此,計算并分析煤礦安全風險可拓模型關聯(lián)函數(shù)值和關聯(lián)度,以此評定煤礦安全風險等級[13]。根據(jù)行業(yè)標準和相關規(guī)章制度煤礦安全風險等級分為5個等級,分別為1級(輕度預警、極弱)、2級(低度預警、弱)、3級(中度預警、一般)、4級(重度預警、高)、5級(巨度預警、極高)。
(1) 預警指標物元確定。假設將煤礦安全風險預警等級和安全風險預警指標分別設定為m個和n個,使用式(9)表示經(jīng)典域:
(9)
式中,Nj(j=1,2,…,m)和Nj(j=1,2,…,n)分別表示風險等級和預警指標,vjn代表第n個預警指標在第j個等級內(nèi)的量值區(qū)間,ajn代表預警指標量值和風險等級區(qū)間最小值,bjn代表預警指標量值和風險等級區(qū)間最大值[14]。
設p為風險等級,使用式(10)表示節(jié)域:
(10)
式中,p與Np分別表示全體風險等級和風險等級的預警對象;vpn代表p有關預警指標特征cn的取值范圍,同時也表示節(jié)域。
設P表示預警對象,則有式(11)表示建立的待評價物元:
(11)
式中,vn為cn的實際量化指標值。
(2) 預警指標關聯(lián)度計算。使用式(11)表示預警指標關聯(lián)函數(shù):

(12)
式中,ρ(vi,vji)與ρ(vi,vpi)分別表示有限區(qū)間vji到點vi的距離和有限區(qū)間vpi到點vi的距離,vji與vpi分別表示經(jīng)典域和節(jié)域的量值區(qū)間,vi表示待評物元的量化指標值。使用式(13)定義風險等級j和預警指標i的關聯(lián)函數(shù)kj(vi):
(13)
(3)指標權重計算。權重計算運用熵權法,設kj(vi)與rji相等,建立矩陣:
R=(rji)m*n,(j=1,2,…,m;i=1,2,…,n)
(14)
使用式(15)定義預警指標熵Hi:

(15)
通過式(16)定義預警指標權重:

(16)
(4)綜合關聯(lián)度和風險等級的確定。利用式(17)定義等級j和預警對象p的綜合關聯(lián)度Kj(p):
(17)
每兩個事物間的關聯(lián)程度使用關聯(lián)度表征,相關性的優(yōu)劣由關聯(lián)度值決定,值越接近于1說明相關性越好[15],根據(jù)關聯(lián)度最大原則判斷預警對象的風險等級:
Kj0(p)=maxKj(p)
(18)
以某市煤礦工程作為研究對象用于驗證本文方法性能,該工程總投資16億元,礦井產(chǎn)量每年190萬噸,于2015年6月開挖井筒。煤層埋藏較淺,傾角呈現(xiàn)平緩狀態(tài),主要包含中厚煤層,局部為厚煤層,總體煤層結構簡單,存儲量穩(wěn)定,地質(zhì)結構和水文結構均屬中等復雜,使用本文方法智能評價并預警該區(qū)域煤礦安全風險。為獲得參照結果,邀請部分專家使用問卷調(diào)查法對相關指標實行評價,得出真實評價結果。為使結果具有對比性,同時使用煤礦安全隱患風險評價研究方法[10](下文簡稱對比方法1)和基于AHP和模糊數(shù)學的區(qū)域煤礦安全風險評價方法[11](下文簡稱對比方法2),評價研究區(qū)域的煤礦安全風險。
分析3種方法在海量煤礦安全信息下,數(shù)據(jù)聚類計算所耗費之間,統(tǒng)計結果見圖2。從圖2能夠看出,隨著數(shù)據(jù)節(jié)點的增加3種方法的計算時間均有不同程度上升,2種對比方法的上升速度較快,當數(shù)據(jù)節(jié)點個數(shù)達到1 100個時,2種對比方法的計算時間分別達到5 min和6 min,而本文方法此時的計算時間仍舊不超過2 min??傮w來看,本文方法在計算數(shù)據(jù)時技術數(shù)據(jù)節(jié)點增加,計算時間始終保持在一個平穩(wěn)的趨勢中,由此可以看出,本文方法在計算大數(shù)據(jù)時具有較高的計算效率。

圖2 聚類時間對比結果
本文方法指標體系中包含5種一級指標,每種指標數(shù)據(jù)樣本不同,通過專家問卷調(diào)查結果統(tǒng)計實際大數(shù)據(jù)分類結果,對比3種方法在數(shù)據(jù)分類時聚類結果與實際分類結果的擬合度,結果見圖3。從圖3能夠看出,本文方法的聚類結果與真實結果最為接近,證明本文方法聚類結果比較理想。

圖3 擬合度對比結果
以二級指標中的“月平均培訓時間”為例使用本文方法評價該指標和風險等級之間的關聯(lián)度為(-0.382 9,-0.166 4,0.461 3,-0.194 4,-0.398 6),按照關聯(lián)度最大原則,風險等級和該指標的最大關聯(lián)度是0.461 3,風險等級為三級,劃定為中度預警。通過計算獲得各項一級指標的權重為[0.161 1, 0.418 7,0.186 8,0.211 0,0.033 5],從權重結果中能夠看出,設備因素的權重值最大,信息因素的權重值最小,由此可以證明設備因素對煤礦安全影響最大。使用本文方法計算得出目標層、一級指標和風險等級之間的關聯(lián)度,按照關聯(lián)度最大原則獲得安全風險預警等級和各個風險評估物元綜合關聯(lián)度,結果見表1。

表1 風險等級與關聯(lián)度結果
分析表1可知,設備因素的安全風險等級為2級屬于低警狀態(tài),風險較低,而信息元素安全風險等級為4級,屬于重度預警,具有較高風險,在實際開展冶礦工程時需要著重注意,其余指標均為3級風險等級,可以劃分為中度預警,屬于一般預警,在冶礦工程中需要適當調(diào)整。
綜合實驗結果,該研究區(qū)域的煤礦工程存在安全隱患,前期開展過程中,開采深度逐漸加深,粉塵、水患等問題都比較嚴重,隨著進度的開展,各種問題得到妥善解決。經(jīng)專家統(tǒng)計評分,該煤礦的安全等級為3級,與本文研究結果基本一致,綜合各實驗結果,本文方法在智能評估與預警煤礦安全風險時具有比較準確的評價結果,定量評估結果較好。
本文使用大數(shù)據(jù)技術,通過聚類計算得出智能評價和預警的指標體系,從煤礦風險的5個影響因素中共選取18個預警指標展開風險評估,使用可拓理論構建模型,利用熵權法確定指標權重,由此構建高精準性的煤礦風險智能評估和預警模型。通過綜合關聯(lián)函數(shù)計算獲得各影響因素的風險預警等級,保持在3級以內(nèi),風險情況可接受但仍需進一步完善,具有較高參考價值。