高 晶,趙良君,呂旭陽
(華北理工大學,河北 唐山 063210)
面對大數據時代的來臨,信息化和大數據對煤礦安全管理的重要性被眾多煤礦企業管理層所認知[1-4]。高強度勞動作業、高風險作業、高事故發生率是煤礦行業的突出特點[5-7]。
國家和社會高度重視,且密切關注煤礦生產中的安全,這使得煤礦企業一刻也不能放松安全管理。近年來隨著傳感器的進一步發展,應對煤礦井下復雜環境在檢測精度和準確度方面有很大進步,同時,利用數據挖掘相關技術進行煤礦安全分析、預警,已取得豐收成果。但是,當前數據挖掘技術與煤炭工業的融合仍處在淺層,煤礦安全檢測監控系統基本停留在實施預警層次,沒有對實時上傳的大量數據進行挖掘、使用、管理和分析處理。陳舊的以事故為切入點的安全管理不再適用當前發展需求,人們憑借長期管理的經驗制定管理規章制度進行現場管理和預警處置,沒有將管理系統與現場管理有效的結合起來,沒有真正發揮實質性作用。因此,針對煤礦安全系統數據來源多樣化、異構化的特征,充分發揮大數據思維,通過采用深度數據關聯分析技術,實現對煤礦安全生產多維度、多精度的衡量,從而挖掘出隱藏在海量復雜繁瑣數據中的信息和規律,搭建煤礦安全大數據分析模型,設計功能模塊及總體框架,對形成煤礦安全大數據挖掘分析體系具有理論價值和實踐意義。
作為繁雜的社會技術系統的煤炭生產系統,包括調度、掘進、開采、設備、通風等多個部門,其內部和外部因素對系統的各種特征均產生一定影響。據專家學者統計煤礦企業中常規的安全生產管理系統達到數十個,隨之而來的是眾多系統全天候不間斷產生的海量安全數據,且海量數據中隱含的風險信息很難通過人力計算而獲得[8]。因此,有必要采用數據挖掘技術對安全管理數據進行有效處理得到有價值的安全管理規則和規律,為企業決策者提供決策依據。煤礦安全管理大數據內涵較以往有以下2 點改變:
1)煤礦安全管理對象的具體化、簡潔化。大數據背景下煤礦安全管理對象由傳統的實物個體(部門、班組、礦工、設備、環境等)向實物個體產生的安全管理大數據轉化。換句話說,煤礦安全管理大數據是在原有的安全管理對象之間增加了數據管理部分,增加安全管理效率,有助于實現對原有安全管理對象的具體化和簡潔化。
2)預控式和數據式的煤礦安全管理方式。常見的管理方式有經驗式管理、制度式管理、風險預控管理和安全文化管理。其中安全文化管理在5 個管理方式中處于頂層位置,員工因安全文化的影響而主動按照安全規定執行。融入大數據的煤礦安全管理,是將數據式安全管理插入到風險預控管理與安全文化管理之間,這樣可以更加有效的加強安全文化管理。煤礦安全管理方式的改變如圖1。
圖1 煤礦安全管理方式的改變Fig.1 Changes in coal mine safety management
1)煤礦安全管理數據規模巨大,且增長趨勢迅猛。煤礦安全數據來自眾多系統,包括人員不安全行為、設備自檢、瓦斯、一氧化碳、溫濕度、通風等傳感器、調度安排、生產運行等相關的安全數據,故而導致數據的復雜繁多,是人力處理能力所不及的。
2)煤礦安全管理數據種類龐大。煤礦安全數據中有的來自設備自動記錄,有的來自人員手動錄入,有的是文本型,有的是數值型,還有圖片型,有的是實時記錄數據,有的是定期維護數據,依據這些數據特點可以分成結構性數據,非結構性數據,靜態數據,動態數據。
3)煤礦安全管理數據價值密度低,這是大數據特點之一。伴隨煤礦安全管理的海量數據,有價值的信息往往更加隱蔽、更加容易被忽略、被埋沒,原有的煤礦安全管理系統解決起來困難。
4)煤礦安全管理數據增速快。由于煤礦生產機械化程度提高和各類信息管理系統投入到煤礦運行管理,煤礦安全管理中涉及到的風險隱患、人員不安全行為、培訓情況,設備運行狀態,環境狀態探測等等數據呈現出爆炸式增長趨勢。
面對煤礦安裝管理大數據的上述特點,傳統的數據管理解決方案已經不適用,因此,通過采用文獻分析、專家訪談等方法設計出煤礦安全管理大數據分析模型, 煤礦安全管理大數據分析模型如圖2。
圖2 煤礦安全管理大數據分析模型Fig.2 Big data analysis model of coal mine safety management
1)研究目標。煤礦信息化所包含的系統種類多,每套系統標準不同,短期內無法做到將所有的系統數據進行挖掘分析,所以以高關聯度的核心數據庫作為研究目標是首選,從人員、設備、環境、管理4 個角度確定研究對象,為了對煤礦安全管理進行數據挖掘,需要制定可執行的數據采樣方案,明確數據采集目標、要素、設備和流程。
2)數據預處理。數據預處理是數據分析的基礎,也是數據挖掘的重要步驟,因為數據的質量高低直接決定數據挖局的精度和效率。進行數據挖掘的前提須確保數據的干凈和高質量,為此,要對煤礦安全管理系統的數據進行抽取、清洗、轉換和加載,同時還需對數據進行關聯分析,包括語義、數據庫表、標簽體系等等。
3)理論分析。依托煤礦企業已有的硬件設備和軟件系統,將收集到的數據進行整理后,通過運用數據挖掘分析方法,搭建煤礦安全管理平臺的基本功能和技術框架,多維度探索數據之間關聯性,挖掘出具有一定理論價值和實際意義的結論。
為滿足煤礦安全管理的態勢感知,監測預警、應急指揮、流程管理的實際業務需求,以綜合整理多個煤礦安全系統中海量數據為出發點,設計煤礦安全管理大數據平臺。該平臺具有數據驅動企業運營、管理精細、簡潔直觀等特征,形成“報告、決策、推送”完整智慧煤礦運行閉環結構。以IOS 結構為參考設計的煤礦安全管理大數據平臺總體功能框架如圖3。煤礦安全管理大數據平臺主要包含5 部分,即:基礎層、支撐層、應用層、表現層和用戶層。
圖3 煤礦安全管理大數據平臺總體功能框架Fig.3 The overall functional framework of the coal mine safety management big data platform
1)基礎層。基礎層存儲來自多個系統的數據庫,數據類型包括人員、設備、環境、管理的源數據、日志、系統業務數據等結構化數據和網頁、傳感器采集數據、視頻采集數據等非結構化數據。
2)支撐層。支撐層是該平臺的核心層次。主要目的是整合來自不同系統采集的具有分散、異構、多源特點的數據,通過統一訪問入口,實現跨平臺、跨數據庫的信息訪問、調取、傳遞、運算,從而達到集成各種有效信息。
3)應用層。應用層鏈接支撐層和表現層,是數據處理的關鍵環節。主要完成數據處理和挖掘,為煤礦系統精準管理和科學決策提供有效的數據依據。
4)表現層。表現層關注的焦點是提供正確的信息表達語法和語義,具備3 種主要功能:網絡的安全和信息保密管理、系統中文本的壓縮與打包、虛擬終端協議。
5)用戶層。用戶層是用戶與系統之間交流的紐帶,在統一界面中以交互形式實現用戶與各種數據庫內數據的查詢、插入、刪除、更新等需求。
煤礦安全管理大數據平臺采用Hadoop 技術為依托的大數據分布式集群技術架構,充分利用大數據生態系統集群及工具,分析處理煤礦安全管理數據,全面提高煤礦安全數據的勘察、挖掘和凝練能力,助力企業管理邁向大數據新時代。煤礦安全管理大數據平臺大數據分布式集群技術架構如圖4。
圖4 煤礦安全管理大數據平臺大數據分布式集群技術架構Fig.4 Technical architecture of big data distributed cluster of big data platform for coal mine safety management
1)數據源。煤礦安全管理大數據平臺的基礎數據均來自于人員、設備、環境、管理等相關的各種靜態和動態數據信息系統。靜態數據具有在很長的一段時間內不會變化、在運行中主要作為控制或參考用的特點,在煤礦企業管理系統中的靜態數據雖然長時間不需要更新,但其具有一定的價值和準確度,對煤礦安全管理具有實際意義[9]。動態數據顧名思義其具有隨時間變化而改變,直接反映事務過程的特點,煤礦企業管理系統中主要包括實時獲取的各系統內的日志訪問數據、環境設備數據、各系統的業務數據流,特別是由于采集的數據來自多種系統,致使數據存在結構差異、分布松散、數據量龐大、統一困難等情況,因此需從定義、范例、屬性、關系、冗余、實時、擴展等方面思慮周全。
2)數據采集。針對煤礦管理中眾多系統數據類型及特點,大數據平臺配置了適用于靜態數據、動態數據的存儲形式和各類數據訪問適配器,可以實現數據清洗加工,為下一步數據管理與轉換等工作做好準備。
3)數據存儲。大數據的存儲采用磁盤陣列的分布式存儲方式,實現各類系統、異構數據高效、便捷、安全歸類存放。在煤礦大數據中,需存儲的數據主要分為2 種:其一是給企業決策層提供監管的決策性數據;其二是企業需存檔的數據。
4)數據處理平臺。數據處理平臺以服務模式為總體架構,覆蓋煤礦大數據應用全過程,是核心部分。平臺采用適合大規模數據集應用的Hadoop 分布式文件系統(HDFS)和在集群資源管理、作業調度監控表現突出的Hadoop 資源管理器YARN 分層結構框架。采集的各種數據存儲在適合于非結構化數據存儲且具有高可靠性、高性能、面向列、可伸縮的的HBase 數據庫。通過Hadoop 的Hive 數據倉庫分析系統,進行數據提取、轉化、加載,將結構化的數據文件映射為一張數據庫表,并采用適合Hadoop 存儲的BP 數據級的Impala 技術,實現快速查詢數據等交互行為。
5)數據分析應用。平臺以業務范疇、危險源特征、屬性等多維度的方式、關聯規則的數據挖掘算法和多標簽關聯分類算法等關聯分析方法對下層數據處理平臺中的數據進行算法優化調整、監測監控數據、內容分析和挖掘,并給予評價。
6)數據處理方式。為了保證煤礦安全管理大數據分析結果的快速性和完整性,采取用時間換取成本的離線計算方案和具有很高價值收益的流式實時計算方案,這2 種方案不僅提供了離線數據分析的各種解決方案,同時在離線向實時的轉型中提供了無縫轉換[10]。在數據處理過程中,由于煤礦安全管理數據的繁雜、異構、連續等特征,須采用具有高性能、高容錯性、高可擴展性的數據處理工具。
7)界面展現。用戶界面的以布局合理,設計直觀、簡潔,功能一目了然,交互準確有效,標準控件規范為設計原則,用戶通過統一認證登錄平臺向服務器發送各種請求,平臺通過數據處理、分析將用戶所需結果展現出來。
基于數據挖掘技術,結合安全管理、系統工程以及數據挖掘等理論和方法,對煤礦安全管理系統現狀進行深入分析,研究并設計了基于數據挖掘的煤礦安全管理大數據平臺。煤炭安全管理大數據平臺通過搭建適合BP 數據級的Hadoop 大數據框架對企業內部已有多系統信息資源進行整理、清洗、分析、歸納,從不同角度和維度挖掘出信息之間的規律、模式等隱含知識,為煤炭用戶提供決策參考依據。目前,數據挖掘技術在煤礦安全領域的應用處在初期階段,探索、研究基于數據挖掘的大型軟件系統平臺,構建煤炭安全管理大數據分析方法體系有待進一步研究與優化。