煤礦大數(shù)據(jù)分析平臺構建研究

2021-06-05 07:02:06呂傳波趙金娥

山東煤炭科技 2021年5期

呂傳波趙金娥

（山東精誠電子科技有限公司，山東濟南 250000）

1 引言

近年來，煤炭行業(yè)迅速發(fā)展，信息化程度不斷提高，煤礦建設了多種形式的信息化系統(tǒng)，包括安全監(jiān)測監(jiān)控系統(tǒng)、井下人員定位系統(tǒng)、重大設備監(jiān)測系統(tǒng)等。但是由于各廠家數(shù)據(jù)標準不統(tǒng)一，各系統(tǒng)之間難以打通，造成信息孤島現(xiàn)象嚴重，因此建設綜合性的大數(shù)據(jù)分析平臺迫在眉睫。

崔亞仲（2019）[1]等提出了煤礦大數(shù)據(jù)應從安全管理、生產(chǎn)執(zhí)行、經(jīng)營管理等領域研究。毛開江（2019）[2]研究了煤礦安全監(jiān)測監(jiān)控數(shù)據(jù)聯(lián)網(wǎng)采集的方式，為大數(shù)據(jù)分析提供了數(shù)據(jù)支撐。本文從數(shù)據(jù)采集、存儲、計算、治理、上傳等方面對大數(shù)據(jù)平臺進行構建研究。

2 概述

我國煤礦分布較散，政府部門對煤礦企業(yè)基礎數(shù)據(jù)采集困難，數(shù)據(jù)利用率較低，需要利用新一代信息技術，以大數(shù)據(jù)中心平臺為紐帶，將企業(yè)基礎數(shù)據(jù)有效融合在一起，通過數(shù)據(jù)分析實現(xiàn)應用創(chuàng)新。

青龍煤礦位于黔西縣東南部，當前信息化建設較為完備，主要有安全監(jiān)控系統(tǒng)、人員定位系統(tǒng)、供電監(jiān)控系統(tǒng)、視頻監(jiān)控系統(tǒng)、提升系統(tǒng)、瓦斯抽放系統(tǒng)、排水系統(tǒng)、通風系統(tǒng)、壓風系統(tǒng)、礦壓監(jiān)測系統(tǒng)、頂板監(jiān)測系統(tǒng)、膠帶運輸系統(tǒng)和輔助運輸系統(tǒng)等。

青龍煤礦根據(jù)國家要求，已經(jīng)建設了相對完善的監(jiān)測監(jiān)控及自動化系統(tǒng)，但是未實現(xiàn)各系統(tǒng)數(shù)據(jù)的融合分析利用及共享，工業(yè)大數(shù)據(jù)平臺尚未建立，需要將已經(jīng)建設的系統(tǒng)進行數(shù)據(jù)接入、分類、清洗，通過數(shù)采平臺完成現(xiàn)有系統(tǒng)的接入，完成多源異構數(shù)據(jù)的歸一化和邊緣集成，利用協(xié)議轉化，開展平臺邊緣側數(shù)據(jù)預處理、存儲以及智能分析，實現(xiàn)多工業(yè)通信協(xié)議兼容及數(shù)據(jù)間互通。

3 大數(shù)據(jù)分析平臺構建

青龍煤礦利用云計算、物聯(lián)網(wǎng)、大數(shù)據(jù)等新興技術，將煤礦企業(yè)安全生產(chǎn)中產(chǎn)生的數(shù)據(jù)進行有效的采集應用，通過大數(shù)據(jù)分析平臺，實現(xiàn)安全生產(chǎn)及時預測、預警、預報，搭建可以對外提供支撐服務的大數(shù)據(jù)中心，支撐政府對企業(yè)的服務，支撐煤礦企業(yè)安全發(fā)展。

青龍煤礦數(shù)據(jù)平臺架構圖如圖1。

圖1 青龍煤礦大數(shù)據(jù)分析平臺架構圖

3.1 數(shù)據(jù)采集

青龍煤礦建立了高可用的數(shù)據(jù)采集系統(tǒng)，采用分布式、可靠、高效的實時數(shù)據(jù)抽取工具，以交換文件、數(shù)據(jù)庫、OPC 服務器、PLC 等多種方式，自定義配置數(shù)據(jù)采集任務，支持多類工業(yè)協(xié)議解析、數(shù)據(jù)規(guī)范、清洗。

系統(tǒng)對青龍煤礦現(xiàn)有多個系統(tǒng)的數(shù)據(jù)進行接入，部分系統(tǒng)接入情況如下：

（1）抽取、清洗安全監(jiān)控系統(tǒng)、井下人員定位系統(tǒng)、煤礦產(chǎn)量信息聯(lián)網(wǎng)系統(tǒng)、重大設備監(jiān)控系統(tǒng)、煤礦視頻監(jiān)控系統(tǒng)等系統(tǒng)的實時數(shù)據(jù)；

（2）系統(tǒng)接入煤礦安全監(jiān)控系統(tǒng)數(shù)據(jù)，重點提取煤礦安全監(jiān)控系統(tǒng)中報警不處理、數(shù)據(jù)未正常上傳、傳感器配置不規(guī)范、傳感器未按時調(diào)校、系統(tǒng)維護不及時、信息系統(tǒng)未按規(guī)定備份、設備安裝覆蓋率小于《煤礦安全規(guī)程》要求、數(shù)據(jù)巡檢周期過長等數(shù)據(jù)；

（3）系統(tǒng)接入煤礦井下人員定位系統(tǒng)數(shù)據(jù)，重點抽取煤礦井下作業(yè)人員定位系統(tǒng)中煤礦超員超時情況、瓦斯超限人員不撤離、領導未按規(guī)定帶班下井情況、人員違規(guī)（越界）作業(yè)、人員交接班異常、特種作業(yè)人員應到地點異常、崗位人員脫崗等數(shù)據(jù)；

（4）系統(tǒng)接入煤礦產(chǎn)量數(shù)據(jù)，提取煤礦核定產(chǎn)能、月度年度生產(chǎn)計劃和實時產(chǎn)量數(shù)據(jù)；

（5）系統(tǒng)接入重大設備中主風機、空壓機、提升機、水泵、主皮帶、架空人車、供電系統(tǒng)、輔助運輸系統(tǒng)等重大設備監(jiān)測監(jiān)控數(shù)據(jù)；

（6）建立煤礦視頻監(jiān)控聯(lián)網(wǎng)，以讀取硬盤錄像機接口或IP 攝像頭的方式，獲取實時監(jiān)控視頻數(shù)據(jù)。

（7）對現(xiàn)階段尚未建立系統(tǒng)的或者非實時監(jiān)測的安全管理系統(tǒng)數(shù)據(jù)，可實現(xiàn)對固定格式的文件數(shù)據(jù)進行導入。

3.2 數(shù)據(jù)存儲

基于大數(shù)據(jù)中心的Hadoop 以及MPP 資源池提供大數(shù)據(jù)分布式計算與存儲組件，并利用服務管理平臺實現(xiàn)對各大數(shù)據(jù)組件的服務化。

（1）Hadoop 大數(shù)據(jù)平臺：采用分布式存儲和集中式存儲相結合的結構，具備海量數(shù)據(jù)存儲處理能力。將數(shù)據(jù)采集層采集到的數(shù)據(jù)，通過統(tǒng)一時標、描述、分類處理后存儲在大數(shù)據(jù)平臺的實時數(shù)據(jù)庫、關系型數(shù)據(jù)庫及數(shù)據(jù)倉庫系統(tǒng)。在大數(shù)據(jù)平臺上運行Hadoop、Spark、HBase、Kafka 等大數(shù)據(jù)組件。支持多種數(shù)據(jù)庫，包括工業(yè)實時數(shù)據(jù)庫、關系型數(shù)據(jù)庫、地理數(shù)據(jù)庫、分布式數(shù)據(jù)庫、非關系型數(shù)據(jù)庫、內(nèi)存數(shù)據(jù)庫等。

（2）關系型數(shù)據(jù)倉庫：可擴展到PB 級別的MPP 架構數(shù)據(jù)倉庫。業(yè)界領先的MPP 查詢引擎、列式存儲、智能索引、向量執(zhí)行；高度兼容SQL標準，并提供庫內(nèi)分析、窗口函數(shù)等高級分析功能。數(shù)據(jù)倉庫性能卓越，針對PB 級數(shù)據(jù)查詢，毫秒級響應，同時兼容MySQL 協(xié)議，可與OBIEE、Tableau、Saiku 等BI 工具對接。

（3）時序數(shù)據(jù)庫：存儲時間序列數(shù)據(jù)的高性能數(shù)據(jù)庫，需擁有極高的數(shù)據(jù)壓縮能力、極優(yōu)的查詢性能，特別適用于物聯(lián)網(wǎng)場景。數(shù)據(jù)庫基于負載均衡和分布式存儲架構，提供極速的數(shù)據(jù)處理能力、按需的海量數(shù)據(jù)存儲能力、優(yōu)于傳統(tǒng)關系型數(shù)據(jù)庫數(shù)百倍的時序數(shù)據(jù)壓縮能力，大大節(jié)約存儲空間。

（4）空間數(shù)據(jù)庫：用來保存地理空間信息。

（5）數(shù)據(jù)基本上為結構化數(shù)據(jù)，保存在關系型數(shù)據(jù)庫中，方便使用SQL 進行關聯(lián)查詢；煤礦采集信息的監(jiān)測監(jiān)控信息為按時間排序的監(jiān)控監(jiān)測數(shù)據(jù)，保存到時序數(shù)據(jù)庫中；地圖等地理空間數(shù)據(jù)保存到空間數(shù)據(jù)庫中。

3.3 數(shù)據(jù)計算

青龍煤礦大數(shù)據(jù)分析平臺選取Flink 流式計算方法，將定義好的計算部署到分布式節(jié)點上，實現(xiàn)數(shù)據(jù)實時同步和協(xié)同。Flink 以數(shù)據(jù)并行和流水線方式執(zhí)行任意批處理和流數(shù)據(jù)程序。可自定義監(jiān)測窗口設定規(guī)則，包括時間窗口、事件窗口、多種類型多個維度的窗口等，通過規(guī)則捕獲數(shù)據(jù)進行計算，并將結果推送至Kafka 存儲，實時刷新系統(tǒng)前端界面查看最新數(shù)據(jù)信息，數(shù)據(jù)可以解析到后臺服務，后臺可將計算結果推送至postgres 關系型數(shù)據(jù)庫存儲。

3.4 數(shù)據(jù)治理

青龍煤礦大數(shù)據(jù)平臺的數(shù)據(jù)治理是通過flume抽取源數(shù)據(jù)推送到kafka，通過解析器將數(shù)據(jù)存到hbase(phenix)、pgsql。首先在數(shù)采平臺配置采集任務，通過Flume 數(shù)據(jù)采集數(shù)據(jù)到Kafka 中；在新建抽取任務中輸入自定義任務名稱，選擇抽取方式、依據(jù)標準、目標系統(tǒng)，源數(shù)據(jù)服務器IP 輸入需要抽取的文件所在服務器IP 地址，文件路徑輸入需要抽取文件所在的路徑，然后連接測試是否能連通，如果成功下一步可以查看抽取的源數(shù)據(jù)。

結果預覽可以查看數(shù)據(jù)創(chuàng)建時間、創(chuàng)建人、任務名稱、抽取目錄、目標系統(tǒng)、狀態(tài)，數(shù)據(jù)抽取到kafka 中，解析器解析kafka 中的數(shù)據(jù)，將數(shù)據(jù)通過相應的代碼邏輯分別存入到phenix，同步到hbase、pgsql、redis 中。

3.5 數(shù)據(jù)上傳

通過FTP 服務的方式，交換文件進行數(shù)據(jù)上報。首先在數(shù)采平臺配置采集任務，通過Flume 數(shù)據(jù)采集數(shù)據(jù)到Kafka 中，在數(shù)據(jù)共享中配置數(shù)據(jù)上報任務，數(shù)據(jù)來源為數(shù)采平臺的采集配置選項，選擇上級單位接收的文件類型：支持XML、TXT，維護上級單位提供的FTP 的服務器地址、端口、目標路徑、用戶名、密碼，手動測試是否可以連通，保存配置任務。

在上報任務管理列表中，可消費Kafka 中的消息，系統(tǒng)根據(jù)配置的接收類型生成對應的上級規(guī)定的文件規(guī)范的相關文件，通過FTP 把生成的文件上傳至上級單位指定的FTP 目錄。

4 結論

青龍煤礦大數(shù)據(jù)分析平臺實現(xiàn)了煤礦基礎數(shù)據(jù)、安全管理數(shù)據(jù)、監(jiān)測監(jiān)控數(shù)據(jù)、設備工況數(shù)據(jù)的全面采集，目前已集成21 套系統(tǒng)，并實現(xiàn)與上級部門的聯(lián)網(wǎng)對接。通過數(shù)據(jù)采集平臺解決了各類系統(tǒng)數(shù)據(jù)零散、煙囪式運行的問題，實現(xiàn)了從零散數(shù)據(jù)向多數(shù)據(jù)融合分析的跨越。

平臺采用先進的數(shù)據(jù)融合技術，通過對各生產(chǎn)子系統(tǒng)數(shù)據(jù)的采集、傳輸、綜合、過濾、相關及合成，對數(shù)據(jù)進行融合分析，由傳統(tǒng)關系數(shù)據(jù)庫轉換為非關系數(shù)據(jù)庫，實現(xiàn)多應用系統(tǒng)異構數(shù)據(jù)的接入、數(shù)據(jù)打通、建立數(shù)據(jù)標準，完成數(shù)據(jù)清洗、數(shù)據(jù)標準管理、數(shù)據(jù)質(zhì)量管理。