呂傳波 趙金娥
(山東精誠電子科技有限公司,山東 濟南 250000)
近年來,煤炭行業(yè)迅速發(fā)展,信息化程度不斷提高,煤礦建設了多種形式的信息化系統(tǒng),包括安全監(jiān)測監(jiān)控系統(tǒng)、井下人員定位系統(tǒng)、重大設備監(jiān)測系統(tǒng)等。但是由于各廠家數(shù)據(jù)標準不統(tǒng)一,各系統(tǒng)之間難以打通,造成信息孤島現(xiàn)象嚴重,因此建設綜合性的大數(shù)據(jù)分析平臺迫在眉睫。
崔亞仲(2019)[1]等提出了煤礦大數(shù)據(jù)應從安全管理、生產(chǎn)執(zhí)行、經(jīng)營管理等領域研究。毛開江(2019)[2]研究了煤礦安全監(jiān)測監(jiān)控數(shù)據(jù)聯(lián)網(wǎng)采集的方式,為大數(shù)據(jù)分析提供了數(shù)據(jù)支撐。本文從數(shù)據(jù)采集、存儲、計算、治理、上傳等方面對大數(shù)據(jù)平臺進行構建研究。
我國煤礦分布較散,政府部門對煤礦企業(yè)基礎數(shù)據(jù)采集困難,數(shù)據(jù)利用率較低,需要利用新一代信息技術,以大數(shù)據(jù)中心平臺為紐帶,將企業(yè)基礎數(shù)據(jù)有效融合在一起,通過數(shù)據(jù)分析實現(xiàn)應用創(chuàng)新。
青龍煤礦位于黔西縣東南部,當前信息化建設較為完備,主要有安全監(jiān)控系統(tǒng)、人員定位系統(tǒng)、供電監(jiān)控系統(tǒng)、視頻監(jiān)控系統(tǒng)、提升系統(tǒng)、瓦斯抽放系統(tǒng)、排水系統(tǒng)、通風系統(tǒng)、壓風系統(tǒng)、礦壓監(jiān)測系統(tǒng)、頂板監(jiān)測系統(tǒng)、膠帶運輸系統(tǒng)和輔助運輸系統(tǒng)等。
青龍煤礦根據(jù)國家要求,已經(jīng)建設了相對完善的監(jiān)測監(jiān)控及自動化系統(tǒng),但是未實現(xiàn)各系統(tǒng)數(shù)據(jù)的融合分析利用及共享,工業(yè)大數(shù)據(jù)平臺尚未建立,需要將已經(jīng)建設的系統(tǒng)進行數(shù)據(jù)接入、分類、清洗,通過數(shù)采平臺完成現(xiàn)有系統(tǒng)的接入,完成多源異構數(shù)據(jù)的歸一化和邊緣集成,利用協(xié)議轉化,開展平臺邊緣側數(shù)據(jù)預處理、存儲以及智能分析,實現(xiàn)多工業(yè)通信協(xié)議兼容及數(shù)據(jù)間互通。
青龍煤礦利用云計算、物聯(lián)網(wǎng)、大數(shù)據(jù)等新興技術,將煤礦企業(yè)安全生產(chǎn)中產(chǎn)生的數(shù)據(jù)進行有效的采集應用,通過大數(shù)據(jù)分析平臺,實現(xiàn)安全生產(chǎn)及時預測、預警、預報,搭建可以對外提供支撐服務的大數(shù)據(jù)中心,支撐政府對企業(yè)的服務,支撐煤礦企業(yè)安全發(fā)展。
青龍煤礦數(shù)據(jù)平臺架構圖如圖1。

圖1 青龍煤礦大數(shù)據(jù)分析平臺架構圖
青龍煤礦建立了高可用的數(shù)據(jù)采集系統(tǒng),采用分布式、可靠、高效的實時數(shù)據(jù)抽取工具,以交換文件、數(shù)據(jù)庫、OPC 服務器、PLC 等多種方式,自定義配置數(shù)據(jù)采集任務,支持多類工業(yè)協(xié)議解析、數(shù)據(jù)規(guī)范、清洗。
系統(tǒng)對青龍煤礦現(xiàn)有多個系統(tǒng)的數(shù)據(jù)進行接入,部分系統(tǒng)接入情況如下:
(1)抽取、清洗安全監(jiān)控系統(tǒng)、井下人員定位系統(tǒng)、煤礦產(chǎn)量信息聯(lián)網(wǎng)系統(tǒng)、重大設備監(jiān)控系統(tǒng)、煤礦視頻監(jiān)控系統(tǒng)等系統(tǒng)的實時數(shù)據(jù);
(2)系統(tǒng)接入煤礦安全監(jiān)控系統(tǒng)數(shù)據(jù),重點提取煤礦安全監(jiān)控系統(tǒng)中報警不處理、數(shù)據(jù)未正常上傳、傳感器配置不規(guī)范、傳感器未按時調(diào)校、系統(tǒng)維護不及時、信息系統(tǒng)未按規(guī)定備份、設備安裝覆蓋率小于《煤礦安全規(guī)程》要求、數(shù)據(jù)巡檢周期過長等數(shù)據(jù);
(3)系統(tǒng)接入煤礦井下人員定位系統(tǒng)數(shù)據(jù),重點抽取煤礦井下作業(yè)人員定位系統(tǒng)中煤礦超員超時情況、瓦斯超限人員不撤離、領導未按規(guī)定帶班下井情況、人員違規(guī)(越界)作業(yè)、人員交接班異常、特種作業(yè)人員應到地點異常、崗位人員脫崗等數(shù)據(jù);
(4)系統(tǒng)接入煤礦產(chǎn)量數(shù)據(jù),提取煤礦核定產(chǎn)能、月度年度生產(chǎn)計劃和實時產(chǎn)量數(shù)據(jù);
(5)系統(tǒng)接入重大設備中主風機、空壓機、提升機、水泵、主皮帶、架空人車、供電系統(tǒng)、輔助運輸系統(tǒng)等重大設備監(jiān)測監(jiān)控數(shù)據(jù);
(6)建立煤礦視頻監(jiān)控聯(lián)網(wǎng),以讀取硬盤錄像機接口或IP 攝像頭的方式,獲取實時監(jiān)控視頻數(shù)據(jù)。
(7)對現(xiàn)階段尚未建立系統(tǒng)的或者非實時監(jiān)測的安全管理系統(tǒng)數(shù)據(jù),可實現(xiàn)對固定格式的文件數(shù)據(jù)進行導入。
基于大數(shù)據(jù)中心的Hadoop 以及MPP 資源池提供大數(shù)據(jù)分布式計算與存儲組件,并利用服務管理平臺實現(xiàn)對各大數(shù)據(jù)組件的服務化。
(1)Hadoop 大數(shù)據(jù)平臺:采用分布式存儲和集中式存儲相結合的結構,具備海量數(shù)據(jù)存儲處理能力。將數(shù)據(jù)采集層采集到的數(shù)據(jù),通過統(tǒng)一時標、描述、分類處理后存儲在大數(shù)據(jù)平臺的實時數(shù)據(jù)庫、關系型數(shù)據(jù)庫及數(shù)據(jù)倉庫系統(tǒng)。在大數(shù)據(jù)平臺上運行Hadoop、Spark、HBase、Kafka 等大數(shù)據(jù)組件。支持多種數(shù)據(jù)庫,包括工業(yè)實時數(shù)據(jù)庫、關系型數(shù)據(jù)庫、地理數(shù)據(jù)庫、分布式數(shù)據(jù)庫、非關系型數(shù)據(jù)庫、內(nèi)存數(shù)據(jù)庫等。
(2)關系型數(shù)據(jù)倉庫:可擴展到PB 級別的MPP 架構數(shù)據(jù)倉庫。業(yè)界領先的MPP 查詢引擎、列式存儲、智能索引、向量執(zhí)行;高度兼容SQL標準,并提供庫內(nèi)分析、窗口函數(shù)等高級分析功能。數(shù)據(jù)倉庫性能卓越,針對PB 級數(shù)據(jù)查詢,毫秒級響應,同時兼容MySQL 協(xié)議,可與OBIEE、Tableau、Saiku 等BI 工具對接。
(3)時序數(shù)據(jù)庫:存儲時間序列數(shù)據(jù)的高性能數(shù)據(jù)庫,需擁有極高的數(shù)據(jù)壓縮能力、極優(yōu)的查詢性能,特別適用于物聯(lián)網(wǎng)場景。數(shù)據(jù)庫基于負載均衡和分布式存儲架構,提供極速的數(shù)據(jù)處理能力、按需的海量數(shù)據(jù)存儲能力、優(yōu)于傳統(tǒng)關系型數(shù)據(jù)庫數(shù)百倍的時序數(shù)據(jù)壓縮能力,大大節(jié)約存儲空間。
(4)空間數(shù)據(jù)庫:用來保存地理空間信息。
(5)數(shù)據(jù)基本上為結構化數(shù)據(jù),保存在關系型數(shù)據(jù)庫中,方便使用SQL 進行關聯(lián)查詢;煤礦采集信息的監(jiān)測監(jiān)控信息為按時間排序的監(jiān)控監(jiān)測數(shù)據(jù),保存到時序數(shù)據(jù)庫中;地圖等地理空間數(shù)據(jù)保存到空間數(shù)據(jù)庫中。
青龍煤礦大數(shù)據(jù)分析平臺選取Flink 流式計算方法,將定義好的計算部署到分布式節(jié)點上,實現(xiàn)數(shù)據(jù)實時同步和協(xié)同。Flink 以數(shù)據(jù)并行和流水線方式執(zhí)行任意批處理和流數(shù)據(jù)程序。可自定義監(jiān)測窗口設定規(guī)則,包括時間窗口、事件窗口、多種類型多個維度的窗口等,通過規(guī)則捕獲數(shù)據(jù)進行計算,并將結果推送至Kafka 存儲,實時刷新系統(tǒng)前端界面查看最新數(shù)據(jù)信息,數(shù)據(jù)可以解析到后臺服務,后臺可將計算結果推送至postgres 關系型數(shù)據(jù)庫存儲。
青龍煤礦大數(shù)據(jù)平臺的數(shù)據(jù)治理是通過flume抽取源數(shù)據(jù)推送到kafka,通過解析器將數(shù)據(jù)存到hbase(phenix)、pgsql。首先在數(shù)采平臺配置采集任務,通過Flume 數(shù)據(jù)采集數(shù)據(jù)到Kafka 中;在新建抽取任務中輸入自定義任務名稱,選擇抽取方式、依據(jù)標準、目標系統(tǒng),源數(shù)據(jù)服務器IP 輸入需要抽取的文件所在服務器IP 地址,文件路徑輸入需要抽取文件所在的路徑,然后連接測試是否能連通,如果成功下一步可以查看抽取的源數(shù)據(jù)。
結果預覽可以查看數(shù)據(jù)創(chuàng)建時間、創(chuàng)建人、任務名稱、抽取目錄、目標系統(tǒng)、狀態(tài),數(shù)據(jù)抽取到kafka 中,解析器解析kafka 中的數(shù)據(jù),將數(shù)據(jù)通過相應的代碼邏輯分別存入到phenix,同步到hbase、pgsql、redis 中。
通過FTP 服務的方式,交換文件進行數(shù)據(jù)上報。首先在數(shù)采平臺配置采集任務,通過Flume 數(shù)據(jù)采集數(shù)據(jù)到Kafka 中,在數(shù)據(jù)共享中配置數(shù)據(jù)上報任務,數(shù)據(jù)來源為數(shù)采平臺的采集配置選項,選擇上級單位接收的文件類型:支持XML、TXT,維護上級單位提供的FTP 的服務器地址、端口、目標路徑、用戶名、密碼,手動測試是否可以連通,保存配置任務。
在上報任務管理列表中,可消費Kafka 中的消息,系統(tǒng)根據(jù)配置的接收類型生成對應的上級規(guī)定的文件規(guī)范的相關文件,通過FTP 把生成的文件上傳至上級單位指定的FTP 目錄。
青龍煤礦大數(shù)據(jù)分析平臺實現(xiàn)了煤礦基礎數(shù)據(jù)、安全管理數(shù)據(jù)、監(jiān)測監(jiān)控數(shù)據(jù)、設備工況數(shù)據(jù)的全面采集,目前已集成21 套系統(tǒng),并實現(xiàn)與上級部門的聯(lián)網(wǎng)對接。通過數(shù)據(jù)采集平臺解決了各類系統(tǒng)數(shù)據(jù)零散、煙囪式運行的問題,實現(xiàn)了從零散數(shù)據(jù)向多數(shù)據(jù)融合分析的跨越。
平臺采用先進的數(shù)據(jù)融合技術,通過對各生產(chǎn)子系統(tǒng)數(shù)據(jù)的采集、傳輸、綜合、過濾、相關及合成,對數(shù)據(jù)進行融合分析,由傳統(tǒng)關系數(shù)據(jù)庫轉換為非關系數(shù)據(jù)庫,實現(xiàn)多應用系統(tǒng)異構數(shù)據(jù)的接入、數(shù)據(jù)打通、建立數(shù)據(jù)標準,完成數(shù)據(jù)清洗、數(shù)據(jù)標準管理、數(shù)據(jù)質(zhì)量管理。