楊 波,吳 寧
(陜西陜煤黃陵礦業有限公司,陜西 延安 727307)
煤礦綜采自動化技術對實現煤炭安全、高效的回采具有非常重要的意義,是國家經濟發展所需煤炭供應的先決條件。國家“十五”“十一五”期間以來,我國煤炭開采技術及裝備取得重大進步,推動了煤礦安全高效綠色開采技術的發展,建成了一大批綜合機械化和高自動化程度的現代化礦井,生產效率、安全指標和煤炭產量大幅度提高[1-4]。國內煤礦企業也在積極探索綜采自動化技術的研究,并進行了多方面的嘗試,取得了顯著進步。但由于綜采工作面復雜的生產過程,龐大的綜采設備系統,各設備作業條件協同復雜,動作繁多,且對動作的邏輯順序、準確性、響應速度要求高,所以針對其監控和管理面臨著各設備控制方式分散、無法實現快速、準確的協作,不能充分發揮設備性能,生產效率較低[5-8]。而且綜采工作面自動化系統以過程化控制為核心,與生產管理過程脫節,未進行高效實時的實現信息的集成和互通,不能有效的對綜采關鍵設備進行管理,無法為生產管理者提供決策和建議。因此,綜采自動化系統的統一管理平臺應運而生,但對于智能化綜采管理平臺中多源異構數據的處理仍需進一步探究。
現有的安全生產監測監控系統,多是局部性、少量指標的檢測[9-11]。同時,因為生產廠商以及系統建設兩者在時期上存在差異,所有子系統在通信協議和接入技術上不能夠實現統一,子系統之間存在較大的數據結構差異,同時具有多源性和異構性的特點。煤礦井下設備(包含各裝備、機器、儀器等電子設施)的數據采集均通過監控系統直接從設備上采集。設備廠商對不同專業設備開發對應的監控系統從設備上實時獲取數據。對煤礦而言,數據只能在監控系統中查看,不能在其它系統中實時使用;對開發商來講,每個監控系統既要負責數據的采集,又要負責數據的校驗、傳輸、共享,大部分功能重復開發,造成系統臃腫,改動困難。而現有設備數據采集沒有統一的數據標準、采集標準,在使用采集數據時,需要根據每種提供的格式進行解析、轉換,增加了出錯機率與重復工作量。并且,現有設備所生成的數據格式多樣,包含結構化、半結構化和非結構化數據。因此,多源異構數據的處理就成為智能化綜采管理平臺運轉的核心引擎。
數據處理系統架構:智能化綜采管理平臺中數據來源十分廣泛,例如,運輸三機、采煤機等各種生產器械、電液控制等器械系統、各種傳感器的安全監測數據、用戶操作行為數據、故障及報警數據等[12-14]。這些數據通過各自本身的監控系統及各種終端設備直接傳輸到云端,由于各設備的生產廠商不同,且暫無統一的數據標準,所以采集的數據格式多樣,存在結構化、半結構化和非結構化數據,形成多源異構數據,并存在重復數據的可能[15-17]。多源異構數據處理系統架構,如圖1所示。
ETL:全名Extract-Transform-Load,是用來描述將數據從來源端經過抽取(extract)、轉換(transform)、加載(load)至目的端的過程,同時也是構建數據倉庫至關重要的一個環節,用戶通過數據源抽取出自己需要的數據,經過數據清洗,最終將數據按照預先定義好的數據倉庫模型加載到數據倉庫中去。其中數據清洗包含:①對不精確數據的清洗。首先就是要識別出數據中的異常。在識別數據中的異常時,最常用的方法就是統計學的方法。給每個屬性賦予對應的權重是它的核心思想,對每個屬性字段值的平均值和標準差進行統計,依據此為每一個屬性建立一個置信區間,通過查看屬性值是否在置信區間內來判斷屬性是否異常;②重復數據的清洗。在數據倉庫中,最常見的數據質量問題就包括相似重復數據,不同系統的集成一般會導致大量重復記錄生成,因此需要判斷兩條數據是否相似或相同,從而對相似重復數據進行集中的清洗。

圖1 多源異構數據處理系統架構
根據數據集不同的特點和用途,采用不同的數據庫進行存儲操作。
Gbase/Oracle:Gbase和Oracle兩者都是SQL數據庫,都遵從SQL語句,語法也差不多。最大的區別是表結構不同,Oracle是傳統行列式,小庫比較快,大庫靠索引提高效率。Gbase是分布式,數據不是按行列來排列而是按區塊分布的,所以小庫的速度一般般,但是大庫比如TB級,效率驚人,數據庫越大Gbase優勢越明顯。因此采用Gbase和Oracle對高價值密度數據進行存儲及處理。
SQL on Hadoop:在SQL on Hadoop系統中,有兩種架構,一種是基于某個運行時,框架構建出查詢引擎,典型案例是Hive;另一種是模仿過去關系數據庫的MPP架構,就是依據過去的MPP數據庫架構創建一個專門的系統,于是就有了Impala,Presto等等。Hive具有高擴展性的特點,能夠將集群的規模自由擴展,一般不需要重啟服務;還具有高延展性,支持用戶自定義函數,用戶可以根據需求來實現自己的函數;同時還具備高容錯性,SQL在節點出現差錯時仍可完成執行;將復雜MR任務編寫為SQL語句,提高開發效率;靈活的數據存儲等。但是也存在非常明顯的缺點,具有延遲性,性能還有待提升;索引功能還不夠完善,效率較低;不支持事務類操作。因此將其作為低價值密度數據的數據倉庫。
MapReduce:MapReduce是一種編程模型,主要用于大規模數據集(大于1TB)的并行運算。概念“Map(映射)”和“Reduce(歸約)”,是它們的主要思想,它具有從函數式編程語言以及從矢量編程語言里借來的特性。MapReduce對不會分布式并行編程情況下的程序人員提供了極大的便利,并能在分布式系統上運行自己的程序,是面向大數據并行處理的計算模型、框架和平臺。利用其并行計算的特點對低價值密度數據進行批量處理分析。
系統對于數據的處理分為高價值密度數據和低價值密度數據兩個部分。
低價值密度數據處理:數據的價值密度與數據量成反比,數據量越龐大,其價值密度越低。因此對于低價值密度的龐大數據,利用MapReduce對大數據并行計算的能力,采用分布式隊列流式計算方法,進行數據管理和分析挖掘。低價值密度數據的數據管理包括Hadoop集群配置管理、應用管理、資源監控、安全管理、告警管理等。分析挖掘則是利用分析挖掘算法庫中的自然語言、分類算法、推薦算法、聚類算法、關聯分析等算法對數據進行統計分析、效果監控、反饋學習和系統監控。
高價值密度數據處理:對于高價值密度數據,由于其數據量相對較小可以進行更詳細的數據定義、數據篩選、分析定制和算法管理工作。
多源異構數據處理系統目前已在智能化綜采管理平臺實現運行。通過持續數據采集,實現對生產設備的預警預判;通過數據的交叉分析,實現對各綜采自動化生產過程中的事件關聯性分析決策。通過數據的積累,豐富企業決策依據;實現數據的保護以及數據存儲,讓生產數據具有繼承傳遞性。
多源異構數據處理系統針對煤礦生產的數據特性,可實現各類多源異構數據的高效傳輸,快速處理分析。此外,可以消除信息孤島,建立統一的數據傳輸網絡與數據處理中心;針對煤礦綜采的各個環節的數據采集,結合專家經驗進行開采的安全性預判,進而對設備持續開采的周期壽命進行預警預判和自動分析。