劉艷秋
(安徽恒源煤電股份有限公司設備租賃分公司,安徽 宿州 235000)
煤礦機電設備是礦業生產中不可或缺的關鍵要素,其運行狀態直接關系到生產效率、工人安全以及礦井整體經濟效益。為了更好地實現機電設備的精細化管理,提高其運行效能,我們設計了一套煤礦機電設備運行狀態大數據管理平臺。該平臺整合大數據技術,旨在全面監控、分析和優化煤礦機電設備的運行狀態。
在各種先進技術支持下,煤礦用機電設備種類不斷增加、運行數據復雜繁瑣,這均導致機電設備管理面臨較大難度。基于此,文章以大數據技術為基礎,基于Hadoop 構建煤礦機電設備運行狀態管理平臺。發揮大數據優勢,實現運行數據智能化管理和自動化分析,從而實現企業設備資源整合和運行數據實時監測[1]。
結合上文對總體設計思路的闡述,該管理平臺大體由五個層級組成,按照從下往上的順序依次為資源層、數據存儲層、平臺層、應用層和服務層。每一層級具備獨立功能,彼此之間在邏輯上存在關聯,共同提供智能化服務。具體來看,資源層是基礎組成部分,是整體平臺運行的保障,所需的運行數據均來自該層級,主要由硬件設備、人員體系和管理系統三個模塊組成。數據存儲層的主要目的是存儲來自資源層的數據信息,借助PLM 數據庫、歷史數據庫、分布式數據庫、云端數據庫等分門別類存儲數據信息。平臺層是機電設備運行狀態大數據處理的關鍵部分,其主要由數據采集、數據預處理、分布式存儲、數據挖掘和數據可視化幾項功能組成,借助大數據技術,結合用戶需求,可以智能分析數據。應用層是用戶日常應用最廣泛的區域,其包括設備運行狀態監控、井下設備實時監控、在線設備數據監測、設備車間維修記錄等功能模塊,這種結構化設計,便于用戶直觀查找到所需內容,并且降低系統操作難度。服務層支持各種應用整合,確保平臺各功能可以獨立發揮作用,也可以協同發揮作用。且該層級可以基于實際需求調整應用組成部分,及時去除不必要的應用模塊,增設新的功能,這對于提供貼心式服務,保證系統服務過程透明化有積極作用。
2.2.1 高通量數據管理技術
高通量數據管理技術是指針對大規模產生、采集和處理的數據,采用先進的管理方法和工具,以確保數據的高效存儲、檢索、處理和分析。文章應用HBase分布式數據庫,并且應用RDF 數據存儲模型作為基礎。該技術應用過程中可以有效提升查詢結果的準確度,并且在一定程度上提升查詢效率。雖然煤礦機電設備運行狀態大數據日益復雜、繁瑣,但基于該技術,可以實現高效、準確檢索和查詢[2]。
2.2.2 多源數據融合技術
多源數據融合技術是在面對來自不同數據源的多樣化數據時,將這些數據整合為一個一體化的數據集,以提供更全面、準確的信息。這涉及數據清洗、對齊、特征融合、模型融合等關鍵步驟。文章借助該技術,確保中間數據庫實現智能化整合,也就是借助中間數據庫的對應接口表,確保平臺可以從多層次采集設備運行狀態,例如結合物料表結構確定設備狀態、結合環境因素確定設備運行狀態等。基于該技術可以實現數據和企業核心語義結構物理對象結點兼容,也就是進一步展現數據整合優勢,避免出現信息孤島現象。同時,該技術的應用使得平臺可以更為準確、詳細描述資源,圍繞設備運行狀態更為全面定義數據資源集,從而確保查詢、檢索過程中,可以基于表征實現高效篩選,并關聯展示設備的各項參數信息。
2.2.3 并行化數據處理技術
并行化數據處理技術是通過同時處理數據的不同部分,以提高數據處理速度和效率的技術。文章在平臺設計過程中,引入機器學習算法,構建數據清洗模型和數據預警分析模型,發揮智能技術確保數據自動進行預處理,不僅可以更為高效地識別各種類型設備的運行狀態,及時獲取大數據信息,還可以依據一定特征對數據進行分類。同時,該技術可以在一定程度上修復異常值,提升平臺容錯率,避免由于系統故障影響管理效果。另外,在設計數據清洗模型時,借助MapReduce 技術,足以保證數據清洗具備智能化特點[3]。
2.2.4 數據可視化技術
數據可視化技術是將抽象的數據通過圖形化的方式呈現,使人能夠更直觀、清晰地理解數據的含義。文章在思考管理平臺設計過程中,借助setOption方法、Sjax 技術等,確保數據信息可以自動化生成圖表,如此更便于用戶查看信息數據。
結合上文闡述,煤礦機電設備大數據管理平臺中,為了實現預期目標,充分發揮結構化優勢,確保數據采集模塊、數據預處理模塊、分布式存儲模塊、數據挖掘模塊等充分發揮效用是關鍵。數據采集模塊主要發揮采集信息源的作用,其可以收集來自傳感器、企業設備、歷史數據及企業其他系統中的相關信息,從而為數據分析和示警等功能實現奠定堅實的基礎。數據預處理模式的主要目的是為平臺提供便于計算、分析且格式統一的數據基礎,該模塊通過設備監控數據建造約簡化處理、元數據提取、數據轉換等,確保最終結果系統平臺內部模型格式,可以完成分析。分布式存儲模塊是信息存儲的主要場所,該部分包含多個數據庫,例如分布式數據庫、歷史數據庫等,可以分門別類存儲相關信息,且該模塊還具備備份功能,可以有效預防信息丟失問題發生。數據挖掘模塊主要作用是借助機器學習算法等,智能化依據需求完成數據分析。數據可視化模塊包括三方面內容,其中企業運行可視化是展現煤礦企業機電設備信息的渠道,設備運行狀態可視化是展示機電設備實時運行數據的主要途徑,設備健康狀態展示是示警信息展示載體。上述五大模塊中又基于具體功能細化為多個子模塊,這些模塊協同運行、有效銜接,共同組成管理平臺[4]。
為了直觀驗證文章提出的機電設備運行狀態大數據管理平臺設計方案的科學性和實用性,文章在此營造測試環境,通過模擬現實應用場景,驗證該平臺的各項功能,以直觀化數據證明該平臺的優越性。
在此應用IBM-S822LC 服務器,搭建Hadoop 集群。并且設置1 臺虛擬機作為主節點,再設置2 臺虛擬機作為從節點。測試環境硬件配置見表1 所示。而虛擬機的軟件配置見表2 所示。

表1 平臺集群硬件配置總結表

表2 虛擬機軟件配置總結表
為了驗證RDF 數據存儲模型的實用性能,在此應用文章提出的平臺架構方案,搭建管理平臺,應用平臺加載、解析大量RDF 數據。涉及的數據來自經過設備運行狀態大數據平臺處理后的RDF 數據[5]。為了直觀展示存儲性能,在此以傳統的基于Oracle 集群的平臺為對照組進行對比試驗,最終所得結果如圖1 所示。

圖1 RDF 數據解析和加載時間對比圖示
結合圖1 可知,雖然在三元組成低于1.08 百萬時,Oracle 系統更具有優勢,效率更高,但當三元組數據量超過1.08 百萬時,文章提出的方法具備明顯優勢,且隨著數據量增大優勢更為明顯。
在此借助搭建的測試環境,對提出的管理平臺并行化數據處理效果進行檢驗。通過在搭建的平臺上對設備運行狀態大數據進行清洗、降噪和缺失值修復,驗證相關模型的應用性能[6]。將基于時間序列的清理模型設為對照組,從而直觀展示模型價值。最終所得結果如圖2 所示。

圖2 數據清洗時間對比圖示
結合圖2 來看,在數據量低于10 萬時,基于時間序列的模型更具備優勢,但隨著數據量增加,文章提出的模型優勢日益明顯。
文章結合實際需求,基于Hadoop 搭建煤礦機電設備運行狀態大數據管理平臺,該平臺采用結構化設計模式,通過細化功能模塊,確保各功能劃分合理且便于用戶應用。
最后,為了驗證文章提出設計方案的應用價值,通過搭建測試環境的方法,采取對比驗證模式對系統功能進行檢測。
結果證明,該方案可以大幅度提升數據管理能力和管理效率,最大限度地避免出現由于機電設備故障導致的安全事故。