


摘要:MapReduce作為數據處理的概念框架對計算、存儲、應用等分布式資源進行大規模可擴展的整合,結合互聯網技術為煤礦企業用戶提供計算和存儲服務并建立安全生產大數據分析系統,這必將成為提升煤礦安全生產的信息手段之一。文中實例是基于HadoopMapReduce大數據系統對礦井瓦斯涌出量進行了預測仿真分析,能為礦井瓦斯治理和安全生產提供了可靠的依據。
關鍵詞:Hadoop;MapReduce;云計算;煤礦;瓦斯涌出量
中圖分類號:TP311 文獻標識碼:A DOI:10.3969/j.issn.1003 6970.2016.05.025
本文著錄格式:劉玉海.MapReduce大數據分析在煤礦的應用研究[J].軟件,2016,37(5):101-104
0.引言
MapReduce作為一個通用且可擴展的并且封裝了并行處理、容錯和數據本地化等技術難點及細節為一體的模塊,能有效的分析處理大數據。讓使用者易于實現并行和分布式系統的開發和應用。MapReduce編程模型結合用戶的自定義Map和Reduce函數,與大數據存儲系統HDFS的結合構成了Hadoop的核心框架,在由大量計算機組成的集群中實現了對大數據的大規模并行化分布式高速運算和存儲。煤礦企業生產安全事關重大,將煤礦相關的大數據整合在一起使用分布式高速運算和存儲協同工作,為實現煤礦危險預測能起到至關重要的作用,也是煤礦的合理化生產的措施之一。
1.Hadoop的Map和Reduce
Hadoop分布式開源軟件是一個在大型集群硬件設備上運行應用程序的軟件框架,具有可靠、高效、可伸縮的數據處理特點,其基本原理就是把大的數據集合分發到Hadoop集群上的每一個數據結點上,每個數據結點會周期性的返回自己完成的工作狀態報告,MapReduce高度優化了用多臺計算機解決分布式問題,增加了數據的可靠性。
MapReduce技術框架包含三個層面的內容:①分布式文件系統②并行編程模型③并行執行引擎。這個處理大數據集的概念框架是由Map和Reduce兩個函數構成的,Map函數專用于獲取大數據輸入并將其分成小片段,以一種獨立的方式使這些片段得到并行處理,亦即傳遞到一組映射函數Map,然后交由其他進程進行操作。Reduce函數整理收集了各個Map回應并顯示其輸出結果,也就是將Map作為一組輸入數據產生鍵值的集合交給一組還原函數Reduce執行映射表的集合并顯示最終的輸出。同一程序Hadoop可運行各種語言編寫的MapReduce程序。