999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Hadoop的備件儲備定額并行化研究

2014-04-29 04:03:01段軍張翔
計算機時代 2014年5期

段軍 張翔

摘 要: 分析了煤礦企業備件儲備定額的構成以及計算過程中存在的不足,針對原來基于串行處理技術的備件消耗量預測方法執行效率低,傳統的并行計算模式關于節點失效和負載均衡問題沒有好的解決方案,提出了基于Hadoop平臺實現備件消耗量預測的設計方法,對概率統計分析方法進行改進,并給出其在Hadoop平臺的MapReduce編程模型上的執行流程。在Hadoop平臺上對改進的備件預測方法進行測試,并與傳統的方法進行對比,結果證明,改進后的方法時間耗費小,可擴展性高。

關鍵詞: Hadoop; 備件; 概率統計分析法; MapReduce

中圖分類號:TP393 文獻標志碼:A 文章編號:1006-8228(2014)05-10-04

Abstract: The composition of reserving quota in the coal mining enterprises and the deficiency existing in the calculation of minimum storage process are analyzed. The original spare parts consumption prediction method based on serial processing execution efficiency is low. The traditional parallel computing mode cannot handle node failure and it is also difficult to deal with issues such as load balancing. The spare parts consumption forecast based on the Hadoop platform is proposed, probability and statistics analysis method has been improved. The implementation process of the improved algorithm based on the MapReduce programming model is given. The improved spare part prediction method is tested on Hadoop platform and compared with the traditional method. The experimental results show that the improved method is less time consuming, and higher extensibility.

Key words: Hadoop; the spare parts; probability and statistics analysis; MapReduce

0 引言

某煤礦集團公司成功引進了SAP公司的ERP(Enterprise Resource Planning)系統,ERP系統的使用給企業帶來了先進的管理理念,建成了完整的企業資原管理體系和高效、便捷的信息技術平臺。但是,其ERP系統里分析和計算備件儲備定額的功能側重于機械制造等備件消耗規律性較強的行業,對于煤礦企業這類備件消耗隨需求變化的行業起不到應有的作用,所以我們為此開發了備件儲備定額系統來對備件信息進行管理,協助業務人員制定備件采購計劃,自動提示所需訂貨的備件等。

但是,隨著系統的使用,一些問題也緊跟著暴露出來。如儲備定額系統對于日常少量備件做消耗量預測可以在較短的時間內很好地完成,但在年中需要為下半年作訂購計劃或為來年制定訂購計劃的時候,因為其備件庫龐大(現常用備件有29萬多種,歷史出入庫存記錄數據更多),做消耗量預測時花費時間很長;而隨著Hadoop云計算平臺在各個領域的運用很好地證明了其對海量數據的存儲能力和并行計算能力,為大量備件的消耗量預測提供了一種新的解決方式。將Hadoop平臺技術與煤礦企業備件儲備定額并行化研究結合起來是一種很新穎的想法,目前還處于探索階段,也是本文主要研究的內容,我們將研究如何解決煤礦企業備件管理所面臨的難題。

1 基于Hadoop的備件消耗預測系統框架

利用云計算平臺實現備件消耗預測,可解決大數據集運算和存儲,并能夠保證系統的可擴展性。國際與國內已經有一些學者在云計算平臺的利用上進行了相關的研究和應用,如利用開源云計算平臺Hadoop進行海量數據分析研究[6],在電力行業進行的海量數據存儲和安全性研究[7],在數據挖掘方面利用Hadoop平臺進行的研究等。借鑒這些研究,筆者在開源云平臺Hadoop上進行備件消耗預測的研究,其系統架構如圖1所示,主要包括數據收集模塊、數據預處理模塊和概率統計分析模塊。

1.1 數據采集模塊

系統按需要輸入日期,調用PI將某大型煤炭集團SAP系統中備件的相關數據,如備件出庫與入庫量、備件信息、各個庫存點備件庫存等,這些信息被傳送到本地數據庫中可用于分析、計算。數據獲取時,系統通過觸發接口到PI的Web Service,并向PI傳遞日期(年月),PI傳遞到SAP系統中實時計算庫存、計劃量、未清訂單以及出入庫量,PI調用定額系統的Web Services完成數據的同步傳輸。

1.2 數據預處理模塊

獲取到備件相關數據后,需要對所獲得的數據進行數據整理和統計、頻數分析,以及裕度系數計算。具體方法如下。

⑴ 備件出入庫數據整理,即根據備件基本信息和大量備件出入庫信息,選擇出某備件兩年的消耗數據(以月為單位),插入到Oracle數據庫的備件整理表中。

⑵ 查詢Oracle數據庫備件整理表中某備件兩年內的消耗數據,通過對其分析,進行選擇性分組,把每組的組中值,頻率,以及備件號插入到Oracle數據庫的備件頻制表中。

⑶ 把頻制表中的記錄根據備件號,分別把頻率值和組中值插入到

⑷ 建立基于資金占用和關鍵性的備件評估數學模型,得到用來彌補預測偏差的裕度系數k,根據備件號插入到Oracle數據庫備件本信息表中。

1.3 概率統計分析模塊

筆者利用開源的Hadoop云計算平臺對備件消耗量預測算法(概率統計分析法)進行MapReduce并行化設計,并在Hadoop平臺上實現MapRedece化備件消耗量預測算法,利用該算法計算備件的平均月消耗量。根據備件的平均月消耗量可以得到訂貨周期內的預測消耗量。概率統計分析法描述如下[11-12]。

⑴ 收集數據。概率統計分析法對數據的要求很低,只需對消耗量進行定期統計。這對企業而言較為方便。

⑵ 對數據進行整理,編制頻數表。

⑶ 計算平均消耗量。

2.1 Hadoop平臺簡介

Hadoop是一個由Apache軟件基金會開發的開源分布式云計算平臺,大數據的存儲和分布式處理能力顯著。Hadoop已經成為包含許多項目的集合,核心包括Hadoop分布式文件系統(Hadoop Distributed File System,HDFS)和MapReduce分布式計算模型(Google MapReduce的開源實現),Hadoop分布式基礎架構的底層細節對用戶來說是透明的。HDFS的高容錯、高伸縮等特性使得用戶在廉價、低配的硬件上部署Hadoop成為可能;MapReduce分布式編程模型使開發并行應用程序更加簡單,開發者不必了解分布式系統底層細節。用戶可以利用Hadoop方便的架構資源,搭建自己的工作集群,充分利用搭建集群的計算和存儲能力,解決海量數據的存儲和運算問題[4]。

Hadoop在分布式存儲和分布式計算方面有著非凡的能力2.2 概率統計分析法MapReduce化分析和設計

根據MapReduce的計算框架,大致可以分為兩個階段:Map階段和Reduce階段。

Map階段:需要處理的輸入數據會被MapReduce框架提供的函數InputFormat分割成大小一定的片段Splits。MapReduce計算框架會根據被分割的分塊的數量來創建等量的Map任務,同時將每個Splits片段進一步分解為形式的鍵值對作為Map函數的輸入參數。然后用戶自己定義的Map函數接收Map函數的輸入參數,產生一個中間鍵值對,框架會對每個鍵值對的Key值進行排序整合,把所有相同Key值的value合并到一起形成一個新的鍵值對列表{Key,List(Value)}并將其傳遞給Reduce。

Reduce階段:根據MapReduce計算框架,把不同Mapper接收到的數據整合,進行排序處理,同時調用用戶編寫的reduce函數進行處理。

將概率統計分析法中平均月消耗量的計算轉換成矩陣相乘的形式,構建MapReduce算法,將數據解析整理放在Map階段,運算放在Reduce階段執行。

以下給出算法的步驟。

⑴ 備件處理信息的存儲。針對Hadoop平臺的MapReduce計算框架,把待處理備件信息按備件號、行、列、組中值、頻率分為兩個文件,存儲在Hadoop分布式文件系統HDFS中。

⑵ 在Map函數中,同時遍歷兩個文件,進行解析整理操作,形成輸入鍵值對,并對鍵值對進行處理,構造輸出鍵值對Key/value。

⑶ 中間結果處理,對Map函數輸出的鍵值對進行整合處理,把Key值相同的Value合并到一起,形成一個新的鍵值對輸出列表,傳遞給Reduce函數。

⑷ 在Reduce函數中,遍歷輸入的鍵值對列表,進行乘積和累加運算,得到最終結果。

2.3 Hadoop平臺實現概率統計分析法

基于上述MapReduce化概率統計分析法的描述,下面介紹該算法在Hadoop平臺的MapReduce計算框架的具體執行流程:

⑴ 將測試樣本備件消耗量頻數表,按照{備件編碼、行、組中值}、{備件編碼、列、頻率}的形式存儲在Hadoop分布式文件系統HDFS中,由SequenceFile類進行存儲工作。其中i代表矩陣中的行值,j代表矩陣中的列值。

⑵ Map函數讀取HDFS中兩個文件,以[key,value]的形式輸入每一項數據。Key是文件中行偏移量,但是在map階段的計算中我們用不到這個值,所以可以忽略。Value是存儲文件的每行的數據。Map函數是對輸入鍵值對的值進行解析,通過遍歷文件中每一行,分別截取備件編碼、行號、列號、組中值和頻率,以備件編碼為Key,(行號#組中值)、(列號#頻率)為value的輸出鍵值對。

⑶ MapReduce計算框架根據用戶自定義的函數將Map函數產生的中間結果進行排序整合處理,形成一個備件編碼相同的value列表。以此作為Reduce函數的輸入。

⑷ Reduce函數階段,對輸入列表中的值進行遍歷,進行result+=valA[i]*valB[j]運算。圖3展示了整個MapReduce的計算執行過程。

MapReduce化設計的概率統計分析法算法,在解決節點失效和負載不易均衡這兩個問題上也取得了不錯的效果。

一是在Hadoop集群中,如果其中某一臺計算機發生故障從而停止工作,那么被這臺計算機上運行的計算任務會被轉移交接給集群中沒有任務處理而處于空閑狀態的計算機處理。

二是Hadoop上處理的任務塊數可以變動,不論計算任務的大小,可以通過更改配置文件的手段來設定每個Map數據塊的大小,以使所處理的任務塊數遠大于集群中計算機的節點數,這樣,寶貴的計算資源就不會被浪費,也可以達到負載均衡的目的。

3 實驗結果與分析

3.1 實驗環境

本實驗選取三臺計算機搭建Hadoop平臺,計算機系統采用 Ubuntu Linux 10.10,Hadoop版本選用Hadoop—1.1.2,一臺機器作為Master和JobTracker服務節點3.2 實驗數據選取

選取某大型煤炭集團備件消耗記錄為實驗數據,實驗數據分為Bjdb1、Bjdb2、Bjdb3和Bjdb4四個大小不同的數據集,它們的大小分別為:1000、10000、100000和1000000條備件消耗記錄。每組的消耗記錄分別由備件的編號、組中值、頻率組成。

3.3 實驗結果及分析

實驗內容為:分別采用上面選定的大小不同的四個數據集,比較C/S模式和hadoop平臺的MapReduce模式下的備件預測消耗量的計算,即概率統計分析算法的實現所需要的時間。實驗的硬件環境是在實驗室局域網內的PC機上。

在上述實驗中,數據的規模是逐漸增長的,實驗情況如表3所示(T1為C/S模式單機上運行串行算法所用時間;T2為運行MapReduce化設計的算法所用時間)。

c/s模式處理數據所用時間的消耗增長較快,呈線性增長直到100萬條數據集時機器宕機。而MapReduce并行計算方式處理數據的時間消耗隨著數據集的增長緩慢增長,最終完成100萬條記錄運算所需的時間開銷很小。在測試數據集較小的情況下,MapReduce化設計的并行計算方式的時間性比不上C/S模式,C/S模式在小數據量時機器性能尚能滿足計算要求,機器內的通信要比機器間的通信節省時間,master節點和slave節點通信、slave節點并發處理數據會比C/S模式耗費時間,所以C/S模式下所消耗的時間要比MapReduce模式下少。而當數據量逐漸增大時,C/S模式下的單機運算要遠遠遜色于Hadoop集群的強大計算能力,C/S模式要想獲得與Hadoop集群相應的能力就要增加硬件性能。由此可知,Hadoop集群不適合小數據量的處理,而更適合處理大數據量的計算。

4 結束語

本文對于煤礦企業備件儲備定額系統在備件預測消耗量的計算上做了改進,提出基于Hadoop 平臺對備件消耗量預測進行MapReduce化設計,并在Hadoop平臺上實現MapReduce化備件消耗量預測算法。從實驗結果可以看出,在處理大規模數據集時,基于 Hadoop 平臺改進的預測消耗量算法執行效率上有較好的表現,而且基于Hadoop的計算具有更加好的移植性和容錯性。下一步,筆者將嘗試Oracle數據庫和Hadoop平臺的連接處理,不用從數據庫中導出數據,直接以數據庫中的待處理表為輸入MapReduce并行化模型中Map階段的輸入,Reduce階段輸出結果直接寫入到數據庫相關表中,使得執行效率進一步提升。

參考文獻:

[1] 王意潔,孫偉東,周松.云計算環境下的分布存儲關鍵技術[J].軟件學

報,2012.23(4):962-986

[2] 劉鵬.云計算[M].電子工業出版社,2010.

[3] 維基百科.云計算[EB/OL].http://zh.wikipedia.org/wiki/云計算,

2011.10.23.

[4] 劉鵬.實戰Hadoop——開啟通向云計算的捷徑[M].電子工業出版

社,2011.

[5] Michael Armbrust.Above the clouds: A Berkeley View of Cloud

Computing[EB/OL].http://www.eecs.berkeley.edu/Pubs/TechRpts/2009/EECS-2009-28.pdf,2009.2.10.

[6] 王敬昌.基于Hadoop分布式計算架構的海量數據分析[J].數字技術

與應用,2010.7.

[7] 朱珠.基于Hadoop的海量數據處理模型研究和應用[D].北京郵電大

學,2008.

[8] 張少敏,李曉強,王保義.基于Hadoop的智能電網數據安全存儲設計[J].

電力系統保護與控制,2013.41(14):136-140

[9] 胡志剛,梁曉楊.基于Hadoop的海量網格數據建模[J].計算機系統應

用,2010.19(10):191-194

[10] 余楚禮.基于Hadoop的并行關聯規則算法研究[D].天津理工大學,

2011.

[11] 段軍,郭穎.煤礦企業備件儲備定額的研究[J].煤礦機械,2011.32

(11):70-72

[12] 郭穎.煤礦企業備件動態儲備定額管理系統的研究[D].內蒙古科技

大學,2011.

[13] 謝娟,何嘉鵬,張葉,閻麗萍.基于C#地鐵站安全疏散模糊綜合評價

系統的開發與應用[J].南京工業大學學報,2007.29(6):28-31

[14] 李玲,任青,付園,陳鶴,梅圣民.基于Hadoop的社交網絡服務推薦

算法[J].吉林大學學報,2013.31(4):359-364

主站蜘蛛池模板: 青青青伊人色综合久久| 亚洲视频在线青青| 婷婷99视频精品全部在线观看| 中文字幕免费在线视频| 亚洲无码四虎黄色网站| 午夜福利免费视频| 国内老司机精品视频在线播出| 国产簧片免费在线播放| 国产成人亚洲综合A∨在线播放| 久久黄色视频影| 国产成人三级| 2018日日摸夜夜添狠狠躁| 午夜视频在线观看免费网站 | 影音先锋丝袜制服| 久久这里只有精品66| 久久精品只有这里有| 国产成人精品18| YW尤物AV无码国产在线观看| 3D动漫精品啪啪一区二区下载| 九色视频在线免费观看| 精品一区二区三区自慰喷水| 亚洲欧美日本国产综合在线| 免费国产好深啊好涨好硬视频| 2021国产在线视频| 91蜜芽尤物福利在线观看| 免费福利视频网站| 亚洲天堂啪啪| 国产丝袜丝视频在线观看| 熟妇丰满人妻| 欧美成人日韩| 欧美成人午夜视频| 999福利激情视频| 国产资源免费观看| 91尤物国产尤物福利在线| 在线欧美国产| 一本一道波多野结衣av黑人在线| 亚洲精品第一在线观看视频| 免费一级毛片在线观看| 色哟哟精品无码网站在线播放视频| 国产Av无码精品色午夜| av午夜福利一片免费看| 青青草国产精品久久久久| 国产一国产一有一级毛片视频| 久久久受www免费人成| 特级精品毛片免费观看| 伊人久久福利中文字幕| 欧美日韩激情在线| 不卡无码网| a级毛片在线免费| 国产成人区在线观看视频| 欧洲亚洲一区| 激情六月丁香婷婷四房播| 亚洲人人视频| 伊人久热这里只有精品视频99| jijzzizz老师出水喷水喷出| 在线观看国产精美视频| 福利视频久久| 手机在线国产精品| 国产精品福利社| 国产一级α片| 999精品免费视频| 亚洲国产成人在线| 亚洲大尺码专区影院| 国产免费a级片| 日韩第八页| 18禁影院亚洲专区| 五月天丁香婷婷综合久久| 国产亚洲精品91| 中文国产成人精品久久| 久久永久视频| 亚洲乱码精品久久久久..| а∨天堂一区中文字幕| 久久人搡人人玩人妻精品| 国产成人精品亚洲77美色| 国产成人综合欧美精品久久| 亚洲天堂网2014| 免费在线播放毛片| 天天做天天爱夜夜爽毛片毛片| 亚洲色欲色欲www在线观看| 色偷偷综合网| 永久免费av网站可以直接看的| 在线观看亚洲成人|