999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Hadoop的對俄貿易大數據分析系統研究

2018-02-02 05:36:40王麗紅劉平于光華
電腦知識與技術 2018年1期

王麗紅+劉平+于光華

摘要:大數據時代下,進出口企業發展出了跨境電子商務或在線國際貿易的新型虛擬網絡貿易平臺,需要對海量的貿易數據進行收集并完成處理。為了處理這些海量貿易數據,基于Hadoop 大數據分析工具設計并實現了對俄貿易大數據分析處理系統,通過它提供的強大的分布式數據處理能力,高效快捷地分析對俄貿易的各種數據。實驗表明該系統能夠有效地完成對俄貿易數據處理分析,從海量數據中挖掘到有用信息,從而可靠地、高效地對貿易數據進行存儲和分析,幫助企業制訂營銷計劃。

關鍵詞:對俄貿易大數據;大數據分析;hadoop;MapReduce

中圖分類號:TP319 文獻標識碼:A 文章編號:1009-3044(2018)01-0020-03

Abstract: In the era of big data, import and export enterprises have developed a new virtual network trading platform for cross-border e-commerce or online international trade, which requires the collection and processing of massive trade data.. In order to deal with the massive trade data, Large data analysis and processing system for Russian trade was was designed and implemented Based on the Hadoop, through which provide powerful distributed data processing capabilities, efficient and quick analysis on Russia's trade all kinds of data. Experiments show that the system can effectively complete analysis on Russia's trade data processing to the useful information from huge amounts of data mining, so as to reliably and efficiently for trade data for storage and analysis, to help enterprises make the marketing plan.

Key words: Big Data of russian trade; Big Data Analysis; hadoop; MapReduce

大數據時代下,信息數據化的同時,更多的企業利用電子商務開展貿易活動。在更少的時間里獲取豐富且具有時效性的數據信息,可以提高企業業務處理能力和貿易交易率,為客戶和企業帶來雙贏的便利。黑龍江省的對俄貿易一直引領全國,在“一帶一路”發展戰略影響下,我省的對俄經貿合作必將進入新一輪峰值期,如何存儲、處理海量的貿易數據并監測市場需求使我們面臨的新問題。就當前實際情況引入Hadoop來對海量數據進行分析存儲[1]。

Hadoop 是 Apache 基金的一個開源的大數據處理框架,核心部分由HDFS(分布式文件系統)和MapReduce(并行計算模型)兩大模塊組成[2],HDFS可以高效地完成大規模數據集的高效存儲,MapReduce將應用程序要處理的工作分成若干小塊,是開發人員輕松實現分布式應用程序員。二者的集合使用戶可以在上層編寫分布式程序而不需要了解其底層的細節情況。可以讓使用者充分利用集群的優勢進行分布式的高速的存儲和運算。HDFS與MapReduce的結合使得Hadoop變得更加強大[3]。

本文設計并實現了基于Hadoop的大數據分析系統,用以處理和分析海量的對俄貿易數據,并通過結果為企業提供相關信息。

1 基于Hadoop的大數據分析系統架構設計

1.1 系統基本架構

基于Hadoop的大數據分析系統按照邏輯分層的方法劃分為以下3層[4],分別是“數據存儲層”、“數據處理層”和“應用層”。大數據分析系統架構如圖1所示。

數據存儲層: 利用 Hadoop分布式文件系統 HDFS,根據數據特點和具體業務需求將數據分類存儲。大量歷史數據經過HIVE管理存儲[5],需要快速查詢并響應的數據交給 HBASE 進行存儲劃分。將整理后的數據保存成文件存放在 HDFS 分布式文件系統上,方便數據的處理。

數據處理層:這一層是大數據分析系統的核心層,在這一層,主要應用 MapReduce編程框架構建分布式處理程序,利用Hadoop 的組件執行對應的工作完成大型數據的各種需求分析。數據處理層中的業務邏輯分析模型用以識別業務功能,識別后被分解成相應的任務對 HBase 進行操作。 利用模型庫把一些常用的模型和分析結果數據進行固化。中間件通過相應參數對應用層具體需求做出判斷,并根據判決結果決定把任務送給 Hive 處理還是 HBase處理。

應用層: 將數據處理層得到的數據用相關圖或表進行表示,通過圖表用戶能夠直觀地研究對俄貿易數據的商機及存在的問題,促進對俄貿易的發展。

1.2 Hadoop 集群硬件架構設計

Hadopp集群是由5臺服務器和10臺PC機組成的集群,服務器集群上安裝linux操作系統,在10臺PC機上安裝虛擬Linux Cont OS 系統,并在每臺機器上安 裝 JDK、SSH、Hadoop 和HBase。一臺服務器作為Hadoop集群的client,負責數據進行Hbase和Hive入庫。一臺服務器作為Namenode,剩余3臺服務器和10臺PC機作為Hadoop集群的datanode,其中兩臺datanode作為中間件服務器。endprint

2 基于Hadoop的大數據分析系統實現

2.1 數據統計實現

大數據分析系統需要針對對俄貿易數據進行分析和統計,而應用MapReduce算法框架需要使用者自己編寫程序,這對于使用該分析系統的員工來講難以實現。Hive所提供的數據庫語言HiveQL,可以將類sql語言轉化為在Hadoop中執行的MapReduce任務。使得數據庫操作人員上手簡單且功能強大。Hive與普通關系數據庫比較如表1所示。

由表1可知,Hive由于利用 Map Reduce 進行并行計算,因此可以支持很大規模的數據,在處理的數據規模和可擴展性上有相當大的優勢。

2.2 數據存儲實現

為了提高存儲效率和減少硬盤的訪問次數,先將數據放到內存里,達到一定數目時寫入本地文件,在將數據通過 Hadoop 提供的 API上傳到 HDFS。而HDFS 的設計是每個文件占用整個數據塊時存儲效率最高,為了提高存儲效率,減少Name Node 的元數據,因此將本地文件控制在 64M 大小,再上傳到 HDFS[1]。

2.3 數據查詢實現

對于在海量數據中迅速定位到幾條或幾十條符合條件的數據,就猶如大海撈針。在大數據分析系統中應用HBase這個分布式數據庫,可以實現高速的寫入和讀取。HBase表由行和列組成,查詢時,都是通過行鍵來進行搜索的,因此行鍵的規劃尤為重要。根據行表可以將HBase分成多個Region,HBase的所有數據保存在HDFS中,由Region負責完成數據的讀取。某個Region內的數據只能保存在一個主機上。為了解決讀寫矛盾,在行鍵前添加一個hash值,即可使數據寫入不同的Region,可以充分發揮分布式系統的優勢。

2.4 數據處理實現

Hadoop 對數據處理是通過 MapReduce 來完成的。系統將數據劃分為若干數據塊, Map 節點對數據塊分析處理后會返回一個中間結果集,并對中間結果使用一定的策略進行適當的劃分處理,保證相關數據傳送到Reduce節點。Reduce節點所處理的數據可能來自多個Map節點,為了減少數據通信開銷,中間結果在進入Reduce節點前會進行一定的合并處理,Reduce節點將接收到的數據進行歸納總結。Map節點 和 Reduce節點在數據處理時可能會并行運行,即使不是在同一系統的同一時刻。因此MapReduce 為并行系統的數據處理,提供了一個簡單優雅的解決方案。

2.5 復雜數據模型分析實現

除了大部分應用進行統計查詢就可以滿足,但還有很重要的一部分任務需要進行復雜的數據建模來進行分析。算法步驟如下:

1) 數據提取。

2) 判斷提取數據是否在Hadoop中,若在,提取Hadoop中已有數據,若不在,則導入外部數據。

3) 數據處理,選擇復雜算法。

4) 算法是否包含在Mahout中或者已導入,若是轉步驟5,否則導入所需算法轉步驟5。

5) 設置算法參數。

6) 進行算法迭代并判斷是否完成迭代,若完成輸出最終結果,否則繼續步驟6。

3 結果分析

文中程序是在搭建的Hadoop并行計算平臺上運行的,平臺有15個節點,15個節點包括一臺client,一臺Namenode,13臺Datanode。其中5臺服務器配置八核 CPU、內存64G、硬盤400G、千兆以太網;另外10臺 PC 機配置雙核 CPU、內存 8G、百兆以太網、硬盤 300G。

在數據量比較小時,HDFS的性能體現并不明顯,當文件數據量比較大時,HDFS的性能優勢可以充分體現出來。運行文件大小為100M不變,但是文件數量從1個到10個增加,運行總時間和平均運行時間如圖2所示。

根據對比圖可知,文件數量的增加導致運行總體時間在增加,但是平均處理時間呈下降趨勢。同時若運行文件數量相同,文件大小從10M增加到500M,隨著文件大小增加,總體時間是成上漲趨勢的,但是平均時間是呈下降趨勢的。

4 結束語

對于對俄貿易數據海量的特點,設計并實現了基于Hadoop 的大數據分析系統。應用 HDFS 設計實現了數據的分布式存儲,使用Hive組件來完成大數據分析的統計任務,應用HBase分布式數據庫,可以實現高速的寫入和讀取文件。將文件合理的分布到每個節點,并對文件進行了 3 節點備份,保證了系統的安全;基于Hadoop的Map Reduce 模型實現數據并行儲存與處理,隨著數據量的增大,集群處理數據的優勢越來越明顯。因此基于 Hadoop 的對俄貿易大數據處理是非常安全有效的。

參考文獻:

[1] 張國棟. 基于 Hadoop 技術的電信大數據分析平臺設計與實現[D]. 上海: 上海交通大學, 2014.

[2] Apache Hadoop Next Gen Map Reduce (YARN) [EB/OL]. 2013.

http://hadoop.apache.org/docs/r2.2.0/hadoop-yarn/hadoop-yarn-site/YARN.html.

[3] 陳浩. 基于Hadoop的農業電子商務數據平臺構建關鍵技術研究[D]. 武漢: 華中師范大學, 2015.

[4] Hadoop 官方網站[EB/OL]. http://hadoop.apache.org.

[5] Edward Capriolo, Dean Wampler, Jason Rutherglen.Programming Hive[M]. O'Reilly Media, 2012.

[6] 李偉. 基于Hadoop 的電網大數據處理探究[J]. 電子測試, 2014(1).endprint

主站蜘蛛池模板: 婷婷色婷婷| 亚洲天堂区| 一级爱做片免费观看久久| 国产欧美日韩精品第二区| 久久久久久久97| 久久久久人妻一区精品| 91麻豆国产视频| 国产jizz| 国产一区二区在线视频观看| 日本一本正道综合久久dvd| 婷婷综合色| 亚洲欧美一区二区三区蜜芽| 国产乱人伦AV在线A| 国产h视频免费观看| 58av国产精品| 亚洲精品不卡午夜精品| 精品在线免费播放| 国产h视频免费观看| 国产99欧美精品久久精品久久| 国产精品任我爽爆在线播放6080| 中文字幕中文字字幕码一二区| 欧美日韩福利| 一区二区三区国产精品视频| 天天视频在线91频| 亚洲视频无码| 亚洲视频在线观看免费视频| 国产精品久久久免费视频| 国产美女久久久久不卡| 日韩在线网址| 丰满的少妇人妻无码区| 热这里只有精品国产热门精品| 国产在线无码av完整版在线观看| 自拍偷拍欧美| 国产原创自拍不卡第一页| 香蕉在线视频网站| 在线国产欧美| 日本a∨在线观看| 亚洲V日韩V无码一区二区 | 久久五月视频| 亚洲第一页在线观看| 成人国产一区二区三区| 国产va视频| 亚洲av成人无码网站在线观看| 91口爆吞精国产对白第三集| 日韩无码黄色| 黄色在线不卡| 国产男人天堂| 国产成人精品无码一区二| 欧美日韩v| 国产成人久久综合777777麻豆| 国产小视频在线高清播放| 亚洲天堂福利视频| 国产久草视频| 亚洲国产精品一区二区第一页免 | 全部无卡免费的毛片在线看| 操操操综合网| 国产99视频精品免费观看9e| 韩日免费小视频| 久久精品一卡日本电影| 五月婷婷激情四射| 色偷偷一区| 午夜国产大片免费观看| 91精品专区国产盗摄| 亚洲无码91视频| 国产成人三级| 精品久久久久成人码免费动漫| 97久久精品人人| 亚洲第一香蕉视频| 日韩色图区| 91视频免费观看网站| 国产新AV天堂| 青青久久91| 久久精品无码一区二区日韩免费| 欧美精品在线视频观看 | 亚洲熟女偷拍| 国产综合日韩另类一区二区| 人妻精品久久无码区| 国模私拍一区二区三区| 中文字幕永久视频| 国产午夜精品一区二区三区软件| 成人在线亚洲| 国产鲁鲁视频在线观看|