999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Hadoop的云存儲系統研究與實現

2015-01-13 02:12:54張效尉陳亞峰秦東霞
商丘師范學院學報 2015年9期

張效尉,陳亞峰,秦東霞

(1.周口師范學院 計算機科學與技術學院,河南 周口466001;2.河南省輕工業學校 信息工程系,河南 鄭州 450006)

基于Hadoop的云存儲系統研究與實現

張效尉1,陳亞峰2,秦東霞1

(1.周口師范學院 計算機科學與技術學院,河南 周口466001;2.河南省輕工業學校 信息工程系,河南 鄭州 450006)

大數據時代,各種信息數據日益迅猛增長,Hadoop為海量數據的處理提供了良好的解決方案.針對云計算環境中的海量數據存儲問題,介紹云存儲技術的概念和體系結構,分析Hadoop兩大核心機制HDFS和MapReduce,利用Hadoop成功搭建分布式計算平臺,并將其應用到海量社交網絡數據的存儲.實踐證明,系統運行良好,為未來進行社交網絡大數據分析提供平臺和數據保證.

Hadoop;云存儲;HDFS;社交網絡數據

近年來,隨著網絡規模的不斷擴大,互聯網需要處理的業務和數據量也在快速增長,云計算作為一種新型服務計算模型,能有效地為用戶提供方便,快捷的服務,正在成為互聯網發展的新模式[1].云存儲位于云計算體系架構的最底層,承擔著以服務形式收集、存儲和處理數據的任務,并在此基礎上對上層的云平臺、云服務等業務提供支撐.不同于傳統的存儲硬件,云存儲提供的是一種服務,用戶向云存儲服務提供商申請存儲空間,通過網絡將本地數據存放在云存儲系統中,按照所需空間規模支付一定的費用,避免了購買昂貴的軟硬件設施[2].云存儲具有高可靠性、可擴展性、海量存儲、低成本和易于管理等特點,因此,針對云存儲系統的研究不僅是技術發展的趨勢,而且具有重要的應用價值.

1 云存儲技術

云存儲是在云計算基礎上延伸和發展出來的一個新概念,是指通過集群技術、網格計算和分布式文件系統等技術,將網絡中大量不同類型的網絡設備、服務器、存儲設備、公共訪問接口和接入網等多個部件,通過應用軟件集合起來協同工作,共同對外提供數據存儲和業務訪問功能的一個系統[3].云存儲平臺體系結構由存儲層、基礎管理層、應用接口層和用戶訪問層4個層次構成,體系結構如圖1所示.

圖1 云存儲系統結構模型

1.1 存儲層

存儲層是云存儲中最基礎的部分,由存儲設備和存儲設備管理系統構成.存儲設備可以是FC光纖通道存儲設備,也可以是NAS、iSCSI等IP存儲設備,或者是 SCSI、SAS等 DAS存儲設備[4].云存儲中的存儲設備往往數量龐大且分布在不同地域,彼此通過廣域網、互聯網或者 FC光纖通道網絡連接在一起.存儲設備之上是一個統一的存儲設備管理系統,可以實現存儲設備的邏輯虛擬化管理、多鏈路冗余管理,以及硬件設備的狀態監控和故障維護.

1.2 基礎管理層

基礎管理層是云存儲中最核心的部分,也是最難以實現的部分.基礎管理層通過集群技術、網格計算和分布式文件系統等技術,使該層具有統一的用戶管理、安全管理、副本管理和策略管理等公共數據管理功能,將底層存儲與上層應用無縫銜接起來,實現云存儲中多個存儲設備之間的協同工作,以更好的性能對外提供多種服務.

1.3 應用接口層

應用接口層是云存儲中可以靈活多變,直接面向用戶的部分.不同的云存儲運營單位可以根據實際業務類型,開發不同的應用服務接口,提供不同的應用服務.比如視頻監控應用平臺、IPTV和視頻點播應用平臺、網絡硬盤服務、空間租賃服務等.

1.4 用戶訪問層

通過用戶訪問層,任何一個授權用戶都可以在任何地方,使用一臺聯網的終端設備,通過標準的公共應用接口來登錄云存儲系統,享受云存儲服務.

2 Hadoop簡介

Hadoop是Apache基金會旗下的一個分布式計算平臺,具有高可靠性、高效率、高擴展性和免費開源等優點,支持在大量廉價的硬件設備上,建立高性能的分布式集群[5].Hadoop包含兩大核心模塊:HDFS和MapReduce,HDFS實現對大規模數據的分布式存儲,MapReduce負責海量數據的分布式計算分析.另外,Hadoop支持在其上部署HBase、Hive、Pig等子項目,共同構成海量數據處理的生態圈.

2.1 HDFS

HDFS(Hadoop Distributed File System)是一個分布式文件系統,適用于數據量龐大,一臺機器無法存下,數據要分散存儲到多臺機器上,需建立對多臺機器中磁盤文件進行管理的文件系統,該文件系統具有高容錯性、高吞吐量的數據訪問,適合部署在大規模廉價的機器上,存儲海量數據.HDFS采用Master/Slave結構,有兩類節點,以管理者-工作者模式運行,即一個namenode名稱節點(管理者)和多個datanode數據節點(工作者),以如圖2所示的工作方式運行[6].Namenode管理文件系統的命名空間,維護文件系統樹以及整棵樹內所有的文件和目錄,這些元數據信息被保存在命名空間鏡像文件(fsimage)和編輯日志文件(edits)中.同時,namenode的元數據信息記錄datanode和數據塊的文件映射,客戶端對文件的操作訪問,即文件的創建、打開、刪除和重命名等信息.Datanode負責存儲數據,并負責處理客戶端對數據的讀寫請求,定期以心跳機制向namenode發送它們所存放數據塊的列表信息[7].SecondaryNamenode作為輔助節點,備份namenode節點的元數據信息,實現對namenode的容錯,避免namenode節點失效,文件系統無法使用.

圖2 HDFS架構

2.2 MapReduce

MapReduce是Hadoop平臺用來進行海量數據分析并行運算的計算模型.Hadoop采用Jobtracker/Tasktracker主從式結構實現MapReduce編程模型[8].Jobtracker負責分配Map任務或Reduce任務,將任務分發給多個Tasktracker,并監控各節點的執行情況;Tasktracker執行Jobtracker分配的任務,并定期向Jobtracker報告任務完成狀態和結果.MapReduce編程模型具體實現步驟如下[9].

(1)Input:應用程序提供Map和Reduce函數,指明輸入/輸出的路徑以及運行相關的參數.同時,把輸入目錄下的大文件分為若干獨立且大小相等的數據塊.

(2)Map:Map函數把用戶的輸入當做鍵值對進行處理,并生成一批新的中間鍵值對,這兩組鍵值對類型可能不同.

(3)Shuffle:在進入Reduce階段之前,Shuffle階段完成將Map輸出中key值相同的數據排序合并后,歸結到一起.

(4)Reduce:將每一個key對應的多個value值執行Reduce函數操作,輸出新的鍵值對.

(5)Output:將Reduce結果寫入輸出目錄中.

3 云存儲系統構建

本實驗將在完全分布式模式下搭建Hadoop集群.首先,在數據中心的IBM X3850服務器上,安裝VMware公司的vSphere5.5 中的核心組件 VMware ESXi 5.5.0;然后,在用戶端機器上安裝vSphere Client客戶端軟件,遠程連接控制管理服務器;接著,在ESXi 服務器上創建資源池,并在資源池中創建9個虛擬機,為這些虛擬機安裝Ubuntu Linux 操作系統,配置網絡IP地址,確保9臺虛擬機能相互ping通,使之成為能提供各種網絡應用服務的虛擬服務器;最后,在此基礎上部署Hadoop平臺,使資源池中的9臺虛擬機成為小型集群.

下面描述在9臺虛擬機中搭建Hadoop集群的具體過程.

(1)配置Hosts文件

本實驗采用9個節點搭建Hadoop集群,為方便節點之間通過主機名稱來相互訪問,在各個節點的/etc/hosts解析文件中,列舉出每個節點的名稱與IP地址的對應數據,具體信息如圖3所示.

圖3 節點名稱與IP地址對應關系

其中SNMPS節點作為namenode名稱節點、Jobtracker作業跟蹤節點和SecondaryNamenode輔助名稱節點,datanode1、datanode 2、datanode 3等8個節點作為Tasktracker任務跟蹤節點和datanode數據節點.

(2)配置SSH無密碼登錄

Hadoop集群中,名稱節點的守護進程需要與數據節點的守護進程進行通信,通過配置SSH協議實現各節點之間無密碼登錄,保證其相互之間能可靠通信.

在每臺機器上,用ssh-keygen-t rsa命令生成密鑰文件,將公鑰文件id_rsa.pub用cp id_rsa.pub ./authorized_keys命令重命名為authorized_keys.然后,將每臺機器的id_rsa.pub追加到其他所有機器的authorized_keys文件末尾,使用#ssh *命令測試各機器是否可以相互免密碼登錄成功.

(3)從網上下載JDK安裝包jdk-7u17-linux-64.tar.gz,解壓到安裝目錄下,安裝JDK并配置Java環境變量.

(4)安裝Hadoop

下載Hadoop安裝包hadoop-1.2.1.tar.gz,用tar zxvf hadoop-1.2.1.tar.gz命令將其解壓到用戶目錄下.為方便直接使用Hadoop命令,需在名稱節點的/etc/profile中,配置Hadoop路徑.

(5)配置Hadoop

Hadoop安裝成功后,需進入其conf文件夾,配置下列相關文件.

①配置masters文件和slaves文件

在masters文件中輸入名稱節點的機器名SNMPS作為主節點,同時,在slaves文件中輸入數據節點的機器名datanode1、datanode 2、datanode 3等8個節點作為從節點.

②用vi hadoop-env.sh命令打開hadoop-env.sh文件,將java的環境變量信息“export JAVA_HOME=/usr/java/jdk1.7.0_17”加入hadoop-env.sh文件.

③修改core-site.xml文件,配置hdfs名稱節點的主機名和端口號.

④修改hdfs-site.xml文件,配置hdfs分布式文件系統中文件副本數目,一般選擇為2.

⑤修改mapred-site.xml文件,配置作為Jobtracter分配任務的節點的主機名和端口號.

(6)用scp命令將名稱節點配置好的Hadoop,復制到其它數據節點.

(7)在名稱節點上,用hadoop namenode -format命令格式化一個新的分布式文件系統.

(8)執行start-all.sh命令,啟動Hadoop集群.

(9)用jps命令檢查集群是否啟動成功.

4 集群的測試

在Linux系統的usr目錄下建立input目錄,在input目錄下建立兩個文件test1.txt和test2.txt,test1.txt中輸入內容“hello world”,test2.txt中輸入內容“hello Hadoop”,用put命令“./hadoop fs -put /usr/input /in”將input目錄下的內容上傳至Hadoop集群的in目錄中,用測試命令“./hadoop jar /usr/local/hadoop-examples-1.2.1.jar wordcount /user/hadoop/in out”針對in目錄下的內容進行單詞個數統計,觀察其Map和Reduce過程如圖4所示.

圖4 MapReduce運行過程

MapReduce任務運行完成后,用“./hadoop fs -cat /user/hadoop/out/*”命令查看統計結果如圖5所示.

圖5 hadoop測試成功效果圖

5 云存儲平臺搭建實例

人們通過社交網絡獲取和交流信息,各種社交網站每天產生大量信息,如何獲取、存儲和分析這些信息,建立社交網絡數據挖掘平臺,提取出有用信息,更好地服務于人們的生活,成為大數據時代的一個重要研究方向.本節以一個正在建設的社交網絡數據挖掘平臺為例,講解如何利用Hadoop設計存儲海量社交網絡數據的云存儲系統.

該平臺首先建立多個爬蟲對現有的線上社交網站進行社交數據抓取,爬蟲工作在Docker云平臺上,Docker平臺可以根據需要產生相應的容器,每個爬蟲運行在單獨的容器中,容器的生命周期從特定爬蟲(如針對某一個用戶或者某一條微博)啟動到抓取結束,Docker收回容器資源.接著,針對爬蟲數據進行抓取后的一些數據處理工作,主要是數據清洗,即用Spark streaming實時流處理技術,對爬蟲數據中的網頁元素進行過濾,對某些不完整的信息進行清除,提取某些實時特征.最后,將清洗后的數據使用txt格式進行保存,并上傳到HDFS分布式文件系統中,所有的社交網絡數據都通過Hadoop的HDFS保存和管理,形成能存儲海量數據的云存儲系統,將數據存儲到Hadoop后的效果如圖6所示.目前,已收集到3TB的社交網絡數據,可以利用MapReduce和Spark進行社交網絡大數據分析.

圖6 Hadoop存儲數據效果圖

6 結 論

利用Hadoop實現云存儲系統,能夠為企業提供一種廉價的大規模數據存儲解決方案.社交網絡隨著人們交往行為的頻繁日益產生海量數據,本文利用Hadoop搭建了存儲社交網絡大規模數據的平臺.未來在此基礎上,我們將利用MapReduce和Spark工具,采用數據挖掘中的聚類、關聯規則和機器學習等方法,對云存儲系統中的海量數據進行分析,提取出對人們有價值的信息.

[1] 陳康,鄭煒民.云計算:系統實現與研究現狀[J].軟件學報,2009,20(5):1338-1342.

[2] 王慶波.云計算寶典技術與實踐[M].北京:電子工業出版社,2011.

[3] Sanjay Chemawat, Howard Gobioff, Shun-Taklevag.The Google File System[C].Proceedings of the 19th ACM Symposium on Operating System Principles.New York:ACM Press,2003.30-42.

[4] 黃曉云.基于HDFS的云存儲服務系統研究[D].大連:大連海事大學,2010.

[5] 劉鵬.實戰Hadoop——開啟通向云計算的捷徑[M].北京:電子工業出版社,2011.149-153.

[6] 張桂剛,李超,張勇.一種基于海量信息處理的云存儲模型研究[J].計算機研究與發展,2012(S1):32-36.

[7] Dean Jeffrey,Ghemawat Sanjay.MapReduce:A flexible data processing tool[J].Communication of the ACM,2010,53(1):72-73.

[8] 孫知信,黃涵霞.基于云計算的數據存儲技術研究[J].南京郵電大學學報(自然科學版),2014,34(4):14-15.

[9] Tom White.Hadoop權威指南[M].周敏奇,等,譯.北京:清華大學出版社,2010.

[責任編輯:王軍]

The research and implementation of cloud storage system based on Hadoop

ZHANG Xiaowei1,CHEN Yafeng2,QIN Dongxia1

(1.School of Computer Science and Technology,Zhoukou Normal University,Zhoukou 466001,China;2.Information Engineer Department,Henan Light Industry School,Zhengzhou 450006,China)

All kinds of information and data increasingly have rapid growth in the age of big data,Hadoop provides a good solution for the treatment of massive datas.For the problem of massive data storage in the cloud computing environment,this paper introduces the concept and architecture of cloud storage technology, analyzes two coremechanisms of Hadoop which include HDFS and MapReduce, successfully builds a distributed computing platform with Hadoop, and applies to massive social network data storage.The practice proves that the system runs well, which provides platform and data guarantee to analyse social network big data in future.

Hadoop;cloud storage;HDFS; social network data

2015-02-27

國家自然科學基金資助項目(61103143);河南省高校科技創新人才支持計劃項目(2012HASTIT032);河南省高等學校重點科研項目(15A520125);周口師范學院青年基金項目(zknuc0213)

張效尉(1982-),男,河南開封人,周口師范學院講師,碩士研究生,主要從事內存數據庫、社交網絡大數據分析的研究.

TP319

A

1672-3600(2015)09-0060-05

主站蜘蛛池模板: 无码专区在线观看| 小13箩利洗澡无码视频免费网站| 国产高清免费午夜在线视频| 婷婷丁香在线观看| 欧美亚洲国产视频| 日本午夜三级| 亚洲一区二区精品无码久久久| 8090成人午夜精品| 日韩在线观看网站| 67194在线午夜亚洲| 中文字幕一区二区人妻电影| 久久国语对白| 国产真实乱人视频| 午夜国产小视频| 欧美日韩精品在线播放| 久久人妻系列无码一区| 最新加勒比隔壁人妻| 丝袜高跟美脚国产1区| 色综合天天综合中文网| 真人免费一级毛片一区二区| 免费xxxxx在线观看网站| 9966国产精品视频| 美美女高清毛片视频免费观看| a天堂视频| 国产人成在线观看| 国产欧美性爱网| 国产传媒一区二区三区四区五区| 久久久噜噜噜久久中文字幕色伊伊| 国产精品成人免费视频99| 国产成人综合日韩精品无码首页| 国产午夜一级淫片| 特级精品毛片免费观看| 国产精品hd在线播放| 国产在线观看91精品| 日韩在线欧美在线| www精品久久| 无码视频国产精品一区二区| 2021亚洲精品不卡a| 国产91全国探花系列在线播放| 国产精品13页| 久久人人妻人人爽人人卡片av| 亚洲欧美日韩天堂| 黄色不卡视频| 国产成+人+综合+亚洲欧美| 日韩无码白| 久久永久免费人妻精品| 久久久国产精品无码专区| 毛片手机在线看| 免费va国产在线观看| 色综合日本| 久久综合色天堂av| 国产成人精彩在线视频50| 制服丝袜国产精品| 性激烈欧美三级在线播放| 亚洲视频免费在线看| 日韩美女福利视频| 嫩草国产在线| 久久久久久久久18禁秘| 五月天在线网站| 日本人又色又爽的视频| 97se亚洲综合| 在线国产三级| 亚洲浓毛av| 久久亚洲精少妇毛片午夜无码| аⅴ资源中文在线天堂| 亚洲日本www| 视频二区亚洲精品| 亚洲欧美一区二区三区麻豆| 无码免费试看| 91娇喘视频| 亚洲成在线观看 | 国产一区二区三区日韩精品| 青青国产视频| 毛片免费观看视频| 久久男人视频| 亚洲人成网18禁| 91久久偷偷做嫩草影院| 亚洲永久色| 中国国产一级毛片| 啪啪永久免费av| 91香蕉视频下载网站| 国产特级毛片aaaaaa|