999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Hadoop的圖書館復合大數據存儲系統研究

2017-02-27 00:17:56梁俊榮
現代情報 2017年2期
關鍵詞:大數據圖書館

梁俊榮

〔摘要〕Hadoop中的HDFS是大數據存儲處理的關鍵技術,HDFS在存儲海量數據集中有著高效、可靠的優點。為解決圖書館傳統關系型數據庫在海量數據存儲和訪問效率中存在的瓶頸問題,本文提出了一種基于Hadoop的圖書館復合大數據存儲系統。該復合大數據存儲系統能夠滿足圖書館大數據存儲需求,提高大數據存儲效率,可高效保障圖書館大數據決策的需求。

〔關鍵詞〕Hadoop;圖書館;大數據;存儲系統

DOI:10.3969/j.issn.1008-0821.2017.02.012

〔中圖分類號〕G25076〔文獻標識碼〕A〔文章編號〕1008-0821(2017)02-0063-05

〔Abstract〕HDFS in Hadoop is one of the key technologies of large data storage treatment,HDFS is efficient and reliable in large data storage.To solve the bottleneck problems of the traditional relationship database in compound big data storage and access efficiency of library,in this paper,a compound big data storage system design for library based on hadoop was proposed.The compound big data storage system could solve the problem of big data storage in library,could improve the efficiency of big data storage,and satisfied the big data decision demand of library.

〔Key words〕Hadoop;library;big data;storage system

隨著云計算技術、傳感器網絡技術、移動寬帶傳輸技術和終端設備制造技術的發展,圖書館的服務模式和讀者閱讀方式發生了巨大變革,以讀者為中心的個性化服務定制和服務內容的智能推送,已經成為圖書館當前的主要服務模式。在服務模式和讀者閱讀方式多樣化發展的同時,圖書館的用戶服務數據和讀者閱讀相關數據快速遞增,已從TB、PB量級向EB量級急速增長,當前,圖書館數據環境已具有海量(Volume)、快速(Velocity)、多類型(Variety)、難辨識(Veracity)和低價值密度(Value)的大數據5“V”特性,圖書館已進入大數據時代[1]。

圖書館大數據主要由用戶服務數據、IT基礎設施運行數據、視頻監控數據、讀者個體特征數據、讀者閱讀行為數據、服務器監控數據、傳感器網絡數據、閱讀終端數據等組成。這些大數據每年平均以50%的速度快速激增,其中非結構化和半結構化數據占據大數據總量的85%以上。此外,圖書館大數據決策系統對數據的存取具有高效、精準、快速和實時的要求,傳統的關系型數據存儲系統已不能滿足圖書館大數據海量、指數級增長、快速存取、高吞吐率的存儲需求,因此,必須構建新型的大數據存儲系統,才能滿足圖書館大數據管理與決策的需求。

Hadoop是一個由Apache基金會所開發的分布式系統基礎架構,實現了一個分布式文件系統(Hadoop Distributed File System,簡稱HDFS),用戶可以在不了解分布式底層細節的情況下開發分布式程序,充分利用集群的威力進行高速運算和存儲。HDFS具有高可靠性、高可擴展性及高容錯性的特點,并且設計用來部署在低廉的(Low-cost)硬件設備上。同時,它支持以高吞吐量(High Throughput)來訪問應用程序的數據,適合那些有著超大數據集的應用程序[2]。2004年,Google公司提出的MapReduce編程模型,解決了大型分布式計算中的編程模型問題[3]。2006年,雅虎將Hadoop項目從Nutch搜索引擎項目中獨立,成為Apache的一個單獨子項目。隨后,Apache基金會根據MapReduce模型開發出開源的大數據處理框架Hadoop,在Yahoo、IBM、百度等公司得到了大量的應用和快速推廣[4]。截至2013年10月,Hadoop220版本已經成功發布,Facebook、阿里巴巴、百度和騰訊都采用Hadoop部署了大數據處理平臺[5]。針對圖書館大數據環境特點,基于Hadoop技術構建圖書館大數據存儲系統,它可滿足圖書館對復雜大數據的存儲、查詢、分析和決策的需求。

1圖書館大數據存儲的需求與挑戰

大數據時代,伴隨數據總量和數據環境復雜度的快速增長,圖書館對數據庫系統的安全性、存儲容量、管理效率、讀寫性能、存儲經濟性和可擴展性等提出了更高的要求,要求存儲系統具有較高的安全性、集成度、穩定性、可控性和可擴展性,能夠滿足圖書館海量數據存儲管理與大數據決策的需求。

11大數據存儲海量和快速的需求

當前,伴隨圖書館服務模式和讀者閱讀方式多樣化的發展,圖書館的數據總量已從TB、PB量級向EB量級急速增長,這些以指數級快速增長的大數據對圖書館的存儲系統提出了新的要求,首先要求存儲系統具有高數據吞吐量、準確和動態存取的特點,能夠根據大數據采集、傳輸和決策需求,實現多個不同地點的部署和具有廣域擴展的能力。其次,針對讀者個性化服務對大數據決策實時性的需求,大數據存儲系統應實現快速的數據存儲、查詢、讀取和傳輸操作,為圖書館大數據決策提供可靠的數據存儲與讀取支持。第三,圖書館大數據具有多數據源和多結構類型的特點,其大數據存儲也以非結構化數據和半結構化數據存儲為主。針對不同的大數據總量、數據類型和存儲模式需求,大數據存儲系統在設計上應采取多種數據存儲格式和存儲介質并存的特點。

12大數據存儲的安全性需求

大數據存儲安全性,是關系圖書館服務可靠性和讀者隱私保護有效的關鍵問題。首先,圖書館大數據存儲系統應保證數據的完整性,確保數據不被截獲、監聽、竊取、篡改、復制、破壞或丟失。并能夠通過圖書館部署的數據安全監控和網絡安全監控設備,對與大數據存儲相關的數據存儲系統、網絡傳輸系統、數據采集系統、數據傳輸節點和應用軟件進行安全監控,及時發現大數據存儲面臨的安全問題。其次,應通過用戶訪問權限授權、限制和特權審核的方式,對訪問數據庫存儲系統的圖書館員工和其它訪問者,進行身份與訪問權限限制,防止惡意用戶通過獲取超級權限來訪問和侵犯大數據庫[6]。第三,圖書館網絡是圖書館大數據存取的載體,如何通過有效檢查大數據存儲區域網絡的安全性和存儲安全控制日志(比如防火墻、IDS和用戶訪問日志等),是及時、準確地發現圖書館大數據存儲安全問題的重要步驟。第四,圖書館如何實現大數據的快速備份、過期敏感數據擦除和數據災難恢復,也是提升大數據存儲系統安全可控性應重點關注的問題。

13應確保大數據存儲可靠和可用

大數據具有高價值總量和低價值密度的特點,圖書館可通過對大數據的噪聲過濾和價值挖掘,來提升大數據的價值密度與可用性,因此,圖書館允許大數據存儲系統在一定范圍內存在少量的數據錯誤。首先,圖書館傳統的將數據強制寫入磁盤、雙控制器等冗余備份方式,雖然能夠保證數據具有較高的準確性和可災難恢復特性,但在大數據備份中存在著高成本和低效率的問題,不能滿足大數據備份的需求。其次,基于SAN或NAS網絡的傳統數據存儲模式,因網絡傳輸帶寬遠低于大數據存儲系統數據讀寫的速率,無法滿足圖書館EB級別大數據存儲的需求,可能會因為所查詢的大數據傳輸至決策系統,或者決策系統的計算結果寫入存儲系統的過程有較長的時延,而導致大數據決策應用的實時性下降。而基于Hadoop的大數據存儲系統采用的DAS(直連式存儲,Direct-Attached Storage)方式雖然大幅降低了數據存儲的網絡傳輸時延,但存在著跨節點數據訪問管理和存儲數據塊管理等問題[7]。第三,為了降低圖書館大數據的存儲成本,圖書館會采用眾多價格低廉的存儲設備存儲數據,如何依靠容錯軟件和故障監控系統大幅降低多點存儲設備的故障率,是圖書館大數據可靠存儲應關注的問題。第四,大數據決策應用涉及圖書館的所有部門、業務和系統平臺,在同一時刻存在著多用戶、多主機并發訪問大數據存儲系統的情況,因此,在多用戶并發訪問環境下如何保證大數據存儲系統安全、高效、經濟和可靠,是圖書館面臨的又一嚴峻挑戰。

14大數據存儲系統應具備較強的可兼容性

數據采集源和數據結構多樣性是圖書館大數據的一個顯著特征,首先,當前半結構化及非結構化數據占據圖書館大數據總量的85%以上,而且隨著圖書館服務模式和讀者閱讀方式多樣化的發展,非半結構化和非結構化數據占據圖書館大數據的比例將進一步攀升,圖書館傳統的結構化數據庫無法滿足海量、復雜非結構化數據的存儲需求[8]。其次,圖書館大數據的存儲和讀取是面向多數據源、多決策應用系統和多存儲節點的數據操作,因此,大數據存儲系統的數據接口必須兼容不同設備的數據傳輸機制,并根據大數據決策需求提供相應的數據讀取服務(針對決策系統對大數據的海量快速傳輸、數據交互式查詢和數據批處理等),提供統一和強兼容性的大數據讀寫接口。第三,大數據存儲系統應根據不同的大數據應用對數據存取效率的特殊需求,將大數據決策中頻繁訪問的熱點數據和實時決策數據等,從大數據存儲庫中提取并放置于內存或Flash(SSD)中,以滿足大數據決策中對海量數據的實時、極速傳輸需求。

15大數據存儲經濟性關系大數據應用有效性

降低大數據存儲成本是提升圖書館大數據決策收益率的關鍵。首先,圖書館在大數據存儲系統的構建中,應通過新穎、簡捷和經濟的存儲架構,對原有的存儲系統平臺進行升級和無縫鏈接,在保證數據存儲業務連續性的前提下,降低大數據存儲系統建設成本的投入。其次,應根據不同類型大數據對存儲的安全性、復雜性、吞吐速率和存儲成本的不同需求,對不同存儲需求的大數據選擇不同的存儲介質和存儲策略,以此實現大數據的分級儲存,在增加大數據存儲靈活性和可控性的同時,實現大數據存儲總成本的大幅下降。第三,在滿足圖書館大數據災難恢復和可靠性需求的前提下,還應盡可能地通過刪除重復數據來提升存儲空間的使用效率,并通過存儲虛擬化技術實現大數據存儲系統的多用戶共享。第四,如何將大數據存儲系統與相關的網絡傳輸系統、服務器系統有效融合,提升大數據存儲系統與存儲相關平臺系統的兼容性,也是保證大數據存儲經濟性的關鍵[9]。

2基于Hadoop的圖書館大數據存儲系統的設計與存儲管理21基于Hadoop的圖書館大數據存儲系統的設計

首先,基于Hadoop的圖書館大數據存儲系統,可以有效利用圖書館傳統的廉價存儲服務器集群設備構建,具有較強的存儲容錯性、可擴展性、低故障率和透明存儲的優點,特別適合存儲圖書館系統運行參數數據、讀者閱讀行為監控數據、傳感器網絡數據、閱讀終端設備參數數據等半結構化和非結構化大數據[10]。其次,基于Hadoop的圖書館大數據存儲系統具有較低的系統建設、運營和管理成本,眾多小容量低端存儲設備采用分布部署和就近存儲的原則,消除了因網絡傳輸帶寬不足可能帶來的大數據決策瓶頸問題。此外,存儲模型具有快速、低故障率、經濟和透明的優點,有效避免了大數據的體量、文件大小和文件數量等方面對存儲系統的限制。本文設計的基于Hadoop的圖書館大數據存儲系統組織結構如圖1所示:

基于Hadoop大數據存儲系統的數據收集層,主要實現結構化數據、半結構化數據和非結構化數據的收集、定義和類型劃分,Sqoop是一個用來將Hadoop和關系型數據庫中的數據相互轉移的工具,可以將關系型數據庫中的數據導入到Hadoop的HDFS中,實現數據集在Hadoop和傳統數據庫之間轉移,是大數據存儲系統中數據傳輸的重要工具[11]。文件存儲層是支持Hadoop計算框架的分布式大數據存儲系統,其基于大量的廉價存儲服務器設備構建,具有高容錯、可擴展和高并發的優點,可支持巨量大數據決策者快速并發訪問、查詢和下載。此外,還支持存儲系統不停機動態擴容,以及數據正確性的自檢、復制、備份和恢復。數據存儲層主要由Hcatalog、HBade、Redis組成,Hcatalog是apache開源的對于表和底層數據管理的統一服務平臺,主要完成多種數據處理工具之間的通信,以及應用程序的數據被其他應用程序在使用前的發現。HBase是一個分布式的、面向列的開源數據庫,HBase不同于一般的關系數據庫,它是一個適合于非結構化數據存儲的數據庫,HBase在Hadoop之上提供了類似于Bigtable的能力。Redis存儲系統支持主從同步,數據可以從主服務器向任意數量的從服務器上同步,這使得Redis可執行單層樹復制,同步有助于提高大數據讀取操作的可擴展性和數據冗余性[12]。大數據存儲系統的統一數據接口可兼容不同設備的數據傳輸機制,并根據大數據決策需求提供相應的數據讀取服務(針對決策系統對大數據的海量快速傳輸、數據交互式查詢和數據批處理等)需求,提供統一和強兼容性的大數據讀寫接口。大數據決策層基于大數據存儲層的支持,為圖書館業務部門提供大數據分析和決策支持。系統平臺配置與調度層主要負責平臺系統的參數配置和確保系統兼容性,并為大數據存儲系統不同的結構層調度、分配系統資源。平臺管理層主要負責對大數據存儲安全性、運行效率、可靠性、經濟性和可控性的管理工作。

22基于Hadoop存儲系統存儲性能的擴展和優化

圖書館大數據存儲具有數據海量、大數據量文件比例高、并發訪問量巨大,以及對大數據庫進行文件并發讀取操作遠大于寫入操作的特點,因此,基于Hadoop的大數據存儲系統運行策略應支持多客戶機并發高速讀取操作,有較高的存儲效率和較低的存儲成本,并支持存儲系統依據大數據冗余備份的需求,執行相應的數據備份策略。基于Hadoop的大數據存儲系統的可擴展性存儲流程如圖2所示。

NameNode負責管理文件系統的命名空間,主要維護文件系統樹及整棵樹內所有的文件目錄結構和文件元數據。這些信息以兩個文件形式(命名空間鏡像文件和編輯日志文件)永久地保存在本地磁盤上,NameNode記錄著每個文件中各個塊所在的數據節點信息,存儲節點數據塊的位置信息在系統啟動時由數據節點重建。大數據存儲節點(DataNode)是大數據的存儲單元,當圖書館業務部門在大數據決策中需要讀取數據時,首先應當訪問NameNode以獲取文件的信息和數據分布特征,進而可依據獲取的信息從存儲節點讀取數據。當用戶從NameNode獲取數據相關信息之后,后期重復讀取這些數據時就不需要再次訪問NameNode,客戶端可以依據以前獲得的文件目錄信息從存儲節點讀取數據。此外,圖書館還可根據大數據存儲需求,通過增加DataNode的節點數量實現大存儲能力的橫向擴展,僅需要將所增加的DataNode加入到NameNode中進行管理即可,基于Hadoop的大數據存儲系統具有高數據吞吐量、透明存儲、低復雜度和經濟性強的優點[13]。

23采用基于動態存儲副本備份的容錯模式

基于Hadoop的大數據存儲系統通過存儲節點的擴展,有效地滿足了圖書館大數據總量指數增長對存儲系統存儲能力快速擴展的需求,但隨著廉價存儲節點數量和復雜度的上升,其存儲節點的故障率也將快速增長,將導致大數據存儲的安全性和可靠性下降。因此,為了確保大數據存儲系統的數據安全、可靠、可控和可用,必須結合基于Hadoop大數據存儲系統的結構特點,設計符合圖書館大數據存儲安全需求的數據備份與災難恢復策略,才能保證圖書館大數據存儲系統安全、可用。本文設計的基于Hadoop大數據存儲系統的動態存儲副本放置策略如圖3所示:

若干個存儲節點服務器共同放置在同一機架上,在同一機架上放置的存儲節點服務器具有較高的數據傳輸吞吐率和可靠性。為了提升大數據存儲的安全、可靠性,諸如機架1上的DataNote2存儲節點,用戶在向存儲系統的DataNode2節點寫入數據時,DataNode2會將寫入的數據復制寫入其他相臨DataNode1、DataNode3、DataNode4中(對于普通的大數據文件采用3份復制的策略,而對于敏感的大數據文件則采用6份復制的策略),以及相臨機架2中的DataNode7節點中,如果存儲節點DataNode1失效,DataNode1則會首先向位于同一機架的最近相臨節點發出請求,重新在備份節點中下載并獲得失效節點的備份數據[14]。當位于同一機架的所有存儲節點均損毀時,則從其它機架的備份存儲節點中恢復丟失、損壞的數據,具有較高的數據災難恢復效率和經濟性。為了提升圖書館大數據動態存儲副本備份的效率,數據管理員可根據大數據的安全級別、訪問頻率、出錯概率、存儲時間、系統可靠性、網絡狀況等因素,動態綜合設定、添加或刪除備份存儲節點的數量,不斷提升大數據存儲系統的存儲空間利用率和數據災難恢復效率。

3結束語

伴隨大數據總量、數據結構多樣性和數據環境復雜度的快速增長,圖書館傳統的關系數據庫已不能滿足大數據存儲的需求,大數據存儲系統的安全性、可用性和可靠性等問題,已成為影響圖書館大數據決策科學性和讀者個性化服務可靠性的關鍵。而基于Hadoop技術構建的圖書館大數據存儲系統,可以有效利用圖書館原有的結構化存儲系統設備,具有存儲安全性高、結構簡單、易于擴展和強經濟性的特點,有效地滿足了圖書館大數據決策和用戶服務對大數據存儲系統的高標準要求,且隨著存儲節點性的提升和制造成本的下降,該系統未來會有更加廣闊的使用前景[15]。

在基于Hadoop技術的圖書館大數據存儲系統構建中,數據存儲節點的可靠性、動態存儲副本放置策略的科學性、存儲系統資源調度的有效性、存儲空間的利用率等,始終是關系圖書館大數據存儲科學性和可用性的關鍵。因此,圖書館應重點加強存儲系統架構的效率和可靠性,通過科學均衡存儲節點的負載和增強單一節點性能,提升存儲系統的綜合存儲能力。此外,還應提高海量大數據存儲算法的科學性和計算效率,才能確保大數據存儲系統存儲資源調度和分配最優,才能在保證存儲安全、可靠性的前提下節約系統能耗[16]。

參考文獻

[1]孟小峰,慈祥.大數據管理:概念、技術與挑戰[J].計算機研究與發展,2013,50(1):146-169.

[2]楊俊杰,廖卓凡,馮超超.大數據存儲架構和算法研究綜述[J].計算機應用,2016,36(9):2465-2471.

[3]涂新莉,劉波,林偉偉.大數據研究綜述[J].計算機應用研究,2014,31(6):1612-1617.

[4]張濱,陳吉榮,樂嘉錦.大數據管理技術研究綜述[J].計算機應用與軟件,2014,31(11):1-5.

[5]張琳,譚軍,白明澤.基于MongoDB的蛋白質組學大數據存儲系統設計[J].計算機應用,2016,31(1):232-236.

[6]馬蕾,楊洪雪,劉建平.大數據環境下用戶隱私數據存儲方法的研究[J].計算機仿真,2016,33(2):465-468.

[7]金弟,莊錫進,王啟迪,等.存儲框架模型在地震資料大數據中的應用[J].計算機系統應用,2016,25(2):45-51.

[8]林彬,李姍姍,廖湘科,等.Seadown:一種異構Map Reduce集群中面向SLA的能耗管理方法[J].計算機學報,2013,36(5):977-987.

[9]CHEN Q,YAO J,XIAO Z.LIBRA:lightweight data skew mitigation in Map Reduce[J].IEEE Transactions on Parallel & Distributed Systems,2015,26(9):2520-2533.

[10]宋寶燕,王俊陸,王妍.基于范德蒙碼的HDFS優化存儲策略研究[J].計算機學報,2015,38(9):1825-1837.

[11]TANG S,LEE B S,HE B.Dynamic job ordering and slot configurations for Map Reduce workloads[J].IEEE Transactions on Services Computing,2016,9(1):4-17.

[12]魏文娟,王黎明.異構Hadoop集群下的比例數據分配策略[J].計算機應用與軟件,2015,32(6):316-319.

[13]WANG J,QIU M,GUO B,et al.Phase-reconfigurable shuffle optimization for Hadoop Map Reduce[J].IEEE Transactions on Cloud Computing,2015,(99):121-127.

[14]廖彬,于炯,張陶,等.基于分布式文件系統HDFS的節能算法[J].計算機學報,2013,36(5):1047-1064.

[15]蔡平.基于Hadoop的NoSQL數據庫安全研究[D].上海:上海交通大學,2013:23-33.

[16]陳臣.一種基于新型存儲的數字圖書館分布式大數據存儲架構[J].現代情報,2015,35(1):100-103.

(本文責任編輯:郭沫含)

猜你喜歡
大數據圖書館
圖書館
文苑(2019年20期)2019-11-16 08:52:12
時間重疊的圖書館
文苑(2018年17期)2018-11-09 01:29:40
圖書館
小太陽畫報(2018年1期)2018-05-14 17:19:25
飛躍圖書館
大數據環境下基于移動客戶端的傳統媒體轉型思路
新聞世界(2016年10期)2016-10-11 20:13:53
基于大數據背景下的智慧城市建設研究
科技視界(2016年20期)2016-09-29 10:53:22
數據+輿情:南方報業創新轉型提高服務能力的探索
中國記者(2016年6期)2016-08-26 12:36:20
圖書館里的是是非非
去圖書館
主站蜘蛛池模板: 就去色综合| 8090午夜无码专区| 素人激情视频福利| 日韩欧美国产三级| 综合色88| 久久性视频| 激情无码字幕综合| 成人日韩精品| 亚洲看片网| 久久综合色88| 乱码国产乱码精品精在线播放| 日韩高清欧美| 亚洲天堂网2014| 亚洲无码高清一区二区| 超碰精品无码一区二区| 一级毛片免费不卡在线| 欧美啪啪网| 18禁高潮出水呻吟娇喘蜜芽| 波多野结衣一级毛片| 亚洲成aⅴ人片在线影院八| 无码国产偷倩在线播放老年人| 国产精品手机视频一区二区| 成人午夜在线播放| 九色综合伊人久久富二代| 久久久精品无码一二三区| 久久无码高潮喷水| 国产亚卅精品无码| 九九线精品视频在线观看| 怡红院美国分院一区二区| 欧美性久久久久| 欧美成人手机在线视频| 99国产精品国产| 91青青草视频| 中文字幕av一区二区三区欲色| 国产白浆视频| 欧美一区中文字幕| 国模视频一区二区| 国产男女XX00免费观看| 亚洲性一区| 国产剧情国内精品原创| 国产日韩丝袜一二三区| 91亚洲免费视频| 伊人色在线视频| 国产成人乱码一区二区三区在线| 国产精品久久久精品三级| 国产成人91精品免费网址在线 | 精品少妇三级亚洲| 亚洲欧美另类日本| 国产欧美在线视频免费| 免费国产黄线在线观看| 伊人久久婷婷五月综合97色| 国产精品亚洲а∨天堂免下载| 亚洲中文字幕手机在线第一页| 在线观看网站国产| 亚洲婷婷在线视频| 无码 在线 在线| 国产女人喷水视频| 久久人人97超碰人人澡爱香蕉| 九九久久99精品| 亚洲精品无码成人片在线观看| 97精品伊人久久大香线蕉| 欧美视频在线播放观看免费福利资源| 国产精品丝袜视频| 日韩高清一区 | 久久 午夜福利 张柏芝| 岛国精品一区免费视频在线观看 | 欧美精品H在线播放| 无码精品一区二区久久久| 国产在线观看一区二区三区| 99视频在线免费| 国产草草影院18成年视频| 国产一区二区三区在线观看免费| 99久久国产综合精品2023| 中文无码伦av中文字幕| 99re这里只有国产中文精品国产精品 | 精品三级在线| 日韩毛片在线播放| 国产男女XX00免费观看| 污污网站在线观看| 91色在线观看| 国产在线91在线电影| 无码在线激情片|