李小波 田中娟 葉振

摘要: 我國民間藝術資源平臺的建設和研究是當前文化藝術領域面臨的一項重要而緊迫的課題,存在著諸多挑戰。在大數據時代背景下,采用云計算和云存儲技術是一個必然的趨勢。文中介紹了Hadoop云計算與云存儲技術,提出了基于Hadoop的民間藝術資源云存儲平臺建設方案。構建基于Hadoop的民間藝術資源云存儲平臺具有可行性和有效性。
關鍵詞:民間藝術;云計算;云存儲;Hadoop
中圖法分類號:TP311.13 文獻標志碼:A 文章編號:2095-2163(2016)02-
Research on cloud storage technology of folk art resources
Xiaobo Li 1, Zhongjuan Tian 2, Zhen Ye 1
(1 College of Engineering and Design, Lishui University, Lishui 323000, China;
2 College for Nationalities (Minzu), Lishui University, Lishui 323000, China)
Abstract: The construction and research of Chinese folk art resources platform is an important and urgent task in the culture and art field, and there are many challenges. In the big data era, the use of cloud computing and cloud storage technology is an inevitable trend. This paper introduces the Hadoop cloud computing and cloud storage technology, puts forward the development scheme of folk art resources cloud storage platform based on Hadoop. The construction of folk art resources cloud storage platform based on Hadoop is feasible and effective.
Key words: folk art; cloud computing; cloud storage; Hadoop
我國民間藝術源遠流長,多彩多姿,內涵豐富,深刻地影響和滋養著我們的民族精神與民族性格。在全球經濟一體化,我國社會快速發展的當下,隨著強勢文化的沖擊融合,許多優秀的民間藝術和民族文化正在逐漸走向流失消亡。對于民間藝術的保護,以往在思路及方法上都比較單一。如創建一個博物館,將民間的藝術品進行精彩集中展現,但這種方式對于許多民間藝術的保護卻不具現實可行性;而且,在各地大量興建博物館,也將帶來資金和展示空間不足等諸多問題。隨著計算機和網絡等現代信息技術的飛速發展,采用新興的數字化信息技術對民間藝術資源進行傳承和保護,不僅是現階段文化繁榮和發展提出的時代課題要求,而且也為我國珍貴民間藝術的傳統接續和創意加入提供了可行思路,同時更為信息技術的應用拓展了廣闊的前景實施空間[1-2]?!吨腥A人民共和國非物質文化遺產法》自2011年6月1日開始實施,其中的第十三條就提出了明確的規定:“文化主管部門應當全面了解非物質文化遺產有關情況,建立非物質文化遺產檔案及相關數據庫。除依法應當保密的外,非物質文化遺產檔案及相關數據信息應當公開,便于公眾查閱。”[3]
1 民間藝術資源保護面臨的挑戰
國內宣傳、文聯、文化等部門意識到民間藝術資源保護的必要性和迫切性,著手積極探索和實踐民間藝術資源的保護和傳承工作。時至今日,我國民間藝術資源的數字化傳承和保護工作尚未全面展開,仍然屬于起步階段,各項工作有待進一步深入,其數據資源平臺的建設和研究將是一項長期而艱巨的工作。
各地民間藝術種類繁多,地域特點突出,相關數據資源的保護面臨著諸多挑戰,分析論述如下:
(1)民間藝術資源數據持續增長。隨著民間藝術資源的保護和傳承工作的不斷深入開展,大量的數據接入互聯網,由此帶來了數據量的迅猛增長。數據量由之前的MB,GB級別,躍升到現在的TB,甚至是PB級別。
(2)數據資源來自不同的數據源。民間藝術資源種類眾多,且獲取的數據源各不相同。由于其數據結構不同,既包括結構化的數據,也含有半結構化和非結構化的數據。因而需要利用合適的方法對獲取的數據進行標準化處理,將其轉化為統一的格式,并采用科學模式實現數據的存儲和管理。熱后進行數據的處理分析,再利用可視化等技術手段給用戶提供效果展示。這就需要一整套的大數據處理流程[4]。
(3)民間藝術資源數據缺乏共享。目前國內相關部門的民間藝術資源庫往往是獨立設計、并研發完成的,因而其資源是分散且孤立的,相互之間沒有進行有機的整合。各資源庫之間的信息互不兼容,不僅造成資源庫的重復建設,也會由于缺乏共享而導致資源的浪費[5]。
(4)存儲成本高。構建民間藝術資源的數據中心需要大量的資金投入,在傳統的存儲管理模式下,相關部門要購置各自的服務器,配備相應的場所和技術人員,而時下的許多單位并不具備相應的資金和技術能力。而且當前的服務器無法滿足更高需求時,就要決策購進新式服務器[5]。
2 Hadoop云計算與云存儲技術
云計算是近期網絡技術、特別是互聯網蓬勃興起后出現的熱門研發領域之一,是當前信息行業發展的最新潮流趨勢。云計算通過分布式技術將大量的計算資源通過高速網絡進行連接,并通過虛擬化技術構成一個虛擬的計算資源共享池,云系統管理者在后臺對該資源共享池施行統一的配置、管理和監控,而當前臺的用戶需要使用計算資源時,就可以通過互聯網隨時隨地接入,并且是以按需付費的模式交付用戶使用。自2006年,云計算概念提出以后,眾多廠商陸續趁勢推出了各自的云計算架構和系統,推動著云計算從簡單的概念迅速邁入成熟的實施階段。
在此基礎上,云存儲延伸了云計算的概念,現已成為一種新型的數據存儲模式。云計算平臺是一種以海量數據為計算核心的分布式系統,如果在該平臺之上配置大量的存儲設備,使得該平臺擁有了海量的數據存儲能力,即可將其作為云存儲平臺來進行設定使用[6]。
Hadoop 是一個直接針對云計算和云存儲而提出的開源模型[7],可以在普通的硬件設備組成的集群上進行部署和運行,是目前實現云計算和云存儲的主要平臺之一。該平臺已經由包括Microsoft, Amazon,IBM和Google等在內的多家知名IT公司所采選和使用。其中,HDFS、MapReduce和HBase是Hadoop平臺的三大核心技術。在此,對這3項核心技術給出如下分析與概述。
2.1 HDFS
HDFS(Hadoop distributed file system)是一個采用主從結構體系框架的分布式文件系統[8]。和現有的分布式文件系統不同的是,HDFS更注重容錯性和鏈接廉價硬件設備的兼容性,能完全運行在性能普通的電腦集群上,采用上述設計的目的即是希望基于很小的預算或者現有的機器就能實現大數據量的保存和讀取。在HDFS中,一個集群包括一個NameNode和多個DataNode。采用一個NameNode的體系設計將使得整體系統架構更加簡潔[9]。
2.2 MapReduce
MapReduce 是Google提出的一種并行編程模型[10],由于Hadoop的強大功能和簡潔架構,當前已經構建面世多種實現,其中,除Google的官方實現外,Hadoop的MapReduce模型是具有最高使用頻度的。具體來說,MapReduce的編程可通過map和reduce兩個階段得以推進并完成,其中map函數從底層分布式文件系統接收輸入的一組鍵值對,再通過并行操作,產生一組中間結果的鍵值對,將其傳遞給reduce函數。reduce函數并行處理,將中間結果以鍵值進行合并,最終產生一個規模更小的結果值集合,輸出到底層分布式文件系統。MapReduce計算任務由一個JobTracker和多個TaskTracker 協作完成[9]。
2.3 Hbase
Hbase是運行在Hadoop平臺上的非結構化數據存儲數據庫[11],其中的全部數據均存儲在底層HDFS文件系統上,而且支持Hadoop的MapReduce編程模型。Hbase數據行記錄包括3個基本類型:行關鍵字(Row Key)、時間戳(Time Stamp)和列(Column)。在各類型中,行關鍵字是數據表的主鍵,數據的每次操作都有與之關聯的時間戳,列又可以劃分為多個列簇(Column Family)。雖然從概念視圖呈現上得知,每個Hbase表由許多行組成;但在物理存儲上,Hbase采取基于列存儲的模式存儲數據記錄。而且,Hbase可以動態地增加列,如此則為民間藝術數據庫的表格設計提供了很強的靈活性。
本文中,研究構建的Hadoop民間藝術資源云存儲平臺具有以下特點:
(1)可擴展性。具有存儲可擴展和計算可擴展性,可以按需擴展,能夠滿足民間藝術資源數據持續增長的需求。
(2)通用性。分布式文件系統和Hbase數據庫能夠處理數據結構完全不同的異構數據,MapReduce 的并行編程模型適合處理異構大數據。
(3)共享性。用戶只要聯網,即能在任何時間、任何地方到云上方便地存取數據。
(4)低成本。該存儲平臺可以運行在普通的微機上,不需要昂貴大型系統的條件限制及底層支持。
4 結束語
云計算和云存儲作為新興的網絡計算和存儲技術,在大數據時代具有廣泛的應用及前景。構建基于Hadoop的民間藝術資源云存儲平臺具有可行性和有效性,能夠應對當前民間藝術資源傳承和保護工作所面臨的挑戰。
參考文獻:
[1] 彭冬梅, 潘魯生, 孫守遷. 數字化保護——非物質文化遺產保護的新手段[J]. 中國書畫, 2006(1): 47-51.
[2] 劉海青. 數據庫技術在非物質遺產保護中的運用研究——以紅河哈尼族彝族民間藝術數據庫創建為例[J]. 數字技術與應用, 2010(9): 155-157.
[3] 譚必勇, 張瑩. 中外非物質文化遺產數字化保護研究[J]. 圖書與情報, 2011(4): 8-11.
[4] 劉智慧, 張泉靈. 大數據技術研究綜述[J]. 浙江大學學報(工學版), 2014, 48(6): 957-972.
[5] 吳明珠, 陳瑛. 基于云存儲技術的教育資源構建與共享[J]. 計算機教育, 2014(7): 40-44.
[6] 張龍立. 云存儲技術探討[J]. 電信科學, 2010(S1): 71-74.
[7] The Apache Software Foundation. Apache Hadoop Project [EB/OL]. [2016-02-13]. http://hadoop.apache.org/.
[8] D Borthakur. HDFS Architecture Guide [EB/OL]. [2013-02-14]. http://hadoop.apache.org/docs/r1.0.4/hdfs_design.html.
[9] 崔杰, 李陶深, 蘭紅星. 基于Hadoop的海量數據存儲平臺設計與開發[J]. 計算機研究與發展, 2012, 49(S1): 12-18.
[10] J Dean, S Ghemawat. MapReduce: simplified data processing on large clusters[J].
Communications of the ACM, 2008, 51(1): 107-113.
[11] 張智, 龔宇. 分布式存儲系統HBase關鍵技術研究[J]. 現代計算機(專業版), 2014(32): 33-37.
[12] 黎宏劍, 劉恒, 黃廣文,等. 基于Hadoop 的海量電信數據云計算平臺研究. 電信科學, 2012(8): 80-85.
[13] 林清瀅. 基于Hadoop 的云計算模型[J]. 現代計算機(專業版), 2010(7): 114-116, 121.