999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數據時代基于云計算的數據監護研究

2016-11-12 07:54:48張新興ZhangXinxing
山西檔案 2016年4期
關鍵詞:用戶服務模型

文/張新興 Zhang Xin-xing

大數據時代基于云計算的數據監護研究

文/張新興 Zhang Xin-xing

Data Curation based on Cloud Computing in the Era of Big Data

在大數據環境下,數據監護受到了人們越來越多的關注。云計算的彈性服務、按需服務、泛在接入、服務外包等特點能夠很好地滿足數據監護的需求。因此基于云計算的數據監護成為信息資源管理領域的研究熱點。目前已經出現了一些基于云計算的數據監護的成功案例,包括英國聯系信息系統委員會的智能研究框架項目、數據流項目、Kindura項目,以及我國東南大學的AMS-02項目等。

云計算;科學數據;數據監護;數據管理

在大數據時代,為了更好地管理和利用科學數據,計算機圖靈獎獲得者Jim Gray于2002年提出了數據監護(Data Curation)的概念。十余年來,數據監護一直是國內外信息資源管理領域的熱點議題,研究主題集中在數據監護的內容、發展策略、合作模式、職業教育、成功實踐等領域。[1]鑒于云計算能夠為數據監護提供強有力的技術支撐,如云計算快速提供資源的能力有助于輔助完成資源密集型數據監護任務,網絡化云服務有利于實現數據監護的協同工作,基于云計算開展數據監護引起了國外信息資源管理學界和業界的廣泛關注。本文對基于云計算的數據監護問題進行探討,希望對我國的數據監護工作有所借鑒。

一、數據監護工作流程

數據監護是為了確保數據當前的使用目的,并能用于未來再發現及再利用,從數據產生伊始即對其進行管理和完善的活動。[2]為了有效指導數據監護實踐,提高數據監護效率,一些數據監護機構和研究者對數據監護過程進行了概念化,提出了相應的數據監護生命周期模型。本文基于英國數據監護中心的DCC數據監護生命周期模型[3]與王芳和慎金花提出的細化的數據監護生命周期模型[4],梳理出了數據監護工作流程,見圖1。數據監護工作流程由4個階段、11個業務環節組成,涵蓋了數據監護的所有必要階段和核心工作。

數據收集階段:數據采集。數據采集是數據監護活動的起點,指根據采集政策,從數據創建者、檔案館、知識庫或數據中心等接收數據。元數據創建。為采集到的數據創建管理、描述、結構和技術元數據,以便進行數據管理和數據維護,以及實現數據共享。

數據處理階段:數據評價和選擇。評估數據并為長期監護和保存選擇數據。數據評價和選擇直接關系到科學數據庫的質量,并且帶有一定的主觀性。數據剔除。根據成文的政策、指引或法律要求,處理未成為長期監護和保存對象的數據,將這些數據轉移到其他檔案館、知識庫、數據中心或其他保管機構。根據法律要求,有些數據會被安全銷毀。數據導入。將經過選擇的數據傳送至檔案館、知識庫、數據中心或其他數據監護機構。為保證數據的可用性,在導入數據之前,應進行去重、交叉注釋、格式認證等。數據遷移。根據存儲環境的需求,或者為了確保數據對硬件和軟件退化的抗擾性,改換數據的格式、存儲系統、存儲類型。

▲圖1 數據監護工作流程

數據保存階段:數據長期保存。長期保存須確保數據的可信性、可靠性、可用性和完整性。長期保存包括數據清洗、數據驗證、分配保存元數據、分配表征信息,保證數據具備可接受的數據結構和文件格式。數據存儲。遵守相關標準,選擇科學的組織方式和安全的存儲介質組織并存儲數據。數據存儲既可以保證數據的安全性,又便于數據被隨時使用和加工處理。

數據利用階段:數據獲取。采用適當的標準發布數據,并執行嚴格的訪問控制和驗證程序,保證用戶安全、準確的訪問和獲取數據。數據復用。制訂數據復用規則,在不違反知識產權的前提下,提供數據復制、鏈接、引用等服務。數據轉換。根據原始數據創建新數據。例如,通過轉換格式、建立子集等途徑,創建新數據。

二、云計算為數據監護提供支撐

云計算作為分布式計算、網絡存儲、負載均衡、熱備份冗余等計算機和網絡技術融合的產物,具有超大規模、虛擬化、通用性、高可擴展性等諸多特點。云計算的特點與數據監護的需求非常契合,可以為數據監護提供強有力的技術支撐。[5]

彈性服務:云計算服務的規模可快速伸縮,以自動適應業務負載的動態變化。用戶使用的云計算資源與業務的實際需求相一致,避免了因為資源供需不匹配而導致的服務質量下降或資源浪費。[6]數據監護的數據剔除和數據遷移等任務不需要持續不斷的執行,屬偶發性活動。云計算的彈性服務能夠很好地滿足偶發性數據監護活動的資源調用需求。

按需服務:云計算以服務的形式為用戶提供基礎設施、存儲空間、應用程序等,并能夠根據用戶的需求,自動分配各種資源。[7]用戶也可以根據需要在云中部署所需的應用程序。云計算的按需服務為數據監護中需要依賴主觀意識完成的任務,如元數據創建、數據評價和選擇提供了極大的便利。

泛在接入:用戶通過互聯網可以隨時隨地利用云計算服務。數據用戶越來越多的使用筆記本電腦、智能手機、平板電腦,將數據監護業務流程轉移至云,能夠極大地方便用戶上傳、訪問和下載數據。數據監護的數據采集、數據獲取和數據復用等業務環節,可以從云計算的這一特點中受益。

服務外包:用戶進行數據處理所需的計算資源價格昂貴,將提供計算資源的業務委托給云服務商,既能夠節省開支,又能夠使用戶專注于自己的核心工作。云服務商為了利益最大化,保持最優競爭力,都會迅速應對技術變革,以更低的價格提供更快的處理器和更大的存儲空間。云計算服務外包的特點使數據監護機構將部分信息技術支持業務委托給云服務商,以獲得更低廉的價格和更優質的服務成為可能。

三、基于云計算的數據監護模型

云計算提供從硬件設施到應用軟件的多層次服務。根據服務的對象和功能差異可以將云計算劃分為三種服務模式:基礎設施即服務(IaaS)、平臺即服務(PaaS)、軟件即服務(SaaS);根據租用云計算的用戶對數據和環境的控制權,可以將云計算劃分為公有云、私有云和混合云等部署模型。本文根據數據監護不同業務階段的工作內容和技術需求,并結合云計算的服務模式和部署模型,構建了基于云計算的數據監護模型,見圖2。下面分別從數據監護的云計算服務模式和部署模型兩個方面分析基于云計算的數據監護模型。

▲圖2 基于云計算的數據監護模型

(一)數據監護的云計算服務模式

1. IaaS層。IaaS提供基礎設施部署服務。IaaS通過虛擬化技術整合服務器、存儲設備、網絡資源、高性能計算集群等物理資源,構建全局統一的動態虛擬化資源池。[7]基于云計算的數據監護模型的IaaS層為上層云計算服務提供海量硬件資源,實現硬件資源的按需配置。

2. PaaS層。PaaS是云計算應用程序運行環境,提供應用程序部署與管理服務。PaaS不僅能夠實現海量數據的存儲,而且能夠提供面向海量數據的分析處理功能。[6]在基于云計算的數據監護模型的PaaS層,數據監護機構使用云供應商的軟件工具和開發語言,開發數據收集和數據處理所需的各種應用程序,實現應用程序的多元化和定制化服務,并將科學數據保存于海量數據存儲系統。

3. SaaS層。SaaS提供以服務為形式的應用程序。SaaS允許用戶使用部署于供應商云基礎設施上的應用程序,用戶也可以根據需求向供應商定制應用程序。在基于云計算的數據監護模型的SaaS層,數據監護機構通過應用程序向用戶提供數據利用服務,實現數據共享和科研協作。

(二)數據監護的云計算部署模型

數據監護的各個階段分別面向數據監護方和數據使用方,對應不同的數據存取、處理等操作權限,因此需要采用相適應的云計算部署模型。數據監護過程中的數據利用階段位于SaaS層,為用戶提供方便高效的數據獲取等服務,而公有云面向一般公眾提供敏捷彈性服務的特點與數據利用階段的功能需求相契合。用戶能夠通過網絡瀏覽器像使用個人電腦中的軟件那樣使用公有云的應用程序,實現應用程序的泛在訪問。因此,基于云計算的數據監護模型的SaaS層應采用公有云部署模型。數據收集和數據處理工作要求云計算提供量身定制的服務功能和非常穩定的服務質量,而數據保存工作要求云計算能夠切實保障數據安全。私有云部署在用戶數據中心的防火墻內,能夠提供對數據、安全性和服務質量的最有效控制,而且不會沖擊用戶已有的業務流程。因此,基于云計算的數據監護模型的PaaS層適宜采用私有云部署模型。上述公有云和私有云的基礎設施共同構成了基于云計算的數據監護模型的IaaS層,并且公有云和私有云具有統一的接口標準,保證服務的無縫遷移,即IaaS層采用混合云部署模型。

四、基于云計算的數據監護案例

SRF項目:英國南安普頓大學的SRF項目,針對科學研究工作集成了許多已有的協作型數據管理工具,并將這些工具部署到一個共享的虛擬云平臺上,以SaaS的方式提供服務。SRF工具最大的特點是能夠在網絡日志中自動或者手工創建和共享實驗數據。例如,SRF的一款代理軟件能夠植入實驗儀器和計算機,自動抽取儀器在實驗過程中記錄的數據,并轉換為XML格式,然后以博客的形式發布以實現協作復用[8]。通過博客發布平臺實現實驗過程、實驗數據、實驗分析的互聯,組織實驗數據記錄,構建實驗、實驗數據、實驗設備之間的關聯關系。在數據監護生命周期中,SRF工具主要用于接收和抽取數據,以保證實驗數據在上傳至云的過程中會被格式化成標準格式。

DataFlow項目:牛津大學的DataFlow項目,旨在創建免費的云托管DataStage和DataBank,以便于管理、保存、發布研究數據。其中,DataStage以在用戶電腦上運行映射驅動器的方式,提供研究組水平的、安全的“本地”文件管理環境。另外,DataStage還提供數據的網絡獲取和在線存儲服務,用戶通過訪問控制程序的認證之后,即可以訪問私人、共享、協作、公眾和公共數據目錄。DataBank是一種虛擬化的、基于云部署的機構研究數據倉儲。機構可以選擇將DataBank部署在Eduserv教育云或者機構自己的基礎設施中。DataBank還具備包括數據抽取、儲存、長期保存、訪問在內的一系列數據監護功能。[5]

▲圖3 AMS-02數據監護云計算平臺架構

Kindura項目:倫敦國王學院的Kindura項目,是一個基于混合云部署模型的科學數據管理試點項目,提供基于存儲的數據管理服務和基于計算的數據處理服務。Kindura項目通過DuraSpace推出的托管云服務—DuraCloud,將本地服務與各種云服務相銜接。用戶利用DuraCloud提供的統一界面,即可享受一站式數據存取服務。Kindura項目通過部署于服務器上的規則引擎,以及面向規則的集成數據管理系統(iRODS)的規則庫,決定具體數據存儲在本地還是存儲于云端:二進制對象存儲在云端,元數據和Fedora對象存儲在本地。[9]Kindura項目證明,混合云能夠有效節省數據監護成本,并且能夠更加高效地利用本地存儲庫,提升數據處理能力。

東南大學AMS-02項目:東南大學為大型國際合作項目AMS-02的數據監護工作構建的云計算平臺,提供IaaS、PaaS、SaaS服務。該云計算平臺架構如圖3所示。在IaaS層,云計算基礎設施由3500顆CPU內核和500TB高速存儲設備構成,提供虛擬機和物理機的按需分配,并且自動配置操作系統、科學計算函數庫等運行環境。在PaaS層,數據分析處理平臺提供大規模計算能力和海量數據存儲能力;應用開發環境為AMS-02數據分析處理應用提供編程接口。在SaaS層,以服務的形式部署云計算應用程序,用戶通過訪問AMS-02應用,可以獲取原始科學數據以及數據處理分析結果。[6]

云計算通過超級計算模式,整合大量的存儲、計算、帶寬等資源,為數據監護提供了經濟高效的解決方案。國內的數據監護尚處于起步階段,對基于云計算的數據監護進行深入的理論探討和實踐探索,有助于推動我國的數據監護實現跨越式發展。

[本文系廣州市哲學社會科學“十二五”規劃課題“基于云計算的科學數據資源聚合機制與服務策略研究”(編號:15G98)和廣州市教育科學“十二五”規劃青年專項課題“E-Science環境下高校圖書館科學數據管理策略研究”(編號:2013A073)的研究成果]

(責任編輯:聞 道)

[1] 陳定權,諸葛列煒.數據監護發展現狀及對國內高校圖書館的思考[J].圖書館論壇,2014,(3).

[2] 楊鶴林.數據監護:美國高校圖書館的新探索[J].大學圖書館學報,2011,(2).

[3] DCC Curation Lifecycle Model[EB/OL].http://www.dcc.ac.uk/resources/curation-lifecycle-model.

[4] 王芳,慎金花.國外數據管護(Data Curation)研究與實踐進展[J].中國圖書館學報,2014,(8).

[5] Brian Aitken, Patrick McCann, Andrew McHugh, et al.Digital Curation and the Cloud Final Report[EB/OL]. http://eprints. gla.ac.uk/60659/1/60659. pdf.

[6] 羅軍舟,金嘉暉,宋愛波等.云計算:體系架構與關鍵技術[J].通信學報,2011,(7).

[7] 苗茹,諸云強,宋佳,等.基于云計算的地球系統科學數據共享研究與實踐[J].地球信息科學, 2014,(2).

[8] 楊鶴林.英國數據監護研究成果及其在高校圖書館的應用——DCC建設回顧[J].圖書館雜志,2013,(4).

[9] 吳振新,劉曉敏.云計算在研究數據管理中的應用研究分析[J].圖書館雜志,2014,(10).

G273

A

1005-9652(2016)04-0063-04

張新興(1982—),男,河北靈壽人,廣州大學圖書館館員,博士。

猜你喜歡
用戶服務模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
服務在身邊 健康每一天
今日農業(2019年12期)2019-08-15 00:56:32
服務在身邊 健康每一天
今日農業(2019年10期)2019-01-04 04:28:15
服務在身邊 健康每一天
今日農業(2019年16期)2019-01-03 11:39:20
招行30年:從“滿意服務”到“感動服務”
商周刊(2017年9期)2017-08-22 02:57:56
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
3D打印中的模型分割與打包
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
主站蜘蛛池模板: 国产乱人免费视频| 国产乱人免费视频| 重口调教一区二区视频| 99re在线视频观看| 精品一区二区三区自慰喷水| 精品精品国产高清A毛片| 不卡国产视频第一页| 欧美色综合网站| 狠狠v日韩v欧美v| 一级做a爰片久久毛片毛片| 亚洲水蜜桃久久综合网站| 狠狠色丁香婷婷综合| 国产午夜精品一区二区三区软件| 无码精油按摩潮喷在线播放| 国产专区综合另类日韩一区| 亚洲日韩AV无码一区二区三区人| 欧美第二区| 国产不卡网| 久久久久亚洲av成人网人人软件| 四虎永久在线| 超级碰免费视频91| 91人人妻人人做人人爽男同| 免费 国产 无码久久久| 日本午夜影院| 日韩精品一区二区三区大桥未久| 青青久久91| 国产尤物在线播放| 欧洲日本亚洲中文字幕| 72种姿势欧美久久久久大黄蕉| 人妻一区二区三区无码精品一区| 中文字幕永久在线看| 欧美激情视频二区三区| 国产情侣一区二区三区| 噜噜噜久久| 毛片最新网址| 奇米影视狠狠精品7777| 波多野结衣视频一区二区| 精品视频一区在线观看| 亚洲天堂2014| 亚洲一级毛片在线观播放| 日本影院一区| 国产99视频精品免费视频7| 欧美色99| 色噜噜狠狠色综合网图区| 91精品啪在线观看国产60岁| 欧美日韩成人在线观看| 高清国产va日韩亚洲免费午夜电影| 国产噜噜噜视频在线观看| 青草91视频免费观看| 国产精品视频公开费视频| 欧美成人免费午夜全| 99人体免费视频| 精品国产免费人成在线观看| 免费看av在线网站网址| 五月婷婷丁香色| 国产精品尹人在线观看| 日韩无码真实干出血视频| 亚洲国产成人在线| 天天综合网色中文字幕| 久热re国产手机在线观看| 国产福利影院在线观看| 国产丝袜精品| 国产福利影院在线观看| 国产成人综合在线视频| 91www在线观看| 91在线精品麻豆欧美在线| 久久女人网| 亚洲欧美成aⅴ人在线观看| 欧美一级99在线观看国产| AV不卡无码免费一区二区三区| 亚洲欧洲美色一区二区三区| 国产第一页第二页| 一本一道波多野结衣一区二区| 夜色爽爽影院18禁妓女影院| 国产乱码精品一区二区三区中文| 亚洲V日韩V无码一区二区| 国产综合在线观看视频| 欧美亚洲综合免费精品高清在线观看| 精品一区二区三区水蜜桃| 99这里只有精品免费视频| 欧美一级黄片一区2区| 岛国精品一区免费视频在线观看|