999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

國際Data Curation研究與實踐發展綜述

2016-02-13 00:33:33吳振新陳瑤李文燕付鴻鵠許麗媛中國科學院文獻情報中心中國科學院大學
圖書館理論與實踐 2016年2期
關鍵詞:綜述

吳振新,陳瑤,2,李文燕,2,付鴻鵠,許麗媛(.中國科學院文獻情報中心;2.中國科學院大學)

?

國際Data Curation研究與實踐發展綜述

吳振新1,陳瑤1,2,李文燕1,2,付鴻鵠1,許麗媛1
(1.中國科學院文獻情報中心;2.中國科學院大學)

摘要:通過調研國際主要機構的戰略規劃,歸納出Data Curation在管理、資源建設、技術基礎設施方面存在的主要挑戰。針對這些挑戰,從戰略規劃、數據評估與遴選政策、關鍵技術、審計和認證四個方面全面回顧了國際Data Curation研究、實踐的發展情況。并分析圖書館在大數據科研環境下可能參與科研數據保管的領域,為圖書館在Data Curation活動中謀求發展機會。

關鍵詞:科研數據;研究數據;保管;保存;綜述

信息技術的發展引起了數據和信息容量的爆炸,也催生了新的科學研究模式——e-Science的發展,Jim Gray博士將這種新的數據探索型研究方式稱為科學研究的“第四種范式”(The Fourth Paradigm),這標志著科學研究從以計算為中心轉變到以數據為中心,數據成為科研的靈魂。

Data Curation常被譯為數據保管、數據保存等,這里的Data主要是指科研數據。業內有很多有關Data Curation的定義,比較有代表性的是英國數字保管中心(Digital Curation Centre,以下簡稱DCC)的定義:“Data Curation指的是在數字數據的生命周期內,對這些數據進行維護、保存以及實現價值增值的所有活動,這些活動能夠提高現有數據的長期利用價值;主動管理這些數據有利于減少在重新研究這些數據時出現的各種威脅以及降低因數字技術的退化而帶來的各種風險;同時,Data Curation所進行的一些列活動還能使在可信賴倉儲庫中保管的數據能夠更廣泛地共享給研究機構,以便支撐未來的研究活動。”[1]Data Curation是e-Science環境下科研數據共享和大規模科學計算的產物,是應對“大數據”時代科研數據管理和保存需求的一種必然的管理實踐。

1 Data Curation面臨的挑戰分析

隨著科研數據規模的擴大和數據種類的不斷增加,傳統的數據保存方法已無法滿足需求,雖然越來越多的機構不同程度的涉足Data Curation,但作為一個新興研究領域,Data Curation依舊面臨著許多問題及挑戰。美國國家數字管理聯盟(National Digital Stewardship Alliance,以下簡稱NDSA)在其2015年日程中將目前在數據管理領域遇到的問題及挑戰歸納為以下幾點:①建設數字內容集合的關鍵問題,包括數字內容的全局性問題、大規模內容選擇的方法、特殊格式數字內容的挑戰;②缺乏支持保存活動的資源導致對于成本、價值的研究需求增強;③缺乏足夠的數字管理人員;④技術基礎設施的發展方面,包括協調分布式服務生態系統亟待發展、制定文件格式行動方案、內容完整性的保障等。[2]

UK Data Archive在其2010~2015年戰略規劃中將Data Curation面臨的挑戰歸納為:①建立和頒發存儲認證;②保證多來源的資助、與用戶的期望和技術要求同步并推進合作發展;③建立更有效的管理結構和內部記錄管理系統;④開發有效的數據(集合)選擇、采集、攝入和保存的工具,提高數據質量和數據包的有效性,發展自存檔;⑤開發新的數據訪問模式、分發和可視化工具,重構數據注冊和許可系統,整合相關數據服務。[3]

DCC則將未來數十年Data Curation將遇到的挑戰歸納為以下幾方面:①數據管理軟件的發展;②數據管理計劃中審核承諾的一致性;③有限期的數據保存策略的影響(管理評估);④明確應保存的數據資源;⑤數據的知識產權;⑥理解真正語義上的長期保存。[4]

可以看出,未來一段時間內的Data Curation所遇到的挑戰和問題集中在以下幾個方面:管理方面主要集中在戰略規劃、成本研究、人員與培訓教育、知識產權、審計與認證等方面;資源建設方面主要集中在大規模的數據選擇與特殊格式的資源保存;技術基礎設施建設主要集中在數據組織、格式管理、數據的質量保障(完整性保障)、保存系統(工具)及體系架構的發展等方面。

2 Data Curation研究與實踐發展

近年來,許多機構、項目在Data Curation領域展開了大量深入的研究與實踐。本文基于上述有關Data Curation面臨的挑戰,初步總結和分析各機構和項目為應對這些挑戰所開展的相關研究和實踐活動。由于研究領域所限,本文沒有涉及教育培訓和知識產權方面的研究。

2.1戰略及規劃

戰略及規劃的制定是開展Data Curation首先要解決的重要問題,這些戰略規劃包括政策規劃、可持續發展戰略、合作戰略等方面。目前,國際上對Data Curation在全局政策規劃、合作戰略的研究比較成熟,出現了一些具有實踐參考價值的戰略框架、解決方案以及工具,但可持續發展戰略的研究還處于起始階段,僅在成本研究上出現了少數研究成果,還不足以支持保存實踐活動。

(1)Data Curation政策規劃。在政策規劃方面,DCC提供了大量參考資料和行動指南,并提供了一個有關制定研究數據管理策略的方案,[5]它包括五個步驟:①列出現有的管理框架;②制定一張管理內容的表格;③獲得管理者的支持;④咨詢、起草及修改;⑤批準與實施。

MaRDI-Gross項目也給出了在“大科學”背景下制定數字管理規劃(Digital Management Plan,以下簡稱DMP)的解決方案,[6]它從制定保存目標、數據發布計劃、數據驗證、軟件及服務的保存、成本及成本模型、數據丟失模型化六個方面來制定DMP的實踐流程框架。

目前,已有成型的Data Curation規劃制定工具可供使用,包括DCC開發的DMPonline、UC3開發的DMPtool、IDMP開發的CARDIO、SCAPE開發的Plato以及OpenDOAR。

(2)合作戰略規劃。數據體量的指數增長和數據類型不斷的復雜化,給Data Curation帶來了越來越嚴峻的挑戰,為解決Data Curation面臨的問題和減輕保存風險,跨領域的合作行動計劃的需求不斷增加。

DCU(Digital Curation Unit)通過推動跨學科合作研究規劃和行動計劃來幫助解決Data Curation問題,它提出了一個包含六方面的行動計劃。[7]①用生命周期的方法來管理保管信息對象,其中,應包含與指定社團的動態互動;②采用以事件為中心的方法,充分表示數據的“活動事件”;③廣義上的Data Curation實踐者應包括那些參與生成信息對象的公共傳播及利用的相關人員;④確定一個基本的跨學科范圍,使Data Curation能充分滿足學科差異化需求;⑤使信息對象的相關解釋性內容作為社區的數字記憶,并進行模擬存檔;⑥提倡面向機構的方式來保管。

隨著合作政策的發展,一系列有效的合作實踐在數字保管的各個方面都產生了積極的影響,如,促進開源軟件開發的協作、人員和資源信息的共享、參與標準和實踐的開發、協調數字保管責任、開發協作的遴選決策和數字集合政策等。在這方面表現突出的有國際互聯網保存聯盟(International Internet Preservation Consortium,IIPC),其成員合作開發了一系列開源工具,并支持可持續的共享維護模型。

同時,有關的合作組織機構不斷增加,如,全球CLOCKSS網絡,它通過分散的、地理間不同的保存模式來確保組織內共同的數字資產得以完整地保存;Data—PASS是一個自愿的機構組織同盟,目的是為了存檔、編目、保存社會科學研究使用到的數據;MetaArchive是由眾多的記憶機構組織和創建的數字保存網絡,同時,也是一個安全且具有成本效益的倉儲;DPN(The Digital Preservation Network)長期保存網絡通過在不同的節點上保存數據集的副本來防止由于技術、組織或自然災害等原因而導致的災難性損失。這些組織和他們所示范的多機構管理方法在使用和社會認可度方面均顯著增加。

(3)可持續發展規劃。完成數字管理任務需要適當的資源來支持,但不可能有足夠的資源來支持存儲機構保存所有的數據,如何有效地對保管成本進行預算、管理及分配以及如何獲得所需的資源已經成為可持續發展的重要問題。但由于Data Curation本身的復雜性及涉及多方利益,數字管理成本估計比較復雜和模糊,目前幾乎沒有模型能支持成本估算的比較數據或縱向數據。

4C(Collaboration to Clarify the Costs of Curation)是歐盟資助的主要致力解決保存費用問題的項目,他們分析了現有的10種成本模型及工具,并對每一種模型進行了分析及評價,通過分析已有的數字保存成本建模工作,提出了建立可持續性數字保存和獲取的最佳實踐建議。目前,4C提供了一個包括嘗試解決效益、風險、價值、質量和可持續性的成本模型工具和框架,并初步制定了一個經濟可持續性參考模型,開發了一個保管成本交換平臺工具—CCEx。

POWRR項目則是利用有限資源進行數字對象長期保存研究的重要項目。它旨在幫助那些因缺少資源而難以開展數字保管的中小型機構。該項目正在評估能夠在中小機構中實現數字長期保存的工具和服務,以期提供有效的解決方案。

這些項目的成果將有助于厘清成本以及輔助決策和戰略規劃的制定,反過來也可以促進數字保存的長期管理和發展可持續的基礎設施建設。

2.2數據評估與遴選政策

數字數據的特征使得對它的收集變得異常復雜并因此在保存方面也變得復雜。數據規模一直在擴大,數據的粒度和互聯性也變得更加繁雜。傳統的資源評估和遴選通常會基于機構自身的優先級、能力和指導政策,而數字數據則有其特殊性,使得相應的數據評估和遴選政策也更加復雜化。

NDSA提出了一系列有關數據評估和選擇的推薦做法,包括數據相關性、文檔、資金、研究和應用的需求、可用性、風險和易用性等方面,這將有助于機構啟動涉及整個信息生命周期的數字管理計劃。

DCC提出了一個選擇及評估保管數據的方案,[8]即通過一個弱分析框架來輔助決定需要保管的數據,其中要考慮的因素包括:①難以評估未來重用價值的數據;②學科形成前的數據;③數據及相關文檔的質量;④不可替代的觀測性數據(與實驗數據相對);⑤重新生成實驗數據的成本;⑥估算保存具體數據集的成本。

NERC(Natural Environment Research Council)于2012年發布了數據權重清單(NERC Data Value Checklist),以便科研社區選擇需要保存的數據。

研究實踐表明,目前滲透到生活、文化及學術各方面的大量數字數據還無法被圖書館或檔案館獲取,因此,在遴選政策中應優先收集這樣的原生數字材料,同時應積極獲取特殊的原生數字材料(如網絡檔案、數字記錄、文檔及手稿檔案的硬盤等),另外對數字材料的選擇經常與機構的實力和使命相關。

2.3Data Curation的關鍵技術發展概述

(1)元數據標準規范的制定和形成。元數據一直是Data Curation關注的重要領域。許多著名的機構和項目都推出了自身的元數據標準或推薦規范。NDSA的“數字保存級別”定義的四個級別包含了Data Curation流程中的不同元數據,分別是記錄型、管理型、描述型、結構型、技術型元數據以及保存元數據。DCC發布的關于學科元數據標準的相關信息(元數據的概念、使用群體和使用方法)引起了研究數據管理(Research Data Management,RDM)社區的極大關注,隨后專門創建了學科元數據網頁[9]以幫助那些需要確定采用哪種元數據標準滿足自己需求的用戶。

韋恩州立大學提出了用于文物數字保存的語境元數據框架,這個框架由八個語境維度組成,并對需要捕捉的信息類型進行了識別,該框架可確保在一個元數據方案中記錄充足的語境信息,從而為將來的搜索、檢查、利用、管理和保存活動提供極大的便利。Research Data @ Essex以IDMB項目的一個元數據模型為出發點,建立了一個三層元數據模型。2013年4月,英國公布了一個用于該國存儲庫的元數據應用綱要和指導原則(RIOXX)。

美國聲音記錄元數據方案開發項目為其記錄的音樂制定了一個用于收集和管理元數據的標準方法并開發了一個工具(Content Creator Data Tool,CCD)來幫助數據產生者及擁有者收集數據。

(2)文件格式的識別、選擇與轉換。數字文件格式的穩定性和文件格式過時的風險是數字管理機構的重大挑戰,特別是在大數據科研環境下,如何選擇一種好的數據格式來保管數據是一項有挑戰性、前瞻性的任務。面對正在積累大量的數字集,切實可行的、用于監測和挖掘機構所管理的異質原生數字文檔的信息的策略和手段尤為重要。

歐洲聚變發展協議(European Fusion DevelopmentAgreement,EFDA)為了防止文件格式過時,在Data Curation實踐中對如何選擇文件格式提出了明確的解決方案,[10]即保管機構應該保存所有使用到的文件格式的核心信息并記錄這些文件格式用到了哪些數據上,且這些核心信息應該經常更新;當選擇一種格式用于Data Curation時,僅僅考慮到這種數據格式的當前表遠遠不夠,還應該考慮到數據格式的長期性及未來的發展潛力。

美國國家檔案館和記錄管理局出臺的《公開發布的格式行動方案》通過鼓勵數字內容產生部門去選擇一組更精確的數字化格式來推動實踐的發展,尤其像能在一定程度上實現集中控制的部門,如聯邦、州、地方和區域政府。

NDIIPP支持的“地理空間歸檔和保存合作計劃(GeoMAPP)”項目的地理空間數據文件格式參考指南提供了一個關于一些常見的地理空間柵格數據與矢量數據集類型的快速參考,并且成為快速確定州政府常見的地理空間文件格式類型的服務工具。

NDSA最近發布了對PDF/A格式標準的研究報告,報告分析了曾經作為長期保存的黃金標準格式之一的PDF/A的特性以及對長期保存的影響。

美國國會圖書館發布了長期保存的推薦格式規范,FDA(Florida Digital Archive)也發布了自己的格式選擇范圍。Archivematica在其軟件平臺上將格式策略和行動計劃轉化為由工具和軟件直接實施和管理的行動,在實踐上率先邁出了至關重要的一步。

相關可利用的工具包括:英國國家檔案館的文件格式管理工具系統PRONOM、全球文件格式注冊系統GDFR(Global Digital Format Registry)。用于格式識別、校驗、特征抽取的開源工具包括:JHOVE (LGPL)、DROID、用于文檔格式受損分析的Fuzzy Logic以及相關的規范PDF驗證工具和方法。

(3)數據不變性和完整性的驗證。Data Curation中最重要的任務之一是保證數據的不變性和完整性,數據驗證對確保數據可信發揮著重要作用。常用的驗證數據不變性與完整性的方法是檢查數據的不變性信息(Fixity Information),它能檢測數據是否已遭破壞、監控硬件的退化、滿足可信賴需求(如ISO 16363/TRAC、NDSA的數字保存級別)、支持文檔起源和保管鏈、幫助診斷在Data Curation的管理周期中可能出現的系統或人為錯誤等。

不變性檢查通常分為兩大類:①統計性不變性檢查,以統計文檔數量和文件大小來進行不變性檢查;②內容不變性檢查,多采用算法通過對文檔內容進行比較和計算來進行不變性檢查,以確定文檔內容是否發生改變。

斯坦福大學的LOCKSS系統使用了Opinion polls機制,即利用保存同樣內容的多個結點來進行定期的內容比較和監控。Fedora Repository則使用MD5來驗證數字對象的不變性,Fedora會為每個存檔對象的數據流(Datastream)片段及其每個版本生成并保存MD5,以方便進行數字對象的不變性校驗。DAITSS系統利用MD5和SHA1算法定期計算全部文檔副本的校驗碼。UC3的Merritt倉儲庫以微服務的方式提供多種類型的接口,并支持各種常用的摘要類型,可通過配置服務可以在任意時間實施不變性驗證。

常用于產生與核查不變性信息的工具和算法有:Expected File Size、Expected File Count、CRC、MD5、SHA1、SHA25。目前專門為長期保存而開發的不變性、完整性工具有馬里蘭大學ADAPT項目開發的開源工具ACE(Auditing Control Environment)和正在開發的用于驗證數據集的本體工具vplan。

(4)數據唯一標識符與數據注冊。如何對龐大的數據進行唯一標識是Data Curation機構面臨的一個關鍵問題,保管人員選擇采用通用的標識符體系來與傳統資源保持一致,包括ARK(持久標識符架構)、DOI(數字對象標識符)、Handle(句柄系統標識符)、URN(統一資源名稱)、PURL(持久統一資源定位符)、URI(統一資源定位符)等。同時,也出現了專門的研究數據注冊服務,ANDS的Cite My Data服務能幫助研究機構為被引用的研究數據集自動分配DOI。此外,為數據分配標識符服務的系統還有大英圖書館開發的DataCite、UC3開發的EZID、WebCite等。

(5)保存技術策略。多年的保存研究和實踐中逐漸形成了多種多樣的、更符合實踐需求的應用型的技術策略,作者曾進行了詳細的介紹和評述,[11]本文僅對后續發展情況進行相應的補充。

比特保存通常被認為是最簡單、最好理解的保存方法而被普遍所采用;格式轉換和遷移也是目前被很多項目所采用的一項有效的技術策略;而仿真則是被認為未來最有效的保證數據可用性的重要措施,但由于其投資需求大、技術難度大、使用門檻高,目前只有少數項目在開展相關研究。

歐盟第七框架支持的KEEP項目提出了“仿真作為服務”的方法,其發布的仿真框架(Emulation Framework)允許用戶利用仿真來訪問舊的計算及文件和程序,目前已經應用于CD數據以及Web信息的仿真服務。SCAPE項目則在基于格式遷移、格式風險、存儲庫性能的證據基礎研究上開展了大量工作。

(6)大規模數據保存系統與基礎架構。急劇增長的海量數據、數據對象(集合)更新的速度(頻率)以及數據對象的多樣性(異質性)給大規模的數據保存系統與基礎架構帶來了巨大挑戰。

SCAPE項目主要致力于解決密集型計算、保存平臺可擴展性的問題,它分為大規模數字歸檔、科學數據集和網絡歸檔三個子項目展開研究,主要處理科學數據和科學工作流。在應對大數據挑戰方面,SCAPE已經初見成果,提供了基于實踐的解決方案,構建了以數據為中心的分布式的SCAPE長期保存平臺,可以為大型數據的執行過程提供基礎設施。

UC3面向大數據存儲的Merritt系統通過采用“微服務(micro-services)”的開發模式,使得系統的規模和功能能夠以微服務這種模塊化模式擴展和更新,微服務小而獨立的特點使它們更容易開發、部署、維護和升級,使得Merritt具備了大數據保存系統的理想特征,如,服務高可用性、高可靠性、高效率、適應性和可持續性等。

斯坦福大學的LOCKSS系統采用的是典型的分布式存儲方式,它為圖書館提供的是一個開放性源碼的分布式存儲系統,可以在本地收藏、管理電子資源。LOCKSS利用多機構參與、多副本存儲的機制,實現大量數字資源的可靠保存。

由SDSC、加州大學圣地亞哥分校圖書館、美國國家大氣研究中心(NCAR)和馬里蘭大學等合作的Chronopolis則提供了美國最大規模的協作式保存環境,利用網格技術在多站點和多平臺間提供海量數據的監控、維護和存檔管理。

Archive-It是一個非營利項目-互聯網檔案館(Internet Archive)的網絡存檔服務,它幫助機構獲取、構建和保存數字內容集合。

Portico是由世界上最大的數字存檔社區所支持的數字存檔,它能提供一個可持續性的業務模型來幫助圖書館、出版商和資助者協作保存電子期刊、電子書等電子學術內容。

DuraCloud服務以一種經濟高效的代理方式利用眾多的云存儲提供商(包括商業及非盈利)為圖書館和研究機構解決了數字內容安全存儲基礎設施問題。

(7)小結。從上述可以看出,關鍵技術發展一直是Data Curation在推進過程中的重要研究和發展主題,經過多年努力,Data Curation在關鍵技術的研究實踐上取得了較為豐碩的成果。

在元數據的標準制定方面,很多項目基于已有的標準規范相繼提出和定義了一些滿足數據保管特殊需求的元數據框架和規范,這種集成和融匯的做法更有利于保證快速滿足保存實踐的需求,同時也能確保元數據標準的可用性;格式管理,作為保存中非常重要的一項工作,已經有多個機構推出了不同類型數據的適于保存的推薦格式集合,同時出現了很多開源的格式校驗工具,并通過格式注冊等機制來共同解決格式過時以及格式轉換的問題,是相對發展較為成熟的領域;數據完整性檢驗作為保障數據長時間真實可用的有效手段,Data Curation領域則是采用現有成熟的技術方法,通過制定針對實際需求的整體機制來予以解決;保存技術策略屬于近幾年來投入和研究較少的領域,只有少數項目針對仿真技術開展深入研究,其他研究甚少;而為了應對不斷擴大的數據規模,很多機構探索和開發了不少適合于大規模數據保存、具備靈活可擴展特性的系統與基礎架構,從各種角度和各種層面力圖解決數字存儲的基本問題。

2.4審計與認證的發展

經過近年來的蓬勃發展,Data Curation的審計與認證研究與實踐取得了一定的進展,許多可信賴的內容管理工作過程都得到了認可和標準化,同時也形成了一些國際標準。

RLG在2007年發布的《可信賴倉儲的審計及認證:指標與列表(Trustworthy Repositories Audit & Certification:Criteria and Cheeklist,TRAC)》于2009年成為ISO國際標準(ISO 16363)。德國nestor制定的《可信賴數字倉儲的指標體系》于2011年成為德國國家標準。荷蘭DANS項目開展了數字認可證明授予服務,提供了16個指導方針供倉儲庫進行自評估。

歐盟則在上述三個標準規范的基礎上提出了包括基本認證(依據DSA進行自評估)、擴展認證(依據ISO 16363或DIN 31644進行有組織的外部審計,提供公開的自評估)、正式認證(依據ISO 16363或DIN 31644進行全面認證)的三層認證框架。

DCC以TRAC與nestor指標為基礎,并在其中引入風險管理概念,開發出一套“基于風險管理的數字倉儲審計方法”(Digital Repository Audit Method Based On Risk Assessment,DRAMBORA)。

澳大利亞國家和州圖書館(National and State Libraries Australasia,NSLA)為了評估成員館的長期保存活動,基于美國卡內基梅隆大學的軟件能力成熟度模型(capability maturity model,CMM),提出了一個包括初始、可重復、定義、管理、優化等5層保存能力成熟度模型。

Tessella公司為了協助開展長期保存的機構選擇長期保存解決方案,提出了數字存檔成熟度模型(Digital Preservation Maturity Model),用于識別不同類型的長期保存解決方案的成熟度。

NDSA發布的“數字保存級別”是一套分層次的技術實踐指南,旨在為保存數字內容提供清晰的技術基準說明,同時允許機構對他們保管的特殊資源進行保存級別評估。

盡管已有許多的研究、實踐成果,但仍有許多工作要做,目前還沒有保存社區廣泛認可的認證過程。而針對集中式和分布式保存網絡的可靠性研究剛剛起步,開發出一個全面、健碩的保存網絡信任框架依舊是一個重大挑戰。

3 結語

數據帶來了科學研究范式的革命性變化,科研數據保管也為圖書館開展新的服務帶來了機會與挑戰。圖書館不僅可以主動參與到e-Science環境中,更可以憑借自身的優勢為科研數據的保管提供重要支持。霍普金斯大學圖書館館長Winston Tabb認為:“e-Science環境下,圖書館是分布式網絡的一部分、數據能夠成為館藏資源、數據中心會成為新型圖書館書庫、圖書館員是數據科學家并能提供數據服務。”[12]

圖書館可以基于科研數據生命周期,研究探討大數據科研環境下的科研數據保存管理的解決方案。

(1)科研數據保管規劃研究。每個科研機構都需要根據實際需求制定自己的Data Curation政策,以此明確自身在科研Data Curation中的職責,并將政策作為一個執行框架來指導具體的研究Data Curation行動,包括數據遴選政策等。

(2)合作模式與共享機制研究。Data Curation行動應依據科研數據生命周期規律,與科研活動緊密結合,無縫嵌入科研流程,從而有效地支持并促進科研成果的產出、創新和共享。因此需要構建無縫嵌入科研流程的、與科研團隊緊密合作的長期合作和共享機制。如何在尊重知識產權、符合政策法規的前提下進行有效的合作共享,將涉及政策、法規、技術等多方面問題,相關的政策激勵、科研數據的版權和隱私保護是合作共享機制中必須考慮的重要問題。

(3)服務內容及服務機制研究。研究在科研數據生命周期的各階段所需要的保管服務內容,分析以怎樣的方式無縫嵌入科研流程,以更加有效的方法提供多樣化保管服務,使得科學數據能夠發揮最大的科研價值、經濟價值和社會價值,深入探索圖書館嵌入科研流程的、動態的科學數據服務機制與模式。

(4)基礎設施和關鍵技術研究。全面分析國際科研Data Curation基礎設施(Research Data Curation Infrastructure,RDCI)方面的重要規劃、進展、方案、技術框架和相關技術方法。特別研究文獻信息機構介入RDCI建設的策略和業務模式,為融入科研生命周期的科研數據支撐和服務環境建設提供有益借鑒。深入研究Data Curation的關鍵技術方法,分析相關標準規范、技術策略和工具系統,構建大數據科研環境下的科研Data Curation技術框架。

(5)素養教育研究。系統分析科研Data Curation和服務領域中各種角色(創造者、專家、管理者、數據館員)的作用和職責,構建各種角色參與科研數據管理和服務所需的知識能力結構,為相關人員的培訓和繼續教育提供理論依據和教學材料框架。

(6)可持續發展研究。詳細研究覆蓋研究Data Curation生命周期的成本與效益的模型,分析不同利益相關方需求和所負擔的費用以及可獲得的收益,為研究Data Curation活動確立和維持主要的投資提供具體的成本-效益分析;在此基礎上進行可持續發展的經濟模式研究,形成具有自我生存能力的研究Data Curation生態環境。

[參考文獻]

[1]DCC.What is digitalcuration?[EB/OL].[2014-12-2].http://www.dcc.ac.uk/digital-curation/what-digital-curation.

[2]NDSA.2015 National Agenda for Digital Stewardship [EB/OL].[2014-12-02].http://www.digitalpreservation .gov:8081/ndsa/documents/2015NationalAgenda.pdf.

[3]UK Data Archive.UK Data Archive Strategic Plan,2010 -2015[EB/OL].[2014-12-02].http://www.data-archive.ac.uk/media/196518/ukda-strategicplan2010 2015full.pdf.

[4]Research Data Management:Practical Strategies for Information Professionals[M].Purdue University Press, 2014:399-406.

[5]DCC.Five Steps to Developing a Research Data ManagementPolicy[EB/OL].[2014-12-02].http://www.dcc.ac.uk/sites/default/files/documents/publications/DC C-FiveStepsToDevelopingAnRDMpolicy.pdf.

[6]DMP Planning for Big Science Projects[EB/OL].[2014 -12-02].http://arxiv.org/pdf/1208.3754 v1.pdf.

[7]DCU.Key challenges and strategies[EB/OL].[2014 -12-02].http://www.dcu.gr/index.php?p=dcu&lang =en§ion=11.

[8]DCC.How to Appraise & Select Research Data for Curation[EB/OL].[2014-12-02].http://www.dcc.ac.uk/resources/how-guides/appraise-select-data.

[9]DCC.DisciplinaryMetadata[EB/OL].[2014-12-02].http://www.dcc.ac.uk/resources/metadata-standar ds.

[10]Layne R,et al.Long term preservation of scientific data:Lessons from jet and other domains[J].Fusion Engineering and Design,2012,87(12):2209-2212.

[11]吳振新,等.數字信息資源長期保存技術策略分析[J].現代圖書情報技術, 2006(4):8-13.

[12]Reilly S,et al.Reportonintegrationofdataandpublications[EB/OL].[2014-12-02].http://epic.awi.de/31397/1/ODE-ReportOnIntegrationOfDataAndPub lications-1_1.pdf.

Review on the International Development of Research and Practice of Data Curation

Wu Zhen-xin,Chen Yao, Li Wen-yan, Fu Hong-hu, Xu Li-yuan

Abstract:The article summarizes current challenges of Data Curation in management, resource development, technology infrastructure base on reviewing major research institutions' strategic plans, and fully reviews the developments of Data Curation research and practice about strategic plan, data appraisal and selection, key technologies, audit and certification against these challenges.The article concludes potential domains that library can participate in Data Curation and tries to find more development opportunities for libraries in this area.

Keywords:Science Data;Research Data;Curation;Preservation;Review

[收稿日期]2015-04-15[責任編輯]菊秋芳

[作者簡介]吳振新(1968-),女,中國科學院文獻情報中心研究員,碩士研究生導師;研究方向:數字資源長期保存;陳瑤(1991-),男,中國科學院文獻情報中心,中國科學院大學碩士研究生;李文燕(1989-),女,中國科學院文獻情報中心,在讀碩士研究生;付鴻鵠(1976-),女,館員;許麗媛(1986-),女,館員。

中圖分類號:G250.73

文獻標志碼:A

文章編號:1005-8214(2016)02-0023-06

猜你喜歡
綜述
2021年國內批評話語分析研究綜述
認知需要研究綜述
氫能有軌電車應用綜述
高速磁浮車載運行控制系統綜述
5G應用及發展綜述
電子制作(2019年10期)2019-06-17 11:45:16
SEBS改性瀝青綜述
石油瀝青(2018年6期)2018-12-29 12:07:04
NBA新賽季綜述
NBA特刊(2018年21期)2018-11-24 02:47:52
深度學習認知計算綜述
JOURNAL OF FUNCTIONAL POLYMERS
Progress of DNA-based Methods for Species Identification
法醫學雜志(2015年2期)2015-04-17 09:58:45
主站蜘蛛池模板: 51国产偷自视频区视频手机观看| 亚洲天堂视频网| 国产男女免费完整版视频| lhav亚洲精品| 国产成人成人一区二区| 2021国产精品自拍| 免费观看精品视频999| 亚洲国产综合自在线另类| 亚洲成人福利网站| 在线观看免费黄色网址| 玖玖精品在线| 99热这里只有精品5| 色天天综合| 中文字幕av一区二区三区欲色| 久久99精品久久久久纯品| 99re在线视频观看| 国产一区在线视频观看| 亚洲动漫h| 亚洲中文无码av永久伊人| 不卡午夜视频| 亚洲欧美另类久久久精品播放的| 高清无码一本到东京热| 99精品福利视频| a毛片免费观看| 国产成人AV综合久久| 久久人搡人人玩人妻精品 | 51国产偷自视频区视频手机观看 | 一区二区三区四区精品视频| 免费人欧美成又黄又爽的视频| 蜜臀av性久久久久蜜臀aⅴ麻豆| 高清无码手机在线观看| 国产精品嫩草影院av| 久久国产精品电影| 亚洲国产精品无码久久一线| 国产精品尤物铁牛tv| 毛片在线播放网址| 自拍欧美亚洲| 老司机久久99久久精品播放| 久久久久免费看成人影片| 中文字幕日韩视频欧美一区| 亚洲一区二区黄色| 国产波多野结衣中文在线播放| 亚洲无码高清免费视频亚洲 | 毛片在线区| www.亚洲一区| 国产大片黄在线观看| a亚洲视频| 亚洲 欧美 偷自乱 图片| 国产浮力第一页永久地址 | 国产精品久久久久无码网站| 亚洲首页国产精品丝袜| 丁香婷婷激情综合激情| 亚洲日韩日本中文在线| 中文国产成人久久精品小说| 热久久这里是精品6免费观看| 在线亚洲小视频| 国产国产人免费视频成18| 911亚洲精品| 国产三级国产精品国产普男人 | 国产精品林美惠子在线观看| 国产亚洲精品在天天在线麻豆| 亚洲精品高清视频| 凹凸国产熟女精品视频| 欧美日本在线播放| 欧美高清日韩| 免费午夜无码18禁无码影院| 在线观看热码亚洲av每日更新| 久热这里只有精品6| 99精品免费在线| 欧美中文字幕无线码视频| 精品一區二區久久久久久久網站| 欧美日韩亚洲国产主播第一区| 999精品免费视频| 波多野结衣一区二区三视频 | 无码人妻免费| 欧美日本在线一区二区三区| 伊人久久婷婷| 久久精品人人做人人综合试看| 国产91透明丝袜美腿在线| 三级毛片在线播放| 亚洲一区二区无码视频| 亚洲热线99精品视频|