999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

國外科學數據倉儲元數據實踐調查及啟示

2016-05-14 14:34:05完顏鄧鄧
新世紀圖書館 2016年5期

完顏鄧鄧

摘 要 論文選取DataCite、Harvard Datavers、3TU.Datacentrum等8個國外科學數據倉儲,主要采用網絡調查、案例分析法,從元數據標準選擇、元數據元素設置、元數據創建方式、元數據質量控制4個方面調查分析國外科學數據倉儲的元數據實踐,在此基礎上得出對我國的啟示:根據元數據類型與數據倉儲的功能需求選擇元數據標準,根據數據資源特征與用戶需求設置元數據元素,發展自動元數據創建方式,制訂元數據質量控制措施。

關鍵詞 科學數據 數據倉儲 元數據

分類號 G254.364

DOI 10.16810/j.cnki.1672-514X.2016.05.019

Metadata Practice Investigation and Enlightenment in Scientific Data Repositories Abroad

Wanyan Dengdeng

Abstract This paper selects 8 scientific data repositories abroad including DataCite, Harvard Datavers, 3TU.Datacentrum, etc.,and utilizes the methods of network investigation and case analysis mainly to research the metadata practice of foreign scientific data repositories from selecting metadata standard, setting metadata element, creating metadata and its quality control. Based on the analysis of foreign practice, it obtains some enlightenments to our country: metadata standard should be chosen according to the requirement of metadata types and function of data repositories; metadata elements be set should according to the characteristics of data resources and users needs; development of automatic metadata creation method; formulation of quality control measures for metadata.

Keywords Scientific data. Data repositories. Metadata.

科學數據(或研究數據)是指在科技活動(實驗、觀測、探測、調查等)中或通過其他方式所獲取的反映客觀世界的本質、特征、變化規律等原始基本數據,以及根據不同科技活動需要,進行系統加工整理的各類數據集[1]。元數據已經成為各個領域信息資源的組織方式,利用元數據的組織功能,對資源的組織整合起到規范作用,實現對資源集合的有序化和保存,并以提供利用為目標[2]。科學數據倉儲是為科學數據提供存儲空間,以促進數據集開放訪問和利用的平臺,元數據是科學數據倉儲建設的關鍵問題之一。本文通過調查分析國外科學數據倉儲的元數據實踐現狀與典型案例,總結國外實踐經驗,以期對我國相關實踐以啟示。

1 調查對象與內容

根據科學數據倉儲建設主體的國別、收錄數據的學科類型,選擇國外8個科學數據倉儲,綜合性和學科性數據倉儲各4個,如表1所示。登錄各數據倉儲網站,從元數據標準選擇、元數據元素設置、元數據創建方式、元數據質量控制4個方面調查各數據倉儲的元數據實踐。

表1 調查對象

2 調查結果

2.1 元數據標準的選擇

2.1.1 根據元數據標準的類型選擇

從描述對象的學科領域進行劃分,現有的科學數據元數據標準可分為綜合性和學科性元數據[3]103。綜合性的科學數據倉儲由于包含多學科數據,一般使用與學科無關、可擴展可移植的綜合性元數據,形成較固定的元數據描述標準,元數據描述元素除了主題外不反映學科特征。DC是一個與學科無關的通用元數據標準,易于理解和實施,可以方便地根據需求進行擴展,應用范圍廣泛,因而受到綜合性科學數據倉儲青睞。

特定學科的數據倉儲根據其數據資源的特征與需求選擇使用學科元數據,滿足具體學科對全面準確描述本學科數據要求。英國數據監護中心(Data Curation Center,DCC)網站列出生物學、地球科學、物理科學、社會科學與人文科學4個學科的共34個元數據標準,如社會科學與人文科學領域的DDI,地球科學領域的FGDC,生物科學領域的Darwin Core,物理科學領域的CSMD等,這些學科元數據標準已經被超過94個不同學科的數據倉儲采用[4]。被調查的4個學科數據倉儲中有3個采用了學科元數據標準,SND采用了DDI,NCDC采用了FGDC,ALA采用了Darwin Core。

2.1.2 根據科學數據倉儲的功能需求選擇

制定科學數據倉儲元數據方案首先需要考慮該倉儲的功能定位[5]。由于每個科學數據倉儲的目標定位與功能不同,對元數據標準的需求也不同。因此,在科學數據倉儲功能需求分析的基礎上選擇元數據標準尤為重要。特定的科學數據項目和倉儲等需要在建設前期對元數據功能需求進行調查和分析,為設定合理的科學元數據方案奠定基礎[3]103。

國外科學數據倉儲選擇元數據標準時進行功能需求分析,針對數據的屬性特征,結合元數據標準的特點與優劣選擇出適當的元數據標準,以此保證元數據標準的適用性。ADS在元數據標準的選擇與制定前分析了元數據制訂的原因和過程、考古數據對元數據的需求,認為用于描述或發現資源的元數據的主要目的是對數據進行全面的描述并易于檢索。選擇DC元數據作為描述標準,是其標準中集中包含了一些描述和發現資源的核心元素,而分析考古數據特征,元數據類型方面與考古項目相關的三類元數據是項目級元數據、資源級元數據和文件級元數據,因此,確立了包含項目元數據、資源元數據、文件元數據的三級元數據體系[6]。ALA的大部分數據來源于標本館、博物館、其他生物館藏、國家保護機構等,每個機構采用的元數據標準不同,面臨的挑戰之一是整合元數據標準各異的生物多樣性數據[7]。

2.2 元數據元素的設置

元數據標準確定后,要決定從元數據標準中選擇哪些元數據元素。國外科學數據倉儲的元數據元素是在元數據標準確定的情況下,根據數據倉儲的目標定位、數據資源特征與用戶需求制訂元數據元素,以實用性為目的對元數據標準進行拓展與恰當的粒度劃分,既具備滿足數據描述需要的元素內容,使數據被準確地描述,又使用戶易于理解和使用。RDA、SND分別作為綜合性和學科性科學數據倉儲,其元數據元素的制定在支持數據倉儲目標的實現、資源特征、用戶需求等方面具有典型性,本文以其為案例就其元數據元素進行分析(見表1)。

RDA是一個綜合性的科學數據倉儲,提供了澳大利亞100多個組織、政府機構、文化機構的科學數據,其目標是幫助研究人員發現、獲取、再利用科學數據,其元數據描述元素的設置從目標定位出發,包括發現(discovery)、獲取(access)、決定(decision)、再利用(re-use)四個方面的內容。RDA考慮到數據來源、類型、格式等的復雜性,其元數據方案采用了基于ISO 2146的RIF-CS schema作為元數據標準,RIF-CS schema提供了一個靈活的結構以適應不同模式、不同標準的數據描述,而且支持不同數據倉儲的互操作[8]。RDA的元數據元素由21個組成,區分必備和可選,大多數元素是可重復的。

SND是瑞典的一個人文社科與健康科學的數據服務平臺,其目標是組織、維護、傳播社會科學、人文科學和健康科學的研究數據,幫助研究人員與研究團體發現、獲取數據,為整個研究過程提供支持。因此,選擇人文社科領域、支持數據生命周期管理的DDI作為元數據標準。SND根據用戶需求與人文社科領域科學數據的特征設置元數據描述元素,在此基礎上對DDI進行調整,針對需求增加與刪減了一些描述元素,精減了元素的粒度劃分,形成24個元素,旨在通過這些元數據元素使科學數據可以被用戶理解、二次分析和再利用[9]。元數據元素由3部分組成:項目描述、研究說明和變量描述,分為必備元素和可選元素,僅標題、訪問級別、主要調查者為必備元素,其他均為可選元素,具備缺省值。

對上述2個科學數據倉儲元數據元素的對比分析,發現二者既有共同特點又有區別。2個科學數據倉儲的目標定位、數據特征不同,選擇了不同的元數據標準,元數據元素的設置有差異,二者的相同點是元數據元素的分類與設置均體現了自身的目標定位與用戶需求,元數據元素豐富,區分必備和可選,注重設置有助于數據發現與再利用的元素。RDA的元數據元素的特色是用于“決定”“獲取”和“再利用”數據的元素,如數據的質量和相關性描述、研究人員、組織和項目的聲譽、聯系方式、權利、許可采樣方法、儀器設置等,體現出從用戶需求出發,幫助用戶快速判斷出數據的價值,提供從數據生產者的獲取途徑,使科學數據得到最大程度地利用。SND的元素中有詳細的對研究說明、項目描述、數據研究方法與過程的描述,用于研究說明和項目描述的元素非常豐富,便于數據發現,用戶可以通過用于項目描述的元數據元素,發現該項目的其他數據;用于變量描述的元數據元素針對人文社科與健康科學的數據屬性和特征,支持數據二次分析與再利用;詳盡的訪問級別設置幫助用戶了解某一項數據的可獲取性與獲取方式。

表2 RDA、SND的元數據元素

2.3 元數據創建方式

元數據創建方式有手動創建和自動創建兩種。調查發現目前國外科學數據倉儲主要采取用戶手動的方式創建元數據,由科學數據倉儲提供元數據文件模版或元數據生成工具,用戶按照模版或在元數據生成軟件中填寫。如SND、NCDC的元數據文件都采用了元數據文件模版的自行創建方式,DataCite采用了元數據生成軟件,用戶在軟件中填寫或在下拉列表中選擇。隨著科學數據數量的增長,為了減輕用戶創建的負擔,國外一些科學數據倉儲開始探索自動和半自動創建的方式,使元數據的創建與提交智能化。RDA提供手動創建和自動創建兩種方式,自動創建采用OAI-PMH協議自動、定期地收割元數據,用戶只需在系統中輸入元數據配置文件,收割機即可對元數據元素進行自動抽取和賦值,系統可以對元數據配置文件進行格式轉換,支持多種收割方式,用戶可自行選擇[10]。Harvard Dataverse采用元數據數據模版復用的方式減輕用戶的手動輸入,在Dataverse 4.0中用戶可自由創建、復制、修改、刪除元數據模版,當用戶有多個相同領域的數據集與相似的元數據標引時,可以復制元數據模版,在模版中修改必要的元數據標引,而不必重新創建[11]。

2.4 元數據質量控制

國外科學數據倉儲在元數據的質量控制方面一是為用戶制訂元數據創建指南或最佳實踐,詳細說明創建流程,元數據格式、各元素的標引要求等,提供標引詞表的鏈接,便于用戶了解與選擇恰當的詞,從用戶創建之始提高元數據質量,確保元數據的規范性;二是用戶提交元數據文件后,由科學數據倉儲安排專人進行檢查,評估元數據質量,通過審核才能正式提交。目前,國外科學數據倉儲的元數據質量控制主要是從完整性、充分性、一致性、準確性等方面提高元數據的質量,減少輸入錯誤與不規范,還沒有制定出系統的質量控制機制;主要采用人工方式進行審核評估,還沒有應用自動化的評估和控制技術。

SND的元數據文件采用電子表單形式,每項元素旁有該元素的解釋說明或提供DDI控制詞表的鏈接,點擊即可展開查看,鼓勵數據提交者盡可能詳細地提供元數據信息,元數據文件填寫完成后提交到SND,工作人員進行審核,審核通過后通知提交者上傳數據文件。RDA制訂的元數據原則第5條指出,好的質量、準確性和及時更新的元數據有利于科學數據的長期獲取和利用,應該加強元數據記錄的質量控制過程[12]。RDA為用戶提供元數據描述的最佳實踐,解釋說明每一個元數據元素并指導用戶如何標引每個元素,用戶完成元數據文件后,工作人員幫助評估元數據的質量。NCDC制訂了元數據指南草案(DRAFT Guidelines for NCDC Metadata),指南草案中規定了元數據必須維護,必須進行審查與更新,通過兩次評審保證元數據的質量,用戶創建完元數據文件后應該邀請一個同行從元數據的準確性、充分性和完整性方面進行初步評審,提交到系統后再由專業人員進行最終評審,評審員將評審結果反饋給用戶,用戶重新修改,直到滿足質量要求[13]。

3 對我國的啟示

通過上述調查分析,結合我國科學數據倉儲元數據實踐的現狀,國外在以下幾方面值得我國借鑒。

3.1 根據元數據類型與倉儲功能需求分析選擇元數據標準

已通過評審的23個國家科技基礎條件平臺的科學數據倉儲的元數據標準選擇與元數據元素設置,主要依據科學數據共享工程技術標準《科學數據共享元數據內容》、國家質量監督檢驗檢疫總局和國家標準化管理委員會發布的《科技平臺資源核心元數據》、數據資源的特征與專家知識,對科學數據倉儲的功能需求、目標定位、元數據標準類型的考慮還有欠缺。因此,我國科學數據倉儲在選擇元數據標準時需要進行元數據類型、數據倉儲功能需求的分析,結合元數據標準的特點與優劣選擇出適當元數據標準。此外,科研基礎設施之間的互操作是一個發展趨勢,科學數據倉儲在選擇元數據標準時要注意其共享性和通用性。

3.2 以數據特征和用戶需求為中心設置元數據元素

我國科學數據共享工程制訂了核心元數據標準,包含各學科數據涉及的共同元素,由于學科數據的差異性,核心元數據標準不能滿足具體學科的需求。我國科學數據倉儲在使用核心元數據、結合需求進行擴展時,應考慮數據倉儲的目標定位,分析數據的學科類別、數據特征與用戶需求,以數據特征和用戶需求為中心,設置適用的元數據元素,促進科學數據的有效管理與共享。

3.3 發展自動元數據創建方式

國外為用戶提供元數據文件模版或元數據生成工具,用戶按照模版或在元數據生成軟件中填寫,積極探索與實踐自動、半自動的元數據文件創建與提交方式。半自動、自動的元數據創建方式可以減輕數據提交者手動創建的負擔,特別是對于元數據素養不高的提交者而言自動提交的方式能夠保證元數據的規范性。我國科學數據倉儲應該為用戶提供元數據文件模版,發展自動元數據創建方式,減少用戶錄入,為用戶提交元數據提供便利,提高用戶提交與共享數據的積極性。

3.4 制訂元數據質量控制措施

在元數據互操作、數據共享的環境下,如何保證元數據的質量是一個關鍵問題,是用戶提交數據過程中必不可少的一項措施。借鑒國外,我國的科學數據倉儲應從以下兩方面加強元數據質量控制:一是在提交者創建元數據文件之前,著手元數據質量控制方案的制訂,例如為提交者制訂元數據創建指南、制訂最佳實踐、提供標引詞表的鏈供提交者查看等;二是建立元數據質量評估指標,提交后由專業人員進行審核和評估,并加強專業人員對元數據質量控制素養的培訓。隨著科學數據量的增長,采用人工評估的效率低,自動評估技術的應用有助于減輕人力,提高評估效率,增強評估的客觀性,可以預見自動評估將是未來科學數據倉儲元數據質量控制的主要方式。

參考文獻:

[ 1 ] 司莉,邢文明.國外科學數據管理與共享政策調查及對我國的啟示[J].情報資料工作,2013(1):61-66.

[ 2 ] 凌云,徐革,李一平,等.特色數據庫建設中的元數據標準選擇[J].情報雜志,2006(1):131-133.

[ 3 ] 黃如花,邱春艷.國內外科學數據元數據研究進展[J].圖書與情報,2014(6):102-108.

[ 4 ] Disciplinary metadata[EB/OL].[2015-08-02].http://www.dcc.ac.uk/resources/metadata-standards.

[ 5 ] 胡芳.國外典型科學數據倉儲實施的元數據方案及啟示[J].圖書與情報,2015(1):117-121.

[ 6 ] Project metadata[EB/OL].[2015-08-03].http://guides.archaeologydataservice.ac.uk/g2gp/CreateData_1-2.

[ 7 ] The different challenges of integrating data from many sources[EB/OL].[2015-09-07].http://www.ala.org.au/blogs-news/data/the-many-and-varied-challenges-of-integrating-data-from-different-sources/.

[ 8 ] Research data australia content providers guide:RDAbest practices[EB/OL].[2015-08-05].http://guides.ands.org.au/rda-cpg/rdabestprac.

[ 9 ] Metadata profile[EB/OL].[2015-08-06].http://snd.gu.se/en/deposit-data/documentation.

[10] Research data Australia content providers guide:Intr-oduction to metadata harvesting[EB/OL].[2015-08-05].http://guides.ands.org.au/rda-cpg/harvestintro.

[11] Dataverse management[EB/OL].[2015-08-05].http://guides.dataverse.org/en/latest/user/dataverse-manage-ment.html#dataset-templates.

[12] Metadata content requirements[EB/OL].[2015-08-05].http://ands.org.au/resource/metadata-content-require-ments.html.

[13] DRAFT guidelines for NCDC metadata National Clim-atic Data Center(NCDC)[EB/OL[20150810].http://www.ncdc.noaa.gov/oa/metadata/metadataresources.html

#ds.

主站蜘蛛池模板: 毛片免费试看| 亚洲成a∧人片在线观看无码| 欧美A级V片在线观看| 婷婷五月在线| 性网站在线观看| 国产精品亚洲一区二区三区z| 最新国产成人剧情在线播放 | 国产午夜人做人免费视频中文| 67194在线午夜亚洲| 天天色天天综合网| 又爽又黄又无遮挡网站| 老司机午夜精品网站在线观看| 国产成人AV男人的天堂| 久久精品欧美一区二区| 91青青在线视频| 午夜福利亚洲精品| 亚洲国产天堂久久综合| 毛片基地视频| 亚洲中文字幕在线一区播放| 欧美午夜精品| 中国一级特黄视频| 99热国产这里只有精品无卡顿" | 欧美亚洲一二三区 | 综合网天天| 亚洲男人天堂久久| a免费毛片在线播放| 久久国产亚洲偷自| 91精品国产一区自在线拍| 国产在线视频自拍| 国产精品香蕉| 日韩国产综合精选| 欧美成人免费午夜全| 青青热久麻豆精品视频在线观看| 亚欧成人无码AV在线播放| 欧美另类第一页| 亚洲自拍另类| 天天色综网| 99精品一区二区免费视频| 91国内在线观看| 蜜桃视频一区二区| 精品无码一区二区三区电影| 午夜色综合| 国产精品美女网站| 亚洲va在线观看| 中日韩一区二区三区中文免费视频 | 午夜精品福利影院| 91久久偷偷做嫩草影院精品| 人人爽人人爽人人片| 好紧好深好大乳无码中文字幕| 欧美不卡二区| 99青青青精品视频在线| 中文字幕66页| 亚洲swag精品自拍一区| 国产97视频在线| 美女被躁出白浆视频播放| www.日韩三级| 四虎成人在线视频| 国产电话自拍伊人| 一本大道视频精品人妻 | 国产成人综合网在线观看| 2021国产在线视频| 青青草一区二区免费精品| 国产91丝袜在线播放动漫 | 亚洲欧美成aⅴ人在线观看| 国产资源免费观看| 国产成人AV大片大片在线播放 | 欧美精品在线免费| 又大又硬又爽免费视频| 欧美日韩动态图| 中文字幕 91| 无码内射中文字幕岛国片| 国产乱码精品一区二区三区中文 | 亚洲国产精品VA在线看黑人| 成人欧美在线观看| 国产99精品视频| 亚洲香蕉在线| 国产精品三级专区| 欧美激情视频一区| 欧美三级视频在线播放| 亚洲中文无码av永久伊人| 色妺妺在线视频喷水| 亚洲综合18p|