●王艷翠,李書寧,李愛紅編譯(.聊城大學圖書館,山東 聊城 5059;.北京師范大學圖書館,北京 00875)
研究數據聯盟
——建立全球數據共享和數據交換的基礎架構
●王艷翠1,李書寧2,李愛紅1編譯
(1.聊城大學圖書館,山東聊城252059;2.北京師范大學圖書館,北京100875)
[關鍵詞]數據共享和交流;研究數據聯盟;焦點區域
[摘要]為了滿足全球日益增長的對于數據基礎設施的需求,研究數據聯盟作為一個全球性的、團體驅動的組織于2013年計劃并推出(簡稱RDA)。本文對RDA的著眼點和使命、出現及快速發展、運轉機制、焦點區域、建立數據共享和交流的技術基礎設施和社會基礎設施以及開展的一系列工作進行了介紹。
今天的技術能夠對以前無法想象的大量數據進行收集和分析。通過新方法、新應用以及新服務的開發,這類數據正在改變著私人的、公共的、學術的等方方面面。無處不在的數據不僅僅改變“是什么”,它正在改變“將是什么”——致力于基礎工作從而推動新的創新的出現。從這個意義上說,研究領域對促使數字化數據改變的需求最迫切。目前,越來越多的問題需要使用復雜的模型和新方法對來自各個不同科學領域的數據進行綜合分析,而研究人員具備共享和綜合關鍵數據集的能力是基礎。只有具備了這樣的基礎,才能開發出解決問題的新方法。
數據共享和數據交流使我們能夠揭示那些以前未連接過的事物之間的連通性。例如,為了研究大都市地區的哮喘病風險,就要結合健康學、環境、人口和其他數據等進行研究;這就需要有支持獲取、使用、重復使用、管理、協調以及相關數據集管理的基礎框架。對于這類數據的相關共享和闡述來說,僅僅提供可用數據是遠遠不夠的。為了使研究更具挑戰性,不同的研究團體都有各自不同的數據標準、政策和實踐。因此,正如同今天的互聯網需要新的技術基礎設施和共同的協議來實現計算機網絡的連接一樣,需要有足以能夠支持技術和社會基礎設施整合來自不同群體的數據集并能在這些群體中實現合作的組織。
為了滿足全球日益增長的對于數據基礎設施的需求,研究數據聯盟(以下簡稱RDA)作為一個全球性的、團體驅動的組織于2013年計劃并推出。它的著眼點是研究者和創新者們跨技術、學科以及國界公開共享數據,從而解決全社會面臨的巨大挑戰。它的使命是建立能夠使數據實現共享的社會橋梁和技術橋梁。這些都是通過創造、采納并應用社會、組織以及必要的技術基礎設施來降低數據共享和數據交流的壁壘而完成的。在實踐中,RDA成員不僅致力于數據共享和數據交流的技術基礎設施(包括其基本的)結構和組成要素(持續的數字標識符,共享的元數據框架等)方面的研究,還致力于團體合作所需要的社會基礎設施(公共政策和組織實踐、統一的標準、數據獲取和保存的通用方法等)方面的研究。
對于研究人員、數據科學家和各種團體組織來說,RDA是一個新興的、快速發展的國際化組織。這是一個成員驅動的組織,任何個人只要愿意接受RDA的開放、協商決策、技術中立、均衡代表各方利益等基本原則,就可以免費加入聯盟。其他組織也可以以機構成員(具有投票權)或合作組織成員加入RDA。各類組織也可以作為組織成員(在組織內有投票權的)或合作組織成員加入RDA。
RDA是由選舉產生的九名資深人員組成的委員會領導的。RDA委員會與RDA成員——選舉產生的技術咨詢委員會和組織成員與分支機構密切合作,用以
鼓勵和支持重點工作組和更廣泛的興趣組。RDA由工作組、興趣組和合作組組成。工作組和興趣組是RDA的核心。工作組致力于在12~18個月的短期時間內在多個機構內實現特定的工具、代碼、最好的實踐、標準等的實施;興趣組則具備更寬廣的范圍和更長的時間,他們工作的目的是確定常見問題及興趣,而這些工作最終導致更多的焦點工作組的創立。截止到2013年秋天,RDA形成了36個研討課題范圍更廣泛的興趣組和工作組。目前,工作組和興趣組的數量繼續高速增長。合作組包括RDA的主要管理和行政機構,負責聯盟日常管理,并為工作組和興趣組提供支持和鼓勵。
RDA的組織和運作一直以來都是由美國、歐盟和澳大利亞的政府機構組成的國際指導委員會指導。美國的參與是由美國國家科學基金會的RDA學術報告會發起的;歐盟的參與是通過歐洲委員會的資助;澳大利亞的參與是由于獲得澳大利亞政府通過澳大利亞國家數據服務中心的資助;其他還包括查爾姆斯理工大學、美國國家標準技術與研究所;微軟研究院對RDA的全體會議提供了額外的支持。

圖 RDA的組織機構
數據團體和國際機構尋求加速研究創新以及數字化研究數據前所未有的增長使得數據基礎設施的開發成為可能是RDA出現最根本的原因。2011年和2012年,美國國家科學基金會、美國國家標準和技術委員會、歐洲委員會、澳大利亞政府以及許多其他機構就加快世界范圍的研究數據共享和交流而建設更加有效的基礎設施進行了多次磋商討論。這些討論以及日益增長的開發和協調全球研究數據基礎設施的需求,通過數據訪問及互操作性任務小組(DAITF)的探索和“數據網絡論壇”白皮書的總結加以揭示。許多機構認識到需要更寬泛的努力加快高校基礎設施的開發和應用,從而促使美、歐、澳的組織者們提出國際化開發研究數據聯盟的設想。研究數據聯盟可以實現和擴展DAITF的設想和“數據網絡論壇”的概念;推動基礎設施的開發、應用及使用,從而加快開放存取研究數據的全球共享和交流。2012年8月,RDA最初的組委會聚集到一起對這個新生的組織進行了規劃和組織。
2012年至2013年,RDA巨大的群體興趣和增長遠遠超過了預期。2013年3月RDA在瑞典哥德堡舉行了第一次全體會議,有來自31個國家的240多人參加。2013年9月在華盛頓舉行第二次全體會議,有來自53個國家和地區的大約1300多人參加了RDA論壇。2014年3月在都柏林舉行第三次全體會議。
RDA的工作是由他的工作組和興趣組來執行的。當一個相關的團體圍繞一個主題發展的時候就會形成一個群,而且這個主題具備良好定義的問題、共同的目標、并有機會創造一個及時行動的框架。工作組和興趣組圍繞同一個主題及該主題的快速發展而協同開發。工作組根據書面的案例陳述提出一個新的問題范圍,然后研究數據聯盟與工作群密切合作,確保其成果可在12~18個月內提交至框架,并確保該成果是可以操作實施的。興趣組則經常召開會議,讓各個團體圍繞工作群的短期目標進行時間分配。一年的時間里,工作組和興趣組的活動主要集中在:克服研究數據共享障礙、克服出版障礙、克服引用障礙和歸檔障礙以及開發必要的基礎設施來支持這些任務上面。為了促進工作組和興趣組的成功運轉,技術咨詢委員會代表RDA團體進行工作。技術咨詢委員會是RDA的技術路線圖,負責發現和解決差距。短期(12~18個月)工作組聚集到一起解決下列問題:①為一個特定的但又真實存在的目標社區創建能夠促進數據共享和交流的基礎設施的具體部分;②在目標社區內應用該基礎設施;③使用該基礎設施加快數據驅動創新。工作組的焦點在于其可交付成果的影響和可實施性。興趣組在主體范疇方面提供了論壇,使得工作組作為基礎設施的必需部分而獲得支持。
目前,RDA工作組和興趣組的活動可以分為以下五個方面,這五個方面僅僅是一直以來新的團體不斷涌現、新的組織快速發展的快照。
(1)科學領域。參與RDA團體的成員往往是圍繞
著某一科學領域,在相對狹窄的學科領域內,通過RDA克服技術障礙和社會障礙而實現數據共享。通過共享數據模型來實現這種共享。以生物學為例,共享詞匯或分類系統,或就材料數據管理來說,實現跨境協議連接。目前,RDA科學領域的工作主要集中在四個方面:生物學、農業、社會科學(尤其是數字化歷史和人種學)、工程(尤其是材料科學)。
(2)數據歸檔和出版。該領域目前有五個工作組處理面臨著把倉儲/檔案集作為擴展數據集的關鍵性問題。這些小組普遍追求方法共享、工具共享,并著眼于降低運營成本。具體活動包括最常見的通過數據生命周期表示數據源;對于正在認證中的倉儲數據實現開放的、低成本高效益運轉并且共享標準;文獻計量;為長尾理論研究需求提供服務;更好地管理數據出版費用等。
(3)在科學研究和教育實踐活動中數據的共享和重復利用的需求。RDA中有部分固定的小組使用有針對性的方法來更好地捕捉研究數據用戶群體的需求,這些是通過配置文件以及通過有針對性的努力(如專注于發展中國家在云計算中的教育材料)來實現的。
(4)數據引用參考。當目標是研究數據的重復利用時,全球數據共享就遇到了諸多壁壘。該領域的三個小組對不同的壁壘進行了調查研究。研究發現,在某一出版物中引用的數據,整體作為時間序列數據來說,可能是更大的一部分而且時間是模糊的,引用這類數據的子集部分應當對引用方式作出約定,RDA的一個小組正試圖對約定引用方式達成協議。目前,數字化數據客體被描述成多種語言,而RDA正在力圖用單一語言編碼來對數字化數據客體進行闡述。最后,跨國界的數據共享遇到了諸多的法律壁壘,這也是RDA小組共同面臨的一個難題。
(5)基礎設施。RDA中有八個工作組和興趣組致力于基礎設施的研究方面。基礎設施被劃分成具體范疇和詳細范疇兩大類。前者的成果是通過服務水平驅動代碼予以演示,后者實際上是建設框架。目前,具體范疇的分類活動包括:①對于建立可互操作性的工具來說,參考數據模型和隨之而來的詞匯都是最基本的需求;②對倉儲管理共享可控政策,一旦通過了確認,可以簡化認證并提高倉儲及檔案文件的透明度;③元數據標準目標和數據類型注冊表合并在一起,有助于一旦發掘出數據目標,能夠迅速對其作出解釋說明。而大數據分析的精細組則建立了美國國家標準及技術研究所大數據工作組。聯合識別認證管理正在尋求推進國際聯合識別認證。
(6)RDA的相關活動。下表列出了RDA成立一年來的五大類活動。

表3 RDA一年的活動
受到快速增長的激發后,RDA目前正致力于開發一個高效組織,這個組織能滿足并適應RDA的任務,并且作為一個支持模型至少可以覆蓋五年的時間,而這五年的時間對于組織來說是證明其影響力是否成功的關鍵時期。這一時期衡量組織是否成功的重點在于:①一個持續的、不斷擴大的
數據基礎設施通道的開發,通過社區的應用和利用加速數據共享和交流;②隨著數據團體對數據基礎設施的潛在影響越來越大,在整個數據團體中,提高RDA作為“獨立空間”用于協調組織間、個人間及組織和個人間的合作的效能;③開發一種靈活的、精干的、高效的組織用以支持數據團體在全球及區域間的擴展以及越來越多的合作。基于研究數據在科研中發揮的作用越來越大,而且不同機構對于研究數據共享的需求也越來越強烈,國內相關機構和研究人員也應該密切關注RDA組織的發展態勢,并爭取機會參與其中,以加強合作,實現國內相關研究數據的共享。
[編譯文獻來源]
[1]http://dlib.org/dlib/january14/parsons/01parsons.html.
[2]http://dlib.org/dlib/january14/01guest_editorial.html.
[3]http://dlib.org/dlib/january14/plale/01plale.html.
[4]https://rd-alliance.org/.
[收稿日期]2014-04-29 責任編輯]邵晉蓉
[作者簡介]王艷翠(1973-),女,碩士,聊城大學圖書館副研究館員,已發文數篇;李書寧(1976-),男,博士,北京師范大學圖書館副研究館員;李愛紅(1970-),女,本科,聊城大學圖書館館員。
[文章編號]1005-8214(2015)01-0052-03
[文獻標志碼]A
[中圖分類號]G250.73