決定哪些數據應該共享以及如何組織,在一定程度上根據預期用戶而定。
數據階段型存儲庫(Data Staging Repository,DataStaR)是康奈爾大學圖書館的一項主要針對本校學者的數據監護服務,其以機構庫為基礎,力圖扮演學術界共享數據集時的一個暫時的、過渡性質的存儲節點,其設想是建設成為一個數據監護平臺及一套完整服務方案,擁有可產生多種格式的高質量元數據的工具,由圖書館員負責操作,通過協助學者完善數據和元數據來促進共享,最終積極幫助他們向各自領域的學科庫發布數據成果,供長期使用和保存。DataStaR不但是具體數據監護服務的典型案例,還體現出當前美國高校圖書館對機構庫建設的一些新思路,非常值得了解。

DataStaR正是機構庫“回到科研流程中”的一次嘗試,它關注的不是改變學術出版體系,而是機構庫如何能成為支持數據密集型學術的新形式。
目前,大量高校學者所承擔的“小科學”(Small Science),因分布散、規模小而長期是數據管理的盲區,這些項目通常只有數名學者參與,產生的數據存放在個人電腦里,既沒有統一標準,也沒有分享機制,更缺乏長期利用策略。
海登(Heidorn)對2007年美國國家科學基金會批準項目的調查顯示,當年共撥款28.7億美元資助12025個項目,其中獲撥款排名前20%的項目占據六成經費,剩余四成經費資助了多達9621個項目,最小一項只獲得591美元。這些小項目根本不可能有充裕的人力財力來處理產生的數據,海登稱其為“暗數據”。小科學是人們認識和了解特定局部事物的重要手段,長期忽視小科學的數據是非常不合理的,隨著計算機技術、互聯網技術、數字化存儲技術的發展,海量科學數據的數字化和網絡化成為可能。美國越來越多的基金機構要求資助的項目發布數據,如國立健康研究院就從2003年起規定年度預算達到50萬美元的項目在申請時必須制定數據發布方案。
2007年后,美國多家高校圖書館陸續開始了數據監護服務的探索:除DataStaR外,新墨西哥大學圖書館主持的地球數據觀測網(Data Observation Network for Earth,DataONE)項目關注地球影像數據,約翰·霍普金斯大學圖書館主持的數據保育(Data Conservancy)項目關注天文數據,這兩個項目各獲得國家科學基金會高達2000萬美元的資助。還有調查數據監護需求的伊利諾伊大學數據監護基礎信息(Data Curation Profiles)項目;設計數據監護課程的北卡羅來納大學數據化監護課程(Digital Curation Curriculum,DigCCurr)項目;探索“數據館員”職業規劃的普渡大學圖書館的分布式數護監護中心(Distributed Data Curation Center,D2C2)項目等。
康奈爾的圖書館員通過調查發現,合作過的學者對數據監護確實有不少需求,這使得圖書館確信主動開展合作能給雙方都帶來切實收獲。從調查結果來看,學者對數據監護的需求五花八門,最常見的幾點有:
·需要一個協作空間以便科研過程中分享數據;
·需要協助確認共享時應該分享原始的還是加工后的數據、是完整的還是重點的數據;
·需要在期刊不提供發布途徑時,依科研資助者要求完成數據發布;
·需要了解下階段用戶如何使用數據,避免誤讀、誤用。
還有些學者干脆想知道別人使用他們的數據后做出了什么新成果,有些人希望后繼使用者能在發表成果時注明原始數據源及其所屬資助項目名稱等等。當然DataStaR也許無法滿足所有要求,但這些需求也確實反映出學者普遍覺得靠自身去處理數據有些力不從心,發展一個本地的、階段型的數據發布方案是很值得研究的事情。
DataStaR系統主要由4部分構成:
·基于Fedora的數據集存儲庫;
·基于Vitro的語義元數據存儲庫;
·用于對文件格式進行批量自動識別的開源工具:數字記錄目標識別程序(Digital Record Object Identification,DROID,由英國國家檔案局開發);
·用于向外部永久存儲庫傳輸文件的內容轉移協議——面向存儲的簡單網絡服務協議(Simple Web Service Offering Repository Deposit,SWORD,由英國JISC資助開發)。
以一位生態學者研究某物種的分布為例,操作流程大致如下:用戶首先將野外觀測數據匯總,然后錄入一個電子表格成為數據集。她將電子表格上傳到DataStaR,此時系統會根據用戶注冊時填寫的信息以及檢測到的文件格式自動生成一些基本元數據,用戶只需補充一項描述信息的元數據并設定他人訪問權限。
上傳時,用戶選定一個未來發布的目標庫,系統會根據目標庫的要求,生成合適的元數據表單供用戶填寫;若選擇“待定”,則要填寫一些額外的元數據供備用。隨著數據集不斷豐富,最終還可生成顯示物種分布情況的地理信息系統(GIS)數據集,DataStaR的圖書館員在這一過程中根據生態學及GIS數據存儲庫的不同標準,協助學者決定應該共享哪些數據,整理和格式化數據,創建高質量元數據等。
決定哪些數據應該共享以及如何組織,在一定程度上根據預期用戶而定。就生態學來說,一般預期數據將會用于反復分析,或集合多位研究人員的數據進行對比,故加工后的數據集就比原始觀測數據更有用。至于元數據,一些元數據很容易理解和完成,另一些則可能需要專業知識或對具體要求進行仔細研讀才能完成。目前圖書館員協助學者創建元數據中最重大的作用就是準確賦予受控詞和主題詞、知識產權申明的書面表述、撰寫地理坐標等特殊元素的規范表達等。DataStaR雖然不承擔數據集長期保存任務,但它會對數據集的元數據進行備份,這些高質量的元數據可供學者未來反復使用,也是其提高用戶忠誠度的重要手段之一。
科研結束時,用戶和圖書館員一同核對元數據和數據,將整理好的數據集發布到一個生態學的學科庫,如CUGIR;將相應的GIS數據集發布到紐約州立GIS數據交流中心,最后將兩個數據集的備份存儲到康奈爾大學圖書館自己的機構庫eCommons里。數據從DataStaR流動到外部學科庫的機制可自動亦可手動,視目標庫的結構和要求決定。當向eCommons發布數據集時,系統可從早前提交的學科記錄中提取必要元數據并自動生成到機構庫中,然后將數據集和作為支撐材料的學科記錄一起存入;向生態學科專門數據存儲庫發布的工作也是自動完成,但向紐約州立GIS數據交流中心提交時則由于政策規定,必須由圖書館員人工操作。
首屆科學數據大會探討“科研大數據與數據科學”
本刊訊 2月24日,首屆科學數據大會在中國科學院大學國際會議中心舉行。包括中科院院士郭華東、陳潤生,中國工程院院士汪懋華在內的400多名專家、青年科研人員參會。
中科院副院長、國際科技數據委員會(CODATA)中國全國委員會主席丁仲禮向會議發來賀信。他在賀信中表示,科研大數據和數據科學的作用越來越重要,希望中國能涌現出大量新型交叉人才,深化傳統科研模式改革,推動數據時代變革,以更好地服務國家創新發展戰略。
CODATA主席郭華東認為,大數據已成為信息主權的一種表現形式,將是繼邊防、海防、空防之后,另一個大國博弈的空間。“大數據正在開啟一次重大的時代轉型,它將改變人類的生活以及理解世界的方式。”
與會專家表示,數據科學不但與學科發展、產業轉型、社會生活密切聯系,而且正成為科研體系的重要部分。大數據發展將引起科研組織方式的深刻變化,使知識的創造和應用更加緊密結合,大數據不斷提出的重大挑戰將推動形成重大科技創新的新一輪機遇期。
據了解,2014科學數據大會由國際科技數據委員會中國全國委員會主辦、中科院計算機網絡信息中心承辦,會議主題為“科研大數據與數據科學”。
DataStaR最主要的服務對象是康奈爾大學的學者,這一點跟傳統的機構庫類似。但是,其主要任務是促進數據向長期存儲庫(如學科庫)流動,對自身的定位是一個短期的、暫時性的數據集存儲點和可靠的服務伙伴。這種階段型定位使DataStaR兼有一般機構庫和學科庫的特征。
DataStaR與機構庫一樣,重點服務于本地機構;沒有提供過多的數據分析、使用方面的工具,比如可視化統計軟件、數據抓取軟件等;沒有為終端用戶提供存儲內容方面的服務;沒有針對學者的強制性存儲要求。在其他方面,DataStaR又具備一些學科庫的功能:機構庫的初衷是管理文檔而非數據,一些學科庫則一開始就把目標對準了數據。學科庫通常都有各自特定的元數據標準,而DataStaR由于面向多學科的用戶,所以可以支持好幾種元數據標準。學科庫都要求發布的數據格式化,DataStaR就會主動幫助數據提供者根據那些要求來完善并提交數據。
近年來機構庫熱潮席卷美國高校圖書館,但其中不乏視其為一種館藏或純粹爭取經費之舉,許多機構庫只是一味收集校內學術成果,至多是個“網上文庫”而已。康奈爾大學圖書館也稱自己的舊機構庫DSpace“像個鄉村圖書館的地下室,堆積著落滿灰塵的舊文件。”
DataStaR正是機構庫“回到科研流程中”的一次嘗試,它關注的不是改變學術出版體系,而是機構庫如何能成為支持數據密集型學術的新形式。圖書館已經意識到數據對科研的重要驅動力和再利用價值,開展數據監護正是面向科研流程的新服務。美國國家科學基金會在考察提交申請的數據監護項目時,指明收藏數據只是服務切入點,對數據進行監護,使之可供再利用或跨學科新利用才是最根本目的。這要求圖書館必須從“以藏為主”轉變為一個活躍的科研代理人,為科研數據交流、知識共享提供機會和橋梁。學者改變學術交流習慣的動力并非機構強迫,而來自于數據監護的新需求,這對他們來說是個緊迫的問題。機構庫可以成為容納數據的倉儲,更進一步說,機構庫可成為整個數據監護戰略的一個重要部分。
目前,DataStaR已經和康奈爾大學內多個項目組、科考站和實驗室建立了良好的長期合作關系,還為不少學者創建了個人數據空間,至2011年9月,已有多個項目的39個數據集經DataStaR完成高質量元數據并成功發布,鑒于元數據管理服務的成功,從2012 年起,該項目將建設目標完全轉變為一個數據集注冊系統,以更專注的目光繼續為康奈爾學者服務。