□楊鶴林
隨著計算機技術的大量應用,許多科研過程會產出海量科學數(shù)據,科學數(shù)據是信息時代最基本、最活躍、影響面最寬的一種戰(zhàn)略性資源,對于科技創(chuàng)新具有顯著的支撐作用,從一定角度來說,未來的科研活動將是科學數(shù)據驅動的科研活動。近年來,數(shù)據監(jiān)護(Data Curation)服務在美國高校圖書館中日益興起,此處的“數(shù)據”專指科學數(shù)據而非計算機科學中所指以數(shù)字化形式編碼的數(shù)據,美國國家科學基金會在專門扶持數(shù)據監(jiān)護服務的數(shù)據網(DataNet)計劃中,將數(shù)據定義為“所有能以數(shù)字化形式存儲并能以電子方式獲取的信息,包括數(shù)字、文本、出版物、感應器讀數(shù)流、視頻、音頻、算法、軟件、模型、模擬、圖像等?!保?]數(shù)據監(jiān)護不是單純對這些數(shù)據進行存儲,而是在數(shù)據供學術、科學及教育所用的生命周期內對其進行持續(xù)管理的活動,通過評價、篩選、重現(xiàn)及組織數(shù)據以供當前科研活動獲取,并能用于未來再發(fā)現(xiàn)及再利用。
數(shù)據階段型存儲庫(Data Staging Repository,DataStaR)是康奈爾大學圖書館的一項主要針對本校學者的數(shù)據監(jiān)護服務,其以機構庫為基礎,力圖扮演學術界共享數(shù)據集時的一個暫時的、過渡性質的存儲節(jié)點,其設想是建設成為一個數(shù)據監(jiān)護平臺及一套完整服務方案,擁有可產生多種格式的高質量元數(shù)據的工具,由圖書館員負責操作,通過協(xié)助學者完善數(shù)據和元數(shù)據來促進共享,最終積極幫助他們向各自領域的學科庫發(fā)布數(shù)據成果,供長期使用和保存[2]。DataStaR不但是具體數(shù)據監(jiān)護服務的典型案例,還體現(xiàn)出當前美國高校圖書館對機構庫建設的一些新思路,非常值得了解。
作為校園信息基礎的有機組成元素,機構庫(Institutional Repository)已發(fā)展多年,在最初的愿景中,圖書館界普遍希望機構庫可以完成兩大任務:一是實現(xiàn)研究成果的開放存取,克服現(xiàn)有學術交流模式的弊端,二是長期保存機構的研究成果,借此體現(xiàn)機構學術聲望、學術水平和社會價值。
到2011年7月,OpenDOAR上收錄的機構庫突破2000個。然而在數(shù)量不斷增加的同時,不少研究者也發(fā)現(xiàn)最初美好的構思并沒有獲得用戶充分認同,與頻頻受到學者青睞的學科庫、協(xié)會庫相反,薩洛(Salo)形容機構庫是學者不在意,圖書情報專業(yè)不教學,甚至圖書館員也不了解[3];機構庫定位模糊、服務缺失、用戶參與度不高等問題對人們的信心造成了嚴重沖擊,甚至有人表示“沒有什么建設像機構庫一樣,承諾如此多,效果如此差”[4]。面對嚴峻的現(xiàn)狀,如何發(fā)展機構庫,如何使機構庫在學術界獲得認可,將是對圖書館智慧的考驗。
目前,類似人類基因組計劃的大型科學研究項目由于組織縝密,都有完善的數(shù)據保存利用政策,基因庫(GenBank)就是其成果之一。在國家層面上,對專業(yè)科研系統(tǒng)獲得的數(shù)據也有對應機構進行處理,中科院自1982年便開始了“中科院科學數(shù)據庫”項目,現(xiàn)已經成為國內信息量最大、服務層次最高的綜合性科學數(shù)據系統(tǒng);中國科技部也于2002年啟動了“國家科學數(shù)據共享工程”建設,引發(fā)了科學數(shù)據共享研究的熱潮。
與之形成鮮明對比的是,大量高校學者所承擔的“小科學”(Small Science)卻因分布散、規(guī)模小而長期是數(shù)據管理的盲區(qū),這些項目通常只有數(shù)名學者參與,產生的數(shù)據存放在個人電腦里,既沒有統(tǒng)一標準,也沒有分享機制,更缺乏長期利用策略。海登(Heidorn)對2007年美國國家科學基金會批準項目的調查顯示,當年共撥款28.7億美元資助12025個項目,其中獲撥款排名前20%的項目占據六成經費,剩余四成經費資助了多達9621個項目,最小一項只獲得591美元。這些小項目根本不可能有充裕的人力財力來處理產生的數(shù)據,海登稱其為“暗數(shù)據”[5]。小科學是人們認識和了解特定局部事物的重要手段,長期忽視小科學的數(shù)據是非常不合理的,隨著計算機技術、互聯(lián)網技術、數(shù)字化存儲技術的發(fā)展,海量科學數(shù)據的數(shù)字化和網絡化成為可能。美國越來越多的基金機構要求資助的項目發(fā)布數(shù)據,如國立健康研究院就從2003年起規(guī)定年度預算達到50萬美元的項目在申請時必須制定數(shù)據發(fā)布方案。
金融危機以來,美國不少高校和基金會紛紛削減開支、減少資助。圖書館作為服務大戶,受到了很大沖擊。面對嚴峻的形勢,通過更新服務內容、提升服務效果體現(xiàn)自身存在價值,避免被學術圈邊緣化成為許多高校圖書館的當務之急。小科學日益高漲的數(shù)據監(jiān)護需求與服務缺失的矛盾使高校圖書館看到了機會:作為一個長期穩(wěn)定的信息機構,圖書館通過數(shù)據監(jiān)護服務,可以為小科學提供一整套可靠的數(shù)據交流、發(fā)布和保存解決方案。2007年后,美國多家高校圖書館陸續(xù)開始了數(shù)據監(jiān)護服務的探索:除DataStaR外,新墨西哥大學圖書館主持的地球數(shù)據觀測網(Data Observation Network for Earth,DataONE)項目關注地球影像數(shù)據,約翰·霍普金斯大學圖書館主持的數(shù)據保育(Data Conservancy)項目關注天文數(shù)據,這兩個項目各獲得國家科學基金會高達2000萬美元的資助。還有調查數(shù)據監(jiān)護需求的伊利諾伊大學數(shù)據監(jiān)護基礎信息(Data Curation Profiles)項目;設計數(shù)據監(jiān)護課程的北卡羅來納大學數(shù)據化監(jiān)護課程(Digital Curation Curriculum,DigCCurr)項目;探索“數(shù)據館員”職業(yè)規(guī)劃的普渡大學圖書館的分布式數(shù)護監(jiān)護中心(Distributed Data Curation Center,D2C2)項目等。
早在2003年就有調查指出,許多學科沒有數(shù)據存儲庫,研究人員無法很好地存儲、分享、發(fā)布數(shù)據,而即使如天文學、物理學等少數(shù)已經有較完善數(shù)據存儲庫的學科,學者仍不善使用,甚至完全不會用[6]。
在DataStaR前,康奈爾大學圖書館已經有一些較成功的數(shù)據發(fā)布項目,如康奈爾地理空間信息庫(the Cornell University Geospatial Information Repository,CUGIR)和美國農業(yè)部經濟、統(tǒng)計與市場信息系統(tǒng)(the USDA Economics,Statistics and Marketing Information System,USDA-ESMIS),兩者都是由國家科學基金會全額資助的學科數(shù)據存儲庫。圖書館通過這些項目可評估自身協(xié)助學者進行數(shù)據歸檔和整理的可行性,尤其在USDA-ESMIS中,圖書館員需要處理的數(shù)據往往是少量多批的,這就使得每次任務都比較個性化,需要跟學者反復溝通。為了提高效率,圖書館員開始萌生出摸索一套更規(guī)范、更便捷也更具可持續(xù)性的標準化解決方案以協(xié)助跨項目組、跨專業(yè)交流。澳大利亞莫納什大學圖書館的全局式監(jiān)護(Curation Continuum)項目曾論證過數(shù)據的使用可以分為發(fā)布前共享環(huán)境及更正式的發(fā)布后長期保存環(huán)境,這兩個環(huán)境間的交互階段有一個素材傳遞的過程[7]。這個交互階段也被康奈爾大學圖書館所意識到,并將其作為DataStaR的切入點,利用機構庫這個成熟的平臺探索圖書館員-學者互動規(guī)律,以及機構庫如何在實現(xiàn)數(shù)據監(jiān)護中發(fā)揮作用。
康奈爾的圖書館員通過調查發(fā)現(xiàn),合作過的學者對數(shù)據監(jiān)護確實有不少需求,這使得圖書館確信主動開展合作能給雙方都帶來切實收獲。從調查結果來看,學者對數(shù)據監(jiān)護的需求五花八門,最常見的幾點有:
·需要一個協(xié)作空間以便科研過程中分享數(shù)據;
·需要協(xié)助確認共享時應該分享原始的還是加工后的數(shù)據、是完整的還是重點的數(shù)據;
· 需要在期刊不提供發(fā)布途徑時,依科研資助者要求完成數(shù)據發(fā)布;
· 需要了解下階段用戶如何使用數(shù)據,避免誤讀、誤用。
還有些學者干脆想知道別人使用他們的數(shù)據后做出了什么新成果,有些人希望后繼使用者能在發(fā)表成果時注明原始數(shù)據源及其所屬資助項目名稱等等。當然DataStaR也許無法滿足所有要求,但這些需求也確實反映出學者普遍覺得靠自身去處理數(shù)據有些力不從心,發(fā)展一個本地的、階段型的數(shù)據發(fā)布方案是很值得研究的事情[8]。
DataStaR系統(tǒng)主要由4部分構成:
· 基于Fedora的數(shù)據集存儲庫;
· 基于Vitro的語義元數(shù)據存儲庫;
· 用于對文件格式進行批量自動識別的開源工具:數(shù)字記錄目標識別程序(Digital Record Object Identification,DROID,由英國國家檔案局開發(fā));
·用于向外部永久存儲庫傳輸文件的內容轉移協(xié)議——面向存儲的簡單網絡服務協(xié)議(Simple Web Service Offering Repository Deposit,SWORD,由英國JISC資助開發(fā))。
以一位生態(tài)學者研究某物種的分布為例,操作流程大致如下:用戶首先將野外觀測數(shù)據匯總,然后錄入一個電子表格成為數(shù)據集。她將電子表格上傳到DataStaR,此時系統(tǒng)會根據用戶注冊時填寫的信息以及檢測到的文件格式自動生成一些基本元數(shù)據,用戶只需補充一項描述信息的元數(shù)據并設定他人訪問權限。
上傳時,用戶選定一個未來發(fā)布的目標庫,系統(tǒng)會根據目標庫的要求,生成合適的元數(shù)據表單供用戶填寫;若選擇“待定”,則要填寫一些額外的元數(shù)據供備用。隨著數(shù)據集不斷豐富,最終還可生成顯示物種分布情況的地理信息系統(tǒng)(GIS)數(shù)據集,DataStaR的圖書館員在這一過程中根據生態(tài)學及GIS數(shù)據存儲庫的不同標準,協(xié)助學者決定應該共享哪些數(shù)據,整理和格式化數(shù)據,創(chuàng)建高質量元數(shù)據等。
決定哪些數(shù)據應該共享以及如何組織,在一定程度上根據預期用戶而定。就生態(tài)學來說,一般預期數(shù)據將會用于反復分析,或集合多位研究人員的數(shù)據進行對比,故加工后的數(shù)據集就比原始觀測數(shù)據更有用。至于元數(shù)據,一些元數(shù)據很容易理解和完成,另一些則可能需要專業(yè)知識或對具體要求進行仔細研讀才能完成。目前圖書館員協(xié)助學者創(chuàng)建元數(shù)據中最重大的作用就是準確賦予受控詞和主題詞、知識產權申明的書面表述、撰寫地理坐標等特殊元素的規(guī)范表達等。DataStaR雖然不承擔數(shù)據集長期保存任務,但它會對數(shù)據集的元數(shù)據進行備份,這些高質量的元數(shù)據可供學者未來反復使用,也是其提高用戶忠誠度的重要手段之一。
科研結束時,用戶和圖書館員一同核對元數(shù)據和數(shù)據,將整理好的數(shù)據集發(fā)布到一個生態(tài)學的學科庫,如CUGIR;將相應的GIS數(shù)據集發(fā)布到紐約州立GIS數(shù)據交流中心,最后將兩個數(shù)據集的備份存儲到康奈爾大學圖書館自己的機構庫eCommons里。數(shù)據從DataStaR流動到外部學科庫的機制可自動亦可手動,視目標庫的結構和要求決定。當向eCommons發(fā)布數(shù)據集時,系統(tǒng)可從早前提交的學科記錄中提取必要元數(shù)據并自動生成到機構庫中,然后將數(shù)據集和作為支撐材料的學科記錄一起存入;向生態(tài)學科專門數(shù)據存儲庫發(fā)布的工作也是自動完成,但向紐約州立GIS數(shù)據交流中心提交時則由于政策規(guī)定,必須由圖書館員人工操作[9]。DataStaR的構成和運作流程見圖1。

圖1 DataStaR模型
DataStaR最主要的服務對象是康奈爾大學的學者,這一點跟傳統(tǒng)的機構庫類似。但是,其主要任務是促進數(shù)據向長期存儲庫(如學科庫)流動,對自身的定位是一個短期的、暫時性的數(shù)據集存儲點和可靠的服務伙伴。這種階段型定位使DataStaR兼有一般機構庫和學科庫的特征,具體見表1。
DataStaR與機構庫一樣,重點服務于本地機構;沒有提供過多的數(shù)據分析、使用方面的工具,比如可視化統(tǒng)計軟件、數(shù)據抓取軟件等;沒有為終端用戶提供存儲內容方面的服務;沒有針對學者的強制性存儲要求。在其他方面,DataStaR又具備一些學科庫的功能:機構庫的初衷是管理文檔而非數(shù)據,一些學科庫則一開始就把目標對準了數(shù)據。學科庫通常都有各自特定的元數(shù)據標準,而DataStaR由于面向多學科的用戶,所以可以支持好幾種元數(shù)據標準。學科庫都要求發(fā)布的數(shù)據格式化,DataStaR就會主動幫助數(shù)據提供者根據那些要求來完善并提交數(shù)據。

表1 DataStaR與機構庫、學科庫特征對比
在機構庫興起時,許多人將機構庫和開放獲取等同起來,視其為變革學術傳播方式的利器,哈內德(Harnad)早在1994年就發(fā)出過顛覆性的論點,呼吁所有學者都應該把他們的論文在開放存取庫中發(fā)布,通過共同努力打破出版商利用經濟手段設置的信息壁壘[10]。但隨后的機構庫實踐卻顯示了用戶和圖書館員在這一認識上存在差異,戴維斯(Davis)描述到:“在康奈爾大學,一些被圖書館員看得心急火燎的學術交流問題,例如文獻開放獲取,許多學者卻覺得無關痛癢,每個學科都有自己的學術小圈子,很大程度上取決于科研激勵機制以及傳統(tǒng)。”[11]如果機構庫希望解決的問題在學者看來不感興趣,那關注度如此低也就不足為奇了。學者在長期形成的學術圈中有各自的交流渠道,如參加協(xié)會、出席會議、出版商贈閱等,至少現(xiàn)階段對全面開放獲取的需求尚不很迫切。喬赫利(Choudhury)指出,學者愿意向美國國家生物技術信息中心(NCBI)的PubMed Central數(shù)據庫提交文獻,卻忽視自己學校機構庫的原因,不僅因為NCBI是重要的科研資助機構,更重要的是向PubMed Central提交就意味著進入了當前運作中的學術出版流程,在學術圈內獲得了認可[12]。
其實,機構庫和開放獲取互為部分,開放獲取只是機構庫服務的一部分,其最終實現(xiàn)有賴于整個學術體制的變革,這將是一個較為長期的過程,寄望短期內以機構庫去挑戰(zhàn)已確立數(shù)個世紀的學術發(fā)布和交流圈,無異于堂吉訶德對陣風車,這樣過于急切的愿景反而使機構庫不堪重荷。DataStaR就體現(xiàn)出圖書館這種思路轉變:不再將強硬的開放獲取作為核心戰(zhàn)略,用戶對上傳的初始數(shù)據集可以自行調整甚至刪除,可能永遠也不會用于正式發(fā)布;用戶也可以根據個人需要和意愿自行設定共享范圍,可以是課題組成員、本校用戶,也可以對公眾公開;最重要的是,在數(shù)據發(fā)布時,DataStaR也不承擔開放獲取任務,而交由為學術圈普遍認可的學科庫完成。
自機構庫建設開展以來,學者參與度偏低的問題始終困擾著建設者,麥克道爾(McDowell)表示:“在大多數(shù)機構庫都是每天僅一件的增長率下,估計可預見的未來里美國機構庫都無法顯著促進開放獲取,也難以改變學術傳播模式?!保?3]。為了促使學者使用機構庫,相當一部分人認為要狠抓強制提交制度,例如哈內德(Harnad)就不客氣地指出只要康奈爾大學圖書館規(guī)定強制提交就能解決所有問題[14]。筆者認為,此類觀點實際上是在回避關鍵問題:為何自愿提交率如此之低?當要學者們自己選擇時,很多人并不情愿花時間向機構庫提交資源。
約翰遜(Johnson)指出:學者的個人發(fā)展與當前出版體系緊密關聯(lián),在他們認可的交流圈中發(fā)布成果遠比機構庫效果好[15]。馬克(Mark)的調查也支持這種論斷,他對康奈爾大學早期的機構庫DSpace進行過使用調查,發(fā)現(xiàn)幾乎未被本校學者了解,收集的論文數(shù)量非常少,有些院系板塊甚至沒有任何實質內容。多數(shù)學者還是習慣于使用自認為比機構庫更具學術價值和更高認知度的學科庫[16]。一味強硬不可能使機構庫成功發(fā)展下去,重要的是認真研究用戶需求,靈活調整存儲策略,使機構庫成為整個學術環(huán)境中的一份子,而不是一個被邊緣化的孤立實體。機構庫應當尊重學者的使用習慣,改變視學科庫為“對手”的傳統(tǒng)觀念,化競爭為合作,建立一種更實際的伙伴關系。DataStaR就顯現(xiàn)出一種富有彈性的存儲政策:它沒有強制學者提交數(shù)據,也沒有規(guī)定數(shù)據集只能發(fā)布到康奈爾大學圖書館的eCommons中,而是在完成數(shù)據監(jiān)護后,懇請學者同時在學科庫和機構庫中都發(fā)布成果。通過數(shù)據監(jiān)護,用戶享受到了圖書館實實在在的服務,也順利地在學術圈中發(fā)布了成果,毫無例外地都樂于在eCommons里對數(shù)據集進行二次發(fā)布和備份。這一柔性政策既避免了強制提交的不愉快,又豐富了機構庫藏品,充分體現(xiàn)出對學術圈和學者個人的尊重,博得了用戶好感和忠誠度。
近年來機構庫熱潮席卷美國高校圖書館,但其中不乏視其為一種館藏或純粹爭取經費之舉,許多機構庫只是一味收集校內學術成果,至多是個“網上文庫”而已。康奈爾大學圖書館也稱自己的舊機構庫DSpace“像個鄉(xiāng)村圖書館的地下室,堆積著落滿灰塵的舊文件?!保?7]喬赫利(Choudhury)認為學者對機構庫不感興趣的一個重要原因是機構庫提供的存儲功能只涉及科研過程終端產品,用戶實際上已經完成了自己的工作。為此他倡議機構庫要推出能切入到科研起點,進而惠及整個科研流程的新服務[18]。
DataStaR正是機構庫“回到科研流程中”的一次嘗試,它關注的不是改變學術出版體系,而是機構庫如何能成為支持數(shù)據密集型學術的新形式。圖書館已經意識到數(shù)據對科研的重要驅動力和再利用價值,開展數(shù)據監(jiān)護正是面向科研流程的新服務。美國國家科學基金會在考察提交申請的數(shù)據監(jiān)護項目時,指明收藏數(shù)據只是服務切入點,對數(shù)據進行監(jiān)護,使之可供再利用或跨學科新利用才是最根本目的。這要求圖書館必須從“以藏為主”轉變?yōu)橐粋€活躍的科研代理人,為科研數(shù)據交流、知識共享提供機會和橋梁。學者改變學術交流習慣的動力并非機構強迫,而來自于數(shù)據監(jiān)護的新需求,這對他們來說是個緊迫的問題。機構庫可以成為容納數(shù)據的倉儲,更進一步說,機構庫可成為整個數(shù)據監(jiān)護戰(zhàn)略的一個重要部分。
隨著科研項目規(guī)模擴大和內容深入,許多問題需要多方參與者共同處理?;ヂ?lián)網正是當今協(xié)同工作的優(yōu)良載體,學者利用網絡交流知識、傳輸文件,逐漸形成所謂的“虛擬社區(qū)”。社區(qū)可以為分享信息和解決問題提供便利,凸顯出協(xié)作網絡在將原有那種松散的耦合系統(tǒng)發(fā)展為有序的跨界網絡中不可或缺的地位。圖書館在總結過往機構庫建設的經驗教訓時,體會到人氣的重要性,而為學者創(chuàng)造穩(wěn)定的網上社區(qū)無疑是凝聚人氣、提高機構庫認同感的好方法。
就數(shù)據監(jiān)護服務來看,前述DataNet這類受國家資助的數(shù)據監(jiān)護計劃都有大型社區(qū),其他區(qū)域性、中小型社區(qū)也如雨后春筍般在許多圖書館項目中出現(xiàn)。在康奈爾大學,為了進一步推廣DataStaR和數(shù)據監(jiān)護,圖書館于2008年7月創(chuàng)建了一個研究數(shù)據管理服務組(The DISCOVER Research Service Group,DRSG),成員包括學者、計算機專家、圖書館員和來自Fedora Commons社區(qū)的機構庫建設者,DRSG通過開發(fā)用于數(shù)據監(jiān)護的軟件,為學者們提供方便的數(shù)據監(jiān)護、保存方案,推動項目組之間的協(xié)作、促進數(shù)據的跨學科利用,最終在康奈爾校園內建設一個繁榮的數(shù)據監(jiān)護虛擬平臺。目前DRSG已經和天文學、物理學、信息科學、農學和鳥類學等多個學科院系建立了聯(lián)系并在不斷擴大中[19]。
從全美高校的高度看,甚至有一些更可喜的進展,一些機構庫的用戶在認識到數(shù)據監(jiān)護的重要性后,組成了“自下而上”的自發(fā)性社區(qū),如約翰霍普金斯大學DuraSpace項目中產生的數(shù)據監(jiān)護處理社區(qū)(Data Curation Solution Community)便是一個,其組織格言為“復雜系統(tǒng)在適當條件下自會產生規(guī)律”。并進一步指出:“數(shù)據監(jiān)護應支持自然科學及人文科學中產生的新形式研究與學習。在推廣數(shù)據監(jiān)護時,要廣泛調研專業(yè)學者及普通用戶的需求?!保?0]另一個屬于北卡羅來納大學的DigCCurr項目的數(shù)字化監(jiān)護交流社區(qū)(Digital Curation Exchange)也有類似的組織目標:“為參與者、研究者、教育者、學生構建數(shù)據監(jiān)護活動中心。”[21]圖書館通過積極參與和引導這些自發(fā)社區(qū),在推廣機構庫和數(shù)據監(jiān)護方面取得了良好的進展。
目前,DataStaR已經和康奈爾大學內多個項目組、科考站和實驗室建立了良好的長期合作關系,還為不少學者創(chuàng)建了個人數(shù)據空間,截止2011年9月,已有多個項目的39個數(shù)據集經DataStaR完成高質量元數(shù)據并成功發(fā)布。DataStaR不僅成為美國國家科學基金會資助的數(shù)據保育項目的一個重要建設者,還獲得不少基金機構的認可,獲邀在申報會上專門做數(shù)據監(jiān)護宣傳。還有一些高校開始采用其系統(tǒng)開發(fā)自己的數(shù)據監(jiān)護服務,例如由墨爾本大學主持的大型項目澳大利亞國家數(shù)據服務(Australian National Data Service,ANDS)[22]。盡管運行時間不算太長,且在實際工作中仍有一些問題,但DataStaR在探索數(shù)據監(jiān)護服務上另辟蹊徑,為機構庫如何繼續(xù)發(fā)展提供了很大啟示,作為一個成功的項目,越來越頻繁地出現(xiàn)在美國高校圖書館界的學術報告中。前車之鑒,后車之師,美國圖書館在機構庫發(fā)展中遇到的問題可以為尚不發(fā)達的中國高校機構庫提供參考,而他們在處理機構庫的開放獲取、存儲政策、服務內容等問題時所采取的靈活務實的態(tài)度,以及新穎的數(shù)據監(jiān)護服務,也非常值得中國高校圖書館借鑒和思考。
1 National Science Board.Long-lived digital data collections.[2010- 07 - 14]. http://www.nsf.gov/pubs/2005/nsb0540/nsb0540.pdf
2 DataStaR.[2011-02-10].http://DataStaR.mannlib.cornell.edu/
3 Salo D.Innkeeper at the Roach Motel.Library Trends,2008(2):98-123
4 Jacobs N.Report of a workshop on research and development priorities to support research data curation.[2011-04-20].http://infteam. jiscinvolve. org/files/2008/05/datacurationwshop20071214.pdf
5 Heidorn P.Shedding Light on the Dark Data in the Long Tail of Science.Library Trends,2008(2):280-299
6 Lord P.Data curation for e-Science in the UK.[2010-07-29].http://www.jisc.ac.uk/uploaded_documents/e-Science Report-Final.pdf
7 Treloar A.The Data Curation Continuum.D-Lib Magazine,2007(9/10).[2010-11-05].http://www.dlib.org/dlib/september07/treloar/09treloar.html
8 Steinhart G.DataStaR:An Institutional Approach to Research Data Curation.IASSIST Quarterly,2009(3-4):34-39
9 Steinhart G.DataStaR:A Data Sharing and Publication Infrastructure to Support Research.Agricultural Information Worldwide,2011(1):16-20
10 Harnad,S.Scholarly Journals at the Crossroads.Chapter 1.Washington D.C.[2011-07-26].http://www.arl.org/scomm/subversive/sub01.html
11 Davis P. Evaluating the Reasons for Non-use of Cornell University's Installation of DSpace.D-Lib Magazine,2007(3/4).[2011-03-12].http://www.dlib.org/dlib/march07/davis/03davis.html
12 Choudhury G.Case study in data curation at Johns Hopkins University.Library Trends,2008(2):211-220
13 McDowell C.Evaluating institutional repository deployment in American academy since early 2005.D-Lib Magazine 2007(9/10).[2011-03-15].http://www.dlib.org/dlib/september07/mcdowell/09mcdowell.html
14 Johnson,R.Institutional repositories:Partnering with faculty to enhance scholarly communication.D-Lib Magazine 2002(11).[2010-12-15].http://www.dlib.org/dlib/november02/johnson/11johnson.html
15 Mark T.Institutional Repositories:a Review of Content Recruitment Strategies.[2010-10-09].http://www.ifla.org/IV/ifla72/papers/155-Mark_Shearer-en.pdf
16 Harnad S.Why Cornell's Institutional Repository Is Near-Empty.[2011-08-15].http://eprints.ecs.soton.ac.uk/13967/
17 eCommons,née DSpace.[2011-09-03].http://www.news.cornell.edu/stories/Aug07/ecommons.ws.html
18 同12:214
19 DRSG.[2011-06-13].http://drsg.cac.cornell.edu/
20 Data Curation Solution Community.[2011-06-16].http://fedora-commons.org/confluence/display/FCCWG/Data+ Curation
21 Digital Curation Exchange.[2011-06-16].http://digitalcurationexchange.org/
22 ANDS.[2010-07-29].http://ands.org.au/