黃紅華,張 婧
(1.對外經濟貿易大學圖書館;2.中國人民武裝警察部隊指揮學院圖書館)
近年來,隨著數據密集型研究不斷推進,研究數據服務(Research Data Services,RDS)的重要性日益凸顯。2011年,美國國家科學基金會(National Science Foundation,NSF)資助的DataONE項目組對北美學術型圖書館開展RDS的情況進行調研發現,很多圖書館已經把RDS列入圖書館的工作計劃。2013年,基礎研究公司的調研報告顯示,大約63.3%的世界知名大學圖書館提供了數據管理等服務。[1]2014年,田納西大學信息學院的Tenopir等人對351所研究型圖書館進行調研,83%的圖書館表示將會在兩年內提供RDS。[2]2016-2018年,美國大學與研究圖書館協會等組織與機構認為,RDS是影響圖書館發展的前沿趨勢之一。麻省理工大學、劍橋大學、康奈爾大學等圖書館,通過結構調整、館員培訓、數據機構庫搭建等形式開展RDS工作,進一步鞏固與確定了圖書館在RDS過程中不可替代的位置。[3]
筆者以“科研數據服務”“科研數據管理”或“研究數據服務”“研究數據管理”為篇名在中國知網期刊全文數據庫中進行檢索,共檢索到340篇文章(檢索日期為2019年4月25日)。文獻調查結果顯示:從2011年開始,該領域逐漸受到研究者的密切關注;自2013年開始,已有部分以“科研數據管理或服務”為主題的課題得到國家社科、自科基金的支持;2016年,中國機構知識庫推進工作組召開的中國機構知識庫學術研討會,已經開始大量討論RDS、科研數據知識庫等問題;[4]多家圖書情報雜志舉辦了多次以數據服務、數據監管等為主題的館員培訓活動,如《圖書情報工作》雜志舉辦的“2018數據管理與服務學術研討會”;[5]北京大學、復旦大學、上海外國語大學等圖書館逐步開展了RDS。雖然大學圖書館意識到開展RDS的重要性,但由于圖書館對于該服務的理解以及機構的實際發展水平與能力存在差異,我國乃至世界上仍有很多大學圖書館都未提供RDS。基于此,本研究擬在討論大學圖書館開展研究數據服務的基礎上,探索大學圖書館開展此項服務面臨的挑戰,并據此提出相應的策略。
圖書館開展RDS主要基于之前圖書館參與或主導建設機構知識庫積累的經驗。依據搭建機構知識庫累積的數據基礎,已經有部分發達國家的機構知識庫建設方向正在開始向研究數據管理方向進行升級探索。如,日本國立情報學研究所與歐洲核子研究中心、日本國立物質材料研究所合作開發研究數據管理與機構知識庫進行融合的下一代機構知識庫系統(WEK03)。[6]技術的進步使得數據保存、分析與共享變成了一種可能。
研究人員的需求成為大學圖書館開展此項服務的動力之一。自NSF、美國國立衛生研究院等公共資助機構要求基金申請人提交數據管理計劃、共享數據成果之后,數據管理計劃(Data ManagementPlan,DMP)成為研究人員科研立項前期的主要任務。北京大學圖書館對本校科研團隊的調研顯示,87.5%的受訪者表示有研究數據管理方面的需求。[7]布里斯托大學圖書館在其《圖書館服務戰略概覽》中強調,RDS是圖書館可持續發展的一項工作。[8]在實踐方面,大學圖書館開展了多項創新舉措滿足研究人員的科研需求。如,哈佛大學圖書館的科研數據開源應用Dataverse,擁有82,661個數據集,平臺數據累計下載6,780,098次(檢索日期為2019年4月25日),可以存儲CSV、JPEG、TXT等多種類型的文件;普林斯頓大學圖書館的數據管理服務,具備數據存儲與分析功能;康奈爾大學圖書館開發了服務關聯數據及學術可視化服務的Scholars@Cornell。[9]這些有關研究數據的應用、工具、服務在一定程度上滿足了研究人員的需求。
在我國,創新是引領發展的第一動力,創新作為五大發展理念之首,是圖書館轉型與發展的動力來源以及永恒話題。作為重要的知識與文化中心,大學圖書館通過業務流程再造、機構重組、資源聚合、服務方式變革等,不斷解決圖書館面臨的實際問題,提升圖書館價值。圖書館在提供RDS過程中,涉及到數據存儲、安全、保存、檢索、共享和重用等環節,而這些都與技術能力、道德因素、法律問題和制度框架等緊密相關。[10]圖書館作為知識創造與共享的核心部門,通過參與科研人員的科研數據管理流程,使圖書館成為提供RDS最理想的中心,這在一定程度上也會促進圖書館進行持續變革。
如何獲得多方的資金支持是大學圖書館有效開展RDS的一個重要影響因素。獲取持續資金支持的最大障礙之一是開展該項服務不確定的成本。英國數據服務強調,研究人員較難衡量數據管理活動過程中的成本,比較明確的高成本部分是清洗和驗證數據以及數據出版等。[11]研究人員在數據管理與共享活動過程中,從數據創建、處理、分析、存儲到共享以及長期保存都需要大量的人力支持、基礎設施搭建和數據工具提供等,這些無疑會增加圖書館開展該項服務的成本。以人力投入為例,Erway等人認為,與圖書館開展其他服務相比,RDS需要更專業的圖書館員,而這些圖書館員在技能培訓、職業發展等方面需要持續投入更多的成本,且沒有數據表明圖書館會因為開展RDS而獲得更多可持續性的資金支持。[12]此外,90%的人員都認為圖書館的基礎預算中至少應該包含數據服務與保護的費用,但是在圖書館的預算構成中,主要涉及資源采購、人員薪金支出。以帝國理工大學圖書館為例,2018年該館53%的經費支出為資源采購(尤其是電子資源),40%的經費支出為員工薪金,其他經費支出則寥寥無幾。[13]對于數據管理服務過程中產生的費用由誰來支付,被調查者持有不同的意見。北卡羅來納州大學對2,010位教員進行調研發現,63%的人都認為此項服務應該由大學資金支持;聯機計算機圖書館中心的調研顯示,RDS的資金來源方式主要包括機構預算、在資助申請預算中加入數據監管費、向研究人員收費、向數據使用者收費、捐款、數據存檔項目基金等;被調查者除了一致認為不能向數據使用者收費之外,在其他資金來源的方式方面并未達成一致意見。[12]
共享研究數據可以更大程度上提升科研項目、科研機構及科研人員的影響力。[14]許多機構都致力于提升數據共享的程度,如,英國聯合信息系統委員會等機構啟動了RDS項目,以保證數據的可持續性訪問和重復使用。但是,據司莉等人調查,研究人員不愿意分享研究數據,主要是擔心數據濫用或是被曲解。[15]Wiley對研究人員是否愿意共享研究數據的調查結果顯示,48%的研究人員不愿意共享數據,而不愿意共享數據的最大原因之一就是擔心知識產權或是數據泄露等問題。[16]由此可見,對于數據如何共享、哪些數據需要共享、共享之后數據如何在合理的范圍內傳播和使用,既是難點也是重點所在。
2015年,司莉等人對U.S.News中排名前100的87所大學圖書館進行調研發現,57%的大學圖書館開展了RDS,服務內容主要包括研究數據介紹、數據管理指南、數據監管與存儲服務、數據管理培訓、數據資源介紹等。[15]2016年12月,歐洲研究圖書館學會發布了研究數據服務調研報告,對該學會22個成員國的圖書館館長進行調研發現,圖書館提供的RDS主要是咨詢類服務。[17]研究數據管理/服務的資深學者Cox等人指出,國際上不少發達國家如澳大利亞、加拿大、德國、愛爾蘭、荷蘭、新西蘭和英國等國的研究圖書館,雖然在開展RDS的數量上處于領先地位,但總體上仍處于宣傳和培訓階段,技術服務如提供數據目錄、保存實際數據等尚未開展。[18]這意味著從事RDS的圖書館員需承擔更多的技術類工作以及參與高強度的時間消耗類任務。目前,美國常青藤大學圖書館都設有研究數據管理或服務專欄,主要是按照科研流程對本校研究人員提供基礎的研究數據組織、管理、保存、共享等服務。實際上,在許多開展RDS的大學圖書館中,仍局限于這些服務。由于RDS需要大量的時間、資源與智力等投入,如何提供技術支持還有廣闊的空間。[19]可見,大學圖書館延伸RDS范圍、拓展RDS內涵的工作任重道遠。
從研究數據管理開始,一些學者或研究機構就意識到研究數據管理被譽為是圖書館員發展的“最后一公里”。美國圖書館協會(AmericanLibraryAssociation,ALA)列出了50個工作列表,其中與數據館員相關的工作崗位名稱分別是“數據素養館員”“研究數據館員”“研究數據管理館員”“數據服務館員”等。[20]這些崗位的技能包括熟悉使用開放來源數據軟件(如SPSS,Stata,SAS,Python,NVivo) 的能力、數據監護、數據編碼等。此外,相關的研究也表明,美國的數據館員從業人數和設置該職位的機構數量最多,以擁有博士、碩士學位者為主,呈現明顯的多學科特征,并且特別強調需要具備數據管理和分析等技能。[21]這些崗位的要求對于圖書館員數字能力、數據素養、專業知識的重塑與拓展也提出了更高標準。
目前,對RDS的效果進行評估主要是量化指標,如收集數據的數量以及數據被加工的數量、服務的研究人員數量、對數據知識庫使用情況的統計、輔助研究人員完成基金申請的數量等。由于RDS產生的社會價值難以計量且產生的效果具有滯后性,如何對其進行效果評估將是一項長期的工作。
實踐表明,為了更好地開展RDS,大學圖書館需要拓寬資金的來源渠道。如,“弗吉尼亞理工大學圖書館戰略規劃2012-2018”強調,該館支持學校所有領域的科研工作,對于研究產出提供數據共享、數據管理以及數據出版等監管服務。此外,該館還給出了此項服務的具體預算,其中,科研與監管服務的預算為815,000美元,用于支持館員學習發展的預算為345,000美元,軟硬件支持、工具支持等支出為445,000美元,500,000美元作為額外款項用于科研與監管服務的設備更新等,研究數據監管服務的預算占了全館所有預算的32%。[22]只有確保足夠的資金支持,圖書館才能從數據規劃階段開始到數據收集和分析,再到支持數據可視化、發布、長期管理和再利用等環節都提供專業的研究數據服務。
大數據的不斷推進,使得圖書館逐漸成為大學科研創新的知識儲備基地。作為大學知識中心的圖書館在開展RDS過程中需要得到利益相關者的支持,其中,作為研究數據服務的對象,研究人員對于RDS的環境、條件、技術、水平以及人員等方面的了解與認知直接關系到他們對RDS的滿意度與期望,也直接關系到RDS是否能獲得可持續發展。[2]圖書館在提供RDS的過程中,應根據具體的研究項目或學科對數據共享工具、元數據以及研究人員的數據管理行為及需求、阻礙數據管理的因素等進行全面調研。
高質量的RDS需要綜合型的高素質館員隊伍。館員的綜合素養和能力決定了RDS整體的服務質量與水平。由于RDS需要圖書館員參與到整個數據生命周期,包括數據管理規劃、數據監管(包括數據選擇、存儲、管理、歸檔)、元數據創建和轉換等,[23]這就對圖書館員的能力提出了更高的要求。陳媛媛等人認為,與研究數據服務相關的圖書館員職位主要包括負責提供數據存取任務、支持管理數據任務、負責管理數據收集任務等,想要勝任這些任務,需要必備一定的技能,包括數據技能和學科數據技能,前者主要指數據存儲能力、數據遷移能力、元數據創造和分配、數據版權等,后者主要是需要識別和利用學科數據的專業技能。此外,還需要圖書館員熟悉研究數據服務的環境、識別研究人員需求、推進研究人員數據管理實踐,掌握并熟悉使用數據分析和管理工具,學會管理和保存數據等。[19]同時,圖書館應給館員提供提高專業技能的平臺,如,劍橋大學的《21世紀支持研究人員計劃》致力于在學術交流與研究支持方面為館員提供支持與發展機會的計劃,計劃中的課程包括一些提升圖書館員在機構啟動或是擴展RDS方面的內容,如介紹數據問題和政策、數據的元數據描述符或分類、數據隱私和安全問題等。[24]通過該計劃,劍橋大學圖書館員能在修改數據管理規劃、數據存檔、科研數據學術溝通等方面成為專家。圖書館員要勝任RDS工作,首先需要進行環境掃描、識別需求并開發服務以滿足用戶需求,推進研究人員數據管理實踐,掌握并熟練使用數據分析和管理工具,學會管理和保存數據,了解國內外相關組織機構的數據管理政策。[25]
由于當前知識產權等相關法律法規、政策等并未對研究數據的法律屬性與權力歸屬進行明確說明,為此,研究數據的共享、利用與知識產權保護之間就會產生矛盾。大學圖書館在開展RDS過程中,應該把知識產權服務嵌入到整個研究過程中,為研究人員提供知識產權指導,保證研究數據再利用的同時,盡可能降低數據侵權給研究人員帶來的風險。此外,圖書館還應積極指導研究人員妥善處理研究數據使用與管理過程中發生的權責關系以及平衡數據共享過程中的各項權益,在最大程度上給研究人員提供全方位的法律保障。[26]
對研究數據服務效果進行評估的主要目的是不斷完善和解決服務過程中出現的問題。大學圖書館在開展該項服務的過程中需要注重效果的評估以及所收集數據的質量,嚴格把控元數據的格式、安全性、數據的來源等。同時,在強調服務所覆蓋的研究人員數量之余,更注重收集研究人員的意見及建議,對于數據知識庫的使用評估更應強調其是否能滿足研究人員的學科發展需求以及后續研究計劃等。
研究數據作為推動科技進步的重要因素,對數據進行管理、共享和再利用,成為學術研究的新趨勢。在我國,2019年3月,《教育部關于公布2018年普通高等學校本科專業備案和審批結果的通知》中,“數據科學與大數據技術專業”獲批院校就已達到203所。[27]從2015年《國務院關于印發促進大數據發展行動綱要的通知》到2018年《國務院辦公廳關于印發科學數據管理辦法的通知》,再到2019年中國科學院印發《中國科學院科學數據管理與開放共享辦法(試行)》,研究數據的重要性不斷被提及。在實踐中,有突出“重用數據,再現科研;提升引用,跟蹤影響”的北京大學開放研究數據平臺,強調“數據監護、數據共享、數據引證、數據分析”復旦大學中國高校社會科研數據平臺等。此外,許多大學圖書館也逐步開始提供RDS,北京大學圖書館在新的一輪組織結構調整中,成立了專門的研究支持中心,主要是開展研究數據支持服務,協助和引導用戶獲取、分析、管理和共享科研數據(特別是開發數據的使用和管理),為用戶提供全流程數據支持服務。[28]而以“數據之名”開展的全國性、區域性賽事也不斷增加,如2018年的全國高校數據驅動創新研究大賽、2019年的“慧源共享”上海高校開放數據創新研究大賽,大賽在充分調動圖書館在RDS進程中的作用、鼓勵高校師生基于開放數據資源進行創新應用與研究、培養和提升大學生的數據素養與數據能力等方面具有重要意義。[29]由于每個圖書館在戰略發展目標、人員能力結構以及發展歷程等方面的特殊性,不同的圖書館應該立足具體實踐和發展階段,堅持創新性、特色性、前瞻性原則,在實踐中找到本館推進RDS的合適契機。