韓金鳳
(廣東技術師范大學圖書館,廣東 廣州 510665)
在E-science 環境下,數據密集型科研范式興起,科學數據作為科學創新的重要資源受到廣泛的關注,各國政府、基金機構、期刊出版社、高校等紛紛發布科學數據管理與共享政策。在自上而下的政策引導和科研人員需求劇變的驅動下,作為信息服務主體的圖書館推出科學數據管理服務。在科學研究的過程中,科研人員對數據管理的需求隨著科研工作流程的推進而不斷發生變化。為精準契合用戶動態變化的需求,圖書館借鑒嵌入式學科服務的經驗,將嵌入式理論應用到科研數據服務中,開展嵌入式科研數據服務。最早的嵌入式科研數據服務實踐始于美國,2009 年美國圖書館協會編制的《嵌入式圖書館模式最終報告》顯示,已有科學數據館員嵌入用戶信息環境中提供參考咨詢和專題服務的案例[1],美國康奈爾大學于2009 年已啟動嵌入式科研數據服務[2]54。關于圖書館嵌入式科研數據服務的理論研究,也隨著實踐的發展而日趨豐富,但未見相關研究綜述。
2020 年11-12 月,筆者利用中國知網專業檢索方式進行檢索,檢索式為:題名=(科學數據+科研數據+研究數據+數據管理+數據監護+數據監管+數據策展+數據管護+數據服務+數據館員+數據素養) AND 篇關摘=嵌入,刪除顯著不相關文獻,得到67篇有效中文文獻;然后,用對應的英文檢索詞在google scholar、Emerald、Elsevier、bing 搜索引擎等進行檢索,并結合追溯檢索法,經篩選得到相關英文文獻19 篇。經閱讀相關文獻,筆者發現研究主題集中在嵌入方式、服務模型、服務內容、館員角色與能力、合作機制等領域。從界定嵌入式科研數據服務概念著手,根據以上主題對現有研究進行梳理分析,以期全面深入了解圖書館嵌入式科研數據服務的研究概貌,并總結研究進展和局限之處,為后續理論和實踐發展提出參考建議。
目前,學術界關于嵌入式科研數據服務的概念尚無定論。宋秀芳指出,數據監護嵌入式科研服務是數據監護、科研項目、科研過程、科研團隊以及科研人員的有機組合,基于數據管理生命周期活動,面向科研項目各環節用戶數據需求展開[3]54。廖思琴等認為嵌入式科學數據管理服務的概念源自嵌入式學科服務的概念,提煉出內涵的4個要點:融入用戶科研環境和工作流程;以用戶情景化的數據需求為驅動;貫穿科研過程各階段開展針對性服務;旨在促進科學數據的共享與重用[4]。李朝陽等提出,嵌入式科研數據服務是以成員身份參與科研,在課題全過程中把握科研團隊數據處理能力、數據需求與偏好,提供完整的數據生命周期服務,同時提升團隊的信息協同能力[5]77。
肖瀟和呂俊生認為科學數據服務本質上是嵌入式服務[6]85,但筆者認為不是所有的科研數據服務都是嵌入式科研數據服務,區分的重點在于是否融入用戶的信息環境中開展科研數據服務。筆者將嵌入式科研數據服務定義如下:嵌入用戶科研和教學情景,成為用戶的學術合作伙伴,聚焦科研工作流各環節用戶的特定需求與數據偏好,通過靈活調度組合資源、人員、工具、技術等,提供情景化、全方位、深層次的全周期數據管理服務。從狹義上講,嵌入式科研數據服務是嵌入科研過程全譜段的具體數據服務活動,包括數據計劃、采集、組織、保存、挖掘、共享、增值等服務;從廣義上看,嵌入式科研數據服務包括了整個科研生命周期中與數據管理服務相關的資源、人員、基礎設施、機構等要素。
肖瀟、呂俊生提出學科館員嵌入團隊開展科學數據服務的形式,包括過程嵌入、人員嵌入和平臺工具嵌入[6]88。秦曉丹指出高校圖書館以多學科協作、過程參與、虛擬空間嵌入的方式開展嵌入式科學數據館員服務[7]76。筆者將嵌入方式總結為過程嵌入、人員嵌入和虛擬環境嵌入3種。
科學數據作為學術研究的基本單元流動于科研過程的各個環節,每個節點都離不開數據管理,不同階段用戶對數據管理的需求不盡相同。數據服務嵌入科研過程體現在:數據管理服務以用戶發展變化的需求為中心,融入從課題立項到結束的整個過程和細節中[8]。另外,嵌入過程的數據服務還需考慮數據類型、特點、重要性和安全性,針對不同情況采取科學合理的數據管護舉措[9]70-71。陸穎等認為國外基于科學數據的學科服務嵌入科研過程是通過參與科研項目、建設數據服務平臺和專業團隊來實現的,一方面加強重大科研項目服務,提供項目數據生命周期管理、數據咨詢、數據發布、平臺建設、數據關聯與分析等服務;另一方面,依托機構自建的數據服務平臺和專業團隊,實施全跟蹤的數據服務[10]58。宋秀芳[3]56-59、陳秀娟等[11]52分別面向科研項目和化學工作流三個階段用戶的需求,設計嵌入科研過程的數據管理服務內容與模式。在實踐方面,牛津大學嵌入機構的科學數據監管服務項目將數據管理基礎設施和配套工具嵌入到研究人員的工作流中,實現數據管理工作的全過程嵌入[12]58。康奈爾大學[13]、巴斯大學[14]解構科研生命周期,在科研生命周期的每一個階段嵌入數據管理實踐。
此外,數據管理服務還能嵌入到教學過程中。劉勛闡明嵌入教學過程是高校圖書館開展嵌入式數據素養教育的路徑之一,圖書館團隊全程參與教師的課程設計和教學實踐活動,將數據素養教育有機嵌入到教學目標、內容和課程中,幫助學生在習得專業知識的同時提升數據能力[15]。王瑋探討了基于科學數據管理的高校圖書館學科服務嵌入教學過程的主要方式:嵌入公共選修課程、嵌入教師教學課堂、嵌入作業或研究課題、嵌入在線資源[16]。
人員嵌入是指專業人員嵌入科研群組,在用戶環境中指導監督數據管理流程,協助開展數據管理工作。人員嵌入包括兩種情況:(1)館員嵌入到科研活動中;(2)科研人員作為兼職數據館員,服務于科研團隊。
學科館員、數據館員、技術館員等加入科研團隊,以科研合作者的身份參與科研工作,幫助科研人員有效完成數據管理工作,同時將館員的數據管理知識轉化為科研人員的數據管理技能。羅格斯大學地球和環境科學系邀請物理學科館員和數據館員加入團隊,他們發揮各自的優勢與技能在不同領域實現更深入的服務。如物理館員嵌入研討會中,開展需求評估與咨詢服務;數據服務館員則面向研究生提供數據管理培訓,指導組織、管理和分析數據[17]。紐約大學館員作為研究團隊成員,嵌入聽覺臨床研究的數據管理生命周期中,幫助解決數據建模、數據收集工具、數據發現和數據長期可用性等問題[18]2。格里菲斯大學[19]、阿德萊德大學[20]的圖書館員融入科研團隊中,支撐用戶科研全過程的數據管理需求。
從科研人員中招選熱心、善用工具、擅長技術的能力者,重點培訓其數據管理技能,使其成為具備數據素養的“兼職”數據管理人員,補充新的能力要素,以用戶的力量解決用戶的需求。劍橋大學化學系學科館員對博士生進行數據管理培訓,系中3人獲得數據冠軍,成為數據管理工作小組的成員。他們掌握豐富的化學領域知識,了解化學學科的研究技術和數據類型,熟知科研人員的潛在數據管理需求,能高效地為研究團隊提供數據管理支持[21]。上海交通大學圖書館2020年面向職能部門及院系科研秘書招募第一期情報專員,擔任“橋梁”角色,通過培訓講座、競賽、沙龍、群組交流等形式提供數據服務支持[22]。
科研數據服務嵌入虛擬環境是技術手段層面的嵌入,以數據存儲與檢索技術、資源聚合技術、數據關聯技術、數據挖掘技術等為支撐,借助于嵌入式數據管理系統、嵌入式數據服務工具等融入虛擬知識環境,實現情景敏感的服務。
嵌入式數據管理系統是全流程監管科學數據的支撐系統,嵌入式特點表現在:集成相關的數據服務與資源,將數據收集、處理、備份、共享、分析等服務按科研工作流程組織在系統中,構成解決科研人員數據管理問題的完整服務鏈條。約翰霍普金斯大學醫學院自行開發面向臨床研究全過程的信息收集平臺,從倫理申請、科學性評價、病例入組、基礎調查、隨訪到數據采集、處理和分析等各個環節在系統服務鏈上都有相應的功能節點,該平臺還能集成外部數據,并且支持上傳和共享科學數據[23]。普渡大學數據監護平臺PURR、萊布尼茲社會科學研究所數據監護平臺ZACAT 等將學術交流與協作、咨詢、數據素養教育、數據保存與共享等服務功能前置于平臺中[3]57,實現項目全階段覆蓋的數據支持服務。
嵌入式數據服務工具嵌入科研知識環境,以實時處理、發現與獲取數據為主要功能。嵌入式桌面工具可通過監控應用場景、捕捉操作和焦點詞串、分析操作日志等手段,識別用戶偏好和數據需求,并提供個性化數據推送服務,還能對科學數據進行檢索、存儲、分析、描述、重組等[6]88-89。數據策展小工具,如資源鏈接工具、注釋工具、研討工具、內容組配工具、數據管理工具等,與圖書館資源創建關聯,整合到圖書館信息服務平臺中[6]89。圖書館利用瀏覽器工具條和桌面輔助工具,實現科學數據檢索、聚合與推送服務,便于用戶在自己的虛擬桌面獲得所需的數據并與數據館員實時溝通[7]76。中科院開發的TeamDR是支撐科研團隊完成數據保存與組織、協作與共享、發現與關聯的Web 應用工具[24]。圖書館開發嵌入數字人文過程的數據導航系統,提供數據資源檢索、館藏文獻與科學數據的集成檢索、外部資源接入等[25]87。
此外,還有嵌入戰略規劃[26]、嵌入能力[27]32、嵌入認知[27]32等嵌入方式。科研數據服務嵌入過程通過人員、虛擬環境嵌入來實現,E-science環境下各項數據服務的開展依賴于平臺、工具等虛擬環境,人員作為服務的主客體不可或缺。因此,從過程嵌入(深度參與)、人員嵌入(融入群組)和虛擬環境嵌入(平臺工具嵌入)3個層面把握,才能全覆蓋地嵌入到用戶的文化和工作場,實現全面深入的數據管理服務。
嵌入式科研數據服務模型是各數據服務要素的有機組成,體現各服務要素之間的關系,梳理嵌入式科研數據服務的基本流程和主要內容,構建服務模式,以更好地指導實踐。立足于不同的理論基礎,形成了以下幾種類型的模型。
數據生命周期理論是將科學數據視為生命有機體,描述數據從產生、加工、存儲到未來循環再利用的全周期。隨著理論和實踐研究的推進,已有模型被不斷地更新、完善,還新增了許多新模型。數據生命周期模型運用于嵌入式科學數據管理的優勢在于:科學數據的生命周期通常比所在的科研項目長,科研人員在項目結束后繼續進行數據的研究和分析,之后的科研項目會分析或者更新這些數據,或者其他科研人員會再利用這些數據并改變其用途[28]39。牛津大學數據監管生命周期模型是以數據生命周期理論為基礎的環形結構模型,分為數據管理計劃、數據備份和安全、數據分享和歸檔3個部分[12]56-57。滿芮基于數據生命周期理論構建了農業科學數據全流程管護模型,該模型是3層環形結構,最外層將數據管理分為前期、中期、后期3個階段,中間環是對3個階段再細化的13個數據管理流程,并應用嵌入式理論,將研究過程、科研人員以及系統平臺置于最內圈,表示三者的嵌入貫穿數據管理的全生命周期[9]68。
科研項目生命周期是指項目從計劃、立項、實施到結題的完整周期。科研項目生命周期有助于嵌入式數據管理把握項目各個階段特點及需求,因此科研項目生命周期作為嵌入式數據管理的理論基礎具有顯著優勢。Fei Yu 等提出基于研究生命周期的昆士蘭大學科學數據管理支持模型,將數據管理活動整合到了研究過程的3個階段:(1)項目計劃和準備階段,解決數據管理計劃、倫理批準及知識產權等問題;(2)項目實施階段,提供數據收集、處理和分析服務;(3)存檔、發布和傳播階段,支持傳播研究成果和數據存檔[29]290-291。陸玉泉構建了基于科研項目生命周期的高校科學數據3 層服務模型,將科研項目生命周期分為科研構思、科研實施、成果整理、成果發表等4個階段,設計出基礎、支撐和增值3 個層面的數據服務[28]41。黃鈺新和王遠智結合數字人文項目的特征,設計嵌入數字人文過程的圖書館數據服務模型,從項目實施角度將數據管理服務劃分為立項前中后3個階段[25]86。
科研項目生命周期與數據生命周期具有相同的目標——數據的長期可用與增值,兩者相互關聯、相互促進,具有整合的可行性。一些學者整合科研項目生命周期和數據生命周期,旨在通過優劣勢互補更好地改進模型,進一步完善嵌入式數據管理模式。陳秀娟等將化學科研工作流與數據管理生命周期嵌套交融,從項目實施的視角將數據管理生命周期劃分為項目前中后3個階段,提出每個階段數據服務的切入點[11]50-52。宋秀芳等以數據生命周期為理論支撐,圍繞科研項目前中后全周期對數據服務的需求,構建數據監護嵌入式科研服務模型,闡述項目3個時期嵌入式數據監護服務內容與模式[3]54-59。
另外,趙艷枝基于小科學-大科學理論,結合“小科學”科學數據的特點,建立嵌入科研活動的“小科學”數據監護架構,囊括“小科學”科學數據、數據監護流程、數據監護團隊[30]。李朝陽等以能力成熟度模型為基礎,構建科研數據服務成熟度模型,以評價數據服務的規范、技巧、能力等要素[5]76-77。
嵌入式科研數據服務內容多樣,且在不同的研究和實踐中服務項目和側重點不一樣。為了凸顯嵌入科研工作流的特征,一些研究將科研工作階段劃分為項目立項前、項目在研中、項目結題后,概述每個科研階段的服務項目,各階段嵌入式科研數據服務的具體內容見表1。

表1 項目前中后3個階段嵌入式科研數據服務內容
Lyon[32]、Martin[18]1指出館員在數據服務領域要從傳統的聯絡型角色轉變為完全嵌入或沉浸型角色,置身于實驗室或臨床環境中,完全整合為研究團隊的組成部分。Anna Gold 認為圖書館員在數據科學中擔任“上游”的角色,是密切參與科研過程的合作者[33]。Lyon&Brenner闡述了圖書館員在iSchool 消弭數據人才鴻溝過程中所擔任的角色,與iSchool 領域專家和學生在實踐中建立雙向的合作伙伴關系,并用能力提升模型展示館員、領域專家和學生通過在專業實踐、研究情報和教育領域的協作,共同提升數據知識與技能[34]。Hamasu等討論了圖書館員在科研生命周期不同階段中的角色與貢獻,在產生想法的階段,幫助用戶查找相關數據、研究報告等;在撰寫申報書階段,協助用戶創建數據管理計劃并確定數據組織方法;在正式研究階段,獲取用戶需求,加強數據服務營銷,展示館員作為團隊成員的價值;在出版和保存研究成果階段,幫助用戶展示其研究的影響,促進研究成果的發現[35]。Carpenter展望在學術交流過程中重塑圖書管理員的未來角色,圖書館員、研究人員和技術專家之間的合作蓬勃發展,館員與研究人員建立牢固、可持續的長期合作關系,嵌入研究過程、部門和課程中[36]。
E-science環境下劇變的用戶需求和復雜的數據管理任務,迫使館員不斷發展新能力來應對新局面,情報與信息技術能力、數據管理能力、用戶服務能力是對嵌入式數據館員綜合能力的精煉概括,共同組成嵌入式數據服務能力體系,如表2所示。

表2 嵌入式科研數據服務館員能力要求框架
嵌入式科研數據服務是圖書館與各方力量統籌協作、聯動合力的一項系統工程,涉及多個利益相關方,發起者、參與者、服務提供者眾多,在數據管理過程中扮演不同的角色。
圖書館開展嵌入式科研數據服務,無法單靠數據館員或學科館員的力量完成,需要圖書館集合內部各部門或團隊的力量,作為一個有機整體共同實現服務目標。一方面是圖書館各部門的戰略合作。陸穎建議圖書館應吸納各個部門的核心力量,成立專業的協調組織,從更高的層次做好規劃、協調等工作,各個部門各司其職,技術部門提供技術支持,情報部門開展情報知識培訓,政策部門監測科學數據政策的發展態勢[10]62;另一方面是館員團隊之間的協作。阿德萊德大學2011-2012 年開展的科學數據存儲和管理項目,圖書館走進院系,融入科研團隊,共有17位圖書館員參與該項目,其中有5名圖書館技術人員、2名院系館員、2名元數據館員、6名參考咨詢和研究館員,還有2名其他館員。
圖書館開展嵌入式科研數據服務,不僅需要館內部門團隊的合作,還需要尋求校內各部門的參與和支持,在政策、資金、人員、技術等方面達到優勢互補,促進合作共贏。康奈爾大學的科學數據管理項目由校內多個部門參與,學校領導層、圖書館和院系咨詢委員會是項目的發起者,執行項目頂層設計和部署規劃的職責,高級計算中心、信息技術中心提供技術支持,社會和經濟研究所在數據調研、用戶需求評估等方面提供協助[42]。昆士蘭大學圖書館科學數據管理團隊與信息技術服務部門、研究計算中心、研究管理員小組積極合作,建立密切的工作關系,以更好地推廣服務實踐[29]291-292。
與外部利益相關方合作,對于科研數據服務的成功實施也發揮著重要作用。澳大利亞昆士蘭大學圖書館的外部利益相關者有澳大利亞國家數據服務(ANDS)和昆士蘭網絡基礎設施基金會(QCIF)。ANDS 以資助的項目等方式與各個學校合作實施數據管理活動,除了提供政策和資金支持外,還提供國家數據服務,以及數據管理、生成、共享和重用的相關指南。另一個重要的外部利益相關者——QCIF 為昆士蘭大學提供所需的高性能計算服務、基礎架構、數據存儲系統等支持[29]292。康奈爾大學發起的VIVO 項目是科學數據管理領域校際合作的成功范例,美國多所學校、研究機構參與[2]55。許多高校與校外機構合作開發數據管理平臺,如哈佛大學與麻省理工學院數據中心合作共建Dataverse[43]、康奈爾大學圖書館和華盛頓大學圣路易斯分校聯合開發的康奈爾大學DataStaR項目[12]60等。
目前,嵌入式科研數據服務國內外研究重點不一樣,國外研究主要是館員嵌入科研過程或研究團隊的實踐案例,嵌入式數據館員角色定位、能力要求與服務范圍等,國內學者研究視野相對更廣,理論研究更多,除了國外案例介紹,還探討了服務模式與嵌入機制,構建嵌入式數據管理模型。總體來說,該領域在理論方面初步取得一些成果,但仍存在著一些薄弱環節,后續還需作進一步研究:(1)對服務路徑、嵌入模式、組織機制、支撐體系等關鍵問題研究不夠深入,尚未建立成熟完善的嵌入式數據服務機制,后續還需在這些方面繼續探索;(2)缺乏對嵌入式數據服務效果或價值進行評估的研究,未來的研究應構建由定性指標和定量指標組成的嵌入式數據服務質量評價指標體系;(3)嵌入式數據服務模型存在局限性,僅用定性方法導致模型結構較簡單,沒有將隱性的、動態的服務要素納入其中,之后的研究需要進一步挖掘服務要素,并運用定量方法研究嵌入式科研數據服務模型中各服務要素的作用效果與相互關系,揭示其內部運行機制;(4)由于不同學科數據的特點不一樣,科研人員需求也各有側重,之前基于單一學科或者無學科對象的經驗總結成果不具有普適性,不能一刀切地運用于其他學科,后續應比較學科數據和科研過程中數據流動的不同特性,開展針對特定學科的個性化服務流程研究;(5)對于交叉學科的嵌入式科學數據管理,不可避免涉及多個學科領域,不同學科的科學數據特征各有差異,因此探討跨學科嵌入式科研數據服務模式,使之能適用于交叉學科,同樣成為后續需要攻克的難題。
為推動我國圖書館嵌入式科研數據服務實踐的發展,可從以下幾個方面著手:(1)政府、基金組織、學校等提高重視程度,加大政策支持和經費投入力度;(2)圖書館應加強基礎設施建設,共建或自主研發數據管理系統或軟件工具,將數據策展工具組織到用戶信息平臺中,做好技術支撐;(3)圖書館應加強專業人才隊伍的儲備與培養,引進具備較高數據素養水平的人才來改善隊伍梯隊結構,通過職業培訓優化現有館員的數據知識能力結構,鼓勵館員不斷學習新的研究方法、技術工具和研究主題等,以適應角色轉型;(4)館員要增加對沉浸式身份的認同,明確自己作為科研團隊成員的價值與機遇,一方面構筑良好的溝通機制,深入了解用戶需求,保護用戶隱私,在用戶工作流中協助解決數據管理問題;另一方面,嵌入科研的過程實質也是共同學習和自我技能提升的過程,隨著互動的增加,更能明確專業發展方向和學習精進重點,從而繼續終身學習周期并不斷完善服務方式;(5)圖書館應積極與內外部利益相關者共建開放包容、可持續發展的戰略伙伴關系,通過資源、人員、技術融入和協作的方式,建立規范分工、層次分明、互利共贏的協同合作網絡;(6)強化科研人員的數據管理教育,采用專題講座、嵌入課程、MOOCs 資源、數據策展實習計劃等方式持續開展數據管理教育,培養兼具領域知識與數據科學專業知識的科研人員,彌合數據人才鴻溝。