陳寶美
(福建農業職業技術學院圖書館,福建 福州 350303)
大數據作為新型戰略資產正深刻影響著人類的生產生活及對世界的深層理解,催生了以大數據為核心的新思維、新組織、新研究范式和新基礎設施。大數據基礎設施是以數據為中心,深度整合計算、存儲、網絡和軟件資源,以充分挖掘數據價值為首要目標的基礎設施。大數據分為不同類型,科研大數據作為科學研究的驅動力,引發各界高度重視。科研大數據基礎設施建設亦被世界各國提升至國家戰略層次。科研大數據基礎設施包括知識資源(館藏、檔案和科學數據等)、電子基礎設施(數據和計算系統、通信網絡等)以及其他促進科學研究的工具和服務[1]。在政府部門的引導和推動下,高校積極參與國家級或區域級科研大數據基礎設施建設項目,加速布局科研大數據基礎設施,取得初步成效。目前,高校科研大數據基礎設施正實現由大數據平臺向數據云平臺過渡,處于轉型升級的重要“窗口期”,有必要在回顧歷史的基礎上形成對新發展階段的正確認知,包括認識該階段的挑戰與機遇,尤其是科研大數據的產出過程、管理方法與流程以及研究人員面臨的問題。為此,Ithaka S+R聯合來自20多所高校圖書館的館員,開展面向科研人員的聯合調研項目(下文簡稱“調研項目”),分析總結新發展階段基于大數據的科學研究應如何開展,明確了基于大數據的科學研究方法、研究流程及研究產出等內容,并于2021年12月將調研結果發布在《處于十字路口的大數據基礎設施:高校的支持需求和挑戰》報告(下文簡稱“研究報告”)中[2],以期為高校、圖書館、資助機構及其他參與方提供指導和建議,助力高校科研大數據基礎設施的建設。
Ithaka S+R聯合調研項目組對來自不同領域的研究人員持續進行半結構化訪談,訪談圍繞大數據環境中的科研方法及科研支持需求展開,提煉形成調研結論。1)針對復雜數據管理問題:數據的獲取、清理和管理是勞動密集型工作,成本較高,在一個數據相對豐富的時代,研究人員為節約生成新數據的費用,在可能的情況下,選擇使用現有數據。2)針對科研協作問題:科學研究需要教師、教職員工、學生以及校內外參與者的廣泛協作;實驗室是研究的核心單位,學生在研究過程作出了重大貢獻;研究人員通常更喜歡本地的基于實驗室的存儲和計算資源,而不是集中式校園存儲資源和云計算服務。3)針對知識分享問題:盡管同行評議文章仍然是學術交流中最受歡迎的形式,但研究人員亦共享包括數據和代碼在內的更多開放研究成果;共享實踐遠超在開放存儲庫中類似FAIR(Findability,Accessibility,Interoperability and Reusability)標準的正式共享,呈現出多類型的非正式共享;數據派生、質量及來源問題是知識分享的主要障礙。4)針對大數據倫理挑戰問題:大數據研究的倫理維度仍然存在爭議,如對學術倫理審查委員會(Institutional Review Board,IRB)法規適應性的擔憂,導致研究人員無法確定倫理研究行為的最佳實踐。5)針對科研培訓形式問題:研究人員傾向于參加非正式培訓,對缺乏靈活性的正式培訓興趣不大。6)針對科研大數據基礎設施建設參與度問題:大數據基礎設施建設是跨學科工作,不同學科的不同激勵體系、資助體系會影響研究者對項目的參與度。基于上述主要調研結論,研究報告對高校大數據基礎設施建設參與各方也給出了指導和建議(見表1)。

表1 研究報告為參與方提供的指導建議

續表1
在新的學術生態環境中,云計算、大數據和人工智能等技術正深刻影響高校的基礎設施建設,以數據為中心、由數據驅動應用正成為高校基礎設施的典型特征。科研大數據基礎設施作為科學研究范式轉型的底層基礎,即將迎來大發展。報告中的“十字路口”包括兩層含義:一是不確定性。從大數據平臺發展到數據云平臺,高校大數據基礎設施建設進一步朝著智能化的方向轉型邁進,在取得階段性成果的同時也面臨新的嚴峻挑戰,表現為各高校大數據基礎設施仍呈現分散與孤立狀態,遠未達到全球數據共享、合作研究的最終目標。此外,高校大數據基礎設施建設在跨學科合作、數據共享、數據管理、數據倫理方面仍面臨的一系列挑戰[3]。二是選擇性。身處轉型發展的新階段,參與高校大數據基礎設施建設的各方主體,均期待自身能夠作出準確判斷,在明確新定位、闡述新職責、確立新機制的基礎上凝聚共識,引領大數據基礎設施建設的新方向。在“十字路口”的正確抉擇,既需要迎難而上的創新和對發展趨勢的深度洞察,也需要對產業、技術、用戶市場需求的變化保持高度敏感性。為此,Ithaka S+R聯合調研項目組立足科研人員的需求,通過訪談獲取大量第一手資料,研究報告不僅對現有基礎設施有效性進行評估,更全景式地展現高校大數據基礎設施對研究人員支持的現狀,啟發多方參與者理解科研需求的變化,思考基礎設施建設的變革,揭示高校未來大數據基礎設施的建設路徑。
高校科研大數據基礎設施建設既具有傳統基建的特征(公共性、通用性與基礎性等),又具有新基建的特征(技術性與專業性),需要參與方集聚智慧并發揮合力,各參與方既分工明確又相互協作,通過制度創新加快系統中要素資源流動,推動構建高校科研大數據基礎設施建設。為此,Ithaka S+R聯合調研項目組聚焦科研人員、高校教師、IT和信息專業人員、圖書館員、科研與法律辦公室行政人員、學生等廣泛群體的正式和非正式合作,挖掘不同參與主體在高校科研大數據基礎設施建設中的共同訴求,促進要素資源合理流動和集聚,平衡利益和風險,鼓勵和引導多方參與,并在研究報告中明確各方參與者的職責:1)高校科研管理部門主要承擔規劃引導、統籌協調的職責,作為支持機構,它的工作重點是制定基礎設施建設計劃和行動方案,提供技術與溝通支持,開展其他行政性工作,并評估建設成效。2)教學與研究部門主要支持師生開展項目研究和人才培養,普及與推廣設施的應用。3)圖書館主要承擔專業化知識服務的職責,包括擴展數字學術資源(數據集)、促進學術交流、開展數字技能提升服務等。4)資助單位主要承擔政策引領和資金扶持的職責。5)學術社區主要承擔文化引領和學術氛圍營造的職責。6)供應商則主要承擔其他輔助支持服務的職責。
高校應以滿足科研人員的需求為中心,以新的數字化理念和方法為指導,重新定義高校大數據基礎設施的建設戰略及行動路線。Ithaka S+R聯合調研項目組在與科研人員及其他參與方協商探討的基礎上,形成對未來的科學判斷,并從數據、服務、制度、規則等四個維度給出面向未來的建設行動路線。1)數據層面。從豐富元數據提升研究數據的可發現性、建立數據標準格式促進數據交互、形成一致且自動化的工作流程以簡化科研人員的活動、強化使用許可促進數據復用等方面著手,提升數據質量,確保正式和非正式的研究輸出,依據FAIR研究數據原則有效實現數據的發現、獲取、交互和復用[4]。2)服務層面。從強化數據供給、開展服務營銷、開發資源導航和指南、強化咨詢和培訓等方式入手,提供滿足科研人員多樣化需求的精準服務。3)制度層面。支持構建涵蓋資源和行動協調、法律和倫理指導、數據規則、數據能力等要素的數據基礎設施評估制度;提出涉及本科生和博士生的學校教育制度;提出涉及“招聘、任職、晉升”全流程的在職教育制度;建議出臺支持跨學校、跨領域的合作制度與穩定的資助制度。4)規則層面。從數據質量管理、數據隱私與倫理保護、數據安全工作等方面入手,在現有法律和技術框架的基礎上形成新的法律治理框架。
其一,環境要求。2021年7月,教育部等六部門發布《關于推進教育新型基礎設施建設構建高質量教育支撐體系的指導意見》,提出將信息網絡、平臺體系、數字資源、智慧校園等新型基礎設施作為建設重點方向,到2025年基本形成結構優化、集約高效、安全可靠教育信息基礎設施體系的建設目標[5]。以國家大數據、新基建戰略為引導,我國高等教育正處于依托新基建打造“數字底座”,激發教育變革內生動力,推動教學科研數字轉型、智能升級、融合創新,邁向高質量發展的關鍵轉型期。科研大數據基礎設施建設是教育新型基礎設施建設的重要內容,新發展階段,需要高校圖書館及其他參與方在系統研究的基礎上形成對數字化趨勢和用戶市場需求的精準洞察。其二,使命要求。高校圖書館的核心使命是促進知識傳播和管理。大數據環境下,學術知識的表現形式非常豐富,研究過程中產生的數據、會議演示、學者間的在線討論、持續的社區討論、公開的同行評審、數據再利用、正式或非正式學術活動成果等共同構成科研大數據的內容載體。作為學術社區的重要基礎設施,高校圖書館需要從提供服務支持、發展合作網絡、強化人才培育等三個層面發力,積極參與到高校以“融合、協同、智能、安全、開放”為特征的科研大數據基礎設施建設中去,讓數據存得了、流得動、用得好[6],增強科研大數據基礎設施的彈性,提升學術社區的科研生產力、靈活性和創新性。
高校圖書館應精準把握科研大數據支持服務內涵,遵循高校大數據基礎設施建設行動路線,聚焦數據、服務、制度和規則等維度的要素建設,從科研數據全生命周期管理視角出發,從數據接入、存儲、計算、管理和賦能等五個方面入手,強化高校圖書館的數據采集、存儲、計算和管理服務,同時從數據治理全流程視角出發,從數據戰略、數據架構、數據質量、數據標準、數據應用、數據安全等多個層面切入[7],提供嵌入式科研大數據支持服務。具體來說:1)高校圖書館應基于“國家數字圖書館工程”這一信息基礎設施,以數字館藏為核心,盤活已有數據庫、機構知識庫等數字資源,開放訪問接口,通過與其他高校圖書館、開放知識庫的聚合關聯,建設高校圖書館“大數據”體系,使其成為科研大數據底座中的重要組成部分。2)高校圖書館應立足長期開展嵌入式科研支持服務經驗,繼續加強圖書館與科研人員間的溝通和了解,締結相互信賴的友好關系,通過實地調研,精準了解科研人員的研究經歷、面臨的挑戰以及最迫切的需求,針對性地完善科研大數據支持服務。3)高校圖書館應立足于其在知識組織領域的專長,通過強化數據集館藏建設、加強數據管理、參與數據集標準化建設等具體路徑落實科研大數據支持服務。高校圖書館需要科學制定數據集館藏發展規劃,合理分配預算,建立數據集采購決策的評估機制,加強與供應商的協商,獲得更多授權和許可,在法律允許范圍內保障數據集的合理使用[8]。在數據集館藏建設過程中,高校圖書館可通過智能采集技術自動捕獲科研人員的產出,協助學術社區建立共享數據集[9]。同時,高校圖書館應積極創建并維護管理組織的數據資產清單(數據目錄),開發數據管理工具包,構建數字資產管理系統,并面向用戶提供數據管理課程培訓和咨詢服務。此外,為了推進數據集的標準化建設,高校圖書館應探索建立符合開放共享要求的元數據通用描述標準和交叉鏈接框架,加快推出共享數據的標準格式和開放API等。
高校開展科研大數據服務對圖書館員及科研人員均提出更高的職業能力要求,高校科研人員及科研辦公室在獲得科研支持和強化科研合作方面,對高校圖書館服務的期望值越來越高。未來圖書館員將承擔科研大數據資源建設、科研大數據知識管理、科研人員數字科學技能培育等更多職責。因此,高校圖書館應順應科研大數據基礎設施建設和發展趨勢,構建與之契合的人才培育模式,助力培養具有數字思維能力和數據分析素養的專業人才。具體來說:一是要革新教學理念并創新教學模式。根據大數據研究支持需求,動態調整館員培養目標與核心培訓內容,推動傳統LIS(LIBRARY AND INFORMATION SCIENCE)課程與數據科學的加快融合,關注跨學科的復合型數據科學能力和實踐應用能力培養,采用靈活的授課和認證模式,開展多元化的圖書情報專業人才培育[10]。二是要營造館內濃郁的大數據服務氛圍。通過線上線下授課、工作實踐、論壇交流、會議研討等多種形式,打造涵蓋大數據通識教育、專項教育和拓展教育的館員在職學習培訓體系。三是要面向館員和用戶開展大數據服務專項培訓。結合科研人員需求,高校圖書館明確專項培訓目標、培訓路徑與實施策略,通過訪談、問卷、實地觀察等方式深入調研不同專業、不同層次科研人員的數據科學能力培訓需求,制定分層次、分類別、針對性的培訓計劃,融合采用視頻教學、專題研討、個性指導等方法,既關注大數據科學服務理念和實際操作技能間的平衡,又重視不同專業科研人員大數據科學能力發展的均衡,通過定制化、個性化培訓工具包的開發,滿足差異化的人員培訓需求[11]。
高校科研大數據基礎設施建設過程中涉及兩類合作網絡的構建,一是學術社區間科研人員之間的合作網絡,二是大數據產業鏈中多方參與主體的合作網絡。為更好地開展科研大數據支持服務,高校圖書館需要不斷拓展科研合作網絡建設。具體來說:一是要積極打造開放的學術平臺。高校圖書館可以依托館藏大數據為圓心,延伸服務半徑,輻射學術社區,搭建開放式的區域平臺,打造線上與線下結合的交流論壇和聯盟,開發開放平臺配套工具和技術,促進跨學科和跨部門的協同合作[12]。二是要探索制定促進科研共享與協作的激勵機制。從主體角度出發,高校圖書館應樹立共享與協作的組織文化和價值觀,通過文化引導,激發參與主體的共享協作動機。同時,高校圖書館應提供數據咨詢服務,培養用戶數據素養,提升用戶知識共享的直接收益和協同收益[13],不斷強化科研人員共享與協作的主觀意愿。從載體角度出發,圖書館應通過明確數據標準、規范數據來源和數據質量,消除科研人員共享與協作過程中的各種顧慮,在互惠基礎上建立信任關系。從績效角度出發,圖書館應將數據組織與共享納入科研評價,激勵科研人員間的共享與協作[14]。三是要締結多方參與共建基礎設施的友好關系。高校圖書館應充分利用自身對相關參與方需求的深刻理解,以及長期合作過程中與相關參與方形成的信任與默契,發揮協調者角色,促進多方參與者達成共同目標和進行持續溝通。同時,高校圖書館應充分發揮其作為科研關鍵合作伙伴的作用,牽引科研模式和科研支持服務的變革,向合作網絡施加影響,進而引領催生合作社區在服務模式、合作模式、業務流程等方面的重組變革,為大數據研究提供更為智能化的服務支持。
建設科研大數據基礎設施將打造一個全新的科研場景,更好地滿足科研人員跨學科共享、協作和創新的需求,為科研發展提供強大驅動力。從典型方法、工作流程、科研產出、機遇挑戰等方面對科研過程進行全景式認知,有助于科研大數據基礎設施建設參與方整體把控。高校圖書館作為重要的參與方之一,需要以數據為核心,盤活已有數據中心、機構知識庫等資源,加強數據匯聚和數據治理,從框架流程、政策和技術等維度入手,強化數據監護[15],不斷完善科研大數據服務體系,提供貫穿數據采集、存儲、計算、管理和使用的全生命周期科研大數據支持服務。同時,作為科研人員最重要的合作伙伴,高校圖書館應把握科研大數據基礎設施建設機遇,立足自身優勢,從強化數據服務、拓展合作網絡、重視隊伍培訓三個維度發力,打造開放的科研服務生態,釋放科研數據的價值紅利。