

[摘要]在對國外科學數據管理人才培養實踐進行調查分析的基礎上,參考科學數據生命周期模型,可將科學數據管理人才分為科研嵌入與咨詢人才、數據凈化人才、數據挖掘人才、數據開放人才和數據科學家5大類。科學數據管理人才的職業素質要求應從基本素養、知識結構、智能結構3個方面進行提升。我國圖書館科學數據管理人才的培養模式應從以下方面考慮:確定科學數據管理人才培養的指導思想,形成多類型、多層次的科學數據管理人才培養體系;明確科學數據管理人才的培養目標,完善數據管理專業教育課程體系;實行多種形式的培養體制。
[關鍵詞]圖書館 科學數據管理人才分類模型 培養模式
1.引言
2012年,美國大學與研究圖書館協會(Association of College and Research Libraries,簡稱ACRL)對其成員館開展科研數據服務(Research Data Services,簡稱RDS)情況的系統調查發現,大多數圖書館尚未提供科研數據服務,但絕大部分圖書館計劃在未來提供此類服務;2014年對同一樣本成員館進行的后續調查卻發現,提供RDS的圖書館的比例變化很小。對于樣本中多數圖書館館長的后續訪談表明,圖書館參與RDS水平長時間保持不變主要是由科學數據管理人才短缺造成的。2016年3月,世界五大圖書館機構——北美研究圖書館協會(Association of Research Libraries,簡稱ARL)、加拿大研究圖書館協會(Canadian Association of Research Libraries,簡稱CARL)、澳大利亞高校圖書館員理事會(Council of Australian University Librarians,簡稱CAUL)、歐洲研究圖書館協會(Ligue des Biblioth6ques Europeennes de Recherche-Association of European Research Libraries,簡稱LIBER)和英國研究圖書館(Research Libraries UK,簡稱RLUK)的執行理事在英國國家圖書館召開以科研數據管理與學術記錄保存為重點的聯合會議。會議指出,當前學術環境下,科學數據作為學術記錄的重要組成部分,一方面能夠保證科學研究的透明度,另一方面又能夠加快科技創新的速度,有效的科學數據管理至關重要,數據人才培養問題受到關注。隨后,英國圖書館館長學會(Society of Chief Librarians,簡稱SCL)與英國圖書館與情報專家學會(Chartered Institute of Library and Information Professionals,簡稱CILIP)共同宣布啟動了一項新計劃,該計劃旨在創建一個“英國公共圖書館技能戰略”,用于幫助圖書館培養各類科學數據服務人才,開發數字技能,以確保圖書館能繼續滿足當今密集型科研的數據需求。不難看出,在開放科學環境下,科學數據管理人才是圖書館開展科學數據服務的關鍵。
一直以來圖書館在信息收集與處理方面有著傳統的優勢,在E-science環境下,圖書館的這些優勢表現為對整個科研周期提供科研數據服務,而數據管理人才的科學配置是圖書館成功開展科研數據服務的基本前提。筆者通過文獻調研發現,國內關于科學數據管理人才的研究鳳毛麟角。黃如花等人認為,科學數據共享的前提是培養科學數據管理的相關人才。司莉等人通過對iSchool院校科學數據管理人才課程及相關培訓計劃的分析,提出了培養目標以及培養形式,指出人才的培養成為當前LIS教育關注的現實問題。馬海群等人則從大數據背景下數據處理需求角度出發,將數據人才分為數據技術人才、數據管理人才、數據安全人才等7種類型,并提出圖書情報學科對數據人才培養的路徑。以上研究在一定程度上參照國外崗位設置情況探索了科學數據管理人才體系的建設路徑,但沒有對科學數據人才進行分類結構模型的構建與探討。筆者認為,科學數據服務將逐漸成為信息服務業的重要組成部分,科學數據管理人才的科學配置關乎科學數據服務能否融入到信息服務業并得到迅速發展。圖書館只有擁有一支結構合理、素質精良的人才隊伍,才能發揮其主觀能動性和創造力,最大限度地滿足科研用戶的數據需求。
2.國外高校圖書館科學數據管理人才培養體系調查分析
分析國外研究機構針對圖書館科學數據服務的調查報告,可以了解國外圖書館所開展的科學數據服務情況以及所設置的主要數據管理人才類型。本文研究信息來源于ACRL的早期報告Academic Libraries and Research Data Services與最近LIBER發布的報告LIBER Survey on Research Data Services,這兩份報告展示了各協會對其學術成員館開展科學數據服務情況的調查結果,結合各高校圖書館網站及相關網站的發布信息,筆者歸納出當前歐美學術圖書館所培養的主要科學數據管理人才類型以及各自負責的主要服務(見表1)。
從表1中我們可以看出,對于科學數據管理人才的角色定位,國外圖書館界尚未形成統一的稱謂。不同高校圖書館開展的科學數據服務活動有各自的側重點,對科學數據管理人才的素質要求也有一定差別。總體來看,服務形式主要有以下3種:
(1)咨詢與驗證服務,了解科研資助機構和學術出版者的數據政策,為科研工作者和數據用戶提供各類數據咨詢協助以及科學數據收集與出版前的確認工作。
(2)可視化與存儲服務,與IT部門、數據中心合作,負責數據的價值轉換與保存工作。
(3)協調與培訓服務,協調科學數據各類業務以及人員調度,負責服務人員的培訓工作。
3.圖書館科學數據管理人才分類模型構建與能力要求
3.1科學數據管理人才分類模型構建
DATAONE(Data Observation Network for Earth)科學數據生命周期管理模型將數據監管周期分為計劃、收集、確認、描述、保存、發現、整合和分析等步驟,結合表l,按照服務方式不同,筆者將圖書館科學數據管理人才分為科研嵌入與咨詢人才、數據凈化人才、數據挖掘人才、數據開放人才和數據科學家5大類(見圖1)。
科研嵌入與咨詢人才是圖書館開展科學數據服務的“先行軍”,要參與到數據生命周期鏈的上游——數據源階段,主要服務于科學數據擁有者——科研人員,其需要參與到科研工作者的科研活動中去,因此要對項目原始數據、派生數據以及結果數據有整體而全面的認識。幫助制訂數據管理計劃(Data Management Plan,簡稱DMP)是他們的工作重點。自2011年美國國家科學基金會(National Science Foundation,簡稱NSF)首次制訂DMP以來,許多政府機構和其他研究資助者紛紛效仿,要求項目申請人提交項目申請提案的DMP。DMP是項目資助申請能否成功的關鍵,直接影響到圖書館后續數據服務的效率。這就要求該類人才及時掌握相關的數據政策信息,幫助科研團體量身擬定和提交全面、可操作的DMP。在數據搜集時,該類人才應本著系統性和完整性的原則,確定合適的元數據方案、數據篩選機制等,為后期的科學數據管理工作奠定基礎。
數據凈化人才是科學數據質量的保證者,負責科學數據的驗證和描述。當前,科學數據質量良莠不齊,數據造假與剽竊等數據污染現象時常發生。數據凈化人才需要對共享的科學數據進行完整性和真實性驗證,將錯誤、模糊、重復的科學數據剔除,確保正確、精準的數據得以保存和再利用;對科學數據進行驗證,從而保證科研數據的真實性和實用性,并凈化科研環境,保證科學數據服務工作的質量;另外,數據凈化人才還應使用統一的元數據標準,對不同結構的科研數據加以規范化處理;同時,數據凈化者在數據加工過程中要注意描述的完整性,具體應包括題名項、主題詞項、描述項、語言項、關聯項和覆蓋范圍項等主要元數據項。
數據挖掘人才是科學數據二次價值的創造者,負責數據的分析、整合與數據引用索引的編制,旨在開發科學數據的潛在價值。數據挖掘工作是數據重用的關鍵步驟,會大大節約科學數據的獲取成本。數據挖掘人才需掌握各種數據統計分析工具的使用方法,如SPSS、SAS、STATA等,善于從數據中發現知識并加以整合。在數據標引時,一方面要完整地展現數據擁有者的版權信息,另一方面要本著方便檢索利用的原則,使數據使用者更加快捷方便地獲取所需的目標數據。
數據開放人才是科學數據的傳播者,主要負責數據的保存、利用與可視化,旨在提供個性化數據共享服務。科學數據的備份與存儲是數據重用和共享的前提條件,數據丟失將會嚴重影響未來學術的發展。The Keepers Registry是英國愛丁堡大學EDINA中心和ISSN國際中心共同創建的項目,近日,項目組發表了“攜手合作確保數字學術記錄的未來可得性”聲明,重申了科學數據保存的重要性。數據開放人才應有現代信息技術開發和應用能力,通過搭建底層數據倉庫與科學數據共享平臺加快數據服務于科研的速度。同時,數據開放應本著對用戶負責的原則,指導用戶依據相關標準進行數據引用。用戶積極的數據引用行為是推廣數據引用工作的基礎,也是推動科研信用體系建設、實現科研與數據透明性的具體表現。這類人才是科學數據管理人才的主體,在數據管理人才結構中所占的比例較大。對科學數據的發布機制進行詳細規范,對科學數據的傳播引用、出版需進行嚴格的控制,
數據科學家是圖書館科學數據戰略規劃藍圖的制定者,領導科學數據管理項目,負責數據基礎設施和機構知識庫的建設,善于權衡、調和各項數據相關利益群體的關系,如可以根據與數據出版商的利益契合點展開合作,成為數據庫商獲取科學數據資源的媒介,并積極協助處理好此過程中的知識產權問題。另外,圖書館作為科研服務機構,可以主動為高校師生提供新技能培訓,為填平新出現的“技能鴻溝”做出貢獻。作為高級決策人員,數據科學家應不定期地組織開展數據素養教育以保持圖書館員素養的先進性。實際上,已經有不少圖書館正在嘗試將職業培訓作為圖書館服務的一項新內容。
3.2科學數據管理人才的能力要求
3.2.1基本素養
圖書館參與科學數據服務,應將重點逐漸從提供閱讀向更廣泛的數據信息共享轉移,這對管理人員的基本素質提出了更高的要求。與傳統圖書館工作人員具備的“3R(reading,writing and arithmetic)”素質相比,科學數據管理人才應具備多元素養能力。所謂“多元素養”,指的是包含信息、數據、技術等在內的素養。
信息素養是數據素養的前提,所謂信息素養,或稱為信息能力、信息素質,是指運用信息技術高效獲取、利用和評價信息的能力。它包括信息學專業基礎知識,以及對信息的敏感度和信息獲取、整理、利用、評價的能力。數據素養是信息素養的拓展,更多地關注科學數據,具體包括數據意識、數據能力和數據倫理,是圖書館數字化驅使下管理人員的職業技能要求。技術素養是信息素養和數據素養的保障,是圖書館搭建科學數據共享平臺、提供個性化服務的基本技能。
事實上,國外很多大學已把多元素養課程納入公共課序列,還有大學將多元素養教育并入圖書館,使之成為其圖書館業務的組成部分。可見,科學數據管理人才的培養要以多元素養教育為基準。
3.2.2知識結構
科學數據管理人才的知識結構總體上應由計算機技能、數據管理理論、管理學知識和其他相關學科知識組成。就個體而言,不同層次科學數據管理人才的知識結構有所側重。科研嵌入與咨詢人才必須全面系統地掌握數據管理的基礎理論和研究方法,密切關注科研最新動態與相關基金組織的數據政策,時刻與科研人員進行溝通協調,協助制訂完善的科學數據管理計劃。數據凈化人才除了具有利用元數據對科研數據進行揭示描述的能力外,還要具備使用數據驗證工具的能力和對科學數據進行管理的能力,學會運用數據分析和驗證工具,對大量的原始數據進行檢索、組織、校對和確認。數據挖掘人才要有關于信息分析和信息標引的專業知識,包括掌握各種數據統計分析軟件的運用能力。數據開放人才最好受過計算機及相關專業的高等教育,有系統全面的信息技術背景知識,掌握數據存儲結構設計相關知識。數據科學家則應具備系統的管理學知識和豐富的管理實踐經驗,懂得數據管理的一般理論,初通計算機知識,并具有較強的執行力和組織協調能力。隨著圖書館參與科學數據管理進程的加快,數據科學家的作用越來越突出,他們是圖書館科學數據服務的領導者,主要任務是制訂圖書館數據化管理和發展戰略,因此數據科學家應該是既具備信息技術及相關理論知識,也精通管理、戰略和實踐的通才。
3.2.3智能結構
人的智能結構一般包括思維觀察能力、組織管理能力和學習創新能力等方面。不同類型的科學數據管理人才,因其工作性質不同,智能結構亦有所側重。科研嵌入與咨詢人才一般具有較高的理論素養,較強的邏輯思維能力,靈敏的數據嗅覺意識,基本的數據管理知識和技能以及相關的數據政策、數據倫理等,善于與科研人員溝通,能夠嵌入到科研團隊中,從而了解科學數據信息流的整個生命周期過程;數據凈化人才應該具有較強的思維觀察能力,要十分熟稔學術道德和學術倫理并能嚴格遵守學術研究規范,相信科學但敢于懷疑權威,在數據審核時做到公平、公正,心理品格應持之以恒,有敢于創新的科學精神;數據挖掘人才應具有創造性思維以及動手操作能力,善于發現數據的潛在價值并加以整合利用;數據開放人才應具有一定的數據級別計量的能力和數據安全服務意識,數據級別計量是主要和數據發布與數據引用相關的計量,數據開放人才應判斷不同學科領域的科研數據發布時所應包含的主要元數據內容,進而計算數據發布后的影響力,以及精確地計算數據擁有者的數據貢獻,使數據管理工作更為全面、系統和科學;數據科學家由于所處職位和承擔的責任要求,需具備較強的規劃策劃能力、分析判斷能力以及項目執行能力,以及領導圖書館的科學數據管理隊伍的建設能力。
4.圖書館科學數據管理人才的培養模式
4.1確定科學數據管理人才培養的指導思想,形成多類型、多層次的科學數據管理人才培養體系。
科學數據管理人才培養應以專業教育為主,素養教育為輔。專業教育以人才需求為起點,根據各類人才的主要工作內容有針對性地進行特長技能的訓練,如科研嵌入與咨詢人才應以科學數據管理計劃相關知識為重點,包括制定規范、構成要素、DMPTool與DMPonline等工具的使用等;數據凈化人才應以數據辨識能力和不同學科領域的元數據標準使用能力為培養重點;數據挖掘人才的培養重點是各類數據挖掘算法和統計分析工具使用能力的培養;數據開放人才則應將數據存儲系統構建、數據開放與出版機制知識作為培養重點;數據科學家是科學數據服務的帶頭人,領導與執行能力的培養是必不可少的。多元素養是未來圖書館工作人員的基本素養,所以科學數據管理人才還要以多元素養能力為參照基準進行素養教育。總之,科學數據管理^、才培養的指導思想應以數據管理理論知識和數據技能應用為核心,以科學數據生命周期基本原理來考慮專業設置,施行專業教育和素養教育相結合的方式,為圖書館參與科學數據管理培養知識面寬、適應性強的應用型人才。
在我國,為了更好地實現E-science環境下對科學數據的管理,要形成包括繼續教育、本科教育、研究生教育在內的多類型、多層次的科學數據管理人才培養體系。繼續教育主要針對傳統圖書館工作人員,培養其各類數據服務技能,逐漸完成向科學數據管理人員的轉型。首先,要擴大本科生人才的培養規模,原因在于我國科學數據服務正在起步階段,人才前期培養不足,因此對該領域的人才需求更為迫切。其次,明確研究生人才的培養方向,歐美很多高校都設置了數據管理碩士認證學位,明確人才輸出方向。另外,我國在研究生培養方面,必須重視學科前沿的探索和知識面的拓展。
4.2明確科學數據管理人才的培養目標,完善科學數據管理專業教育課程體系。
我國圖情教育過去一直面向各級圖書館、科技情報部門培養人才,專業課程主要是以文獻信息管理為基礎。其知識難以覆蓋圖書館進行科學數據管理所需要的理論、技術和方法,無法滿足科學數據服務的人才需求。
科學數據管理人才的培養目標應是培養專門人才和寬口徑人才相結合。科學數據管理人才應既掌握數據管理方面的理論知識,能從層次和結構上涵蓋和滿足整個科學數據管理領域,又具備某種專業技能的人才。寬口徑,正是強調多學科知識的融合,以增強人才適應性。具體而言,可根據各高校圖書館的實際發展情況,對不同類型的科學數據管理人才進行個性化培養。
對圖書館科學數據管理人才的培養,重點是素質和能力的培養,應以科研對數據管理的需求為導向,以科學數據共享服務中所需的各類管理人才應具備的能力和素質為基準,設置相應的教育課程體系。從該思路出發,“因材施教”課程體系是可行的,科研嵌入與咨詢人才的課程體系結構應以信息管理、數據管理、信息組織與獲取等管理學課程為主;數據凈化人才的課程體系結構應以元數據使用、數據審查與評估等課程為主;數據挖掘型人才的課程體系結構應以數理統計、數據挖掘以及數據處理工具使用等課程為主;數據開放人才的課程設置應圍繞數據庫系統、數據協議、計算機網絡、數據結構、數據可視化等課程為主;數據科學家作為數據服務的高層人員,其主體課程體系應包括管理學、計算機基礎、教育學和心理學等跨領域性的課程。課程的設置在以個性化定向培養為目標的同時,還應考慮各類型人才的實踐能力培養,實踐課程與理論課程共同構成數據管理專業的課程體系。
4.3施行多種形式的培養機制
具體的培養機制方式大致如下:
(1)跨系聯合,如計算機系、電子系、管理系等聯合培養具有復合型結構的科學數據管理人才。蘭卡斯特大學將數據科學與計算機、統計學、環境科學相結合,進行跨學科的培養,有計算機與統計學方向的數據科學碩士、環境數據科學碩士兩個學位,分別由計算機與通信學院和蘭卡斯特環境中心培養。加州大學圣地亞哥分校科學數據服務主任職責之一是與圖書館學科服務項目合作,提供研究數據管理計劃支持服務。
(2)跨所(館)聯合,如愛丁堡大學與英國領先的超級計算中心EPCC聯合培養數據科學高性能計算人才。EPCC是歐洲領先的超級計算中心之一,承載了英國的國家超級計算服務,注重開展一系列數據服務相關研究,如科研數據管理、天文數據分析、開發國際數據基礎設施等,同時EPCC擁有一支經驗豐富的數據顧問和工程師團隊,他們擁有豐富的數據技術專業知識,從而為數據管理相關專業的在校生提供了大量學習與實踐的機會。
(3)跨國聯合,同國外高校聯合培養科學數據管理人才,可以利用國外較為成熟的理論體系和實踐條件,讓學生跳出本國高校的教育方式,感受國外不同的學習氛圍和方式,以彌補國內科學數據管理專業教育方式和課程設置上的不足。例如,英國倫敦國王學院和德國柏林洪堡大學之間以實習形式建立起了數據人才的聯合培養機制。當然高校還可以引進外來優秀人才,為他們開設非正式的講座,與國內學生分享管理經驗,帶動國內科學數據管理體系的建設。