伍芳芳
DOI:10.19392/j.cnki.16717341.201714245
摘要:在大數據時代,圖書館將在數據搜集、數據分析、數據處理等方面面臨巨大的挑戰,復雜數據的處理或將成為圖書館發展的方向。由此,圖書館數據科學家的作用顯得越發重要。文章主要分析了圖書館數據科學家做什么,如何培養圖書館數據科學家以適應大數據時代的圖書館發展需要。
關鍵詞:大數據;圖書館數據科學家;數據科學家;數據素養
1 數據科學家與圖書館數據科學家
數據科學家(Data Scientist)一詞是由Natahn Yau在2009年提出來的。什么是數據科學家目前還沒有統一的定義,普遍認可的是:“數據科學家是指運用統計分析、機器學習、分布式處理等技術,從大量數據中提取出對使用者有意義的信息,以易懂的形式傳達給使用者和決策者,并創造出新的數據運用服務的人才”。
在大數據時代,大數據具有信息類型繁多,更新速度快,綜合價值大等眾多特性,如何選擇可靠、更有價值的信息,進而進行分析、處理以為領導的戰略決策提供參考,滿足學校教學科研的需求,滿足用戶個性化服務的需要,是當今圖書情報工作人員面臨的重要挑戰。因此,圖書館員只有快速的向數據科學家轉變,才能適應大數據時代的圖書館發展需要而不被淘汰。
2 圖書館數據科學家做什么
筆者于2017年4月24日至28日在西南交通大學(九里堤校區)參加了為期5天的“圖書館數據科學家技術培訓班”,通過學習,了解了大數據理念在實踐運用中的一些成功案列;了解了信息搜集的一些成功案例;了解了使用Lucidworks Fusion對數據進行整合搜索和挖掘;了解了有關數據可視化的知識;掌握了利用Xpath來抓取京東、當當的圖書信息,以及抓取外文圖書數據庫、期刊數據庫、外文學位論文數據庫的內容。
通過學習,個人認為圖書館數據科學家可以完成以下這些工作。
2.1 采集分析圖書館各類大數據,為圖書館的建設、管理、服務提供決策支持
圖書館數據科學家的首要任務便是對各類館藏數據的采集和分析。比如對用戶的進館閱覽記錄、借閱記錄、圖書館的館藏書目檢索記錄、用戶訪問數據庫的記錄等這些用戶行為數據進行分析和處理。通過這些數據,我們可以分析用戶的訪問時間、閱讀傾向和使用習慣等,從而幫助我們分析和預測用戶的信息需求,以為圖書館的建設、管理、服務提供決策支持。因此,圖書館應重視各類數據的采集、整理和分析。
2.2 培養用戶的數據素養
目前,國外圖書館探索數據素養教育越發系統,并在長期實踐中形成了較為成熟的教育模式,就如何確定教學對象、設置教學目標、設計教學大綱、選定教學方法和實施教學評價等方面累積了豐富的經驗和成果。而縱觀國內高校,目前大學生的數據素養水平差別巨大,對數據采集、處理和利用數據的能力普遍較低,在數據倫理道德上的觀念比較薄弱。由此,高校圖書館開展對用戶的數據素養教育顯得迫在眉睫。
2.3 統計分析學校科研論文數據
圖書館數據科學家還有一個重要任務便是搜集整理學校的科研論文數據,通過分析提供科研論文分析報告,以促進學校科研水平再上新臺階。
2.4 開展大數據相關的培訓講座
為了提高學校的整體數據素養,圖書館數據科學家可以為學校的師生開展大數據相關的講座培訓。介紹數據在論文中的重要作用,因為從眾多核心期刊論文中我們可以看出,高質量的論文一般都有大量真實可靠的數據來做支撐。
3 圖書館數據科學家培養路徑
3.1 提高圖書館員的數據素養
在大數據時代,數據素養已成為21世紀公民必備的技能,尤其是在數據密集型的科研范式下,研究人員創建、獲取、存儲及運用數字科研數據的能力已成為推動科技進步、應對經濟和社會挑戰創新的關鍵,并對全球生產力、競爭力和生活質量具有潛在影響。因此,只有館員具備較高的數據素養后才有基礎和能力為用戶提供有關數據的服務以及培養用戶的數據素養。
3.2 優化圖書館員的知識能力結構
科學數據管理人才的知識結構總體上應由計算機技能、數據管理理論、管理學知識和其他相關學科知識組成。而圖書館數據科學家則應具備系統的管理學知識和豐富的管理實踐經驗,懂得數據管理的一般理論,初通計算機知識,并具有較強的執行力和組織協調能力。隨著圖書館參與科學數據管理進程的加快,數據科學家的作用越來越突出,他們是圖書館科學數據服務的領導者,主要任務是制訂圖書館數據化管理和發展戰略,因此數據科學家應該是既具備信息技術及相關理論知識,也精通管理、戰略和實踐的通才。同時,由于數據科學家所處職位和承擔的責任要求,需具備較強的規劃策劃能力、分析判斷能力以及項目執行能力,以及領導圖書館的科學數據管理隊伍的建設能力。
3.3 掌握大數據分析處理工具
由于圖書館數據科學要處理巨量的數據,因此,其必須掌握常用的數據采集工具,例如Hadoop、Spark、Map Reduce、Mahout、Xpath等,要熟悉大數據應用案例,要掌握信息可視化、數據挖掘等相關技術。
3.4 加強外語知識的學習
由于圖書館數據科學家應具備較好的信息技術及相關理論知識,要掌握大數據采集、分析和處理工具,而這些最新的理論知識、處理工具及科研成果往往都是最先出現在外文文獻中。圖書館員只有具備較好的外語水平才能理解和傳遞這些信息,否則不能充分利用它以為用戶提供服務。因此,圖書館數據科學家還應具備較高的外語水平。
4 結語
隨著信息技術不斷發展,大數據的優勢將在日常生活中體現得更加淋漓盡致,民眾也將隨著這些人性化、個性化的高滿意度服務的出現而對圖書館的服務呈現出明確和迫切的需求。
因此,各類型圖書館在未來的發展中都應高度重視和培養本單位的圖書館數據科學家,這樣才能適應大數據時代的圖書館發展需要。
參考文獻:
[1]王伯秋.數據科學家及其對圖書館未來發展的作用[J].醫學信息學雜志,2014,35(6).
[2]胡卉.國外圖書館數據素養教育最佳實踐研究與啟示[J].現代情報,2016,36(8).
[3]崔濤.圖書館視角下科學數據管理人才培養模式研究[J].圖書館建設,2017(3).
[4]朱揚勇.大數據時代的數據科學家培養[J].大數據,2016(3).
[5]田偉.大數據時代檔案館服務創新研究[J].檔案學研究,2014(5).