小數據思維下的文獻資源建設創新研究

2020-09-26 09:51:32孫東瑩

河南圖書館學刊 2020年8期

關鍵詞：圖書館

孫東瑩

摘?要：文章分析了高校圖書館建設小數據庫的可行性，設計了建設小數據庫的步驟，提出了小數據庫建設過程中需要注意的問題，以期優化館藏資源結構，助力高校“雙一流”建設。

中圖分類號：G250文獻標識碼：A文章編號：1003-1588（2020）08-0074-03

關鍵詞：小數據;小數據庫;圖書館;資源建設

1?小數據概念介紹

“互聯網+”時代，大數據已深入社會的各個領域，圖書館也積極利用大數據開展創新服務和相關研究，如智慧圖書館研究、學科創新服務等。大數據具有海量（Volume）、多樣（Variety）、快速（Velocity）、價值密度低（Value）等特性[1]。大數據專家舍恩伯格在《大數據時代：生活、工作與思維的大變革》一書中指出，大數據時代人們對待數據的思維方式將發生三個變化：一是人們處理的數據從樣本數據變成全部數據。二是由于是全部數據，人們不得不接受數據的混雜性，而放棄對精確性的追求。三是人們通過對大數據的處理，解決問題的思維方式由追求因果關系轉向關注相關關系[2]。

與大數據相對應的是小數據，小數據指以個人為中心的全方位數據，包括被采集對象的生活習慣、身體狀況、社交、財務、喜好、情緒、行為等數據[3]。隨著現代科技的發展，數據管理者可通過移動技術、傳感器及可穿戴設備等采集個體信息，并對采集到的信息進行整理、分析，構建具有個人特色的數據系統，并對個人的特性、社會關系、需求和行為進行精準分析與預測。小數據是特定領域的樣本數據，具有個性化、精確性和隱蔽性等特點。與大數據擁有海量信息不同，小數據的樣本數量有限;與大數據采用相關關系分析不同，小數據采用因果關系分析。

圖書館可利用大數據技術快速獲取海量、多樣的數據，為自身的建設、運營和服務決策提供數據支撐。但是，大數據分析只有在整個行業或某個區域內收集巨量數據，利用Hadoop、HPCC、Storm等工具，才能使事物之間的相關關系得以呈現[4]。普通高校圖書館一般不具備這樣的技術、能力和人力資源，且整個行業的大數據分析結果未必與其實際情況相符。筆者認為，單個高校圖書館收集小數據對于自身的建設具有重要的意義。因此，高校圖書館應以用戶為中心，通過移動閱讀終端、傳感器技術、可穿戴設備、物聯網技術等方式收集與本館相關的小數據，構建具有本館用戶特點的數據系統，進而為創新服務提供參考。

2?開展小數據庫研究的意義

2018年8月，教育部、財政部與國家發展改革委聯合印發了《關于高等學校加快“雙一流”建設的指導意見》的通知，為高校指明了發展方向，“雙一流”是指建設一流大學和一流學科，走內涵式發展路線。建設一流大學和一流學科需要一流人才，因此，高校圖書館作為學校的文獻信息中心，應加強文獻資源建設，為一流人才提供優質的信息服務，滿足他們的多元化需求。如何實現資源與用戶的精準配置，已成為高校圖書館在完成資源積累后亟待解決的問題[5]。目前，高校圖書館的文獻資源建設面臨實體館藏不可取代、虛擬館藏需求量激增兩個問題，在經費有限的情況下，高校圖書館一般根據文獻采訪原則和年度采訪計劃采購文獻資源，但實際上采購的文獻資源無法滿足讀者的多元化需求，讀者滿意率也逐年下降。很多高校圖書館采取讀者需求驅動采購模式，開展了“你買書，我買單”、讀者薦購、圖書展覽等活動，以期提高館藏資源利用率，但實際效果并不明顯。因此，高校圖書館應建設小數據庫，為讀者提供精準的信息服務，最大限度地滿足讀者的多元化需求，助力高校“雙一流”建設[6]。

3?建設小數據庫

3.1?成立小數據庫建設團隊

高校圖書館應成立小數據庫建設團隊，開展數據收集、數據清洗等工作，挖掘讀者的實際需求，實現信息服務與讀者需求的精準對接。數據收集工作涉及高校圖書館、院系及行政部門，因此，高校圖書館應加強與院系及行政部門的合作，獲得學校的政策支持和技術支持。

3.2?收集數據

高校圖書館建設小數據庫需要收集讀者在學校的各種活動信息，以及使用圖書館產生的與文獻資源建設相關的數據，如基本數據、圖書館行為數據及科研數據等。基本數據包括讀者的職業、年齡、性別、專業等信息，是讀者的基本信息，這些數據來源于圖書館讀者管理系統;圖書館行為數據是指讀者在利用圖書館的過程中產生的數據，如入館時間、入館次數、推薦圖書記錄、借閱記錄、使用OPAC系統記錄、使用數據庫記錄、咨詢記錄、文獻傳遞記錄等，這些數據來源于視頻監控系統、傳感器網絡系統、讀者服務終端數據采集系統及數據庫商監控系統;科研數據包括專業建設信息和科研成果信息，如學科建設動向、教學改革動向、課程安排、科研成果、學術會議及項目實施情況等，這些數據來源于院系和行政部門等。

3.3?數據清洗

為了減少數據產生的噪音，小數據庫建設團隊需要對收集到的數據進行清洗。數據清洗是指發現并糾正數據文件中可識別的錯誤的最后一道程序，包括檢查數據一致性、處理無效值和缺失值等[7]。數據清洗是數據分析中最復雜的部分，需要花費大量的時間。小數據庫建設過程中的數據清洗主要涉及數據缺失、數據錯誤、數據邏輯錯誤、數據重復等問題[8]。對數據缺失、數據錯誤的處理，主要用刪除法和插補法。刪除法即直接將存在缺失的數據刪除，插補法是通過均值平滑、建立回歸模型、極大似然估計推算出空值等方式補全數據。數據邏輯錯誤是指數據的屬性值與實際值不符，違背了業務規則或邏輯，如：一條數據記錄的某個學生的出生日期為“1990/10/35”，超出了日期的最大值，這種錯誤的處理方法是根據相應領域知識制定約束規則，利用數學方法獲得規則閉集，自動判斷字段值是否違反規則約束。數據重復是指多次出現某一條數據，常用的檢測方法有基于排序比較思想的優先隊列算法、鄰近排序算法、多趟近鄰排序法等，針對數據重復這一問題的處理方法主要有基于相似度函數的算法、基于規則的算法、基于機器學習的算法、人機結合的算法等[9]。