孫東瑩


摘?要:文章分析了高校圖書館建設小數據庫的可行性,設計了建設小數據庫的步驟,提出了小數據庫建設過程中需要注意的問題,以期優化館藏資源結構,助力高校“雙一流”建設。
中圖分類號:G250文獻標識碼:A文章編號:1003-1588(2020)08-0074-03
關鍵詞:小數據;小數據庫;圖書館;資源建設
1?小數據概念介紹
“互聯網+”時代,大數據已深入社會的各個領域,圖書館也積極利用大數據開展創新服務和相關研究,如智慧圖書館研究、學科創新服務等。大數據具有海量(Volume)、多樣(Variety)、快速(Velocity)、價值密度低(Value)等特性[1]。大數據專家舍恩伯格在《大數據時代:生活、工作與思維的大變革》一書中指出,大數據時代人們對待數據的思維方式將發生三個變化:一是人們處理的數據從樣本數據變成全部數據。二是由于是全部數據,人們不得不接受數據的混雜性,而放棄對精確性的追求。三是人們通過對大數據的處理,解決問題的思維方式由追求因果關系轉向關注相關關系[2]。
與大數據相對應的是小數據,小數據指以個人為中心的全方位數據,包括被采集對象的生活習慣、身體狀況、社交、財務、喜好、情緒、行為等數據[3]。隨著現代科技的發展,數據管理者可通過移動技術、傳感器及可穿戴設備等采集個體信息,并對采集到的信息進行整理、分析,構建具有個人特色的數據系統,并對個人的特性、社會關系、需求和行為進行精準分析與預測。小數據是特定領域的樣本數據,具有個性化、精確性和隱蔽性等特點。與大數據擁有海量信息不同,小數據的樣本數量有限;與大數據采用相關關系分析不同,小數據采用因果關系分析。
圖書館可利用大數據技術快速獲取海量、多樣的數據,為自身的建設、運營和服務決策提供數據支撐。但是,大數據分析只有在整個行業或某個區域內收集巨量數據,利用Hadoop、HPCC、Storm等工具,才能使事物之間的相關關系得以呈現[4]。普通高校圖書館一般不具備這樣的技術、能力和人力資源,且整個行業的大數據分析結果未必與其實際情況相符。筆者認為,單個高校圖書館收集小數據對于自身的建設具有重要的意義。因此,高校圖書館應以用戶為中心,通過移動閱讀終端、傳感器技術、可穿戴設備、物聯網技術等方式收集與本館相關的小數據,構建具有本館用戶特點的數據系統,進而為創新服務提供參考。
2?開展小數據庫研究的意義
2018年8月,教育部、財政部與國家發展改革委聯合印發了《關于高等學校加快“雙一流”建設的指導意見》的通知,為高校指明了發展方向,“雙一流”是指建設一流大學和一流學科,走內涵式發展路線。建設一流大學和一流學科需要一流人才,因此,高校圖書館作為學校的文獻信息中心,應加強文獻資源建設,為一流人才提供優質的信息服務,滿足他們的多元化需求。如何實現資源與用戶的精準配置,已成為高校圖書館在完成資源積累后亟待解決的問題[5]。目前,高校圖書館的文獻資源建設面臨實體館藏不可取代、虛擬館藏需求量激增兩個問題,在經費有限的情況下,高校圖書館一般根據文獻采訪原則和年度采訪計劃采購文獻資源,但實際上采購的文獻資源無法滿足讀者的多元化需求,讀者滿意率也逐年下降。很多高校圖書館采取讀者需求驅動采購模式,開展了“你買書,我買單”、讀者薦購、圖書展覽等活動,以期提高館藏資源利用率,但實際效果并不明顯。因此,高校圖書館應建設小數據庫,為讀者提供精準的信息服務,最大限度地滿足讀者的多元化需求,助力高校“雙一流”建設[6]。
3?建設小數據庫
3.1?成立小數據庫建設團隊
高校圖書館應成立小數據庫建設團隊,開展數據收集、數據清洗等工作,挖掘讀者的實際需求,實現信息服務與讀者需求的精準對接。數據收集工作涉及高校圖書館、院系及行政部門,因此,高校圖書館應加強與院系及行政部門的合作,獲得學校的政策支持和技術支持。
3.2?收集數據
高校圖書館建設小數據庫需要收集讀者在學校的各種活動信息,以及使用圖書館產生的與文獻資源建設相關的數據,如基本數據、圖書館行為數據及科研數據等。基本數據包括讀者的職業、年齡、性別、專業等信息,是讀者的基本信息,這些數據來源于圖書館讀者管理系統;圖書館行為數據是指讀者在利用圖書館的過程中產生的數據,如入館時間、入館次數、推薦圖書記錄、借閱記錄、使用OPAC系統記錄、使用數據庫記錄、咨詢記錄、文獻傳遞記錄等,這些數據來源于視頻監控系統、傳感器網絡系統、讀者服務終端數據采集系統及數據庫商監控系統;科研數據包括專業建設信息和科研成果信息,如學科建設動向、教學改革動向、課程安排、科研成果、學術會議及項目實施情況等,這些數據來源于院系和行政部門等。
3.3?數據清洗
為了減少數據產生的噪音,小數據庫建設團隊需要對收集到的數據進行清洗。數據清洗是指發現并糾正數據文件中可識別的錯誤的最后一道程序,包括檢查數據一致性、處理無效值和缺失值等[7]。數據清洗是數據分析中最復雜的部分,需要花費大量的時間。小數據庫建設過程中的數據清洗主要涉及數據缺失、數據錯誤、數據邏輯錯誤、數據重復等問題[8]。對數據缺失、數據錯誤的處理,主要用刪除法和插補法。刪除法即直接將存在缺失的數據刪除,插補法是通過均值平滑、建立回歸模型、極大似然估計推算出空值等方式補全數據。數據邏輯錯誤是指數據的屬性值與實際值不符,違背了業務規則或邏輯,如:一條數據記錄的某個學生的出生日期為“1990/10/35”,超出了日期的最大值,這種錯誤的處理方法是根據相應領域知識制定約束規則,利用數學方法獲得規則閉集,自動判斷字段值是否違反規則約束。數據重復是指多次出現某一條數據,常用的檢測方法有基于排序比較思想的優先隊列算法、鄰近排序算法、多趟近鄰排序法等,針對數據重復這一問題的處理方法主要有基于相似度函數的算法、基于規則的算法、基于機器學習的算法、人機結合的算法等[9]。