吳長征
(安徽警官職業學院圖書館 安徽 合肥 230031)
信息化時代,復雜多樣、海量的數據正在擴展其規模,分析處理數據信息存在愈來愈高的難度。近年來,大數據技術的興起引發各領域的密切關注與深入研究。針對圖書館來說,對已有的與剛產生的信息數據進行分析存儲,并將有用的或有價值的信息提取出來,最大限度地滿足用戶的信息需求與知識需求,直接關系到圖書館的生存發展。為適應社會信息生態的發展變化、提高圖書館的核心競爭力,需為挖掘處理數據提供一個強大的技術支撐,這就是大數據技術[1-4]。將大數據技術運用于圖書館中,能在很大程度上對圖書館所提供的服務內容進行延伸拓展,對圖書館的服務有效性進行強化,并提升用戶滿意度[2]。
圖書館中的數據大體上包括資源數據、用戶數據、業務工作數據與其他數據。其中資源數據可分為采購數據庫、紙質文獻、電子文獻、光盤等;用戶數據除了用戶的基本信息外,還有圖書館資源使用數據,比如書刊的借閱、瀏覽網頁的痕跡、數字圖書館使用記錄,以及參加圖書館開展的活動后所產生的數據;業務工作數據指的是在業務培訓、采編、咨詢等工作方面產生的信息數據;監控、網絡監測、電子終端設備等所產生的數據也是圖書館數據的一部分。大數據技術作為分析、處理與應用數據的重要手段,其在圖書館中的應用邏輯架構大致分為以下幾層:數據采集與預處理、數據存儲、數據計算與挖掘、數據檢索與利用。
數據的來源是多種多樣的,故數據格式或存在形式也有所不同,大致分為結構化數據、非結構化數據、半結構化數據[3]。(1)結構化數據。其是整齊格式化的數據,可用二維表結構進行邏輯表達,可被放入表格或者電子表格中,由關系數據庫進行存儲和保管,而且使用結構化查詢語言(SQL)可搜索到這些數據,便于被人們運用。對于這一數據類型,可以運用批量采集的方法,比如用戶的信息等。(2)非結構化數據。非結構化數據不易格式化、字段可變,是不符合統一模式的數據,不能用二維表進行表達,由非關系數據庫進行存儲,而且需使用非結構化查詢語言(NoSQL)來查詢。在所有的數據中,非結構化數據所占比例可達90%,比如圖像、聲音、視頻以及用戶社交信息等。對于這一數據類型,可采用實時采集的方法。(3)半結構化數據。半結構化數據盡管具有結構,但不便于模式化,沒有關系性,可被存儲于某個指定的關系數據庫。這種類型數據包括XML、JSON等,對其可用實時采集的方法。一般來說,計算機系統會自動部署采集圖書館中的各類型數據,然后將采集的原始數據進行預處理,通過加工、轉換、集成的方式,使數據變得適于分析與挖掘,比如針對通過實時采集方法獲得的數據,可用Flume進行預處理。
也就是通過云存儲、HBase等手段將預處理后的數據進行存儲。對于圖書館來說,確保數據得到有效存儲是能提供給用戶信息服務的前提。以列式HBase存儲方式為例,這種存儲方式能將同列數據保存在一起,當用戶想要讀取數據庫中的幾列數據時,不必從全部數據中進行查詢,而是以列為索引來查找數據即可。這種存儲方式多用于存儲非結構化數據和半結構化數據。由于圖書館中的數據量非常龐大,為實現對數據快速高效的查找,列式HBase分布數據庫具有明顯的優勢。
圖書館中的數據具有多樣化的形態,故分析計算的方式各異,且有待我們深入探究。比如可通過MapReduce分布式并行計算框架或者Spark基于內存的分布式計算框架實現對靜態數據的分析處理,通過Pregel圖計算框架實現對圖結構數據的分析處理,通過Storm流計算框架實現對網絡監測流數據的分析處理等。目前數據網絡挖掘、特異群組挖掘等數據挖掘技術以及大數據融合技術還有待進一步開發。對數據進行分析、挖掘與提取的整個過程,是在集群分布式監控下完成的。
對于處理好的、有用的信息數據,用戶可通過搜索界面來獲取,從而解決信息、知識等方面的問題。
結合圖書館的發展規劃與學科專業需求,可運用大數據技術準確、科學地制定一套采購計劃,促進圖書利用率的提升。了解已有的館藏資源,對服務器中的用戶請求數據信息進行收集,并且獲取其他圖書館借閱書目的信息,以及銷售商的圖書銷售情況,從而提前列出圖書采購清單。然后將訂購的圖書送到樣本庫,分析統計圖書的查找率與借閱率,再針對圖書的流通情況推斷用戶需求量,進而明確增訂圖書復本,從而避免圖書資源的浪費,加快圖書的流通,也在很大程度上提高圖書館采購經費的使用效益,并為給用戶提供更好地服務奠定良好的基礎。
基于圖書、用戶與知識等三個層面,通過大數據技術分析用戶的服務需求、知識需求等,從而精準地預測圖書館的未來走向。從圖書的角度出發,圖書館通過收集用戶的訪問查找數據、歷史借閱信息、系統日志數據以及閱讀習慣等形成建模,對用戶的潛在閱讀需求進行深入挖掘,對其閱讀偏好進行準確的分析推測,然后向用戶推送相關書籍及館藏信息。倘若有的用戶沒有偏好記錄,則可有針對性地推薦給用戶所需書目。從用戶的角度出發,圖書館可利用大數據技術建立用戶分類模型,形成一個可描述讀者各方面情況的數據庫,從中提取用戶群體的屬性,并按照年齡、性別、知識背景、受教育程度、專業特點、職業等因素進行細分,然后對不同層次用戶的需求進行分析,且采用定向服務,使用戶獲得精確地結果,從而提高圖書館服務效率。此外,還可結合用戶的圖書借閱歷史的重合度,利用推薦系統尋找相關性讀者,并根據相關讀者的閱讀偏好來推薦書籍。從知識的角度出發,推薦系統通過分析用戶的借閱數據,推測某一圖書與用戶需求之間的關系,從而獲取用戶在某研究領域的潛在的專業知識需求。比如對于科研人員來說,大數據技術可以幫助其分析出該領域與相關領域的研究進展情況,以及最新的科研成果與科研發展方向,從而使科研人員做出正確的科研決策。
大數據技術可使用戶的咨詢避免受到時間和空間的影響,實現用戶與圖書館員之間的個性化互動,這樣便深化了參考咨詢服務的層次。總體分為三種情況:一是用戶可以在圖書館咨詢平臺中直接提問,平臺將用戶請求的信息傳遞給圖書館員,然后圖書館員會通過微信微博等途徑來回答用戶的問題,從而實現有針對性地、高效的實時咨詢服務。二是將多個圖書館的人力資源、文獻資源進行整合,形成一個體系,倘若其中一個圖書館不能解答用戶提出的問題,圖書館平臺對關聯的其他圖書館進行搜索,并尋找幫助,從而實現聯合式的參考咨詢服務。三是圖書館會提前對某些問題的解答進行整合與收錄,用戶可借助服務平臺進行搜索,平臺會對各種問題進行篩選,直至用戶找到所需答案,這樣便實現了用戶與圖書館員之間的非即時性互動。即使用戶不滿意所獲得的答案,也能以電話、電子郵件的形式咨詢圖書館員。
隨著科學技術的更新與飛速發展,大數據技術的出現為圖書館發展帶來了新的契機。大數據技術可以幫助圖書館有效存儲龐大的信息數據量,從海量信息中挖掘、提取出有價值的信息數據,同時可以深入了解用戶需求,強化對用戶的針對性、個性化服務,對知識分享的方式方法進行優化,從而為圖書館未來發展指引方向,提升圖書館的綜合實力。