摘要:隨著大數據技術在各個領域的成熟應用,圖書館的建設也越來越需要大數據及其相關技術的支持來滿足其實現智能化圖書館的必要條件。本文在基于大數據的環境下分析了當前圖書館可利用的潛在大數據資源以及這些資源對于圖書館的重要性,提出了建設智能化圖書館所需要的新的業務服務體系以及圖書館大數據平臺的建設方向,設計出圖書館服務系統的體系結構,以期為高校圖書館向未來的智能化圖書館的建設與發展提供一些新的視角。
關鍵詞:大數據;智能化圖書館;推薦系統
在21世紀,隨著社會的高速變革與發展,各領域產生的數據量日益龐大的現狀,大數據的概念隨即被提出,經過一系列發展,其相關技術已經被廣泛應用。近年來,隨著技術革新,高校圖書館也已經從原來的普通圖書館逐漸向數字化、智能化圖書館發展,其內部產生的數據已具備大數據的特點,比如高校圖書館內電子書,電子光盤等館藏資源的電子數據,還有讀者在訪問高校圖書館網站進行書目檢索或者使用手機等多種設備訪問圖書館所形成的流量,以及在高校圖書館內使用圖書館服務時候留下的一些不規則數據,這些流量與數據隨著時間流逝形成了含有挖掘價值的海量數據,通過現在成熟的大數據分析工具以及數據挖掘技術進行處理加工,就可以得到能夠對高校圖書館發展與建設起一定指導作用的有效信息。但是由于圖書館的特性,這些數據當中有很多冗余信息,如果不利用有效的手段處理,則難以將他們的作用全部發揮。
高校圖書館的建設與發展愈加需要大數據相關技術做支持,通過數據挖掘,數據分析等大數據技術使高校圖書館能夠提供更加優質的服務,包括人工服務和科學知識服務,還可以通過大數據來為用戶提供針對自身的個性服務,如書籍推薦服務等。本文通過圍繞大數據來對高校圖書館系統平臺的建設進行研究。
一、高校圖書館大數據研究現狀
(一)國外高校圖書館大數據研究發展現狀
國外高校圖書館對與大數據領域關注的比較早,其中美國對于高校圖書館與大數據的結合做了很多嘗試,比如美國哈佛大學公布了其圖書館的1200多萬種資料,包括視頻音頻,數目數據等,目的是為了促進新型應用產品的研發。約翰霍普金斯大學圖書館主持DataCon-servancy項目、開發數據監護系統等。關于技術問題的討論,Ana Kovacevic與Vladan Devedzic等人討論了使用數據挖掘技術實現高校數字圖書館的推薦服務系統,斯坦福Michelle Baldonado, Chen-Chuan K. Chang等人提出了一種可擴展的元數據體系來滿足斯坦福大學數字圖書館的用戶的檢索,遠程連接等需求。
(二)國內高校圖書館大數據研究發展現狀
國內近來也對高校圖書館大數據領域產生重視,對于技術探討方面,程結晶提出了大數據時代圖書館服務創新面臨的障礙與對策。陳近,文庭孝提出了在云環境下的圖書館大數據服務系統架構與數據存儲模式,主張將大數據與云計算結合來為圖書館服務創新做基礎。李艷,呂鵬,李瓏提出了高校圖書館大數據挖掘及決策分析體系的架構和流程及其在高校圖書館中的應用,主張構建基于高校圖書館特點的大數據挖掘與分析決策體系,利用對各類數據的采集、抽取、清洗、關聯、分析,發掘出數據的潛在價值。
關于應用平臺方面,武漢大學圖書館開始嘗試基于DSpace建立學科數據管理平臺,北京大學圖書館與國家自然科學基金-北京大學管理科學數據中心等多方共同建設開放研究數據平臺。
二、高校圖書館存在的大數據組成
對于高校圖書館,隨著圖書館的智能化程度逐漸提高,在圖書館中的固有電子數據與圖書館服務使用者產生的數據等結合在一起成為了高校圖書館的大數據。在高校圖書館中,涉及到數據產生來源有幾個方面,圖書館的館藏資源數據,用戶的行為數據等等,在這幾個來源之中,產生的數據既有結構化數據,也有非結構化數據,種類多,數據量大,具有比較高的挖掘價值。
館藏數據主要是一些靜態數據如書籍記錄,光盤與電子書等,這些數據可以作為高校圖書館大數據平臺的基礎數據。
用戶的行為數據主要包括幾個方面,首先是用戶在圖書館中產生的數據,這種數據通常包括圖書館每天的到館人數,圖書館用戶的借閱記錄,檢索記錄,包括對提供電子書服務以及論文下載服務的下載記錄,電子打印掃描復印等記錄,還有用戶對圖書館的反饋記錄,例如對圖書館的建議,對圖書館服務評價向圖書館建議采購書籍的記錄,參加圖書館活動的記錄。
其次是用戶不在圖書館的時候通過訪問微信公眾號或者圖書館主頁,或是其他有關圖書館的網絡資源時所產生的頁面瀏覽記錄,檢索記錄等等。
以上是高校圖書館所包含的數據,若想充分利用這些數據,就需要圖書館的整體網絡系統作保障,有完整的大數據處理平臺,有專業的圖書館數據處理人員,有數據庫供應商,采購商,出版商等一系列相關機構的通力合作,還要有圖書館內部門之間的協同工作,通過這樣才能把握圖書館讀者用戶的行為,興趣,閱讀慣性及變化,才能針對用戶來實時改變圖書館服務策略,使圖書館整個系統處于動態演變而不是靜態服務中心。
三、大數據對于高校圖書館的意義
從上面的對圖書館中產生的大數據分析,可以知道大數據對于圖書館的意義主要在于兩個大方面,第一個方面是對于圖書館對外服務的意義。第二方面主要是對于圖書館書籍采購策略的意義。
(一)大數據對于高校圖書館對外服務的意義
對于高校圖書館來說,分析讀者數據的意義就是可以為圖書館用戶提供極具個性化的服務,這種服務的特性主要表現在以下幾個方面:
(1)大數據在用戶檢索方面上的意義
用戶檢索服務是高校圖書館提供的最基礎的服務之一,讀者可以通過檢索服務來借閱或者下載館藏資源。普通檢索服務主要針對關鍵詞的檢索,這種檢索方式無法在關鍵詞不匹配的情況下給予讀者其他建議,很多情況下無法解決讀者的問題。將大數據技術應用于檢索服務后,檢索服務可以變成針對用戶的個性化檢索服務,在用戶輸入關鍵詞之后,后臺查詢系統將會結合讀者信息、歷史搜索記錄、讀者專業領域與借閱或者下載資源的興趣偏好等信息得出檢索結果,這樣可以使檢索結果個性化,盡可能滿足用戶的實際需求。
(2)在對用戶推送信息以及推薦方面的意義
對于高校圖書館,我們可以將推薦系統引入到圖書館系統。推薦系統的核心就是算法的支持,成熟的推薦系統都是同時用多種算法來保證推薦系統的準確性比如聚類算法或者分類算法,預測算法等。通過這種系統對讀者借閱書籍或者是其他一些館藏數據的評價來建立用戶模型,為用戶推薦書籍或者推送其他信息如推薦新書與熱門圖書,減少讀者在書目選擇上所花費的時間。
(二)大數據對于高校圖書館采購工作的意義
傳統圖書館中的資源采購主要的依據有以下幾方面,首先有很多選擇基本上是依靠圖書館工作人員,尤其是采編人員的多年采編經驗和對所在圖書館館藏資源的了解來所處采購策略,但是這種方式有很大一個弊病是采編人員的主觀意志帶入太多,有可能會導致采購的一部分資源鮮有問津,長時間積累的話就會造成資源浪費。
為了使采購計劃更完善,主要還是通過對用書相關數據使用數據挖掘等技術,能夠得到對于館藏資源潛在的大量信息,比如已存資源與缺藏資源的統計,用戶對于館藏資源的利用率,各類館藏資源的熱度,館藏資源潛在的相關性等等,有了這些統計信息可以使系統對利用率高的館藏資源加以記錄,搜索出與高熱度圖書資源相近的并未列入館藏的資源,更有效率的做出采購計劃。
綜上所述,無論是提高圖書館對外服務,還是完善圖書館采購工作,大數據對于高校圖書館都有著重要意義。
四、對構建高校圖書館服務系統平臺的研究
如何用包含大數據的思維來建設圖書館,實現圖書館轉型還是比較陌生的,所以將大數據相關內容整合到高校圖書館中,應該有一個總體的建設規劃。
高校圖書館的整體業務體系主要包含館藏資源的建設,文獻資源的流通,提供對用戶的信息化服務,內部工作的管理這幾個方面,當前的業務體系要以數據為中心來加強這幾方面的建設,結合大數據進行數據挖掘,數據分析等工作,以數據為指導推進業務體系的創新。與高校圖書館以館藏資源為主的業務體系不同,新的業務體系全部圍繞數據展開。想要實現這種體系,在圖書館內就需要有相應的大數據平臺。對于高校圖書館的大數據平臺,主要由以下幾個組成部分,大數據存儲,大數據預處理,大數據分析,信息存儲。簡單闡述這些組成部分:
(1)大數據存儲
在圖書館產生的數據,數據量大,種類繁多,這些數據分散在圖書館的各個服務器之中,所以應該建立大數據存儲平臺將這些零散的數據匯總在一起存儲,并且應該盡量搜集與用戶相關的其他部門的用戶數據,比如網絡中心的數據,教務管理部門的數據等等,統合數據便于為數據處理提供條件。
(2)大數據預處理
有了大數據存儲平臺之后,我們就可以對數據進行預處理,這需要我們建立大數據預處理平臺。通過對數據的預處理將原始數據轉變為可用數據。
(3)大數據分析
在企業內成熟的大數據分析平臺通常由Hadoop,Spark或者其他的分布式計算平臺與數據挖掘,數據分析等技術結合完成的,通過搭建這種平臺,來分析圖書館中的大數據,進而得出與用戶關聯的有關信息,建立與圖書館服務與內部工作有關的數據模型,需求模型,建立針對用戶的用戶模型,完成個性化推薦系統以及支持圖書館采購,管理等相關業務。
(4)信息存儲平臺
通過大數據分析得到的數據模型,用戶模型,需求模型,需要有平臺來專門存儲,在圖書館數據更迭頻繁的情況下,建立信息存儲平臺有利于及時更新數據,用戶與需求模型,保證信息推薦的準確率,同時也能對系統錯誤檢測提供一定的支持。
通過以上的闡述,我們可以對整體圖書館服務系統有一個基本認識,這個體系主要分三層,第一層是數據層,包括了上文介紹的完整的大數據平臺,第二層是業務邏輯層,這一層主要是對通過數據分析挖掘得到的信息的使用情況進行存儲,保證信息于用戶之間的同步,保證結果的即時更新,維持個性推薦的準確率,保證采購策略支持的準確性。第三層是應用服務層,包含對管內工作的服務與對外用戶的服務,通過建立需求模型,用戶模型實現個性推薦系統和采購管理支持系統。結構圖如下:
5 結語
綜上所述,大數據技術對圖書館的對外服務,工作管理等方面有著重要意義,高校圖書館應該用先進有效的方法來搜集數據,存儲數據,處理數據,合理利用這些以前未被挖掘過的資源,精煉出對圖書館有意義的信息。本文闡述了大數據對圖書館的意義、對高校圖書館大數據系統平臺建設做了一定的研究。但是在實現平臺建設的過程中也會遇到阻礙如經費資金問題,技術壁壘問題等等。解決這些問題,積極建設大數據平臺,提高高校圖書館服務質量,推動新一代高校圖書館的發展是我們接下來的重要課題。
參考文獻
[1]程蓮娟,ChengLianjuan.美國推進大數據的應用實踐及其有益借鑒——基于圖書館視角的分析[J].情報資料工作,2013,34(5):110-112.
[2]陳亞平,吳淑芬.數據監管環境下高校圖書館的角色定位[J].寧波教育學院學報,2015,17(05):110-112.
[3]Ana Kovacevic, Vladan Devedzic, Viktor Pocajt, (2010) "Using data mining to improve digital library services", The Electronic Library, Vol. 28 Issue: 6, pp.829-843.
[4]Kapidakis S , Terzis S , Sairamesh J . The Stanford Digital Library metadata architecture[J]. International Journal on Digital Libraries, 1997, 1(2):108-121.
[5]程結晶.大數據時代圖書館服務創新的內容及其策略研究[J].情報理論與實踐,2016,39(03):57-62.
[6]陳近,文庭孝.基于云計算的圖書館大數據服務研究[J].圖書館,2016(01):52-56+68.
[7]李艷,呂鵬,李瓏.基于大數據挖掘與決策分析體系的高校圖書館個性化服務研究[J].圖書情報知識,2016(02):60-68.
[8]袁芳.大數據環境下圖書館文獻資源建設模式的變革[J].圖書情報工作,2015,59(18):91-94.
[9]何波,章宏遠,裴劍輝.基于大數據的高校圖書館個性化服務研究[J].新世紀圖書館,2017(10):59-61+80.
基金項目
本文系嶺南師范學院2019年度校級一般項目“大數據背景下高校圖書館服務轉型研究”(WY1913)的研究成果。
作者簡介
郝博麟,(1990—),男,漢,吉林,軟件工程碩士,助理館員,研究方向:圖書館系統與大數據。