楊曉芳 何明祥
大數據時代,傳統圖書館的局限性日漸凸顯。數據類型繁雜,數據量巨大,圖書資源配置不合理以及落后的服務觀念和服務方式等,使得圖書館必須做出適當的改變,才能順應時代的發展。圖書館的轉型有兩個大方向:優化圖書資源,改進圖書館服務質量。其中優化圖書資源可以從圖書資源數字化和資源采購合理化兩方面進行。此外,圖書館的轉型需要大數據相關的技術支持、大數據人才和圖書館人才以及足夠的資金支持等。
隨著互聯網云時代的到來,大數據引起了越來越多的關注。信息技術的高速發展,使讀者的需求、行為等都產生了變化,讀者獲取信息的方式也出現了巨大的改變,傳統圖書館的服務模式和圖書資源方面的局限性也隨之凸顯。圖書館應改變自身以適應新時代的需求。本文著重分析了大數據背景下傳統圖書館的局限性,提出一些圖書館的改進方向,使得圖書館能在數據飛速增長的新時代取得更好的發展。
McKinsey &Company 在《Big data:Th e next frontier for innovation,competition,and productivity》中提到:“隨著數據的爆炸性增長,大數據分析作為關鍵競爭力,將推動新一輪生產率增長和消費者剩余的熱潮?!?/p>
維基百科中,大數據的定義是:大數據指的是所涉及的數據量規模巨大到無法通過人工,在合理時間內達到截取、管理、處理、并整理成為人類所能解讀的信息。
大數據的特點主要可以用4 個“V”來概括:
(1)數據量巨大(Volume)。數據規模從TB 級別到PB、EB 甚至ZB 級別。據監測人類產生的數據量正以大約每兩年翻一倍的速度呈指數級增長,并且在2020 年之前會一直保持下去。這意味著人類在最近兩年產生的數據量相當于之前產生的所有數據量。據2011 年IDC 企業外部存儲市場季度跟蹤報告顯示,預計到2020 年全球數據將達到35ZB,這個數據是2010 年數據的29 倍之多。
(2)數據處理速度快(Velocity)?,F在對數據智能化和實時性的要求越來越高,且很多數據存在時間性,因此要求大數據的處理速度足夠快。
(3)數據種類繁多(Variety)。大數據包括結構化數據、半結構化數據、非結構化數據,如網絡日志、影像、地理定位信息等。
(4)價值密度低(Value)。大數據的價值密度通常較低,這就要求能夠在數量巨大的多種數據中快速的截取信息。
大數據的研究和應用在互聯網、金融、咨詢、通信、醫療服務、商業智能等行業都有所體現,并產生了巨大的社會價值和產業空間。
國外主要研究大數據的存儲、分析、處理、大數據的管理技術以及大數據軟件的應用。2008 年9 月《Nature》雜志出版了一期??癇ig Data”,從互聯網技術、互聯網經濟學、超級計算、環境科學、生物醫藥等多個方面來探討大數據。
大數據已經蔓延到社會各界。作為傳播知識、信息的重要媒介,圖書館必然也會受到影響。圖書館的數據大致分為兩類:數字資源和服務數據。
數字資源
數字資源類型繁多,包括電子書刊、影像資料、網絡資源、文獻數據庫等。詳見表1。其中電子書刊、文獻數據庫等屬于結構化數據,網絡資源、影像資料等屬于非結構化數據。
截至2011 年底,文化共享工程數字資源建設總量達到136.4TB;至2012 年底,國家圖書館數字資源總量達到813.5TB,并且每年仍在成倍的遞增。

表1 圖書館數字資源類型表
服務數據
服務數據包括文獻流通日志、數字資源的訪問利用情況、讀者信息和行為數據、信息咨詢服務數據等。詳見表2。其中一些圖書館僅文獻流通日志就已達上億條記錄[6]。這些數據可達到PB 級的數據規模,并呈現幾何級增長的速度。整合、分析和利用這些海量的結構化、半結構化、非結構化的數據是非常復雜和困難的一項工作。

表2 圖書館服務數據類型表
在科技進步及大數據飛速發展的今天,傳統圖書館的一些局限性日漸凸顯。
圖書資源配置不合理
大多圖書館內都藏有很多利用率并不高甚至無人問津的書籍,還有許多熱門圖書數量太少不能滿足讀者的需求。前者顯然是多余的,既浪費了資源又浪費了本可以用來購置其他圖書的資金。還有一些藏書因為某些原因不能外借,這也給讀者帶來了很大不便。此外,由于科技發展日新月異,一些早年出版的相對落后的科技類圖書已經無法滿足讀者的需求。有調查顯示,60%的學生對學校圖書館提供的圖書表示不滿意,他們希望學校圖書館能夠及時更新知識庫,跟上社會發展的步伐。
服務觀念和服務方式落后
傳統圖書館的服務觀念是以“書”為中心,無論采集、編目、還是流通,其重點都是藏書,而忽視了讀者的重要性,其服務也因而顯得很被動。此外,由于外借、閱覽的傳統服務方式及圖書館開放時間的限制,讀者的需求與館藏的信息資源間必然有一定的時空距離。而讀者在網上搜索信息資源則不受這些限制,這就要求傳統圖書館向數字化、移動化方向發展。
隨著大數據與我們的工作、生活聯系越來越密切,對社會領域的覆蓋面也越來越廣泛。圖書館作為數據使用和制造的重要參與者,若想融入“大數據”時代,應從圖書資源和服務質量兩方面轉變。
圖書資源數字化
圖書資源數字化,即把原有的紙質文獻轉化為計算機存儲的信息并實現形式轉換的計算機管理、網絡傳輸和數字化存取的過程。
圖書館的數字化,一方面可以通過掃描等手段將館藏資源數字化。館藏資源數字化后,讀者無須到圖書館,隨時隨地都可以檢索參閱所需資料,也省去了來回找書的時間,方便快捷。此外,圖書館的文獻資源是有限的,每種書刊的數量也是有限的。數字化后,大家可以在同一時間參閱同一種文獻,而不會出現“已借出”的問題。
另一方面,可以購買國內外的文獻數據庫。中國學位論文全文數據庫、中國知網、中國科技期刊全文數據庫、中國期刊全文數據庫等,都比較適合高校圖書館。此外還有讀秀學術搜索等學術搜索引擎,可以一站式檢索章節內容和全文、部分文獻的原文試讀以及高效查找獲取各種類型學術文獻資料。購買文獻數據庫可以彌補圖書館某些領域文獻資料的不足,為讀者提供更豐富的信息。
國內許多圖書館經過多年的數字化建設已經具備了一定規模的數字化資源,包括文獻資源、電子書、各類數據庫等結構化數據,以及網絡資源、影像資料等半結構化或非結構化數據。具有大數據特征的數字圖書館,需要管理者采取合適的應對措施,建立基于大數據分析處理技術的圖書館,滿足大數據時代下讀者對圖書館的新需求。
資源采購合理化
(1)圖書資源采購合理
文獻資源是圖書館最重要的資源之一,印刷型文獻在文獻資源中仍占據著無法取代的地位。所以,圖書館管理的一項重要工作就是定期對館藏文獻資源進行調查、統計、分析和評估,這是圖書館提升服務能力和服務質量的根本。通過對館藏文獻及圖書館的服務數據(文獻流通日志、讀者檢索記錄等)進行數據挖掘、分析,圖書館能較好地掌握館藏文獻的利用情況和讀者的實際需求,從而增加需求較大文獻的采購量,減少需求較小文獻的采購量,以達到合理配置圖書館資源、提高藏書質量、優化館藏結構的目的。
(2)印刷型文獻與電子資源的采購比例合理
圖書館的館藏資源不僅有印刷型文獻,還包括縮微型文獻、聲像型文獻、電子文獻和網絡資源等。很多圖書館往往只注重印刷型文獻的館藏,而忽視了其他類型的文獻資源??紤]到大數據的發展以及經濟方面紙質圖書價格的上漲,圖書館應該轉變這種資源建設思維,重視電子資源的建設。電子資源相比印刷型文獻價格更低,可以供多人同時參閱,可多次重復利用而且不會破損,性價比較高。圖書館應根據自身經濟情況、館藏情況及讀者群進行合理的電子資源采購,如若讀者大多為年輕人,比較容易接受電子閱讀模式,則可以加大電子資源的采購力度;若讀者大多為老年人,習慣傳統的閱讀模式,則仍應以采購印刷文獻為主。
在大數據的環境下,圖書館應借助大數據技術對讀者過去的圖書借閱記錄、檢索瀏覽記錄、數字資源訪問利用情況等圖書館行為數據進行數據挖掘和分析,發現潛在有價值的信息并分析其借閱習慣、偏好,得出讀者的檢索、借閱規律,并根據分析結果判斷讀者的興趣愛好和需求,從而幫助讀者更好的獲取資料,取得更好的閱讀體驗,滿足讀者的個性化需求,還可以引導和激發潛在讀者群。
此外,隨著手機、平板電腦等移動閱讀終端的普及和網絡的便利,圖書館可以把大數據技術和移動通信技術相結合,將對讀者的數據挖掘分析結果通過網絡或者短信息的方式推送到讀者的移動終端、電子郵箱等,為讀者提供最新的移動信息的服務,實現讀者即時、無障礙地享受圖書館信息服務。
只有當圖書館的圖書資源得到優化,服務質量得以提高,才能更好的適應大數據時代的發展。圖書館進行這種轉型,必須要有足夠的技術、人才及資金支持。
大數據技術指的是從各種類型的海量數據中快速提取有價值信息的技術,主要包括數據分析、數據處理、數據挖掘、數據服務等。大數據背景的圖書館各種數據量急劇增長,數據規模不斷擴大。而大數據分析要求存儲系統高效、即時、可擴展,且讀者閱讀活動具有突發性和不可預測性,這就意味著存儲系統要有較好的可擴展性和并發處理能力。其次,系統需要不間斷工作,且數據結構多樣化。因此,可靠的技術和硬件支持必不可少。另外,應該建立安全的信息采集機制和文件系統,保障數據共享和用戶資料的安全,提供高可靠的服務。

表3 大數據分析處理系統表

圖1 Hadoop 體系架構圖
目前已知的大數據分析處理系統有MapReduce、storm、spark 等。詳見表3。其中MapReduce 采用無共享大規模集群系統,具有良好的性價比和可伸縮性,且其模型簡單,易于理解和使用,使其成為大規模海量數據平臺的首選。Hadoop 是目前較為流行的處理大數據的分布式集群系統,它應用的編程模型就是MapReduce。
Hadoop 是一個由Apache 基金會所開發的分布式系統基礎架構,如圖1 所示。Hadoop 中最核心的設計是HDFS 和MapReduce。HDFS 是構建在廉價的PC 機器上的分布式文件系統,具有高容錯性的特點。MapReduce 是構建在廉價的PC 機器上的分布式數據處理模型和運行環境。Hadoop 以其高可靠性、高擴展性、高效性、高容錯性的特點,成為目前應用最廣的大數據平臺架構。
目前國外圖書館的大數據應用已獲得了一些成功,我國的圖書館應向他們學習,在考慮自身需求的基礎上,總結經驗,加強核心技術的研究,開發圖書館的使用功能和適應性能,構建與國際接軌的數字圖書館服務系統。
大數據在圖書館的應用是一項新興的工作,必須要有技術過硬的專業人員。為此,圖書館應鼓勵館員學習大數據相關技術,加強大數據管理、挖掘和分析等專業人才隊伍的建設,積極引入技術性館員,實現人才、大數據分析平臺和用戶服務系統的最優化結合。
大數據時代的圖書館員不僅要有足夠的業務能力,而且要積極地學習新知識與新技術,拓寬自己的知識面,成為高素質的復合型人才。館員能力和自身專業素質的提升,對圖書館的轉型有很大的促進作用。
大數據時代圖書館需要進行大數據技術的員工培訓,購買相關軟件,以及建設相關資源等。此外,大數據只能對數字化的資源進行分析,所以應先將紙質文獻數字化才能進行大數據分析工作,這些都需要足夠的財政資金支持。財政資金是圖書館在大數據環境下開展資源建設的經濟基礎,離開資金支持,圖書館就很難進行大數據的應用。為此圖書館應努力向政府或者企業單位等爭取財政支持,從而為社會創造更多的價值。
大數據時代,判斷圖書館是否具備競爭力的一項重要指標就是數據的分析和挖掘能力。做好大數據的分析處理工作能夠幫助圖書館構建新型的知識服務體系,優化圖書資源,提高服務水平,從而推動圖書館更好的發展。但是目前大數據的應用仍存在很多技術難題,圖書館還面臨著人才、設備、資金等方面的挑戰,此外大數據在圖書館的應用還存在安全和隱私保護的問題,仍需要努力改進。
大數據作為一項新興技術,在圖書館的應用尚處于起步階段,圖書館應結合自身的實際情況,逐步開展大數據的應用研究工作,從而為圖書館帶來更好的發展。