由薇波
(黑龍江省社會科學院文獻信息中心,哈爾濱 150018)
大數據時代圖書館的挑戰及其應對策略
由薇波
(黑龍江省社會科學院文獻信息中心,哈爾濱 150018)
隨著時代的發展及互聯網進程的加速,數據量已經呈現出直線上升的趨勢。基于此背景,首先分析了大數據的基本特征及其內涵,然后指出大數據在圖書館工作中所占的重要性,重點分析大數據在以下幾個方面所帶來的便利:數據管理、數據存儲、數據挖掘等。從這幾個方面入手,提出了相應的應對策略,希望對相關單位的從業人員有所幫助。
大數據時代;圖書館;數據管理;數據存儲;數據挖掘;挑戰;策略
隨著科學技術的不斷發展,互聯網時代進程的不斷加快,數據量也呈現出直線增長的態勢。拿Facebook來舉例,它每天的日志數據產出量就有300TB之多。此外,還有Google每個月的數據處理量,也超過了400PB。根據國際數據公司IDC在2011年所公布的數據,可以了解到,當時全球信息總量每過2年,就會增長1倍,預計到2020年,全球所產生的數據量會達到35ZB之多。這說明“大數據時代”已經來臨,而且是大數據在云計算以及物聯網等領域又一個偉大的變革創舉。在這樣的背景下,如何以“大數據”為基礎,使其更便捷快速的為用戶提供信息服務,如何根據用戶的不同特征,實現個性化定制信息資源。這不僅是科技方面所要考慮的事情,而且也是圖書館所面臨的問題,更是今后我國圖書館發展的整體方向。此次主要是基于大數據的相關特征以及圖書館與大數據之間的關系,對在大數據時代下,圖書館如何抓住新的機遇和挑戰進行了較為深入的分析,希望對有關部門的研究人員有所幫助。
都說“大數據時代”已經來臨,那么何為“大數據”?到目前為止,不同的公司和機構對大數據的定義不同,但還沒有一個較為簡潔、權威的定義。IBM公司認為,所謂的大數據應該具備“3V”特征,即速度快、種類多、容量大。IDC公司則認為,應該具備“4V”特征,即海量、高速、易變、多樣。但不管是IBM所認為的“3V”,還是IDC公司所認為的“4V”,我們都可以得到大數據以下的幾個基本特征:其一,大數據必須具備數據量大的特性,所謂的“大”,一般要求數據量要達到10TB以上。其二,大數據的“大”,還應該占據樣式全面的特性,這些種類類型包括有結構數據和非機構數據兩種。其三,流動性快和價值密度低。隨著時代的進步,科學技術的快速發展,也許昨天剛興起的技術,在今天已經變得落后。而且由于數據量大,其中的信息資源可能會參差不齊,可用的、有價值的密度自然不會很高。
隨著科學技術的快速發展,全球化進程的不斷推進,圖書館如今的發展不僅包含有大量的數字資源、電子資源,而且隨著云計算、語義網、社交網站等的普及,給圖書館帶來了廣泛的數據資源。所以圖書館應該緊跟時代步伐,面對大數據時代帶來的機遇和挑戰。
2.1 海量的電子資源為圖書館提供了海量的數據
據不完全統計,每年全球生產出來的信息含量以每三年翻一番的速度在增長,而這些信息數據基本上都是以數據的形式存儲的。而且漢語在國際上影響力不斷加深,使得中文網頁等不斷普及,在2011年年底,我國電子書的總量就已經超過了115萬種之多,單獨出版的數字報也達到了700份以上。僅針對清華圖書館機房來說,光服務器就有100多臺以上,而國家圖書館的總資源量也是達到了500TB以上,這些資源都是分布在不同的系統當中,并且以不同的形態、組織樣式進行存儲,其中不僅包括有傳統的文獻,還包括有多媒體資源、電子資源等,它們給圖書館提供了海量的數據。
2.2 云計算、語義網、社交網站的不斷發展給大數據提供了廣泛的來源
云計算的出現有效打破了傳統圖書館的發展局限性,并運用強大的數據處理能力,通過對不同數據的整合,真正實現了資源的動態配置,然后通過利用RFID技術,實現了圖書資源的自動借還機制,完成了數據資源自動整合功能,創造出絕佳的用戶體驗。而隨著科技的進步,各種語義網、社交網站的普及,使信息的傳播發生了翻天覆地的變化,如今所謂的“知識爆炸時代”也由此而來。這些都給圖書館提供了海量的數據,為圖書館提供了高速、便捷的信息來源通道,實現了圖書館的創新、突破。
信息時代的發展,大數據時代的到來,為圖書館提供了絕佳的機遇,為圖書館今后的發展指明了道路。但機遇與挑戰是并存的,圖書館要想把握機遇,就必須面對很多的挑戰:其一,圖書館傳統的網絡架構不適于“大數據”時代。傳統的網絡結構,一般是以用戶端向服務端發送請求,然后根據請求在做出響應。但在大數據時代,由于數據存儲廣泛,存儲地域不同,所以傳統的構架難以滿足大數據的要求。其二,大數據下呈現的最大特點就是“大”,由于數據量大,其中不僅有機構網的數據,還充斥著各種非機構化的數據,這導致了圖書館的數據中心面臨極其巨大的挑戰。其三,如何更好地實現用戶體驗,讓用戶更快更便捷的獲取數據也是一個難題。
大數據技術主要是指從各種各樣的類型以及數據信息中,及時有效的獲取有價值的技術手段,解決大數據問題的核心就是大數據技術。在運作大數據的時候,技術前傾才是關鍵。研究人員要將大數據作為一項系統性的工程來看待,從數據采集、數據存儲以及數據處理等多個方面進行考慮,而構成圖書館大數據架構如圖1所示。

圖1 圖書館大數據架構圖Fig.1 Big data architecture diagram of library
5.1 實現管理分層,實現標準統一
大數據存在信息量大,資源動態等特性,根據這些特性必須建立相應的運行機制,要有專人負責數據管理,對數據進行標準化劃分,實現數據獲取、使用、管理、分析一體化、標準化。如此有利于數據庫的管理、推介,方面為用戶提供服務。
5.2 構建大數據架構,解決數據采集、存儲等問題
在大數據時代下,圖書名面臨的一個重要問題就是基本架構不能適用在大數據之上,因此要建立大數據架構,解決數據的采集、存儲、處理等問題。要將大數據中不同格式的數據進行統一、融合,使數據的結構表現得更清晰明了。要滿足數據庫高可擴展和高可用性的需求,可以采用云計算的分布式存儲技術,保證對圖書館數據的統一整合。
5.3 培養高素質的數據管理人員
圖書館要想抓住大數據時代的機遇,就必須具有這方面的人員,這些人員要具備圖書館管理的能力,還應該具備圖書館數據服務需求這方面的素質,要成為學科信息資源的傳播者和教育者,為圖書館事業提供有效的幫助,為圖書館的發展而不斷的做出努力。
[1] 李鳳念.大數據時代高校圖書館受到的挑戰及其發展對策[J].農業圖書情報學刊,2014,(03):144-145.
[2] 王晴.云計算大數據時代圖書館的挑戰與機遇——兼論公共圖書館的應對策略[J].公共圖書館,2013,(01):189-190.
[3] 韓翠峰.大數據帶給圖書館的影響與挑戰[J].圖書與情報,2012,(05):131-132.
[4] 周和平.加快實施推廣工程建設覆蓋全國的數字圖書館服務體系——在數字圖書館推廣工程館長培訓班上的講話[J].國家圖書館學刊,2012,(05):175-176.
[5] 叢培民,龔立武.基于云計算的網站群架構及安全性設計與實踐[C]//第26次全國計算機安全學術交流會論文集.2011.
[6] 張文華,馮凱,胡光林,等.云計算及其在圖書館中的應用現狀和面臨的障礙[J].圖書情報工作,2010,(07):165-166.
[7] 熊筱熙,趙欣艷.商業視角的云計算服務研究綜述[C]//寬帶中國戰略與創新學術研討會(30)論文集.2012.
[8] 苑桂萍,杜慰純,馮花樸,等.基于云計算圖書館面臨的挑戰與服務創新[C]//圖書館聯盟建設與發展.2012.
Challenges and countermeasures of library in the era of big data
YOU Wei-bo
(Literature and Information Center, Heilongjiang Academy of Social Sciences, Harbin 150018, China)
With the development of the times and the acceleration of the Internet process, the amount of data has shown a linear upward trend. Based on this background, this paper firstly analyzes the basic characteristics and connotation of big data, and then points out its importance in library work. It mainly analyzes the convenience brought by big data in the following aspects: data management, data storage, data mining and so on. Corresponding coping strategies are put forward, hoping to make help for related practitioners.
Big data age; Library; Data management; Data storage; Data mining; Challenge; Strategy
G252
B
1674-8646(2016)24-0150-02
2016-09-22
由薇波(1965-),女,學士,副研究館員。