遼寧對外經貿學院 劉奉駁
大數據處理在圖書館信息化管理中的應用
遼寧對外經貿學院 劉奉駁
人們現在越來越依賴網絡,而大數據在近幾年已經成為大多數人研究與分析的對象,其中大數據的應用也深深的影響著圖書館的管理,大數據技術的發展改變了圖書館的管理的方式,加快了信息化管理的進程。大數據技術對于含有意義的數據進行專業化處理,加強了對圖書館的管理,為讀者提供更方便的服務。本文介紹了大數據處理為圖書館管理帶來的影響以及如何推進圖書館的信息化進程,改變了傳統圖書館的管理方式,為其提供了新的平臺。
大數據;圖書館;應用
1.1大數據的概念
大數據,又稱巨量資料,指的是所涉及的數據資料量規模巨大到無法通過人腦甚至主流軟件工具,在合理時間內達到擷取、管理、處理、并整理成為幫助企業經營決策更積極目的的資訊。麥肯錫全球研究所給出的定義是:一種規模大到在獲取、存儲、管理、分析方面大大超出了傳統數據庫軟件工具能力范圍的數據集合,具有海量的數據規模、快速的數據流轉、多樣的數據類型和價值密度低四大特征[1]。
1.2圖書館所具備的大數據特征
(1)大容量
圖書館作為存儲圖書的場所,其中存在大量的文獻圖書信息,音頻視頻資源,電子刊物等,而這之中不光有各種書籍的資源,還包括多媒體資源,并且每年圖書館都需要更新數據庫,以及新增各種書籍和購買最新的音頻視頻資源。還有讀者通過圖書館借閱書籍的信息,網上的交流,這些所產生的這些數據,而且圖書館的數據量每天都在快速的增長。在公元前3世紀,希臘時代最著名的圖書館亞歷山大圖書館用盡全力獲得了大部分的書籍資料,可以說希臘搜集的資料囊括了世界上絕大部分的書籍。但是當大數據時代的到來,每個人都可以通過各種渠道獲取到許多的數據資源,而這些相當于當時希臘圖書館中書籍資料的320倍。因此如果再用傳統的圖書館管理方式那是不行的,所以這都是圖書館需要大數據的大容量特點的理由。
(2)多樣性
在大數據時代,數據格式變得越來越多樣,涵蓋了文本、音頻、圖片、視頻、模擬信號等不同的類型;數據來源也越來越多樣,不僅產生于組織內部運作的各個環節,也來自于組織外部。圖書館中的數據不光有圖書信息這樣的結構化數據,還有很多來自網上微博、社交網站等產生的非結構化和半結構化的數據。圖書館的數據恰恰是驗證了大數據在圖書館的應用中多樣性的特點。
(3)快速度
時間就是金錢。而我們最多的就是時間,而最需要的也是時間,越快的讀取數據,那么在競爭時就會更有機會。讀者對圖書館中圖書的更新越來越看重,而這就要求圖書館能夠快速的將最新的圖書信息更新到圖書館中,并在網上的借閱系統中將信息顯示出來,可以使讀者在圖書館借閱時盡快的找到自己想要的書籍,滿足讀者的需求。對于圖書館大量的數據變化,它需要以最快的速度改變信息,因此處理信息的速度尤為重要。
(4)價值密度低
追求高數據質量是一項重要的大數據要求和挑戰,即使最優秀的數據清理方法也無法消除某些數據固有的不可預測性,例如在圖書館中監控資源分析過程中,可能只有十幾秒甚至幾秒有用,因此必須用大數據來處理。
隨著信息化的發展,傳統圖書館的缺點已經越來越明顯了,它已經不能滿足讀者的需求,大數據時代帶來的價值也深深的影響著圖書館的管理。圖書館的宗旨就是為讀者提供優秀的書籍以及更全面的服務,也是圖書館的價值體現。在大數據時代,圖書館通過大數據的管理方式,用先進的技術條件,進行數據挖掘和分析,使圖書館更快速的更新最新的書籍,為讀者提供更便捷的服務,加強圖書館的管理。
2.1大數據為圖書館帶來的機遇
大數據為圖書館帶來的機遇:一是為圖書館創建新型知識服務引擎,它更便捷的為讀者服務,使讀者更快速的搜索到自己想要的書籍以及更重資料,節省了讀者的時間;二是通過大數據建立的圖書館管理系統,可以節省更多的人力物力,并且可以減少發生失誤的概率,為讀者提供更方便的學習方式。三是為圖書館提供更精準的分析能力,減少可能發生的資源故障,更好的管理圖書館。四是為圖書館帶來更完整的數據收集能力,增強圖書館的數據量,為讀者提供更多的資源。
2.2大數據為圖書館帶來的挑戰
在大數據的發展過程中一直存在的問題就是隱私問題,微軟張亞勤說:“大數據安全和隱私問題永遠無法解決”[2]。對大數據存儲、挖掘、 分析也是大勢所趨,也不能因為懼怕隱私問題就停滯不前。在信息化的時代,圖書館需要為不同的讀者提供不同的服務,而這勢必會侵犯到讀者的隱私問題,就目前來說還沒有太好的解決辦法,主要是樹立圖書館員的道德風尚,使其更加重視讀者的隱私問題。現在由于大數據的快速發展,國家已經制定了相關的法律來保護隱私問題。
圖書館需要存儲大量的數據,因此這就對數據的存儲有了更高的要求。隨著數據量的巨大增長和數據來源的多樣化,傳統的數據存儲結構已經不能滿足圖書館的需求,可以考慮最大程度利用存儲系統,進行存儲虛擬化、分層存儲、堆棧管理等[3]。
3.1大數據采集
圖書館大數據采集是對圖書館中相關的數據庫、自動化系統和外聯網數據進行采集,與傳統數據采集相比它是對全部類型的資源的采集,能夠更多的增加數據庫中的數據量,滿足大部分讀者的需求。大數據采集沒有統一的要求,不管是結構化數據,半結構化數據或是非結構化數據;也不管是采集正確的數據,還是不正確的數據;總之是不管什么樣的數據,只要是數據統統都要,越多越好。因此圖書館的大數據采集可以用通用分布式大數據工具。系統日志采集可以應用大數據工具如Cloudera的Flume、Hadoop的Chukwa、Facebook的Scribe等,這些工具采用分布式架構,可以滿足大量的系統日志的采集和上傳;外聯網絡數據可以通過網絡爬蟲或網站API等從網站上獲取來進行采集,它不僅僅支持音頻視頻,還支持圖片等數據[4]。
3.2大數據存儲與組織
現如今大數據發展越來越迅速,而傳統的數據倉庫其本身存在的缺點已經不能滿足圖書館的要求,但是數據倉庫也存在可擴展性、容錯性、低成本等優點。所以說要像圖書館更好的發展,可以將數據倉庫和大數據結合起來,創造一個混合的存儲平臺。
現如今使用最多的大數據處理平臺架構是Hadoop,所以圖書館可以采用傳統數據倉庫(DW)和 Hadoop大數據處理平臺的混合架構,用來保存圖書館中大量的資源,對于不同的要求來選擇不同的存儲方式。圖書館對傳統海量結構化業務數據可以采用現有數據倉庫進行存儲;對于海量半結構化服務日志數據可以采用NoSQL數據庫(NoSQL為典型的半結構化數據存儲數據庫),對于海量原生非結構化數據可以將其提取元數據存儲于數據倉庫,數據資源對象存儲于Hadoop平臺的HDFS分布式文件系統中。這種存儲方式符合大數據基本存儲架構,同時它對于圖書館的硬件設施有很高的要求。
4.1圖書館的空間優化
例如學校圖書館的門禁系統,通過門禁系統圖書館可以統計進館人數、讀者身份等等。再對這些信息進行整體的劃分與推算,這樣就能更好的區分圖書館在何時人比較少,在何時是高峰期。載人比較少的時候減少一些工作人員,節省更多的財力物力;在高峰期的時候,提前做好準備,可以更好的調節工作人員,整理圖書,做到更好的服務。還可以將門禁系統加入到其他系統中,形成更加智能化的系統,例如清華大學圖書館的RFID智能系統,通過該系統進行的座位預約,就是先在線預約,之后通過圖書館中的終端機刷卡確定身份后入座,利用這個系統我們還可以確認讀者是否在閉館前是否還在圖書館中[5]。
還有就是圖書館的監控系統,通過監控設備來確定圖書館中各個位置的使用率,以及在何時開放哪個地區等;利用設備監控整個圖書館的溫度與濕度,防止圖書的損壞和讀者的舒適度。
4.2圖書館的閱讀推廣
圖書館通過對網絡中得到的數據以及電子文獻數據和搜索數據、借閱數據等進行推理分析,通過大數據得到的半結構化數據和非結構化數據進行篩選、分類,進一步的了解最近一段時間比較火熱的,話題最多的圖書,根據大部分讀者的喜好選擇文學作品來進行閱讀推廣。另外現在讀者都持有手機,我們可以對讀者的身份信息進行同意的管理,在通過第三方平臺例如微信、qq、郵箱、微博等進行圖書的推廣,為讀者提供更加便捷的服務,讓讀者不用到圖書館也能了解最新的圖書資訊,甚至可以通過手機、電腦等終端進行下載或者在線閱讀。
4.3大數據在圖書館人力資源的應用
人力資源的核心是人力資源管理。圖書館在大數據時代背景下,要想得到更好的發展,那么必須有大量的相關人才,而怎么樣培養出相關的人才就是我們需要仔細的研究和探討的了。現如今圖書館的大部分的工作人員的工作素養、服務水平、對圖書館知識的掌握等方面都還差的很遠,需要很大的提高。我們可以利用圖書館中保存的大數據來進行查找,分析有用的書籍和文獻,通過其中得到的信息在根據圖書館自身的需求來進行尋找,培養圖書館需要的人才。大數據作為前沿技術具有很高的難度,現如今它得到了廣泛的應用,為了跟上時代的步伐,圖書館必須與時俱進,充分利用大數據,為圖書館的管理等方面帶來巨大改變。如果想要在圖書館中擔任大數據的分析的工作,那么必須有相對應得技術基礎的人才可以,但是這方面的人才又相對來說比較缺乏,因此對于圖書館來說培養大數據的人才那么就事關重要了,而這也是圖書館的一大挑戰。
大數據正在快速發展階段,圖書館作為社會中公共信息服務體系的一部分,其讀者的基礎以及各類書籍資源將會越來越多,而這也就要求圖書館需要更新的技術支持。圖書館對大數據的應用,推動了圖書館信息化的進程,改變了傳統圖書館的缺點,為圖書館開拓了新的平臺,充分的發揮大數據的特點,更好的提高圖書館的服務質量,改善圖書館的閱讀環境,提升讀者的閱讀體驗,方便讀者,也使大數據在圖書館中得到更好的價值。
[1]The Age of Big Data[EB/OL].[2014-10-16].http:///www,nytimes. com/2012/02/12/Sunday review/big datas impact in the world,Html?pagewanter=all
[2]涂蘭敬.專家觀點:“大數據”與“海量數據”的區別[J].網絡與信息,2011(12):37-38.
[3]張文彥,武瑞原,于潔.大數據時代的圖書館初探[J].圖書與情報,2012(6):15-21.
[4]張毅,趙雅潔.論大數據在圖書館管理與服務中的應用[J].圖書館工作與研究,2015(9):4-8.
[5]甘琳.RFID技術在圖書館的創新應用[J].圖書館論壇,2007,27(3): 8-11.