摘 要:21世紀,隨著信息技術的不斷進步與應用,我們迎來了大數據時代。圖書館作為以信息技術為驅動力的領域,如何利用大數據帶來的便利促進圖書館的可持續發展,是目前圖書館界及圖書館工作人員關注的重點課題。本文以圖書館發展的命脈—資源構建為研究對象,借助先進技術及理念探討其在大數據背景的數字資源整合思路及方案,具有一定的實際借鑒價值。
關鍵詞:大數據;圖書館;數字資源整合
中圖分類號:G250.7 文獻標識碼:A 文章編號:2096-4706(2018)07-0129-03
Abstract:In twenty-first Century,with the progress and application of information technology,we are ushered in the era of big data. Library is a field driven by information technology,how to use the big data to promote the sustainable development of libraries is a topic of concern in the library field. The article takes library resources construction as the research object,and probes into the idea and plan of digital resources integration based on big data background with the help of advanced technology and concept,which has certain practical value for reference.
Keywords:big data;library;integration of digital resources
0 引 言
目前大數據已經醫療、管理、交通、旅游、教育、工業等諸多領域得到了廣泛的應用,圖書館作為與信息技術緊密相聯的行業,自然也深受其影響。資源構建是圖書館各項業務開展及可持續發展的基礎,隨著信息技術與圖書館業務的不斷融合,數字資源已成為了圖書館資源體系中的一個重要組成部分。在大數據背景下,圖書館數字資源的內涵有了改變和突破,呈現出了圖書館與大數據的雙重屬性。除了涵蓋圖書、期刊、報紙、數據庫等傳統資源外,還囊括了業務數據、用戶數據、Web站點數據、行業數據、新媒體社交數據等信息資源,數據資源呈現出了規模大、類型多、分析難、應用廣等特征。大數據時代下,零碎的小數據已無太大意義,經過管理和集成后的大數據才更具價值。對于圖書館而言,如何采集、處理、存儲、應用已有的海量數據,并轉化為有用的知識和有價值的服務,這才是圖書館可持續發展的核心。而要充分發揮大數據在圖書館領域中的綜合應用價值,數字資源的共享與整合才是關鍵,這樣才能形成資源網絡,實現數據資源的交換、共享、挖掘與應用。因此,本文基于大數據背景下圖書館數字資源整合的必要性,提出數字資源整合的思路及方案。
1 大數據背景下圖書館數字資源整合必要性
隨著圖書館數字化建設的深入及用戶信息需求的提高,許多學者認為圖書館已具備了大數據特征,并將大數據背景下的圖書館數字資源建設作為了一個重要的研究課題。傳統的圖書館數字資源以結構化數據為主,資源來源的途徑包括圖書館購買和圖書館自建兩個方面。然而,在大數據背景下,賦予了圖書館數字資源的新內涵:來源廣、規模大、類型多、處理難、應用廣,也正是基于上述許多新的特征,才保證了在大數據背景下能夠實現圖書館數字資源的整合。
1.1 來源更廣
大數據背景下,數據資源除了圖書、期刊、報紙、數據庫等傳統資源外,還包括業務數據、用戶數據、下載數據、行業數據等資源。另外,微信、微博等社交新媒體的普及以及RFID、智能終端等新技術的應用所產生的數據也是資源來源的渠道之一,多元化的資源來源渠道為圖書館資源建設及信息服務創造了更大的空間,但是如何整合這些資源的來源途徑,成為了大數據海量資源充分利用的前提。
1.2 規模更大
據不完全統計,目前國家圖書館的數字資源總量超過了1200TB,并以每年100TB的速度持續增長。其中,共享的資源總量已超過140TB,“文津”搜索元數據集中存儲2.8億條信息,僅文津搜索每天所產生的日志數據就達到了300G。這些數據僅以國家圖書館為參照,若涵蓋全國所有圖書館的自建數字資源,以及互聯網、移動終端等各種資源來源渠道的數字資源,我國圖書館數字資源的整體規模是非常驚人的,若將其有效整合,所產生的價值也是不可估量的。
1.3 類型更多
隨著大數據時代的到來,用戶對信息的需求也呈現出了多元化特征,傳統的以文本為主體的結構化資源已無法滿足用戶近些年的實際需求,他們渴望更多的是音頻、視頻、多媒體、網絡信息等非結構化的數據資源,這恰好是大數據的應用所能滿足的需求。
1.4 處理更難
大數據背景下的圖書館數字資源最突出的特征是“大”,是傳統圖書館資源在數量、規模、類型等方面無法比擬的,二者的比較情況如表1所示。面對大數據環境下規模巨大、類型復雜的非結構化數據,傳統的數字資源構建模式、平臺和方法也無法滿足其需求,需要通過資源的整合來發揮大數據應用的最大價值。
2 大數據背景下圖書館數字資源整合思路
圖書館資源構建與信息服務是緊密相聯的,數字資源整合的目的是為了提供更優質的服務。因此,大數據背景下的數字資源整合應該融入相關的信息服務,以滿足用戶的需求,進而發揮大數據應用的最大功效。結合以上目標,筆者認為大數據背景下的圖書館數字資源整合應按以下思路開展:
2.1 大數據的采集
即基于大數據環境,在時間和空間兩個維度上采集所有圖書館的數據資源。對于數據的采集,應保證數據的真實性、完整性及安全性,盡可能囊括所有的大數據,同時注重數據的完整性和安全性,盡可能收集所有的、完整的圖書館大數據,這將對圖書館的數據處理及數據存儲能力提出挑戰。
2.2 大數據的處理
在海量的大數據中,必然會采集到一些虛假、重復、無用的信息數據,這就需要對數據進行標準化的篩選和預處理,并在數據入庫存儲前做好數據的分類、格式轉換等數據加工工作,以保證數據的價值有效,進而為圖書館信息服務效率的提高奠定基礎。
2.3 大數據的應用
一方面,針對預先設定的需求,從大數據中獲取特定的資源數據。另一方面,對大數據進行分析和挖掘,找尋海量數據潛在的無限價值,最終通過信息服務提供給用戶。
3 大數據背景下圖書館數字資源整合方案
綜合考慮大數據背景下圖書館數字資源整合的內涵、思路及目標,構建圖書館數字資源的完整體系架構,如圖1所示。體系構架主要由大數據獲取、大數據存儲、大數據處理、大數據應用這四組成部分。
3.1 圖書館大數據的獲取
大數據獲取是圖書館數字資源整合的基礎工作,可以采用RFID(Radio Frequency Identification)、網絡爬蟲、網絡監控等技術,借助傳感器、移動閱讀終端等設備,對圖書館大數據進行全覆蓋、動態性地預處理。大數據環境中所獲取的資源數據通常以結構化、半結構化、非結構化等多種形態存在,這就要求對所采集的數據資源作好正確的類型區分,以確定其采集的方式。結構化數據一般采用批量采集方式;半結構化和非結構化數據實時動態采集即可。
如上文所述,采集的圖書館大數據有好壞之分,為了提高圖書館大數據的完整性、準確性和有效性,可利用ETL(Extract-Transform-Load,篩選-轉換-加載)工具對圖書館大數據進行預處理。數據采集主要是為了獲取數據資源,而數據篩選的核心是優化數據結構及數據質量。數據轉換即是對數據進行標準化的格式處理,便于存儲、提取、應用和共享;數據加載的主要工作是將數據加載成不同的維度表和事實表,并存儲到數據庫。
3.2 圖書館大數據的存儲
大數據資源的“海量”特征,對圖書館的數據存儲平臺提出了更高的要求。它要求數據存儲平臺的存儲容量足夠大,具有可拓展性,并且處理性能優越,可高效地處理不同容量、不同類型的數據;另外,還需具有較高的安全性,在實現數據加密的基礎上能夠自動備份;具有通用的數據開放接口,適用于各種軟硬件的對接。目前,國內也開發出了諸多圖書館大數據存儲平臺,其中以Hadoop分布式平臺較為典型,各圖書館可根據實際需求選擇應用。
3.3 圖書館大數據的處理
大數據處理的具體工作在上文中已經做了詳細地闡述,主要是根據用戶需求及資源建設目標,對采集的圖書館大數據進行基礎分析、多維分析、實時分析、關聯分析、知識發現和數據挖掘等操作,為后期圖書館開展有效的信息服務奠定基礎。
3.4 圖書館大數據的應用
大數據的應用,即將處理后的數據成果以特定的載體提供給有需求的用戶,簡言之就是資源數據與信息服務的整合,但在服務內容和形式上有了改革和創新。除了圖書館傳統的借閱、咨詢等服務外,關聯服務也是大數據資源整合后的主要服務內容之一,例如,在為企業提供競爭情報分析時,可通過大數據的整合與關聯分析,為其提供競爭產品、競爭對手、競爭環境等相關數據,進而便于企業制定相關的競爭策略。另外,個性化服務也大數據環境下的重要服務內容,即在充分挖掘用戶行為數據的基礎上,預測性的為用戶提供所需的針對性信息服務??傊髷祿尘跋碌臄底仲Y源整合突破了圖書館的傳統信息服務內容,逐漸由單一的資源服務向學科服務、智慧服務等綜合性服務轉變。
4 結 論
大數據背景下的圖書館數字資源整合是一個系統性的過程,文章只是在資源整合思路和方案上提出了相應的見解。由于該過程涉及諸多技術的應用,還需在技術層面有所創新。
參考文獻:
[1] 朱靜薇,李紅艷.大數據時代下圖書館的挑戰及其應對策略 [J].現代情報,2013,33(5):9-13.
[2] 文庭孝,李維.大數據環境下數字資源融合初探 [J].信息資源管理學報,2015,5(2):79-84.
作者簡介:程全(1982.11-),男,安徽人,本科,講師。研究方向:電子資源建設。