馮秋燕
(河南財經政法大學,河南 鄭州450000)
大數據對信息文獻資源共建共享的影響
馮秋燕
(河南財經政法大學,河南 鄭州450000)
本文首先介紹了大數據的特征、概念,并對信息文獻資源共建共享的現狀進行分析,闡述了大數據對信息文獻資源共建共享的影響。[關鍵詞]大數據;信息文獻資源;共建共享
大數據有著巨大的社會價值、經濟價值和科學研究價值。通過挖掘和分析Facebook、微博等網絡大數據,能夠預測社會一些重大和突發性事件。數據逐漸成為相關行業和業務職能領域重要的生產因素。
以“大數據”為基礎,有效收集、存儲、組織、管理信息,使得用戶從海量信息中快速便捷的選取所需信息資源,是信息文獻資源共建共享的目標之一;傳統的網絡架構已不再適用于“大數據”、數據中心面對海量數據的巨大壓力、用戶從海量數據中選取信息的困惑性等都說明大數據時代對信息文獻共建共享帶來了巨大的影響。
本節首先介紹大數據的特征,然后基于大數據的特征闡述大數據的概念,簡單的分析大數據的應用狀況。
大數據本身比較抽象,與“海量數據”、“超大規模數據”不同,目前尚未有統一的定義。比較有代表性的定義均基于大數據的特征進行歸納總結,如下:一是3V定義[1]:大數據需滿足3個特征,規模性(volume)、多樣性(variety)、高速性(velocity);二是4V定義:IDC認為大數據除滿足3V定義外,還應具有價值性(value)[2],IBM認為大數據除滿足3V定義外,還應具有真實性(veracity)[3];三是維基百科對大數據的定義[4]為:大數據是指利用常用軟件工具捕獲、管理和處理數據所耗時間超過可容忍時間的數據集。
數據是一種基礎性資源,研究數據的根本目的是從數據中提取得到所需知識,并將之應用到具體的工業、學術、工程等領域,如Scienticic Computing、Finance、Social network、Mobile Da?ta、Internet of Things、Web Data、Multimedia等。這7個典型大數據的數據量均在GB級及以上,而由于數據規模、數據類型、模式和數據關系、處理對象等的變化,傳統的數據工程的處理方式已經不能直接應用于大數據,需要采取新的數據思維來應對。
大數據的應用目前處于起步階段,其普及需要一個過程,首先應從信息技術領域開始逐漸擴展至其他行業。信息文獻資源的共建共享需要以一定的技術環境和條件作為平臺,革新理念、更新手段、拓展空間。
隨著計算機網絡、通訊、多媒體的發展,文獻傳遞、聯合虛擬參考咨詢等服務得以實現并步入使用。目前,隨著紙質文獻、數字資源等信息的大幅度增長,僅憑一己之力難以收集、整理出所有信息。只有“優勢互補,資源共享”,才可以解決“信息超載”,提高資源的利用率。目前,國內比較有影響力的信息文獻資源共建共享項目有CALIS、CASHL、NSTL、DARR等,其中,CALIS通過“3e服務”,旨在構建一個多館合作、服務于全國高校的服務體系,實現知識庫資源的共建共享;CASHL提供一個檢索和瀏覽數據庫、書刊原文傳遞、館際互借、咨詢等服務的平臺;國家授權NSTL購買網絡數據庫資源,為我國NSTL授權用戶提供免費在線使用服務。DRAA采用集團采購的方式為DRAA聯盟館成員組織提供優質的數字資源。
由于我國數字資源建設相對較晚,雖著手進行資源調優,但在信息文獻資源共建共享方面,還存在著諸多問題,如:數據標準不規范,知識產權等相關法律體質的不健全,信息資源的浪費,缺失全局觀念,各自為營等。
Gartner認為,信息量至少以59%年增長速度增加,據IDC統計,2020年,以電子形式存儲的數據量將達到35ZB。云計算、RFID、社交網絡、移動圖書館等日益增長的電子資源帶來了更為廣泛的信息文獻資源。
4.1 電子書刊等電子資源的積累,為大數據提供了廣泛的數據來源
隨著信息技術的發展,電子圖書、電子期刊、數據庫、多媒體資源、網絡資源等電子資源的種類和數量正在超越紙質資源。截止2010年底,國內數字報已達700多份,電子書已達115萬種,電子期刊近萬種。截止2011年底,中文網頁年增長率為44.3%,數量達866億個。傳統文獻的數字化、新生的數字資源、其他虛擬館藏等各種多媒體資源的積累,構成了現今的大數據。
4.2 云計算、RFID、社交網絡、語義網等信息技術的發展,為大數據提供了廣泛的數據來源
云計算突破了傳統信息處理的局限性,強大的數據處理能力,信息資源整合、分配的能力,簡化的IT結構,為大數據提供了物質基礎和技術借鑒。RFID、社交網絡、語義網等信息技術為大數據提供了大量的海量信息,詳見表1。

表1 RFID、社交網絡、語義網的作用
作為現代流行的RFID、社交網絡、語義網等信息技術分別有著不同的作用與功能,其作用不可忽視,這些技術從不同方面提供了大數據的數據來源。可見,信息技術的發展使得文獻資源具備了大數據的特征。
4.3 高速網絡、智能手機、移動圖書館等應用的普及,為大數據提供了廣泛的數據來源
截止2011年底,我國數字電視用戶超過1 000萬,互聯網普及率為38.3%,上網人數為5.13億,手機用戶達9億,手機上網人數達3.56億,智能產品如平板電腦的出現,為用戶提供了新的體驗、交互、學習的方式,也為數字資源的多網絡傳輸提供了新的渠道與服務。移動圖書館越來越普及,移動閱讀與搜索等新服務類型的不斷出現,致使數據量以每年翻倍的速度產生。
由此可見,信息時代的發展使文獻資源具備了大數據的特征。現代科學研究、科技創新依賴于對數據的管理、組織和利用,學科知識服務以對大數據的分析、挖掘為基奠。由于大數據的復雜性,傳統網絡架構不適用于“大數據”,數據中心壓力巨大,文獻資源的共建共享將遇到很多問題與挑戰。
本文首先提出了大數據的特征、概念,并對典型大數據應用的情況做了比較分析,然后通過對中國信息文獻資源共建共享項目的分析,闡述了我國目前信息文獻資源共建共享的現狀,最后從電子書刊、云計算、RFID、社交網絡、語義網等信息技術、高速網絡、智能手機、移動圖書館等應用的普及方面論述了大數據對信息文獻資源共建共享的影響。
[1]Grobelnik M.Big-data computing∶Creating revolutionary breakthroughs in commerce,science,and society[R/OL]. [2012-10-02].http://videolectures.net/eswc2012_grobelnik_big_
data/.
[2]Barwick H.The“four Vs”of Big Data.Implementing Infor?mation Infrastructure Symposium[EB/OL].[2012-10-02].http:// www.computerworld.com.au/article/396198/iiis_four_vs_big_data/.
[3]IBM.What is big data?[EB/OL].[2012-10-02].http:// www-01.ibm.com/software/data/bigdata.
[4]Big data[EB/OL].[2012-10-02].http://en.wikipedia.org/wiki/ Big_data.
G250
A
1671-0037(2014)02-57-1.5
2013年12月26日。
馮秋燕(1988-),女,碩士,助理館員,研究方向:現代軟件工程技術、數據挖掘、大數據等研究。