●肖文芳 文庭孝
(中南大學 長沙 410000)
?
【資源·共享】
大數據環境下數字資源整合變革研究
●肖文芳文庭孝
(中南大學長沙410000)
隨著互聯網的飛速發展,特別是近年來隨著社交網絡、物聯網、云計算以及多種傳感器的廣泛應用,以數量龐大、種類眾多、時效性較強為特點的非結構化數據不斷涌現,人類正在進入大數據時代。相對于傳統環境下的數字資源整合,大數據環境下的數字資源整合發生了巨大變化。文章主要從整合對象、整合方式、整合技術和整合重心等方面論述了大數據環境下數字資源整合的變化及發展趨勢。參考文獻24。
大數據數字資源資源整合
云計算、物聯網、社交網絡等新興服務促使人類社會的數據種類和規模正以前所未有的速度增長,大數據時代正式到來,學術界,業界和政府等都對大數據給予了高度關注。2008年,《Nature》推出了“Big data”??痆1],2011年,《Science》推出 “Dealing with Data”專刊[2],討論了大數據在科學研究中的重要性及其應用。同年6月,麥肯錫咨詢公司發布了一份關于大數據的詳盡報告,即“Big data:The next frontier for innovation, competition, and productivity”[3],對大數據的影響、關鍵技術和應用領域等進行了詳盡的分析。IBM、微軟、蘋果等IT巨頭都相繼實施大數據計劃和項目,試圖在大數據領域占領制高點。2012年后,大數據進入飛速發展階段,美國、歐盟、英國、日本等國都提出了大數據發展應對措施,我國也積極參與其中。2012年2月,美國奧巴馬政府發布了“大數據研究和發展倡議”,計劃在生物、科技、醫學等領域利用大數據[4]。2013年1月,英國政府宣布將在對地觀測、醫療衛生等大數據和節能計算技術等方面投資1.89億英鎊。2012年7月,日本總務省推出新的CIT綜合戰略,即“活力CIT日本”,重點關注大數據應用。2013年初,我國科技部公布2014年度“國家重點基礎研究發展計劃(即973計劃,含重大科學研究計劃),其中將“大數據計算的基礎研究”作為重要支持方向。大數據對社會各主體和各領域產生了重大影響,人的思維模式、商業運作模式、科學研究模式、醫療診斷模式等將發生根本性變化。
大數據表現出“6V+1C”特征,即數據大量化(Volume)、類型多樣化(Variety)、處理快速化(Velocity)、應用價值大(Value)、數據獲取與發送方式自由靈活(Vender)、準確性(Veracity)和處理和分析難度大(Complexity)。大數據的基礎是數據,而數據的核心是數量、結構和價值。有無大數據、適合處理的數據結構和數據價值大小是決定大數據能否有效實施的關鍵。而其中最最重要的問題在于有無大數據和如何獲得大數據,這是大數據發展的根本。能否形成大數據產生價值在于數據開放的程度、數據整合的程度和數據融合的程度。大數據給數字資源整合帶來了挑戰,大數據環境下數字資源整合正在發生一系列變化。
1.1數字資源整合的內涵
數字資源整合是依據信息用戶的需求,對各個相對獨立的數字資源中的數據對象、功能結構及其互動關系進行揭示、融合、類聚、重組、重新結合為一個新的效能優化的數字資源體系的信息組織形式,它不僅僅是對數字資源本身的集中化整合,還應包括對數字資源相關數據的整合簡單來說[5],如果將各種散落的數字資源看成是散落的珍珠,那么數字資源整合就是將這些散落的珍珠串起來的過程。在大數據時代,孤立、零散的數據難以突顯其真實和隱含價值。
數字資源整合與數字資源共享、數字資源集成和數字資源融合等概念密切相關。數字資源共享泛指各個領域的文字、數字、文化資源類目以及各種數字資源的分享與共用。數字資源整合目的就是為了更好地共享數字資源,使數字資源發揮更大的作用。數字資源集成是將獨立分散的數字資源集中重新組合在一個系統或平臺上,擴大服務功能,提高利用效率。數字資源融合是數字資源整合的更高層次,整合是指把零散的東西彼此銜接,從而實現信息系統的資源共享和協同工作。而融合是指將兩種或多種不同的事物合成一個有機整體,是數字資源的自由存取、高度開放和無縫連接。
1.2數字資源整合的意義
數字資源整合在大數據環境下具有重要的理論意義和實踐價值。首先,數字資源整合有助于促進數字資源序化。在數字網絡環境下,大部分數字資源處于無序、零散狀態,并且魚龍混雜,用戶想要獲取其所需且有價值的的數字資源,難度較大。按照數字資源的關聯性將其進行整合,有助于數字資源序化,方便用戶獲取和利用。其次,數字資源整合有助于消除“數據孤島”。“數據孤島”是指相對獨立的不同類型、不同學科的數字資源系統相互封閉或標準不統一無法進行正常的信息交流, 猶如一個個分散、獨立的島嶼[6]。“數據孤島”容易造成數字資源重復建設和閑置浪費。對數字資源進行整合,開放數據資源,融合數據資源,共享數據資源,可以消除“數據孤島”,提高數字資源利用效率。
1.3數字資源整合的內容
數字資源整合包括兩個方面的內容,即以數據為基礎的整合和以技術為基礎的整合。
(1)以數據為基礎的整合。也稱為數據庫整合,是指利用數據庫將分散的異構數據進行無縫鏈接,在邏輯上形成一個新的有機整體。這一方面可以通過數據庫整合原始和基礎數據,另一方面可將多個數據庫整合形成更大的數據庫系統。數據庫整合可以剔除多個相關數據庫內的重復數據后形成的一種新的虛擬性數字資源體系[7]?,F階段,大部分數字資源是以數據庫整合的形式呈現出來的,在圖書情報領域,數據庫占據了數字資源的絕大部分。因此,數據庫整合成為數字資源整合的首要內容,內容為王。
(2)以技術為基礎的整合。也稱為系統整合、平臺整合。系統整合、平臺整合是通過對應用系統和數字資源進行分解和重組,使其在組織結構和表達方式等方面趨于一致,構建一個統一的數字資源管理平臺[8-9]。利用計算機技術、網絡技術、數據存儲技術等現代信息技術,將分散獨立的數據庫、系統和平臺都集成、整合在一起,共享數字資源,形成大數據。例如,圖書館的館藏大數據、用戶大數據、館員大數據、管理大數據、引文大數據等。隨著信息化的進行,各領域、各機構都有自己獨立的信息系統和管理平臺,系統差異阻礙了數據交流和共享。例如,不同圖書館之間因自動化系統的差異阻礙了圖書館之間的數字資源共享。因此,系統整合、平臺整合是數字資源整合的實現途徑,技術是手段。
隨著大數據時代的到來,數字資源整合發生了巨大變化,首先是數字資源整合對象的變化,即數字資源本身在存在規模、處理方式、存在方式、存在類型、價值密度等方面出現了變化。
2.1數字資源存在規模的變化
大數據環境下,隨著計算機技術和網絡技術的高速發展,特別是互聯網的應用和普及,數字資源規模正在以幾何級數呈爆炸式增長,數字資源的規模正在從GB、TB級躍升至PB、EB級。Gartner(高德納)公司研究認為,新產生的數據量每年正以至少50%的速度遞增,使得每年新增的數據量不到兩年就翻一番。Cisco(思科)公司在一份報告中推測,2015年僅移動數據量將會突破每月6EB,等于60億GB。根據麥肯錫全球研究院IDC最新的數據預計,到2020年,世界上的數據存儲總量將達到35ZB,等于35萬億GB[10]。正如麥肯錫全球數據分析研究所在2011年5月發表的一篇論文中所說:“大數據是指大小超出了典型數據庫工具收集、存儲、管理和分析能力的數據集。”[11]如此海量的數字資源如何根據需要將其整合在一起,發現隱藏其中的規律、特征和價值,無疑是一項巨大的挑戰。
2.2數據資源處理方式的變化
數字資源規模的變化帶來了數據處理方法和理念的根本性變化。傳統的數據處理由于受數據獲取和分析能力的制約,一直采用數據采樣或抽樣的方式處理數據,通過少量的樣本數據,使用數學或統計學模型近似地描述變量之間的特征或規律,然后進行趨勢外推到總體特征。樣本的數量可以根據數據獲取、處理能力來設定[12]。而大數據處理的是全樣本或總體樣本,總體本身可能不存在某種規律或特征,但隱含著某種關聯或聯系,需要利用現代信息技術,通過數據挖掘算法、知識發現規則找出變量或現象之間的相關關系。大數據造成了數據處理方式和思維模式的變革。
2.3數字資源存在方式的變化
傳統數字資源整合的結果是產生各種數據庫,數字資源主要以各種形式的數據庫存在,是經過加工整理后的相對靜態的數字資源。數字資源整合的具體形態主要有跨庫檢索系統、集成檢索系統、印刷型文獻與電子資源整合、聯合目錄式整合、電子資源地址整合、全文電子期刊和電子期刊論文索引、文摘鏈接整合、學科信息門戶整合、學科導航和學科信息智能導航系統以及學科電子資源搜索系統等[13]。
而在大數據環境下,數字資源整合的對象既關注傳統數據庫中相對靜態的數字資源,更關注著各種在線即時產生的動態數字資源。 數字資源整合的范圍由靜態的規范性數字資源擴大到動態的非規范性數字資源(如對網絡信息資源的整合)。相對于規范性數字資源來說, 網絡信息資源是一種非規范性數字資源,具有大數量、多類型、多媒體、跨時間、跨地域、跨行業、多語種、分散、開放、無序和自由等特點, 整合更為復雜和困難[14]。
2.4數字資源存在類型的變化
傳統的數字資源通過整合后形成了各類結構化數據庫,這些數據庫中數字資源的存在類型和來源都比較單一,以文字、數據、圖片、音頻、視頻、多媒體等某種單一形式存在,如文獻數據庫、數值數據庫、圖像數據庫、多媒體數據庫等。結構化數據是指根據需要將事物抽象形成便于人類和計算機存儲、處理、查詢的結構,數字資源在結構化抽象過程中,會忽略一些在特定應用下可以不用考慮的細節或信息,只抽取有用的信息[15],結構化數據處理起來較為容易。
大數據與傳統數據處理最大的不同就在于數據存在類型和來源多樣化、復雜化、綜合化,不僅包含結構化數字資源,還包括半結構化和非結構化數字資源,更多的可能是后者。不僅是文字、數據、圖片、音頻、視頻、多媒體等數字資源類型的單一體,更多的可能是這些數字資源類型的組合體、復合體、綜合體。大數據更多地關注包含大量細節信息的非結構化數據,強調小眾化和體驗化的特性,使得傳統的數字資源整合和處理方式面臨巨大挑戰[16]。
2.5數字資源價值密度的變化
相對于傳統整合的結構化數字資源來說,大數據的價值密度要更小。結構化數字資源經過處理后專指度高,價值密度也高。而大數據由于其具有復雜、多樣、動態、多變等特點,質量很難保證[17]。大數據體量大,泥沙俱下稀釋了數據的價值,降低了數據的可用性。國外權威機構統計表明,美國企業信息系統中30%的數據存在各種錯誤和誤差[18]。垃圾信息、冗余信息、錯誤信息很可能會集聚放大,引導出錯誤的結論。
大數據環境下,由于數字資源具有動態性、多樣性、復雜性等特點,因此對數字資源整合的方式多種多樣。
(1)面向內容的數字資源整合。也稱為學科導航,是以學科為中心,運用分類法對數字資源進行重組,建立數字資源學科導航系統,用戶可以較為方便的進行瀏覽檢索和利用。這種數字資源整合方式比較適合于特定領域的用戶,不少高校圖書館都建立了學科導航或特色數字資源。
(2)面向任務的數字整合。也稱為主題導航,以特定任務或主題為中心,從數字資源的功能、性能等方面來整合具有特定用途的資源,為特定任務服務,這種整合方式更加關注數字資源之間的特定聯系。如市場競爭十分激烈,企業想要在市場中占有一席之地,必須及時了解市場動態,企業信息部門可以將企業內部、外部信息系統進行有機整合,將貿易、價格、法規、稅收、產品、市場、競爭對手等多方面的數字資源整合為一體,服務于企業的經營管理,并通過對事件和信息的及時處理,把用戶有機地聯系起來,為企業服務。
(3)面向對象的數字整合。也稱為用戶導航,是以用戶的個性信息需求為中心,以為用戶提供簡便的信息獲取途徑為目標,對信息資源進行整合。隨著社會的發展,用戶的信息需求不斷增長且信息素養日益提高,以學科資源和主題資源為中心的整合方式已不能滿足用戶的個性信息需求。因此,面向用戶和對象整合數字資源提供個性化信息服務是必然趨勢,如個性化定制服務系統和圖書館個性化服務等就是這一發展趨勢的直接體現。
傳統環境下的數字資源整合技術主要有數據庫技術、元數據技術、信息封裝技術、OPAC技術、Z39.50技術、P2P技術等,其中最主要的是基于OPAC(聯機公共檢索目錄)的數字資源整合技術,它主要是利用因特網來對數字資源進行整合的基礎上提供檢索。OPAC實現方式主要有兩種:一種是通過Z39.50協議,聚合不同平臺上的異構OPAC數據庫,建立數字資源整合檢索系統。另一種是通過在MARC856字段(電子資源地址與檢索字段)中記錄電子文獻地址,事先揭示并鏈接全文電子文獻。但由于很多數字資源的鏈接地址不穩定,當地址發生變動時,就不能鏈接到數字資源,靈活性較差。Z39.50是一個數據應用層協議,目的是為了信息系統的開放互聯,起因于美國國會圖書館、OCLC、美國研究圖書館集團(RLG)等機構之間數據交換的需要。Z39.50能支持計算機使用一種標準的、相互可理解的方式進行通信,而且支持不同數據結構、內容、格式的信息系統之間的數據傳輸,可以實現異構平臺、異構系統之間的互聯與查詢[19],是數字資源整合的一種重要技術。P2P技術是對網絡資源進行整合的一種使用較為廣泛的技術。P2P(Peer-to-Peer)發現技術,即“點對點”發現技術,或對等聯網技術,其核心思想是:所有參與系統的結點都是邏輯對等的(成為對等點),目的是將網絡中的不同計算機連接起來,通過直接互連實現信息資源、處理器資源、存儲資源甚至高速緩存資源等全面共享[20]。
大數據因其復雜性特點,需要更多的技術支持,才能通過數據處理和分析技術從中發現有價值的信息。大數據環境下數字資源整合技術的變革主要體現在兩個方面:一是傳統的數字資源整合技術升級,特別是針對海量數據和即時數據的整合技術。一是新的數字資源整合技術的出現。目前主要有云計算技術和Hadoop技術等。云計算技術是大數據環境下數字資源整合的技術支撐平臺。Google于2006年首次提出了云計算的概念[21],Google公司最早自行研發一系列云計算技術和工具來支撐其大數據應用與管理,如 MapReduce、GFS等技術。Hadoop是目前最為流行的大數據處理平臺,Hadoop源于Google一款名為MapReduce的編程模型包,它是一個能夠對大量數據進行分布式處理的軟件框架[22]。Hadoop得以在大數據處理應用中廣泛應用得益于其自身在數據提取、變形和加載方面上的天然優勢。
大數據環境下數字資源整合的重心將發生變化,表現出一些新趨勢:
(1)由資源整合向應用和服務整合方向發展。在大數據環境下,數字資源整合不再局限于資源本身,如數字資源及其共享平臺建設,而是探索如何重組、集成、整合與資源相關的應用程序和服務, 擴展其可重用性, 數字資源整合的重點將由對資源的整合擴展到對應用程序、 服務等功能的整合[23]。
(2)數字資源整合與用戶個性化需求緊密結合。用戶的需求是多樣化的, 數字資源整合系統不再僅僅關注資源的集成、共享與整合, 而是開始關注用戶需求的差異性和個性化。 面向用戶的數字資源整合和基于整合的用戶服務成為未來數字資源整合的發展趨勢。
(3)資源融合成為數字資源整合關注的焦點。 數字資源融合是數字資源整合發展的高級階段[24]。數字資源整合強調的重心是將分散的數字資源通過一定的方式(如技術平臺、共享協議等)實現互通與共享(如館際互借、文獻傳遞、區域聯盟等),特點是數字資源的分散獨立處理、存儲與共享,目的是通過數字資源共享提高利用效用,重點在于數字資源及其技術平臺的建設與共享(如集成檢索平臺、資源聯盟、資源共享平臺)。而數字資源融合關注的焦點是將分散的數字資源通過無縫連接和一體化重組的方式實現數字資源的自由存取、開放共用,特點是數字資源的集中統一處理、存儲和分析,目的是通過對數字資源整體的處理和分析發現其中隱藏的價值,重點在于數字資源本身的價值及其價值實現方案。
大數據時代的到來,數字資源整合發生了巨大變化,在整合對象、整合方式、整合技術和整合重心等方面都出現了一些新特征。應用和服務整合、面向用戶的個性化需求整合和數字資源融合將是未來數字資源整合研究的重點,需要進一步關注。
[1]nature.Big Data [EB/OL].http://www.nature.com/news/specials/big data/index.html.[2014-10-02].
[2]science.special online collection:Dealing with data [EB/OL].http://www.science mag.org/site/special/data/2011.[2014-10-02].
[3]Manyika J,Chuim,Brown B,etal.Big data:The next frontier for innovation,competition,and productivity[R/OL].http://www.mckinsey.com/insights/MG I/Research/technology and innovation/Big data The next frontier for innovation.[2012-10-02].
[4]Big Data Across the Federal Government [EB/OL].http://www.White house.gov/sites/default/files/microsites/ostp/big data_fact_sheet_final/pdf.[2014-10-02].
[5]王儉敏.數字資源整合研究中的若干問題[J].現代情報,2005(9):80-82.
[6]李希明,土麗艷,金科.從信息孤島的形成談數字資源整合的作用[J].圖書館論壇,2003(6):121-123.
[7]呂莉媛.基于復雜網絡的圖書館數字資源整合[J].情報科學,2009(12):1811-1815.
[8] [20]王長全.云計算環境下的數字圖書館信息資源整合與服務模式創新[J].圖書工作與研究,2011(1):48-51.
[9] [21]劉崢.數字資源整合的現狀及其發展[J].圖書情報知識,2003(5): 40-41.
[10][15][16][22]馬建光,姜巍.大數據的概念、特征、應用[J].國防科技,2013(2):11-16.
[11][12][美]Bill Franks;黃海等譯:駕馭大數據[M].北京:人民郵電出版社,2013.
[13][14][19]謝玲.論現階段數字資源整合的實用技術及發展趨勢[J].現代情報,2007(8):100-103.
[17] [18]宗威,吳鋒.大數據時代下數據質量的挑戰[J].西安交通大學學報,2013(5):38-43.
[23]Redmant.The impact of poor data quality on the typical enterprise[J].Communications of the ACM,1998,41(2):79-82.
[24]劉曉英,文庭孝.大數據時代的數字資源融合研究[J].圖書館,2015(2):58-61.
(賴寧編發)
The Change of Digital Resources Integration under the Big Data Environment
Xiao WenfangWen Tingxiao
(Central South University, Changsha, Hunan 410000, China)
with the rapid development of the internet, especially in recent years, along with social network, internet of things, cloud computing and a variety of sensors are widely used, the non-structured data with the characteristics of large number, variety, strong timeliness continue to emerge, the human is entering the age of big data. Comparing to traditional digital resources integration, digital resources integration has changed greatly under the big data environment. This paper discusses the change and developing trends of digital resources integration under the big data environment from the aspects of integration object, integration model, integration technology and integration center, etc. 24 refs.
Big data. Digital resources. Resources integration.
2015-10-19
G25
A
1003-7845(2016)04-0024-05
肖文芳,副研究館員;文庭孝,教授,現在中南大學圖書館工作。