劉瑜
在大數據時代,數據的爆炸式增長超出了人類的想象,以知識存儲為基本責任的圖書館應該如何應對呢?受技術瓶頸和經費短缺的限制,大多數圖書館要想全面升級換代現有數據庫和提高現有存儲容量是不可能的。在這種情況下,圖書館學情報學界往往把數據存儲解決方案寄托于大數據存儲技術的突破。事實上,這種研究是嚴重脫離和滯后于圖書館現實的。
圖書館存儲能力面臨挑戰
圖書館不可能存儲所有數據。大數據時代,基本矛盾關系決定了圖書館不可能存儲所有數據。在這種境況下,要求任一圖書館只能根據自己的讀者需求、辦館特點和發展定位,有選擇性地存儲“有意義”的數據。但這也并非意味著對其他數據可以置之不理,因為任何數據都是有潛在價值的,只是針對不同對象而言。
圖書館不易存儲非結構數據。大數據之所以“大”關鍵在于半結構數據和非結構數據( 以下統稱為“非結構數據” )飛速增長。
第一,非結構數據增長量大。按照大數據發生學的解釋,信息技術開發與應用的高度融合直接催生出云計算、移動網絡和社交平臺,而它們的出現又為人們能夠隨時隨地地利用智能手機、平板電腦或導航系統等現代通信工具去生成、發送和獲取數據提供了便利和平臺,于是就形成了大數據賴以存在的生態環境。
第二,非結構數據沒有相應的數據庫可供存儲。非結構數據特指那種非線性的數據類型,它主要相對于以“事務”為中心而建構起來的關系數據, 亦即結構數據而言的。在“小數據”時代,結構數據占統治地位,對應的 IT 架構是“關系型數據庫”;在大數據時代,傳統的關系型數據庫已經無法直接存儲這些帶有異質構造性質的非結構數據。
第三,非結構數據占用的存儲空間較大。非結構數據主要是與傳感器、圖像、視頻、音頻、微博、微信、帖子、點擊等數據緊密聯系在一起的,完全以“碎片”的形式存在于物理空間。在一般情況下,它們占用的物理空間都非常大且不易整理。
圖書館不得不存儲非結構數據。目前,圖書館還習慣于存儲結構數據,但非結構數據的占有比例遠遠高于結構數據的比例。當前,圖書館要與時俱進地進入大數據視域,就會感受到大數據對圖書館存儲容量的壓力。以大數據視野審視圖書館的建設,就會發現當今圖書館數據存儲的難題:一方面是不能完全把控大數據但又不得不試著去存儲它;另一方面是如果要存儲它,又不得不面臨半結構數據不易存儲的問題。
圖書館大數據存儲方案
圖書館大數據存儲方案利用云系統存儲非重要數據。大數據首先是對圖書館存儲的硬件設施,尤其是數據存儲容量提出了嚴峻的挑戰。為應對這一難題,有些研究者把希望全部寄托于“云系統”技術的推廣應用。
云系統(Cloud Computing)的核心思想是“分布式共享”,具有動態性、開放性、自治性、可靠性、可用性等特征。在具體操作上,圖書館員們只需將相關數據輸入到“云端”,就可以自由地在上面進行存儲、訪問、修改、反饋或提取。云系統無限地擴展了圖書館的存儲容量,而且館員還無須為技術問題而煩惱(一切技術操作都由云服務商來解決)。但是,云系統在給予我們便利的同時也帶來高技術轉讓費以及知識產權、技術標準、信息安全、管理體制等方面的難題,所以,在使用時應該謹慎待之。目前,最穩妥的辦法就是把圖書館的數據、信息、知識資源進行分門別類處理。可以根據知識產權、技術標準和信息安全的不同程度把所有數據細分成不同的、特點明確的類型,然后按照其類型采取相應的存儲方式。具體說來,可以把重要數據如特色數據、有知識產權要求的數據和保密程度高的數據進行館內存儲,把“非重要數據”進行外掛存儲。這樣,既能夠在一定程度上規避可能的風險,又能夠最大限度地提升圖書館自身的存儲容量。
通過館際聯盟存儲次重要數據。由于單個圖書館存儲設備容量始終是有限的,而讀者需求數據又呈幾何級數增長,即使僅存儲核心數據也會很快“爆棚”。比如當前,綜合圖書館每年必需數據增量大約為20 TB,如此浩瀚的數據量,對于一座擁有100 TB存儲容量的大型圖書館也僅能滿足5年左右的存儲需要。因此,圖書館之間尋求合建數據存儲庫來實現科學數據的收集、共享和服務也成為必然選擇。
近10年,圖書館為解決文獻資源不全而構建的“館際互借系統”和為形成文獻資源互補優勢而建立的圖書館聯盟都為這種分布式共享奠定了物質基礎,提供了技術支撐,比如北京地區高等教育文獻保障系統(BALIS)就是在北京地區高校圖工委的統一領導下建構的。它采用集中式門戶平臺建設和分布式存儲相結合的方式,不僅提高了文獻資源的利用率,而且減少了單個高校圖書館的存儲容積。這種模式完全可以借鑒到大數據圖書館聯盟建設上。對圖書館來說,如果要想提高數據存儲容量而又能規避云系統帶來的安全威脅,組建或加入圖書館聯盟是可行的策略之一。 這是因為圖書館之間具有很多天然的同一性,圖書館在應對潛在風險方面的立場基本一致。圖書館館際之間合作的深化還有利于克服重復建設以及資源浪費方面的弊端。這一解決措施反映在圖書館的軟硬件建設上,就必須由過去追求高端服務設施向中低端軟硬件基礎設施構建的大規模分布式計算機群集轉變,將分塊、分類的大數據復制到集群服務器節點上進行處理。
利用館內存儲來建設自己的特色數據庫。圖書館行業的內部競爭決定了任何一個圖書館都不愿意把自己具有核心競爭力的特色數據通過鏈接方式予以共享。與之相反,各圖書館都在競相自建獨具特色的數據庫。而特色數據庫具有高度的可靠性和安全性要求,但存儲周期長、數據類型多、數據量大,這同樣會對內部存儲容量構成巨大的挑戰。在圖書館的實際管理經驗中,經常是采用整理碎片的技術來提高存儲空間利用率和數據查詢效率,這對小容量操作切實可行,但對于大型數據系統卻是遠遠不夠的。鑒于目前圖書館存儲設備容量利用率不到50%的現實情況,提高數據庫存儲最有效的辦法是運用大數據壓縮技術。相比較于自動精簡配置技術和重復數據刪除兩項傳統壓縮技術,大數據壓縮技術不僅兼顧了它們兩者的功能,而且功效更強大。它可以針對整個圖書館系統內兩個或多個文件之間數據的相同性和相似性,通過分析比較,刪除多余數據,達到數據壓縮的目的。圖書館在自建特色數據庫時,總會遇到大量的非結構數據。
怎樣進行數據知識形態化
在進行“數據知識形態化”過程中,針對復雜、多樣的非結構數據管理需求,可以結合 OLTP、Datameer 和 Hadoop 等 IT 技術給予解決。具體操作程序是:首先利用 Datameer 提供采集和讀取不同類型數據庫的平臺,然后將“二次生成數據”植入 Hadoop 開源框架之中,憑借其提供的分析工具對數據進行可視化分析、預測性分析、智能語義分析,從而建立“名副其實”的語義引擎,最后把“三次生成數據”進行 OLTP 技術處理。這樣,原初的非結構數據經過一套蘊含多重深度分析工具程序的改造之后,就能直接存儲到關系數據庫之中。當然,由于“數據知識形態化”程序的技術含量高,這必然給圖書館員提出更高層次的業務能力要求。
在大數據存儲技術并不成熟的情況下,圖書館員們已經在具體的實踐活動中摸索出一些大數據存儲經驗。圖書館并非在海量數據面前無所作為;在現階段,最切實可行的數據存儲路徑是利用現有的一些數據處理工具進行“數據知識化”處理工作;經濟適用的數據存儲方案是根據不同數據對本館館藏的重要程度,選擇、分類并有針對性地進行外掛存儲、館際存儲或館內存儲。當然,圖書館作為政府主導下的公益型事業,圖書館員在對大數據的認識上以及對大數據存儲難題的探索上總面臨內驅力不足的問題。這是圖書館學情報學界亟待解決的另一個問題。