魯昉
【摘要】伴隨大數據時代的來臨,客戶對信息資源的需求與日俱增,因而圖書館的信息存儲和配套服務也發生了明顯的改變。為數眾多的非結構化數據和半結構化數據剖析及發掘內含的價值將會成為圖書館的重要業務。在此形勢下,圖書館的服務形式也應當作出相應的調整。
【關鍵詞】大數據時代;數字圖書館;困境;機遇;信息存儲
“大數據”一詞最初于《自然》雜志中出現。3年后,美國McKensey公司發布對大數據問題的相關研究報告,指出數據已經廣泛存在并應用于世界各行各業中,被看做是一種重要的生產要素。統計顯示,人們對海量數據的充分利用和挖掘,有力地推動著新一輪生產率的顯著提升及消費者盈余浪潮的出現。事實證明,大數據不僅被應用于物理、生物等基礎科學領域,其在通信、軍事等方面也已受到極大的關注。例如,Farecast系統對美國航班票價的前瞻預測。我國的淘寶網是B2C系統的翹楚,它采用大數據分析手段,獲得了史無前例的銷售總額。因此,企業已將大數據當作一種具備巨大潛能的生產力。IDC檢測顯示,世界數據量每兩年翻一番,說明近兩年生成的數據量等同于以前生成的所有數據量,大數據從本質上轉變了各行各業的數據使用方式。
一、大數據時代的數字圖書館
(一)大數據的主要特征。如今“大數據”已被廣泛用于描述結構化及非結構化數據。此類數據容量龐大,結構較為復雜,難以用常規的數據庫及軟件技術開展存儲和后期處理。它的特點通常被歸結為4個“V”,顯示容量、速度、多樣性和價值四個維度。其中,容量(Volume)正逐漸擴大數據集合的規模。速度(Velocity)所指向的數據一般依照數據流的形式動態出現,時效性較強。多樣性(Variety)指向的大數據種類很多,它涵蓋了結構化、半結構化和一些非結構化的數據類型。價值維度(Value)指向的數據量豐富,有潛在的巨大經濟收益。大數據幫助人們更新自身的認知,有助于新的價值的創造。同時,大數據還能調整市場、組織機構,協調政府和公民的關系。
(二)大數據和數字圖書館。數字圖書館以計算機技術應用、網絡通信技術和數字化處理技術為基礎,近年來在國內外蓬勃發展,碩果頗豐,不過仍有生搬常規圖書館功能、信息共享能力不足、特色功能不突出等缺陷,給其迅速發展帶來了不利影響。隨著大數據時代的來臨,數字圖書館正不斷突破自身局限,現階段已發展為圖書情報學研討的重點。在世界信息發展史上,2009年,歐洲一些先進的數字圖書館與科研機構確立了合作關系,旨在提升互聯網獲取信息的簡易度。2012年,美國正式啟動大數據研究發展計劃,硬性規定政府與大學、公司合作,以面對“大數據”時代的挑戰。不少公司開始運用大數據來分析讀者的閱讀偏好及習慣,建立知識服務智能分析引擎,以便更好地服務不同的需求。例如,哈佛圖書館把“大數據”引進數字圖書館,定期公布大數據結果。此外,歐洲大國也在緊鑼密鼓地進行大數據的存儲、研究分析。
二、大數據背景下數字圖書館面臨的困境
(一)數字圖書館和實體圖書館的“同質”問題。該問題主要體現在兩個方面:其一是和實體圖書館資源同質性,其二是用戶的同質性。研究發現,數字圖書館集中解決的問題為數據資源數字化、音視頻信息的轉換、存儲和其它相關技術的深度拓展,但欠缺海量數據的深度加工和管理服務。另外,從長期發展趨勢來看,數字圖書館必須對數字資源開展深層開發,更深入地挖掘、收集和利用初始數據,以期形成數據資源為主導的發展模式和方向。此外,技術的差距雖容易彌補,但收集數據的意識卻嚴重欠缺。由此帶來的對數據的重要性認識不足,嚴重制約著數字圖書館的進一步發展。在用戶的同質問題領域,當前數字圖書館資源的內容一般為館藏資源的數字化,實體圖書館用戶存在普遍的同質化現象。此外,部分數字圖書館自有一套系統,不能完全走出實體圖書館的象牙塔,完成不同用戶在信息領域的共享和使用。
(二)數字圖書館存在非結構化的數據空白。大數據可分為兩類:一為結構化數據,它存儲于數據庫內部,能夠采用二維表的結構以實現。另一種為半結構化或者非結構化數據。常見的E-mail、辦公文檔、Web上各種形式的信息即為此類數據。目前數字圖書館集中于文獻資料類數據庫的建設,非結構化的數據明顯不足,同時這類數據沒有充足的大數據分析,使得數字圖書館難以有效滲入到企業等用戶群體中。伴隨著物聯網、云計算、社交網等新型渠道與技術的拓展,涌入了大量的數據日志、E-mail、網絡新聞等未經整理的信息資源。同時,數字圖書館并未對相關統計數據、書籍借閱情況進行加工處理,使得該種半結構化或非結構化數據明顯不足。與此同時,統計結果顯示到2012年,非結構化數據所占比例已拓展到互聯網數據的75%左右。在大數據的背景下,大數據的缺乏易使數字圖書館淪為實體圖書館的象牙塔。對其分析技術的滯后,會使數字圖書館難以很好地融入用戶的細節服務中。非結構化數據有待進一步開發,它能優化數字圖書館的資源結構,適應新時代發展的需要,進一步滿足用戶的需求。對此類大數據的分析,可展示傳統渠道無法確定的重要關系,能夠鎖定更為深入、準確的用戶,提升對用戶的理解并采用智慧的解決方式,最終提升數字圖書館的市場競爭力。
(三)數字圖書館存在于象牙塔中,缺乏創新激勵。黨的十八大以來,黨中央高度重視技術創新,提出企業為主體、市場為導向,產學研結合的創新體系。反觀當下我國的數字圖書館,仍然存在于象牙塔中,缺乏創新引導。數字圖書館建立的初衷本為實現任何人在任意的時間地點獲取所需的知識。然而目前,大多數數字圖書館的服務是建立在門戶網站的基礎上。極少數字圖書館把其服務領域拓展到移動通信、電視網等網絡平臺,并開設移動圖書館等服務,并且其服務功能也相對有限。整體上看,我國的數字圖書館沒有做到及時跟進用戶的需求及習慣變化,創新理念匱乏,服務機制尚未真正建立,無法實現與業務流程的高度融合。數字圖書館被束之高閣,缺乏創新的活力。
(四)數字圖書館無法滿足新的研究需求。科學研究模式的改變,對數字圖書館提出了更高的要求。在海量數據、協同創新、第四范式等新理念的推進下,數字圖書館需要不斷滿足新的研究需求。大數據背景下的研究需求集中于數據驅動方面的探索,該研究注重面向問題本身、面向數字和模擬技術、面向決策支持,對創新有更高的要求。對數據科學的依賴,使研究更加關注數字圖書館的大數據利用效率。但是,當前數字圖書館在大數據應用方面明顯不足,難以適應科學研究的需要。
三、數字圖書館的發展戰略
(一)應用大數據轉變數字圖書館的資源建設方式。數字圖書館應深入開發現有數字資源,一方面要注重各類半結構化或非結構化數據的建設工作,另一方面要加強對原有大數據的挖掘與收集,并采用適當的方式加以儲存和利用,最終打造一條以數據資源為主導的發展新方式。第一,要加快對新型數字圖書館應用平臺的開發利用,從而有效管理異質文檔和元數據,實現對結構化和非結構化數據的統籌管理。第二,隨著教育、文化、科研等領域逐步邁向信息化、數字化,社交網絡等數字內容已逐步成為重要的信息資源。例如廣泛使用的搜索引擎即為信息資源的組織者,使用谷歌、百度等開展信息查詢已成為信息搜索的第一選擇。因此,數字圖書館可學習搜索引擎對信息搜索的技術,對集成網絡下數字元素統一開放。依照用戶的要求對所需內容進行鏈接,將自己轉變為信息社會知識服務的紐帶。此外,積極建立有大數據特色的數據庫。真正能體現不同圖書館的差別在于對圖書館所屬單位或相關機構特色資源的開發利用。關于這一點,國內外已開始行動。例如美國國會圖書館推出的專題特色庫、我國北大開發的歷史地理數據庫、拓片專題等。在大數據的背景下,數字圖書館需不斷提升自身特色資源的開發與建設能力。信息時代數據呈幾何級增長,新類別數據正不斷出現。與此同時,數據結構亦日趨復雜。數字圖書館在新形勢下正發生顯著的變化。在日新月異的數字信息環境下,數字圖書館必須開放集成網絡環境中的各項數字信息。
(二)運用大數據推動數字圖書館的改革創新。大數據存在的意義并非容量大、形式多樣,而在于一種全新的方式對數據開展存儲、組織和分析,以此獲得更多的價值。大數據的挖掘需要高速獲得豐富的結構化、半結構化或非結構化數據。因此,大規模數據的不斷增長,給圖書館自身基礎設施建設提出了嚴峻的挑戰。由于成本的制約,大數據使用機構在建設硬軟件資源時向中低端大規模計算機集群傾斜。同時,具備復雜結構的數據對數據庫的要求更為嚴格。如今,數據庫的管理技術已日漸成熟,它能較好地應對結構化大數據。例如著名的Sq1 Server、Oracle等,都擁有突出的結構化數據管理能力,同時覆蓋優秀的數據庫功能,并且生成了比較穩定的模式和方法,對數字圖書館的資源揭示有重要的推動作用。此外,對相對復雜的非結構或半結構化的數據信息,有關數據管理拓展性方面的內容受到了很大的沖擊,因而在大數據時代急需一批可以處理大型非結構化數據的操作工具及運行平臺。目前以Hadoop為代表,其文件系統及處理模式能高效地管理各類結構化或非結構化數據,為數據處理提供便利。大數據獨特的分析能力還能輔助數字圖書館拓寬業務范圍,從傳統的對資源及相關服務的一般檢索轉換到資源的深度聚合上,很好地滿足了各類用戶對情報的統計分析需求,實現對知識的探索評價。事實上,海量數據中包含著很多價值很高的情報信息。要想從繁瑣的數據中發掘知識,找出其價值并積極利用,幫助人們更好決策,需要對數據開展非常規報表的深度剖析。人們不僅滿足于了解當下發生的事情,還希望通過數據預測將來會發生何事,以使自己的行動更具主動性。例如對客戶流失狀況的分析。應用大數據分析平臺還能推動可視化分析、圖形分析、語義識別、數據管理等方面的發展,便于獲取新知識。
(三)以大數據為基礎,提升數字圖書館的服務質量。一是提供個性化服務。隨著時代的發展,用戶更多地希望從海量數據中獲得針對自己的個性化服務,由“個人計算機”向“個人計算”轉變。個人計算存在很大差別,在大數據的支撐下數字圖書館能按用戶的需求,開展深度分析及預測,并依據用戶的偏好及特征推送相應的個性服務,這對數字圖書館的服務質量有本質提升。二是按需服務。大數據背景下數字圖書館的信息服務根植于用戶的需求體驗。通過用戶的需求反饋,并非圖書館存在何種資源就利用什么資源,而應依據自身的需求,統籌管理數據庫資源、網絡資源等,創建涵蓋物理圖書館的信息環境。大數據數字圖書館廣泛應用了云計算、傳感網等新興技術,能做到快捷檢索需要的數據,有利于知識的挖掘,在提供一般知識的同時,還傳遞了隱藏的有意義的信息。三是不確定性服務。這是大數據時代數字圖書館的重要特征。它與用戶信息需求并非一一對應的關系,存在多種解釋。針對數據的處理要求,會形成知識服務解答的集合。大數據使解答更具靈活性,允許不精確的出現。對容錯標準的放寬,使人們大大增加了可獲得的數據,并能使用這些數據處理新的事情,獲得更理想的結果。四是智能型服務。體現在其服務項目以預測分析為基礎,是一種真正意義上的智能型服務。圖書館從傳統意義上的知識集聚地變為知識的處理與加工地。預測是大數據的核心,它以科學算法為基礎。在其指導下,數字圖書館可依據研究主題,跟進相關領域的著作資源,掌握該領域的科研動態。它對學術趨勢的把握,方便用戶了解新的熱點研究問題,為有針對性地開展科學研究打下基礎。
四、結束語
數字圖書館是我國信息化戰略的一個重要構成要素。在大數據技術的背景下,應積極研究融合數據、新興處理手段、創新思路為一體的多功能數字圖書館。實現數據和多種信息資源相互融合的操作框架。伴隨大數據應用在數字圖書館建設中的逐步深入,勢必能推動數字圖書館豐富自身內涵,實現服務的優化和增值。
【參考文獻】
[1]畢強,閆晶,李潔.大數據時代數字圖書館服務轉型面臨的新形勢與新要求[J].情報理論與實踐,2017,40(12):12-16.
[2]溫相雄.探究大數據時代數字圖書館面臨的機遇和挑戰分析[J].科研,2017(2):296.
[3]文杰.大數據時代下數字圖書館發展創新服務的必要性[J].河南圖書館學刊,2015,35(11):124-125.
[4]張睿麗.淺談大數據時代數字圖書館面臨的機遇和挑戰[J].社會科學:全文版,2016(7):198-199.
[5]朱麗萍.大數據時代數字圖書館信息服務中個人隱私保護研究[J].圖書館學刊,2017(2):128-131.
[6]張新慧.大數據時代數字圖書館面臨的機遇和挑戰[J].長江叢刊,2017(1):195.
[7]成玉峰.大數據時代數字圖書館面臨的機遇和挑戰淺談[J].長江叢刊,2017(8):151.
[8]倪菊.大數據時代下的數字圖書館信息安全問題研究[J].科技視界,2018(1):101-102.