荀麗芳
摘要:大數據時代的來臨,使“數據”成為各行各業都要考慮的不可或缺的一種生產要素。作為圖書館行業,雖然“數字圖書館”仍是一個較新的概念,但就其發展趨勢而言,在大數據時代的背景下,“數據”更應該是數字圖書館建設的重心。在大數據時代到來之際,對大數據、大數據思維的了解有助于數字圖書館在建設過程中的數據挖掘、數據處理及數據服務上形成符合時代需求的產品及模式。
關鍵詞:大數據;大數據思維;數字圖書館;數據圖書館
中圖分類號:G250.76文獻標志碼:A文章編號:10017836(2017)04015403
近年來,隨著計算機技術與網絡技術的發展,商業與互聯網的結合越發緊密,“大數據”也通過這種全新的商業模式走入人們的視野。“大數據”是指在信息時代通過網絡等工具收集匯聚的海量的數據,同時也被指為是對這些數據進行挖掘、分析的各類技術的發展與創新。其實,大數據在很早之前就被運用在多種學科之中。最早提出“大數據”時代的是全球知名咨詢公司麥肯錫,麥肯錫稱:“數據,已經滲透到當今每一個行業和業務職能領域,成為重要的生產因素。人們對于海量數據的挖掘和運用,預示著新一波生產率增長和消費者盈余浪潮的到來。”[1]由于互聯網和信息行業的發展,大數據的理念與實踐從商業領域迅速擴展到社會信息服務的各個領域,圖書館作為社會重要的公共文化服務機構,也開始積極致力于大數據理念與技術的引進與應用。
1大數據、大數據思維與大數據技術
1.1大數據
雖然“大數據”成為了近年的熱詞,也有越來越多的人開始了大數據的研究,但目前“大數據”仍沒有統一的定義。那么究竟什么是大數據?筆者認為,大數據是指無法在一定時間范圍內用常規軟件工具進行捕捉、管理和處理的數據集合。再簡單的概括一下,可以說“大數據”就是一個數據集合。一般認為,當數據集合的存儲量達到PB①或者EB級時,這個數據集合就可以稱為是大數據或海量數據。
1.2大數據思維
提到大數據與大數據思維,就不得不提及經典的“尿布與啤酒”的大數據案例。在美國的沃爾瑪超市里,你會發現尿布與啤酒這兩種風馬牛不相及的貨品竟然是被陳列在一起的,而這種陳列方式大大地促進了二者的銷量。原來,在美國,年輕的媽媽一般都會要求孩子的爸爸去為孩子購買尿布,要知道,美國的年輕男士是非常鐘愛于啤酒的。所以這些孩子的爸爸們往往則會在購置尿布的時順便購買啤酒。這一規律就是由沃爾瑪的數據專家在雜亂無章的銷售數據中挖掘出來的。而這種數據中有利的、規律性的信息的挖掘過程其實就是大數據思維的一種體現。
由此可見,大數據思維就是大數據技術的哲學基礎或內在邏輯。掌握大數據思維就能掌握大數據中各類別數據的關聯關系,進而通過各種關聯關系獲得有利的潛在信息。大數據思維具有以下特征:
(1)規律性。大數據中任何相關聯的數據之間都有其內在的聯系,這一聯系是各個數據存在的基礎,同時也是大數據內部運行演變的規律。如“尿布與啤酒”,就是在海量的數據中尋找到“尿布”與“啤酒”的關聯關系后,在通過這種潛在關系促進二者的銷量。
(2)無偏性。不難看出大數據思維的基礎是統計學思維,但其有別于統計學思維的地方就是無偏性。大數據最突出的特點是數據的龐大,在龐大的數據中獲取有效信息進行分析研究的結果,往往能體現各種不同數據的之間的聯系與變化規律,由此得到的結果,往往是海量元數據的共性,所以這種結果一般更加科學,更加符合實際。而統計學常采取的抽樣形式,相比較大數據而言,“以偏概全”的概率更高。
(3)準確性。大數據思維的準確性不僅僅體現在其無偏性上,而且體現在其“求解”的過程中。一般的數據分析是在數據所直接表達的信息上發現問題,可以說是“提問”的過程。而大數據由于其數據過于龐大,往往使用大數據的前提是已知某一問題,再就這一問在海量的大數據中尋找共性及解決方案,是一種“求解”的過程。
1.3大數據技術
如同大數據一樣,目前大數據技術也同樣沒有明確的定義,筆者認為,大數據技術是指通過大數據思維在大數據中提取有效的數據關系的技術手段,它應該是統計學、計算機科學、心理學等多學科技術的融合。結合以上學科特點,大數據技術往往被應用于概率統計、趨勢預測、客戶分析等方面,由于學科的結合,大數據應用在情報分析方面都有著非常出色的表現[2]。
1.4大數據與數字圖書館
(1)數字圖書館。在理解大數據與數字圖書館的關系前,我們首先了解下什么是數字圖書館。數字圖書館是相對于實體圖書館而言的,一般情況下,數字圖書館是基于實體圖書館建構的一種虛擬圖書館。數字圖書館是隨著信息時代的發展而來的,屬于隨著信息時代的到來而到來的產物。數字圖書館是一種能夠為用戶提供方便、快捷、高水平的信息化服務機制的擁有多種媒體內容的數字化信息資源,它既是一種科學技術,又是一項社會事業。進一步從概念上對信息圖書館進行具體化理解數字圖書館的工作的話,主要有以下兩種:一是將傳統紙質圖書數字化,即將傳統的紙質圖書轉化為電子版的數字圖書;一是對數字圖書的管理,這就涵蓋對數字圖書的存儲、交換與流通使用。
(2)大數據與數字圖書館。就數字圖書館領域討論大數據,就不得不討論圖書館中是否存在大數據。如果有,其大數據的一面又體現在哪里?在已有的大數據與數字圖書館的研究中,普遍認為圖書館自建或外購的數字資源即數據、信息和知識就是圖書館的大數據。這些數據已經達到了PB級別,符合大數據存儲量上的要求。但也有反對者認為,這些數據、信息與知識在大數據被調用分析前即已存在,且一般有著詳細的歸類,無須進一步提取與分析,不能成為大數據。反對者認為圖書館的機器可讀目錄數據、讀者的借閱記錄、用戶信息行為數據才是圖書館的大數據,雖然這些數據達不到大數據要求的存儲量(PB級以上),但是這些數據的存在與應用是符合大數據思維的,即我們可以通過大數據技術手段去探尋隱藏在圖書館的海量數據中各類數據之間規律性的關聯關系。筆者認為,就大數據現有的概念而言,以上兩種觀點都不可完全稱作是圖書館的大數據,但如果將兩者結合,則完全滿足大數據的定義要求,且兩種數據之間并不沖突。以上兩種類型數據之間既有既定的,也有可變性的,但兩者之前其實是存在聯系的,這種聯系的探求就符合大數據思維模式,數字圖書館的建設就可以根據以上數據進行挖掘與探究。而兩者數據存儲量之和也滿足大數據對存儲量上的PB級以上的定義。
2大數據時代數字圖書館的挑戰與危機
2.1數字圖書館的外部競爭危機
現實生活中,學術資源上的大數據應用已很常見。如中國知網(CNKI)、萬方數據知識平臺、百度學術等學術資源建設商都已存在大數據應用。據測算,目前僅百度擁有的信息總量就超過1000PB,相當于國家圖書館藏書數字化后數據量的5萬倍,每天增加的數據量 10TB,相當于半個國家圖書館的藏書數字化后的數據量[3]。由此可見,在學術、教育、文化資源上的網絡資源建設發展十分迅速,這些網絡資源建設商已經在資源的規模與資源的種類兩個方面,遠遠地超過了傳統的數字圖書館。再者,一份關于大學生對高校圖書館使用情況的調研報告顯示,72%的學生通過網絡獲得信息,而通過圖書館獲得信息的學生只占18%[4]。另一項調查也顯示,大學生訪問圖書館網站(數字圖書館)的只占28%,遠低于使用搜索引擎的使用比例,甚至有25.3%的大學生表示從沒有去訪問過圖書館網站(數字圖書館)[5]。傳統的數字圖書館已經成為了大數據時代背景下信息獲取的最后途經。
2.2數字圖書館的內部建設困境
(1)信息時代遺留問題亟待解決。由于時代的差異,傳統數字圖書館在建設時難免受技術所限。同時,由于資金不足、標準不統一等許多原因,導致數字圖書館長期存在著諸如接口不統一、資源元數據描述不夠、檢索能力不足、文獻數據相互關聯性較差、互操作程度較低、資源發現和擴展能力低下等問題。這些問題從根本上阻斷了各圖書館內以及圖書館之間信息的共享,也使得文獻檢索不便、不全。
(2)大數據時代帶來新的數字圖書館建設挑戰。其一,大數據技術應用為數字圖書館傳統技術應用帶來挑戰。我們知道,目前數字圖書館在信息檢索互操作方面很難將復雜數據環境(多源數據、多類型數據)下的數據價值發現與圖書館知識服務結合起來。這是因為傳統的數字圖書館的檢索方式主要有基于圖書館自動化系統的元數據互操作(如聯合目錄+OpenURL)和基于二代圖書館系統的基于系統的互操作(如MetaSearch+OpenURL)兩種,這兩種檢索互操作方式的結合應用,也只能是有效地解決信息描述與檢索能力不足的問題,而上文提到的問題是根本無法解決的。這一問題卻完全可以通過大數據思維進行剖析與處理。其二,大數據思維為數字圖書館的用戶維護帶來了挑戰。如上文所述,大數據的出現形成了有別于傳統思維的大數據思維。這種在海量數據中尋找相互關系的思維逐步地使人拋棄傳統的、易錯的思維模式與實驗方式,是一種“通過信息找人”的思維方式。傳統的數字圖書館在其各項數據間都無法形成有效聯系的情況下,想“通過信息找人”,即在數據中進行概率預測,為信息找用戶的服務就很難達到。
對此,在大數據的背景下,傳統的數字圖書館界就應當重視來自其自身內外的威脅,但有時威脅可能也是一種啟示,更是一種機遇。
3大數據時代背景下數字圖書館建設研究
3.1數據圖書館是數字圖書館的發展方向
數據圖書館即在數字圖書館的基礎上,綜合以上數字圖書館存在問題,以數據為核心,圍繞數據及數據業務來重構或重組數字圖書館的建設、運營與服務。圍繞數據及數據業務就是指數字圖書館的建設、運營與服務均已數據為核心,對數據進行采集、保存、挖掘、分析以及處理與應用,進而形成數據出版、數據增值與數據服務。
數據圖書館的架構主要為三個部分。首先是負責數據采集與保存的大數據層。這一層級主要由文獻數據(期刊、論文、雜志等)、用戶數據(個人數據、閱讀習慣、生活信息等)及其他數據(政府信息、科技環境等)構成。其次是負責數據分析及處理的數據計算層。顧名思義,該層級的主要任務就是提取、處理、分析大數據層存儲的所有數據。最后層級即用戶服務層,該層級為用戶提供基礎數據服務,同事兼收用戶直接反饋或間接反饋的各類信息。通過用戶服務層的功能即可看出,三個層級之間是相互聯系的,各自的信息既是為自己服務,也是為其他層級服務的。
3.2數字圖書館的建設研究
在理清未來大數據背景下數字圖書館向數據圖書館的發展方向后,如何建設未來數字圖書館是數字圖書館建設的主要問題。筆者通過國內外各相關文獻總結出以下未來大數據數字圖書館建設過程中存在的問題及解決方法。
(1)跳出傳統圖書館的思維框架,創建大數據思維的數據圖書館。行動上想有所轉變,首先應該在思想上有所轉變。其實,大數據時代最重要的并不是大數據本身,因為雜亂無章的數據并沒有任何價值。大數據時代最重要的應該是大數據思維。傳統的數字圖書館實質上在其思維框架上并沒有脫離原有的實體圖書館的思維模式,其設計與建設只是將從前到圖書館內查找圖書的方式轉變為通過網絡查找,被查找的書目由紙質版變為電子書。而大數據時代就是要打破傳統的數字圖書館的這種被動提供資源的形式,而是根據海量數據的有效提取、處理及分析轉變為主動地運行模式。當然,大數據思維在數字圖書館的建設上并不僅僅局限于此,更多的數字圖書館的工作(如出版等)都可以用大數據思維進行思考,并進行改善。
(2)提供專業有效的大數據技術支持。大數據背景下的數字圖書館建設是絕對離不開專業的、有效的大數據技術支持的。離開了大數據技術的支持,大數據思維將永遠停留在“想”的階段,只有在大數據的技術支持下行之有效的運行才會實現大數據背景下數字圖書館的真正轉型,實現大數據背景下數字圖書館建設的“想與做”的結合。一般而言,計算機科學、統計學專業的人員是大數據技術人員的首選,結合上文,無論是大數據的收集與存儲、處理與分析都離不開以上兩種學科的支持。
(3)提升數字圖書館工作人員個人素質。這里提升的素質主要是指加強圖書館工作人員的大數據思維培養。無論多么便利的工具,只有在正確的使用下,才能充分發揮其效能。相對于大數據而言,人的因素才是主動因素。這里我們不要求普通的圖書館工作人員要向計算機科學與統計學等專業人員一樣在大數據的應用中創造技術,但我們需要這些工作人員能夠掌握大數據思維,且能夠熟練運用數字圖書館中各種數據的分析工具與軟件,能夠充分掌握圖書館中各種數據資源,這才是未來數字圖書館在大數據背景下發展為數據圖書館的有力保障。
注釋:
①計算機信息技術用于計量存儲容量和傳輸容量的一種計量單位(Byte),其換算公式為:1ZB=1024EB,1EB=1024PB,1PB=1024TB,1TB=1024GB,1GB=1024MB,1MB=1024KB,1KB=1024Byte。
參考文獻:
[1]大數據[EB/OL].百度百科.
[2]譚影虹.從數字圖書館到數據圖書館——大數據時代的圖書館服務范式轉變[J].圖書與情報,2016(3).
[3]盤點中國2013行業數據量[EB/0L].百度文庫.
[4]張穎.大學生圖書館使用情況調查與研究——以A校為例[J].青年文學家,2014(6):182.
[5]關于圖書館利用狀況的調查報告[EB/OL].百度文庫.
[6]和婷.大數據思維對圖書館信息服務工作的啟示[J].圖書館建設,2014(1).
[7]朱靜薇,李紅艷.大數據時代下圖書館的挑戰及其應對策略[J].現代情報,2013,33(5).
[8]蘇新寧.大數據時代數字圖書館面臨的機遇和挑戰[J].探索交流,220.
[9]陳傳夫,錢鷗,代鈺珠.大數據時代的數字圖書館建設研究[J].圖書情報工作,2014,58(4).
[10]Tony H.,Stewart T.,Kristin T. Thefourth paradigm: Dataintensivescientific discover[M].Washington: MicrosoftResearch, 2009.
Abstract:The arrival of big data era makes the “data” become an indispensible production factor which all walks of life have to consider. In the library industry, though the “digital library” is still a new concept, considering its developing trend, the “data” should be the key to the construction of the digital library in the big data era. With the era of big data coming, the understanding of big data and big data thinking is conducive to the creation of the product and mode which meet the needs of the times in terms of data exploration, data processing and data service in the construction process of digital library.
Key words:big data; big data thinking; digital library; data library
(責任編輯:陳樹)