徐升華 王 琪
(江西財經大學信息管理學院,江西 南昌 330000)
?
大數據時代數字圖書館信息服務研究與發展*
徐升華1王琪2
(江西財經大學信息管理學院,江西 南昌 330000)
[摘要]基于大數據時代的視角,敘述了大數據背景下數字圖書館信息服務的概念與內涵,說明將大數據和數字圖書館有機結合的必要性,梳理國內外大數據背景下數字圖書館信息服務的相關研究和發展脈絡,采用SWOT分析法總結國內數字圖書館信息服務領域的優劣勢以及所面臨的外部機遇和挑戰,指出大數據技術應用于數字圖書館的發展方向以及值得進一步探討和研究的領域。
[關鍵詞]大數據數字圖書館信息服務發展方向
云計算、物聯網、社交網絡等新興技術的發展引發數據的爆炸式增長,為了描述和定義信息爆炸時代產生的海量數據,“大數據”一詞應運而生。知名咨詢公司麥肯錫最先提出大數據時代已經到來,龐大的數據量成為企業和社會重要的戰略資源,促使各個領域都開始了量化進程,2013年更是被稱為“大數據元年”。在圖書館領域,迅速發展的數字圖書館實現跨越區域、面向對象的網絡查詢和傳播,使人們在任何時間和地點通過網絡獲取所需的信息變為現實,擴展了傳統圖書館面向讀者最重要的功能——信息服務功能,所以在大數據時代,數字圖書館相較傳統圖書館其信息服務功能更加突出,極大地促進了資源的共享與利用,甚至有觀點認為未來數字圖書館將會全面替代傳統圖書館,因此大數據時代的數字圖書館信息服務成為學者研究的新熱點。
1.1大數據時代的概念與內涵
2008年,在Google成立10周年之際,《自然》雜志出版的專刊中首次提到“Big Data”的概念,討論了未來大數據處理相關的一系列技術問題和挑戰。2013年美國互聯網數據中心指出,互聯網上的數據每年以50%的速度增長,每兩年便將翻倍,而目前世界上九成以上的數據是近幾年才產生的,所以信息爆炸時代關于大數據難以有一個定量的定義,麥肯錫公司給出的定性描述是:一種規模大到在獲取、存儲、管理、分析方面大大超出了傳統數據庫軟件工具能力范圍的數據集合,具有海量的數據規模、快速的數據流轉、多樣的數據類型和價值密度低四大特征。
進一步來說,當今“大數據”一詞的重點不僅僅在于數據規模的定義,它更代表著信息技術發展進入了一個新的時代,代表著大數據處理所需的新的技術和方法,也代表著大數據分析和應用所帶來的新發明、新服務和新的發展機遇。麥肯錫表示“數據,已經滲透到當今每一個行業和業務職能領域,成為重要的生產因素。人們對于海量數據的挖掘和運用,預示著新一波生產率增長和消費者盈余浪潮的到來”。
1.2數字圖書館信息服務的概念與內涵
數字圖書館是傳統圖書館在信息時代的產物,它不但包含了傳統圖書館的功能——向社會公眾提供相應的服務,還融合了其他信息資源(如博物館、檔案館等)的一些功能,提供綜合的公共信息訪問服務[1]。通俗地說,數字圖書館就是虛擬的、沒有圍墻的圖書館,是基于網絡環境下共建共享的可擴展的知識網絡系統,是超大規模的、分布式的、便于使用的、沒有時空限制的、可以實現跨庫無縫鏈接與智能檢索的知識中心。數字圖書館信息服務是指利用各種技術對信息資源進行采集、組織、檢索和傳播等業務進行處理的一種活動[2],其服務內容是提供電子出版物、數據庫、Internet上的各種信息。
1.3大數據應用于數字圖書館信息服務的必要性
隨著信息技術的飛速發展和數字圖書館信息服務研究的深入,用戶對數字圖書館信息服務需求也從傳統服務轉向“大數據”信息服務。數字圖書館館藏資源豐富,不僅有結構化數據,如數目信息、聲像數據等,還有用戶信息、訪問信息等半結構化數據和非結構化數據,可以說數字圖書館本身就帶有大數據特征。大數據時代使數字圖書館面臨信息存儲量的大數據化,其信息資源的管理、存儲需要建立全新的模式[3]。用戶使用數字圖書館的信息服務功能時,都期望反饋到相關且個性化的信息,而傳統圖書館提供的信息服務是有什么就提供什么”,數字圖書館信息服務則是愈加趨于強調個性化,滿足用戶需求的同時主動推薦相關信息,這是一種主動服務,為了滿足用戶個性化信息服務的需要,將大數據的數據處理技術應用于數字圖書館可謂水到渠成。
總而言之,大數據時代中科學數據的產生和積累呈指數級增長,大數據信息服務體系的開發和利用將會是數字圖書館發展必不可少的前提條件[4],大數據時代數字圖書館信息服務的研究與發展均大有可為。
2.1國外大數據時代的數字圖書館信息服務研究
國外對數字圖書館研究起步較早,目前已漸趨成熟。對大數據的研究也處在領先水平,將大數據和數字圖書館聯系在一起研究主要集中在網絡計量學和文獻計量學[5]。美國加州大學伯克利分校圖書館的Huwe[6]指出:大數據與數字圖書館是完美搭檔,大數據十分有益于圖書館員對用戶進行研究的項目,數字圖書館對用戶行為信息采集的領域十分值得探索。2003年于哥本哈根舉辦的第五屆世界圖書館聯盟歐洲會議討論了聯盟建立、成本分配、評估等聯盟內部管理問題以及Elsevier Science的“Big Deals”和未來發展問題[7], 2011年第三次世界圖書館聯盟歐洲會議,電子信息資源的采購問題以及如何更好地提供數字圖書館信息服務成為會議重點[8]。由此看出如何從大數據時代海量的信息資源中提取有用信息以提供更好的信息服務成為國外數字圖書館的重要發展方向。加州大學爾灣分校的Renaud、麻省理工學院的Britton等人[9]借助大數據技術分析挖掘數字圖書館的用戶行為信息,進而輔助學校關聯分析學生的閱讀行為。加州大學洛杉磯分校的Christine等人[10]利用嵌入式技術,在數字圖書館系統中嵌入傳感器,采集有關數據,為研究人員開展研究提供數據,為數字圖書館增添了新功能。還有其他眾多學者將研究觸角伸向數字圖書館對大數據中學術信息的采集、處理、關聯[11],從而幫助數字圖書館通過利用大數據提供更人性化的信息服務。
2.2國外大數據時代的數字圖書館信息服務發展
美國是信息技術領域的領先國家,其非常重視數字圖書館資源的開發、利用、共享和信息服務能力的提升。1967年美國成立總部位于俄亥俄州的聯機計算機圖書館中心OCLC (Online Computer Library Center),作為提供數字資源信息服務的機構之一,不僅面向國內開放信息資源,更將世界范圍內的數字資源加以共享,時至今日該中心仍是世界上最大的圖書情報服務機構之一。20世紀90年代美國實行數字圖書館先導計劃,該計劃由美國國家科學基金會負責,其一期計劃為1994~1998年,實現了推動收集、存儲、組織數字化資源的技術手段的發展,使數字化信息能夠通過網絡進行查詢、存儲和管理的目標。1999~2004的二期計劃參與計劃的大學數量由一期的6所增加到二期的20所,并進行了以人文和系統為中心的信息服務研究。其他國家如德國、澳大利亞、新西蘭、日本等也紛紛效仿開展了本國的數字圖書館信息服務發展計劃。由此看出,政府的支持力度是影響數字圖書館發展的重要因素之一。
除政府引導的項目之外,國外數字圖書館推進信息服務的大數據實踐主要還有以下幾種方式:一是傳統圖書館建立信息服務社區實體行為智能分析引擎。例如20世紀90年代數字圖書館的個性化信息服務功能開始興起,美國康奈爾大學圖書館、弗吉尼亞公共健康大學、華盛頓大學圖書館以及亞洲的新加坡國立圖書館等都逐漸提供此項服務,其中比較具有代表性的數字圖書館個性化信息服務系統是MyLibrary[12],該系統通過采集用戶數據分析挖掘用戶行為習慣,建立實體行為智能分析數據庫引擎。二是數據資源服務公司積極利用大數據技術拓展業務。美國俄亥俄州OverDrive公司和大量不同類型的圖書館有長期合作進而收集大量相關數據,并將這些數據提供給出版商和其他跟自己圖書館有合作關系的圖書館。與此同時,OverDrive公司還通過其他途徑如Buy ItNow網上商店為圖書館提供圖書館不具備的讀者瀏覽下載書目信息,也為讀者提供了新的發現圖書的渠道。三是眾多研究機構積極開展大數據項目的研究與實踐。如美國Library Journal舉辦的“Future of the Academic Library Symposium:E-Text Big Data and Access”學術研討會[13];2009年8月,約翰霍普金斯大學圖書館構建一座數據研究基礎設施,用來管理過去從教學和科研中產生的海量增長的數字資源。部分高校數字圖書館對于大數據的側重點在“數據監護”上,如2012年初,巴斯大學成功完成Research360項目的研發,該項目定義了基于終端對終端的360機構科研生命周期的概念,并列出了圖書館在科學數據管理的不同操作過程中能夠提供什么樣的信息服務[14],最終實現了圖書館內部對數據的高效管理。
3.1國內大數據時代的數字圖書館信息服務研究
在中國知網中以關鍵詞“大數據”檢索2010年1月至2015年12月期間的文獻,共有8520篇,以關鍵詞“數字圖書館”檢索,共有10433篇,將“大數據”“數字圖書館”作為關鍵詞中間用檢索邏輯詞“and”連接進行檢索,只有78篇,并且全部為2013年之后發表。由此可見,目前國內在數字圖書館或大數據領域取得的研究成果很多,而大數據環境下數字圖書館信息服務的研究處于萌芽狀態,進一步研究的空間巨大。經過檢索、分析前人研究成果,發現在數字圖書館研究興起的前期國內關于圖書館信息服務的文獻內容主要集中在圖書館信息服務能力的評價和提升方面,如黃曉菁[15]分析了信息服務能力評價的意義,在建立評價信息系統的指標體系模型的基礎上提出了一個評價圖書館信息服務能力的方案。
大數據的興起帶給數字圖書館的機遇是多方面的,大數據技術的應用可以輔助圖書館進行信息資源管理、讀者管理、個性化信息服務等,同時,大數據時代數字圖書館信息服務面臨的挑戰同樣嚴峻。未來數字圖書館的核心資產將是對大數據的綜合掌握,圖書館管理者們應充分考慮到用戶利用信息服務的便利性,實現數據資源、信息技術、信息內容的集成,根據用戶特定的信息需求打造個性化特點的全方位信息服務[16],國內多位學者為實現此目標進行了相關研究。李蓓蕾[4]指出電子圖書館的信息服務需要進行多方面創新,實現實時信息查詢、個性化信息定制、實時參考咨詢等,陳臣等[17]則設計了基于大數據的數字圖書館高效搜索引擎,突出了搜索引擎的用戶個性化信息服務功能。大數據也從用戶群的整合、數據的重構以及服務模式的挖掘等方面深度影響了圖書館傳統的移動信息服務,數字圖書館的信息服務應結合大數據背景進行數據信息資源整合、個性化服務展示、“一站式”全功能檢索等多方面的服務創新[18]。而楊穎等[19]則一針見血地指出大數據對數字圖書館信息服務帶來巨大沖擊,數字圖書館必須利用大數據原理和技術來創新信息服務方式。通過分析比較數字圖書館與大數據研究范式的結果,張興旺等[20]認為二者的有機融合需要從方法論創新、信息檢索模式創新、知識服務模型創新、系統論視角創新和數據分析方法創新5個方面入手。可以發現國內學者均認可大數據將會給數字圖書館信息服務領域帶來巨大的變革,但如何抓住機遇在大數據時代進行數字圖書館信息服務的創新仍然需要不斷研究與探索。
3.2國內大數據時代的數字圖書館信息服務發展
根據國家數字圖書館統計2007年國家數字圖書館數字資源發布總量為14.774TB,2009年為251.33TB,2011年為378.6TB,截至2013年底,國家數字圖書館數字資源總量已達到874.5TB,其中自建數字資源量為737.9TB,網絡信息采集量達45.7TB,外購中外文數據庫共計273個,文津搜索匯集的元數據已達2.9億條。隨著信息服務擴展至計算機、數字電視、手機、手持閱讀器、平板電腦、電子觸摸屏等多種服務終端,服務量不斷增加,各業務系統每天都會產生大量的日志數據。在大數據環境下面對信息“快速、簡單、準確”的要求,國家圖書館計算機與網絡系統部主任魏大威表示未來數字圖書館會加大資源的揭示力度,全面提升信息服務能力。國家數字圖書館將主要從兩方面發展,首先是將建立超大型元數據倉儲,結合大數據特點和資源現狀,以用戶需求為導向,突出特色,通過異構數字資源的融合、聚類和重組使資源從數據層的揭示與展現轉向信息層、知識層的深度服務;其次是將知識圖譜可視化展示給讀者,依托融合的物聯網、移動通信網以及互聯網絡進行傳播,最終實現為用戶提供電視、電腦、手機等多種終端的接收,加強用戶數據分析,實現個性服務,促進業界合作,實現共知共享。同時國內很多地方或高校圖書館致力于數字圖書館個性化信息服務方面的發展。汕頭市圖書館、佛山市圖書館、廈門大學圖書館、武漢科技學院圖書館等采用深圳市圖書館開發的ILAS系統開通“我的圖書館”服務項目,該系統是文化部于1988年作為國家重點科技項目下達、由深圳圖書館承擔并組織開發出來的一套能適應國內外不同層次、多種規模、各種類型圖書館使用的圖書館自動化集成系統,能夠實現信息查詢、聯合目錄以及感興趣的新書等功能,極大提升了數字圖書館信息服務的能力。
大數據時代傳統圖書館紛紛在數字圖書館信息服務領域發力的同時,國內的學術資源建設商發展同樣迅猛。例如,中國最大的學術資源建設商中國知網,已由中國期刊論文資源建設逐步拓展到國內外期刊論文、會議論文、學位論文、報紙文章、專利等,同時收錄大量圖書,提供年鑒、工具書的查詢服務[21],其他資源建設商,如萬方數據知識服務平臺、超星數字圖書館、維普期刊服務平臺以及中國社會科學文庫等也提供了眾多學術資源。這些資源建設商提供的海量學術資源對傳統數字圖書館形成了很大的沖擊,是我國普通高校數字圖書館信息服務不可或缺的部分。同時一些網絡資源服務商也開始涉足學術資源領域。以百度為例,除了百度文庫、百度百科等學術資源,還有百度知道這類基于搜索的互動式知識問答分享信息服務平臺,此外百度學術搜索也于2014年06月初上線,可檢索到收費和免費的學術論文,并通過時間篩選、標題、關鍵字、摘要、作者、被引用次數等細化指標提高檢索的精準性,百度文獻檢索功能的用戶體驗越來越優質。根據公開信息,百度每天響應來自138個國家和地區的數十億次請求,每日新增數據10TB,處理超過100PB的數據,從浩如煙海的信息中精確抓取約10億網頁,同時索引庫還擁有千億級在線索引能力,以幫助用戶完成搜索過程[23]。面對海量的大數據,百度自建數據中心,開發自己的大數據存儲系統,并使用了多項新技術,百度云計算(陽泉)中心數據存儲量將超過4000PB,可存儲的信息量相當于20多萬個中國國家圖書館的藏書總量[22]。
伴隨著云計算、移動互聯網、物聯網等信息技術的成熟,大數據技術將會給數字圖書館帶來深遠的影響和創造性的變化,將大數據技術應用于數字圖書館信息服務是圖書情報領域無法回避的未來技術發展形態,也是數字圖書館實現信息服務模式轉變和創新的必然發展方向。分析大數據時代的數字圖書館信息服務研究和發展歷程,可以發現目前國外相關研究和發展已有一定的成果,國內相關領域也正在迎頭趕上,利用SWOT分析法分析大數據時代與國外對比后國內數字圖書館信息服務研究和發展優勢的內部優勢、劣勢以及全球信息化形式下面臨的機遇和挑戰,總結如圖1所示。

圖1 國內大數據時代數字圖書館信息服務研究與發展的SWOT分析
根據SWOT分析,未來我國數字圖書館如何更好地將大數據技術應用于信息服務需要從以下幾個方面著手:
①建立數字圖書館聯盟,共享信息資源,通過合作提高整體效益;
②加強技術創新,解決大數據技術在數字圖書館應用中的網絡環境適應問題;
③整合系統信息資源,提供集成檢索服務。將不同來源、不同格式和類型的信息資源通過聯盟方式無縫連接后,提供強大的集成檢索功能,使用戶能夠通過一種檢索策略查詢到不同數據源的反饋結果;
④進一步加強數字圖書館信息服務的移動化和可視化功能。在移動互聯網時代人們閱讀方式和習慣均發生改變,數字圖書館需要改變自身信息服務模式迎合用戶習慣;
⑤提升個性化信息服務體驗。增強數據分析思維,以用戶為導向,根據數據分析用戶的特點和偏好主動推薦用戶需要的個性化信息;
⑥完善信息安全體系。加強網絡安全防護措施,增強網絡安全感知能力,防止信息泄露和信息破壞。
信息技術發展所帶來的機會總是稍縱即逝的,如何利用大數據技術更好地推進以上問題的解決是未來數字圖書館信息服務研究和發展的重點,在趕超國外的過程中需要善于抓住信息技術應用領域的前沿技術,學習、研究大數據思維,在實際研究和應用中加以創新數字圖書館信息服務,提升圖書館的核心競爭力,以期在未來實現圖書館服務的跨越。
參考文獻:
[1]陸穎雋.虛擬現實技術在數字圖書館的應用研究[D].武漢:武漢大學,2013.
[2]孫坦.開放信息環境:學術圖書館信息資源建設的重定義與再造[J].中國圖書館學報,2013(3):9-17.
[3]李翠萍,常娥.大數據時代數字圖書館發展淺析[J].江蘇技術師范學院學報,2013(5):30-132.
[4]李蓓蕾,王映花,劉海.淺析大數據時代高校圖書館的信息服務[J].科技風,2014(12):239.
[5]杜暉.基于耦合關系的學術信息資源深度聚合研究[D].武漢:武漢大學,2013.
[6]Huwe TK.Buliding digital libraries:big data and the library:a natural fit[J].Computers in Libraries,2014(2):17-18.
[7]Yamamoto,Kazuo.2004.Report of the International Coalition of Library Consortiain Europe Meeting.Joumal of ColIegeand University Libraries;(71)Mar,pp.56-62.
[8] Holmstroem,J.2002.International Coalition of Library Consortia in Europe Nordinfo Nytt;(2~3),pp.21-27.
[9]Renaud J,Britton S,Wang D,et al.Mining library and university data to understand library use patterns[J].The Electronic Library,2015(3):355-372.
[10]Borgman CL,Wallis JC,Mayernik M S,etal.Drowning in data:digital library architecture to support scientific useof embedded sensor networks[C]//JCDL 07:Proceedings of the7th ACM/IEEE-CSJointConference on Digital Libraries,2007.
[11]W illiams K,Wu J,Choudhury SR,er al.Scholarly big data information extration and integration in the CiteSeerx digital library[C]//Data Engineering Workshops(ICDEW),2014 IEEE 30th InternationalConference,2014:68-73.
[12]楊曉湘,孫坦.中美圖書館MyLibrary個性化服務系統的比較研究[J].現代情報,2005(10):220-223.
[13]Watters A.StrataWeek:Harvard Library releasesbig data for itsbool[EB/OL].[2016-01-02]http//strata.oreilly.com/ 2012/04/harvard-book-data-clouder-a-hadoop-splunkipo.html.
[14]Spolanka.Over Drive announces a series of“Big Data”reports[EB/OL][2016-01-06].http://www.libraries.wright. edu/noshelfrequired/2012/04/11/overdrive-an-nounces-a -series-of-big-data-reports.
[15]黃曉菁.基于AHP方法的圖書館信息服務能力研究[J].情報雜志,2007(9):149-151.
[16]鄧媛.大數據形勢下圖書館建設的機遇與挑戰[J].內蒙古科技與經濟,2015(7):105-106.
[17]陳臣,陳雙飛.一種基于大數據的數字圖書館高效搜索引擎[J].現代情報,2014(1):49-51.
[18]陳茫,周力青,呂艷娥.大數據時代下的圖書館移動服務創新研究[J].圖書與情報,2014(1):117-121.
[19]楊穎,崔雷,郭繼軍.大數據時代圖書館知識服務的創新[J].醫學信息學雜志,2014(4):63-66.
[20]張興旺,李晨暉.數字圖書館與大數據:研究范式的分析、比較與融合[J].情報理論與實踐,2015(12):37-42.
[21]中國知網資源總庫[EB/OL].[2015-07-01].http://epub. cnki.net/kns/subPage/Total.aspx.(China national know ledge infrastructure[EB/OL].[2015-07-01].http://epub. cnki.net/kns/subPage/Total.aspx.)
[22]大數據史記:盤點中國2013行業數據量[EB/OL].[2016-01-01].http://www.aliyun.com/zixun/content/2_11_473021. html.
徐升華男,1952年生。教授,博士生導師。研究方向:知識管理。
王琪女,1992年生,碩士研究生。研究方向:圖書館管理、知識管理。
[分類號]G252
*本文系國家自然科學基金項目“企業協同創新過程中知識互動機制研究”(項目編號:71561010);江西省研究生創新專項基金項目“社交媒體環境下企業知識互動影響因素研究”(項目編號:YC2015-B052)成果。
收稿日期:(2016-01-22;責編:王天泥。)