任 湘 ,鄒慧玲
(湖南農業大學圖書館,湖南 長 沙 4 10128)
有關“大數據”最早的引用可追溯到apache org的開源項目Nutch,當時,它用來描述更新網絡搜索索引需要同時進行批量處理或分析的大量數據集。短短幾年時間,“大數據”悄然興起,并給各行各業帶來了數據存儲及使用方式的根本性變革。面臨著轉型的圖書館,必然在傳統的服務運作模式之外尋求一種全新的發展方向。其中,服務模式的變革是圖書館轉型的重要內容,而大數據時代的來臨正好給圖書館的轉型發展提供了契機。
由于大數據對各行各業的滲透和影響,其研究也日益受到專家、學者的廣泛關注,尤其是近幾年,繼計算機科學、醫學、工程學、經濟學等領域之后,圖書情報領域也開始關注大數據研究,有關大數據時代圖書館的研究論文呈“井噴”態勢競相出現。這些研究成果對圖書館未來的發展究竟有何價值?研究的主流方向和特點又是什么?筆者試圖對國內外已有的相關文獻進行梳理和評析,以進一步推動和深化大數據時代下的圖書館研究,探尋圖書館發展如何更好地利用大數據。
筆者利用Web of knowledge數據庫檢索平臺對圖書館與大數據相關文獻進行了檢索,檢索日期為2014年11月9日,通過標題=(big data)或(age of big data)的檢索式共檢索到期刊論文446篇,主要分布在計算機科學、科學技術其他主題、衛生保健科學服務、醫學信息學、工程學、信息科學與圖書館學等學科中,最早的論文發表于2008年。通過對研究方向進行限定,即在上一個檢索式后通過“研究方向=INFORMATION SCIENCE&LIBRARY SCIENCE”進行精練,可檢索到期刊論文39篇,均涉及科學技術研究領域,其中17篇文獻為科技技術與社會科學的跨學科研究領域。

表1國外大數據研究文獻學科分布
從表1可知,在國外圖書館與大數據研究的文獻中,信息科學與圖書館學的研究文獻僅占8.74%。以大數據背景下圖書館為直接研究對象的文獻沒有,也就是說,在大數據研究文獻量排前十的學科中,無圖書館與大數據為直接研究對象的外文文獻。
從年載文量看,2008年發表論文3篇,2009~2010年沒有相關論文公開發表,2011年發表1篇,之后三年的載文量呈直線上升趨勢,2012~2014年分別發表論文8篇、10篇、17篇。
從被引頻次看,在信息科學與圖書館學的39篇相關論文中,被引次數最高的為2008年Howe Doug、Costanzo Maria、Fey Petra等人發表在Nature上的Big data:The future of biocuration一文,被引頻次達146次。在同年同期刊上,Lynch Clifford發表的Big data:How do your data grow?一文被引頻次為56次。另外,在39篇文獻中,有25篇文獻被其他文獻引用。其中,被引50次以上的論文2篇,被引21~49次的論文6篇,被引11~20次的論文1篇,被引1~10次的論文16篇。
從載文期刊看,在39篇文獻中,載文最多的期刊為Nature,載文8篇。大部分文獻發表在醫學類、計算機科學類、科學技術類雜志上,只有1篇文獻發表在PLOSMEDICINE上。
筆者通過CNKI數據庫檢索平臺,采用“題名=圖書館或圖書 and題名=大數據”的檢索策略,檢索時間為2014年11月9日,共檢索到相關文獻237篇。其中:期刊論文235篇,碩士論文1篇,會議論文1篇。最早的論文發表于2012年,晚于國外。從年載文量來看,2012年度發表論文4篇,2013年發表論文60篇,2014年已發表論文173篇。

圖1圖書館與大數據國內研究論文篇數及被引頻次
從圖1可知,只有23.63%的論文被引用,且被引頻次較低。究其原因,一是在大數據背景下,國內圖書館界的研究比較晚,論文的關注度和影響力還不高;二是高影響力論文數量少,缺乏權威性研究成果。盡管如此,仍然有極少量論文獲得了較高的被引頻次,受到業界的較高關注。這也說明短短幾年時間,圖書館大數據的研究小有成績并受到一定程度的關注。如:蘭州商學院圖書館韓翠峰發表的《大數據帶給圖書館的影響與挑戰》[1]37-40、《大數據時代的圖書館服務淺析》[2]121-122短短兩年不到的時間內被引頻次分別高達 63 次、38 次;樊偉紅等發表的《圖書館需要怎樣的“大數據”》[3]63-68,77被引達 54 次。
從國內圖書館大數據研究文獻數量占國內大數據研究文獻總量的比例看,圖書情報與數字圖書館學科的大數據研究成果占比僅4.34%。如表2所示,國內大數據研究文獻大多分布在計算機軟件及計算機應用、信息經濟與郵政經濟、新聞與傳媒、經濟學等學科里。

表2 國內大數據研究文獻的學科分布
從來源刊物級別看,發表在圖書情報領域核心期刊上的論文只有38篇,僅占檢索文獻的16.03%,涵蓋圖書館需要的大數據類型、對圖書館服務模式與管理模式的變革、對數字圖書館建設及資源建設的沖擊、對圖書采購與銷售的影響、用戶服務與信息服務的挑戰等研究內容。
從核心作者(以第一作者或獨著作者統計)看,蘭州商學院的馬曉亭為發文量最多的作者(發文9篇)。根據普賴斯理論核心作者的計算公式m≌0.749*□Nmax(式中Nmax為發文量多的作者論文數,m為核心作者最低發文量),即m≌0.749*□9=2.247。因此,發文3篇及以上的作者都可界定為核心作者,統計得到的核心作者有3名,分別為蘭州商學院的馬曉亭(9篇)、陳臣(5篇),遼寧省圖書館的王天泥(3篇)。
從上述統計分析看,國內圖書館與大數據的研究主要表現出如下特點:①短短3年不到的時間里,相關研究論文的數量從零開始迅猛增長,越來越成為國內研究的熱點;②近1/5的論文發表在圖書情報領域核心期刊,個別論文短時間內的被引頻次高達50多次、60多次。這說明相關研究取得了一定成績并受到廣泛關注;③從論文總數與被引論文數量不多、被引頻次普遍較低的情況看,國內的相關研究尚處于起步階段,還缺乏較多的權威性研究成果;④相關研究還未達到系統、深入的程度,碩士學位論文只有1篇,沒有相關著作和博士學位論文出現。
綜上所述,國外與國內的大數據與圖書館的研究都還處于初步發展但欲不斷深入的階段,相關的研究文獻會越來越多。
最早提出“大數據”時代到來的全球知名咨詢公司麥肯錫認為:“數據已經滲透到當今的每一個行業和業務職能領域,成為重要的生產因素。人們對于海量數據的挖掘和運用,預示著新一波生產率增長和消費者盈余浪潮的到來。”[4]
百度百科認為大數據技術或稱巨量資料,指的是所涉及的資料量規模巨大到無法通過目前主流軟件工具,在合理時間內達到擷取、管理、處理并整理成為幫助企業經營決策更積極目的的資訊,具有大量、高速、多樣、價值的 4V 特點[5]。
維基百科對大數據(Big data或Megadata)的定義是:大數據或稱巨量數據、海量數據、大數據,是指所涉及的數據量規模巨大到無法通過人工,在合理時間內達到截取、管理、處理,并整理成為人類所能解讀的信息[6]。
張文彥[7]認為大數據之“大”跟數量這一維度密不可分,但定義大數據需指明4V(即多樣性、大容量、高速度及時效性)和1C(即通過新的方法來滿足異構數據統一接入和實時數據處理的需求)。
孟小峰[8]借鑒云計算的發展特點,從字面上看,認為大數據是一個抽象的概念,它表示數據規模龐大,但僅僅數量上的龐大顯然無法看出“大數據”和以往的“海量數據”“超大規模數據”等概念之間的區別,只能從它的特點中歸納其定義,比較有代表性的是3V定義(規模性、多樣性和高速性)、4V定義(在3V的基礎上增加價值性)。
Lee,Chung-Hong[9]認為大數據的名噪一時不僅是因為它數據的大小,而是它引起的復雜性。
馬曉亭[10]認為大數據除了具有數量巨大、處理快速等特點外,還表現為數據結構呈現異構和低價值密度性,同時,圖書館大數據環境數據“清洗”難度大,表現為垃圾數據多、污染重和利用難的特點。
從以上定義可知,大數據概念的文字表述雖然有所差別,但本質上的區別不大,大多數定義強調的是大數據的特點,即大量(規模)、多樣(復雜)、高速和價值(高或低)。
樊偉紅[3]64-65認為圖書館要正視大數據帶來的幾個挑戰:數據量增長所帶來的存儲能力及計算能力的挑戰,由傳統常規分析向廣度、深度分析所帶來的挑戰,基礎設施挑戰。
韓翠峰[1]38-39認為大數據時代的到來對作為社會中儲存信息知識、提供信息服務的載體——圖書館形成沖擊與挑戰,主要挑戰來自以下幾個方面:復雜數據的處理、圖書館的數據存儲能力、高標準的信息服務。
姜山[11]認為大數據對圖書館實現針對不同讀者的個性化服務、提供研究動向以及研究熱點的變化、為本館的采編部門和數據庫采購部門提供資源評價意見帶來了機遇,但同時,圖書館也面臨成本問題與隱私保護問題的挑戰。周加藝[12]持相同觀點。
朱靜薇[13]分析了大數據給圖書館的數據管理、數據存儲等方面帶來的挑戰,認為圖書館應從數據管理、數據技術及數據隊伍建設上抓住機遇。
國內外研究圖書館如何利用大數據的論文很多,各家觀點不盡相同。總體而言,圖書館利用大數據的領域及具體運作方式可以概括為以下七個方面:
(1)信息服務。王捷[14]、和婷[15]都認為圖書館的信息服務工作主要須做好以下幾個方面:增強主動服務意識、搭建交互式共享平臺、信息檢索簡便化、有針對性地開展個性化推送服務、加強館員素質建設。
(2)學科服務。楊亮[16]75-76認為大數據分析平臺能夠通過圖書館現有數字資源及用戶訪問記錄,分析相關學科領域的科研熱點,形成分析報告,為科研人員服務,使他們及時了解本學科的最新科研動態與研究進展。
(3)參考咨詢。大數據分析平臺能夠根據用戶以往的咨詢記錄以及用戶的個人信息、瀏覽記錄,預判用戶需求,并隨著用戶提問的不斷深入,在后臺為咨詢館員提供精確的參考答案[16]75。
(4)個性化信息推送服務。大數據分析平臺通過分析用戶使用記錄就能夠推測出其信息需求,改善信息推送的針對性。當用戶登錄時,系統會自動為其推送其可能感興趣的信息,如數據庫、知識結構、新書采購、興趣愛好、研究習慣等[16]75,[17]。 李建偉認為大數據給圖書館個性化讀者決策采購帶來發展機遇[18]。
(5)信息營銷。通過大數據分析和處理,圖書館可以準確把握不同用戶的信息需求偏好后進行資源配置,設計營銷策略、匹配營銷渠道,以有限的營銷成本實現營銷效率的最大化[19]。
(6)信息營銷、信息情報的預測性分析。不僅可以通過數據了解用戶的行為、意愿、業務需求、知識應用能力及知識服務需求等需要,更可以利用數據對用戶將要發生的行為進行分析和預測,從而應對圖書館未來所面對的各種生存危機[20-21]。
(7)新型知識服務。數據挖掘、語義分析等技術可以使海量異構信息置換為更易使用的知識,構建知識網絡將有效助力科研[17]64。袁紅軍[22]則認為要在強化人才因素、優化整合資源的基礎上提升知識服務能力,提供知識服務。
(1)信息的集成服務與新型資源的收集。毛曉燕[23]74認為要通過工具和手段將現有數據信息集合,并按一定的邏輯關系進行統一組織,建立各類數據倉庫。
(2)提高對大數據的分析和處理(挖掘)能力。 韓翠峰[2]122、容春琳[24]94、王天泥[25]43、Qian,H[26]都持該觀點。
(3)確立與大數據分析和處理能力相關的知識服務高標準[24]94。張興旺持這一觀點,并將標準具體細化:圖書館員除了掌握傳統的圖書館學、情報學、信息管理學等專業理論外,還要熟練掌握信息科學、心理學、教育學、管理學等其他學科知識,特別是大數據、云計算、物聯網、移動互聯網、數據密集型計算等基礎理論和技術思想[27]。毛曉燕[23]74認為還要注重服務內容的時效性。
(4)關注和重視大數據的隱私問題[24]94。王天泥、劉飛也持同樣觀點,王天泥[25]44認為圖書館在面對數據安全問題時,要以良好的職業形象、完善的保障機制、優異的專業服務、合理合法的數據利用和傳播做到發揮大數據的技術優勢與不侵犯用戶隱私的雙贏目的,劉飛[28]也認為圖書館人要樹立職業操守和起碼的道德底線。
(5)數據服務模式。張國杰[29]認為,在大數據環境下,圖書館的服務模式要做一系列的改變,如改量變到質量同變,改管理信息化到管理數據化,改人找數據到數據找人,改資源整合到智慧傳播。楊海亞[30]認為要通過大數據技術打造智慧圖書館,此乃圖書館服務模式創新的方向。
綜上所述,國內外圖書館大數據研究特點可以概括為以下幾點:①國內外圖書館大數據研究體系正在逐漸形成,主要表現為圖書館大數據研究論文占整個大數據研究論文的比重較低,但近幾年的研究論文呈現遞增趨勢;論文被引頻次普遍較低,權威研究成果匱乏;尚無系統、全面且深入的研究;②國內外圖書館大數據的研究還處在初步發展并不斷加強的階段,主要表現為呈現遞增趨勢的一定數量學術論文的發表、圖書館界對大數據越來越高的關注度;③圖書館大數據的研究過于單一,大部分研究成果集中在概念、特點、優勢、機遇與挑戰、應用領域與發展策略等方面。這些研究雖然推動了相關研究領域的發展,但也使得圖書館大數據的研究視野相對狹窄;④圖書館大數據的研究缺乏核心作者群;⑤國內外圖書館大數據的研究缺乏權威成果,國內圖書館學、情報學的權威期刊[31]《中國圖書館學報》《大學圖書館學報》上沒有相關研究成果,《圖書情報工作》上的相關論文只有4篇,尚不足以形成圖書館大數據研究的完整理論支撐體系;⑥圖書館大數據缺乏案例研究與實證研究,應用研究薄弱;⑦國內外圖書館大數據的文獻研究不足,目前只有陸靜[32]、薛文靜[33]等對國內圖書館大數據的研究進行了文獻綜述或述評。
一是從圖書館大數據的研究概況看,未來的橫向研究廣度還需要進一步拓寬,縱向研究深度還需要進一步深入,圖書館還有一些研究領域如科技查新、專家服務、外文編譯、閱覽區密集時段分析等尚未有人涉足。二是圖書館大數據的相關理論還有待探索和系統化,應該在現有研究成果的基礎上增加權威性、實用性成果。三是借鑒其他領域的大數據相對成熟的研究成果,指導圖書館的大數據研究。總之,圖書館大數據的研究尚處在初步并不斷加強的階段,這一特性說明了現階段研究的不足,同時也為未來的研究提供了廣闊空間,填補研究空白、深化相關理論、強化實踐應用應該且可能成為圖書館大數據未來發展的目標之一。
[1]韓翠峰.大數據帶給圖書館的影響與挑戰[J].圖書與情報,2012(5):37-40.
[2]韓翠峰.大數據時代圖書館的服務創新與發展[J].圖書館,2013(1):121-122.
[3]樊偉紅,李晨暉,張興旺,等.圖書館需要怎樣的“大數據”[J].圖書館雜志,2012(11):63-68,77.
[4]百度百科.大數據時代[EB/OL].[2014-08-22].http://baike.baidu.com/subview/9424571/15364100.htm.
[5]百度百科.大數據[EB/OL].[2014-10-28].http://baike.baidu.com/subview/6954399/13647476.htm?fr=aladdin.
[6]維基百科.大數據[EB/OL].[2014-08-08].http://en.wikipedia.org/wiki/Big_data.
[7]張文彥,武瑞原,于潔.大數據時代的圖書館初探[J].圖書與情報,2012(6):15-21.
[8]孟小峰,慈祥.大數據管理:概念、技術與挑戰[J].計算機研究與發展,2013(1):146-169.
[9]Lee,Chung-Hong,Chien Tzan-Feng.Leveraging microblogging big data with a modified density-based clustering approach for event awareness and topic ranking[J].JOURNAL OF INFORMATION SCIENCE,AUG 2013(39):523-543.
[10]馬曉亭.大數據時代圖書館數據可用性:價值、挑戰和保障[J].圖書館理論與實踐,2014(10):5-8.
[11]姜山,王剛.大數據對圖書館的啟示[J].圖書館工作與研究,2013(4):52-54,79.
[12]周加藝.大數據與圖書館服務創新[J].情報探索,2014(6):114-116.
[13]朱靜薇,李紅艷.大數據時代下圖書館的挑戰及其應對策略[J].現代情報,2013(5):9-13.
[14]王捷.大數據時代下圖書館開展信息服務的對策[J].現代情報,2013(3):81-83.
[15]和婷.大數據思維對圖書館信息服務工作的啟示[J].圖書館建設,2014(1):64-68.
[16]楊亮,雷智雁.大數據環境下圖書館個性化服務研究[J].現代情報,2014,04:74-77.
[17]楊穎,崔雷,郭繼軍.大數據時代圖書館知識服務的創新[J].醫學信息學雜志,2014(4):63-66.
[18]李建偉.論圖書館大數據在讀者決策采購中的應用[J].情報探索,2014(6):76-79.
[19]李業根.基于大數據的圖書館信息營銷策略[J].圖書館學刊,2014(10):7-9.
[20]郭振橋,王新玲.淺論大數據在未來圖書館服務中的應用[J].內蒙古科技與經濟,2013(16):69-70.
[21]王素凌.淺析大數據在圖書館管理中的應用[J].軍民兩用技術與產品,2014(7):251-252.
[22]袁紅軍,寧光芳.大數據時代數字圖書館知識咨詢能力研究框架構[J].現代情報,2013(11):25-28.
[23]毛曉燕.大數據環境下圖書館信息服務走向分析[J].圖書館工作與研究,2014(3):72-75.
[24]容春琳.公共圖書館應用大數據的策略研究[J].圖書館建設,2013(7):91-95.
[25]王天泥.大數據視角下圖書館的發展對策[J].圖書館學刊,2013(3):42-44.
[26]Qian,H.PivotalR:A Package for Machine Learning on Big Data[J].R JOURNAL,2014(6):57-67.
[27]張興旺.圖書館大數據體系構建的學術環境和戰略思考[J].情報資料工作,2013(2):12-17.
[28]劉飛.大數據啟示下圖書館的服務發展策略[J].農業圖書情報學刊,2014(8):175-177.
[29]張國杰.大數據視角下圖書館服務發展走向及策略研究[J].圖書館工作與研究,2014(6):8-12.
[30]楊海亞.提供公共智慧服務:大數據時代圖書館服務模式創新[J].新世紀圖書館,2014(3):10-14.
[31]中國社會科學評價中心.中國人文社會科學期刊評價報告 (2014)[EB/OL].[2014-11-25].http://news.cssn.cn/zx/bwyc/201411/t20141125_1415295_16.shtml.
[32]陸靜.我國圖書館界大數據研究評述與展望[J].圖書館雜志,2014(1):20-25.
[33]薛文靜,孔巖.基于文獻分析的國內圖書館大數據應用研究述評[J].農業圖書情報學刊,2014(11):65-69.