隨著移動互聯網、物聯網和云計算等相關技術的快速發展,全球數據量呈現前所未有的爆炸式增長,隨之大數據得到迅猛發展。麥肯錫[1]將大數據定義為無法在一定時間內用傳統數據庫軟件和工具對其內容進行抓取、管理和處理的數據集合。也有學者習慣按照特征描述大數據,Gartner[2]的3V 模型對大數據特點的描述比較有代表意義,即多樣性(Variety)、規模性(Volume)和高速性(Velocity)。此外還有一種4V理論,即在3V 模型的基礎上增加真實性(Veracity)[3]或者價值性(Value)[4]。目前,大數據已經引起了國際科技界、商業界、學術界和政府部門的廣泛關注。2008年國際學術頂級刊物Nature推出“大數據”專刊[5],2011 年Science推出“Dealing with Data”???,討論科學研究中遇到的各種大數據問題[6]。2012年3月,美國政府宣布推出“大數據研究和發展計劃”[7],將大數據的研究和開發上升到國家戰略層面。2013年12月,首屆CCF(中國計算機學會)大數據學術會議[8]在北京召開,推動了大數據的學術研究和交流。為進一步促進大數據技術的研究與發展,2014年12月,第二屆CCF大數據學術會議[9]如期召開。
有學者提出,大數據未來不僅影響企業的組織和決策、國家的治理模式,而且還會對個人的生活方式產生巨大影響,甚至對各個學科的發展也將產生影響[10]。圖書館學、情報學作為信息社會的一個不可或缺的研究領域,對大數據也非常關注,2014年第二十次全國醫學信息學術會議,已經將“大數據:醫學信息學研究與實踐”列為會議主題。此外,一些圖書館學研究者已經參與到大數據研究項目中[11],將大數據的應用與圖書館自身的發展結合起來。為了客觀、全面地揭示近幾年國內圖書館對大數據的研究,本文采用共詞聚類分析法對圖書館大數據的相關文獻進行主題分析,以期獲得有價值的結論供同行參考借鑒。
檢索中國知網(CNKI),主題為“大數據”和“圖書館”,檢索時間為2010年1月1日——2014年10月31日,并下載題錄。剔除會議通知、期刊征稿、征訂通知等無關記錄,最終獲得319條有效記錄。
將下載的有效題錄信息輸入書目共現分析系統BICOMB軟件[12]進行關鍵詞頻次統計。在統計詞頻時,發現關鍵詞中一些諸如“影響、對策、挑戰”等意義過于寬泛的詞語,對研究主題的發展幫助不大,故將其刪除。同時將一些意義相同或相近,只是表現形式不同的關鍵詞進行合并,如“學科服務”與“學科化服務”、“信息化服務”與“信息服務”、“知識咨詢服務”與“知識服務”等,然后重新進行詞頻統計。
1.3.1 g指數法
為了避免共詞分析中高頻關鍵詞的選取主觀性太強,本文利用詞頻g指數法確定共詞分析中高頻關鍵詞的閾值。詞頻g指數法的確定方法為:如果某一個研究主題的關鍵詞總量為N,將關鍵詞按頻次降序排列,前g個關鍵詞的累加頻次不小于g2次,而g+1個關鍵詞的累加頻次小于(g+1)2次,則該研究主題的關鍵詞數值臨界值即為g。該方法可以篩選出超高頻詞和部分次高頻詞(能夠貼切地表達出研究主題的內容),二者的結合能更深層次地揭示各研究主題之間的相關性[13]。通過該方法,本文確定出排序前27位的關鍵詞反映國內圖書館對大數據的研究熱點(表1)。
1.3.2 聚類分析
利用BICOMB軟件,統計了27個高頻詞在所有文獻中的出現頻次,生成了27×316的詞篇矩陣。部分矩陣數據見表2,表中第1行數字代表文獻的序號,矩陣中的數字“0”表示某關鍵詞未在某篇文獻出現,數字“1”表示某關鍵詞在某篇文獻出現[14]。
將詞篇矩陣導入軟件SPSS 11.5進行聚類分析。選擇層次聚類分析“Hierarchical Cluster”,聚類方法選擇類內鏈接,相似性測度選擇Binary二值變量和Ochiai系數[14]。

表1 高頻關鍵詞

表2 高頻關鍵詞詞篇矩陣(部分)
SPSS 11.5得出的聚類樹狀圖見圖1。縱軸文字和數字代表了表1中的高頻關鍵詞及其位次,橫軸的數字代表了兩個關鍵詞間的相似距離[14]。對聚類樹狀圖進行分析發現,近5年國內圖書館對大數據的研究熱點主要集中在以下6個方面。

圖1 聚類樹狀圖
這一類共包括大數據、圖書館、信息服務、知識服務、圖書館員和服務創新6個關鍵詞。隨著信息化的發展和智能手機、高速網絡及移動圖書館的普及,圖書館各類信息資源的總量日益龐大且增長快速,形成了海量的數據,圖書館的大數據時代已經來臨。從圖書館自動化發展史來看,每一項新信息技術的出現,都能引起圖書館界的極大關注,并推動圖書館的管理與服務升級[15]。大數據的出現也將推進圖書館創新服務模式。
包括學科化服務和資源建設2個關鍵詞。文獻資源建設是圖書館服務質量的重要表現形式,對教學科研會產生重要影響。大數據環境下的文獻資源種類繁多,數量巨大,需要嚴格把控文獻資源的采訪質量。然而,負責資源采訪的館員不能掌握所有學科專業知識,很難準確把握不熟悉學科的文獻資源,入藏文獻資源的合理性無法得到有效保證。學科化服務必須參與到文獻資源建設中,如由學科館員進行采訪工作,每個學科館員負責一個或幾個較熟悉的學科專業的文獻采購,通過對圖書館數據資源以及各種網絡資源的挖掘和分析,篩選出有價值的文獻,為大數據環境下文獻資源采訪工作提供輔助決策支持,增強文獻資源建設的針對性[16]。
包括個性化服務、服務模式和用戶服務3個關鍵詞。大數據技術的應用使圖書館可以對用戶個人行為信息進行多渠道多領域的采集,并從中挖掘出有價值的信息。大數據的核心就是預測[17]。館員通過深入細致地了解用戶的行為方式、研究習慣、興趣愛好、心理特征、知識結構、知識應用能力、研究方向、階段需求、科研環境等諸多信息,進而分析、挖掘讀者目前的需求以及預測未來的需求,及時地、有針對性地向用戶提供個性化服務,對提高圖書館的服務質量和核心競爭力具有重要意義。
包括數字圖書館、應用、大數據技術和數據存儲4個關鍵詞。數字圖書館中的大數據包括圖書館的數字化資源(如館藏數字資源、數據庫資源、電子書資源)和各類音頻、視頻資源以及社交網絡形成的海量非結構化數據(如各類讀者的來館頻次、活動范圍、瀏覽歷史、書籍借閱數據、網站點擊數據、館藏使用情況統計數據等)。這些數據結構復雜、形式多樣、數量巨大,如何科學、高效地存儲這些大數據,是圖書館面臨的巨大挑戰。
包括非結構化數據、數據挖掘、數據處理、數據分析和信息素養5個關鍵詞。圖書館在日常運營過程中,每天都會產生大量的異構大數據(包括結構化數據、非結構化數據),如果能有效地對這些大數據進行分析、挖掘,可以協助圖書館建立信息安全風險評估模型,預測可能發生的網絡攻擊、軟硬件故障,更好地控制各種風險(如幫助控制數字圖書館信息安全和知識產權等)。通過對大數據的深入挖掘和分析,能夠幫助圖書館更為智能、準確地預測用戶需求[18]和進行用戶流失分析。通過分析不同用戶的行為與使用習慣,開發出更多符合用戶需求的產品,吸納更多不同層次的用戶,建立新型的知識服務引擎,幫助用戶快速獲取所需的信息資源。
包括7個關鍵詞,其中比較有代表性的關鍵詞有云計算、物聯網、MapReduce、語義網和Hadoop等。隨著大數據研究與應用不斷升溫,學者對大數據的處理技術與開發工具也越來越關注。2006年Google首次提出了“云計算”的概念,云計算的核心是海量數據的存儲及并行處理,它的出現為大數據處理提供了一個良好的平臺。目前,Hadoop已成為應用最多的大數據處理技術,具有高可靠性、高擴展性、高效性、高容錯性等特點[19],它的出現使海量異構數據的處理成為可能。物聯網技術的廣泛應用也為大數據的獲取、存儲與處理提供了解決方案[20]。
通過對國內圖書館大數據的研究文獻進行主題分析,研究熱點具體表現為以下幾個方面。
在大數據應用于服務創新的發展上,我國圖書館界學者開展了大量研究,并從理論層面上探討了解決思路,提出了新的服務模式。楊海亞提出利用大數據技術打造智慧圖書館,通過理性推進大數據在圖書館的應用、培養智慧圖書館員等途徑提供公共智慧服務是大數據時代圖書館服務模式創新的方向[21]。胡蓮香認為從參考咨詢服務邁向大數據知識服務是大數據時代圖書館服務模式創新的方向,并構建基于大數據的圖書館知識服務平臺[22]。朱靜薇等[23]探討了大數據驅動下的圖書館服務新模式(如基于數據整合的一站式資源服務、基于數據處理的學科知識服務、基于數據應用的可視化服務以及基于數據挖掘的個性化智慧服務等),指出圖書館要調整相應的管理策略實現這種服務模式的轉變(如在管理層次上,成立數據管理機構,制定數據管理政策,建立統一的標準及共享平臺;在技術層次上,構建圖書館大數據采集、存儲、處理及應用架構,研究解決大數據相關技術問題;在隊伍建設上,培養一支高素質的數據管理的館員隊伍)[24]。
學科化服務參與文獻資源采集的同時,還應分析文獻資源的使用情況。由于部分圖書館只注重文獻資源的采集,而忽視對讀者使用情況的評估,導致文獻資源在數量上看似可以滿足讀者的需要,但在質量上還遠遠不能滿足科研人員的需求,浪費了大量的人力、財力和物力。讀者在使用圖書館服務的過程中產生的各種數據信息(如圖書借閱信息、出入館的記錄信息以及對電子資源檢索和利用信息),都能反映出他們對文獻資源的需求度和滿意度。學科化服務還應對這些數據信息進行深層次分析,挖掘和預測讀者可能感興趣的、前沿文獻資源,從而優化文獻資源配置滿足讀者的需要,進而提高文獻資源的利用率。
在大數據存儲方面,有分布式文件系統、基于MPP的分布式數據庫、分布式緩存和NoSQL數據庫技術等[25]。構建分布式文件系統是國外目前比較流行的存儲大數據的方法,許多大型公司也采用這種方法,如谷歌的GFS(Google File System)系統,雅虎的HDFS(Hadoop Distributed File System)系統,以及亞馬遜的Dymamo。數字圖書館中大數據的存儲不僅要實現高效地存儲信息資源,同時也要方便用戶快捷的訪問和分析。劉樂提出使用非結構化的數據索引技術[26]保證數據高效存取,采用數據壓縮技術、重復數據刪除技術、自動精簡配置技,提高存儲空間的利用率。丁鑫[27]分析了全息數據存儲技術建設數字圖書館的應用前景,認為它是近年發展起來的一種新穎的大容量信息存儲技術,具有較高的存儲密度及數據傳輸速率等優點。
在大數據時代,圖書館的傳統業務將向數據分析、數據挖掘方向轉移。圖書館的主要業務將逐漸發展為通過對大量數據的分析和處理,為用戶提供知識服務[20]。針對不同類型的大數據,圖書館的處理技術和管理方法也會有所側重,對于結構化數據,傳統的關系數據庫(如SQL Server 和Oracle),便能有效地進行查詢和管理;對于視頻、動畫等非結構化數據,需要依賴分詞技術、語義網技術、搜索引擎技術、智能分類技術等,自動提取非結構化數據的檢索信息,建立索引表,實現對非結構化數據的管理[28]。目前,圖書館通常采用云計算、MapReduce等技術處理和分析大數據。對大數據的處理和挖掘,要求圖書館員不僅具有數據收集能力、分析能力,還必須精通計算機技術,這在一定程度上對館員的信息素養提出了更高的要求。
我國圖書館界對大數據的研究還不夠深入,研究熱點主要集中在圖書館業務領域的拓展和大數據技術的研究和應用兩大方面。其中,業務的擴展主要表現為在大數據環境下圖書館如何實現服務轉型和升級,如研究熱點之大數據推進圖書館創新服務模式、學科化服務參與圖書館文獻資源建設和圖書館推出個性化服務模式;在服務創新方面,大多還停留在理論探討階段,而對實踐案例進行深入研究的較少。圖書館針對大數據技術的研究和應用主要表現在數字圖書館大數據的存儲、圖書館對大數據的處理、挖掘和分析和大數據處理技術和工具3方面。目前大數據技術還不成熟,大數據在圖書館中的應用可能產生的信息鴻溝、個人隱私泄露和大數據人才匱乏等問題,仍需圖書館界的同仁共同努力,不斷去探索、實踐。