夏軍輝, 扈桂紅
(1.中南大學 圖書館,湖南 長沙 410083; 2.中南大學 生命科學學院醫藥信息學系,湖南 長沙 410083)
自2008年9月《Nature》雜志首次正式提出“大數據”[1],迅速引起了學術界的廣泛關注,眾多學者開始從自己的學科角度出發探討大數據的價值理念、大數據分析方法和大數據在本學科的應用。以文獻、信息和數據為主要研究對象的圖書情報學領域,也迅速掀起了大數據研究熱潮,在我國2014年公布的圖書情報領域國家社科基本項目名單中[2],與大數據有關的就18項,約占總量的13.7%,可見我國圖書情報領域學者們對大數據的重視與關注。
(1)發文量分析
本文的主要數據來源為CNKI數據庫,以“大數據”作為檢索關鍵詞,研究學科內容設為“圖書情報與數字圖書館”,檢索時間為2020年5月,對檢索結果進行歸納后再剔除與之不相關論文,共得到1 039篇學術性的研究文獻。如圖1所示,近幾年來我國該領域相關研究成果穩定增長,2014年發文124篇,2019年發文最高195篇。

圖1 近年來我國圖書情報與大數據領域發文趨勢
(2)關鍵詞分析
關鍵詞是研究內容的真實反映和高度總結,體現該領域的研究重點和方向。本文統計了排名前二十的關鍵詞。排名第一的是“大數據”,共出現了598次,其次是大“數據時代”、“圖書館”、“大數據應用”,分別出現247、125、105次。

表1 關鍵詞統計表
(3)被引次數分析
被引用次數在很大程度上反映了該篇文章的學術影響力以及學術價值。研究發現:被引次數最多的是《圖書館需要怎樣的“大數據”》,共被引247次,其次是《大數據時代的圖書館服務淺析》、《大數據時代下圖書館的挑戰及其應對策略》,分別被引236次和151次。

表2 被引次數統計表
目前在這一領域研究所用的主要方法有:共詞分析、聚類分析、因子分析、多維尺度分析。
(1)共詞分析
共詞分析法是內容分析法的一種,它的思想源于文獻計量學的引文耦合與共被引概念,即當兩個主題詞或關鍵詞在一篇文獻中同時出現,表明這兩個詞之間具有一定的關系,同時出現的次數越多,表明它們的關系越密切、距離越近[3]。共詞分析法是在提取關鍵詞、構建共詞矩陣后,運用聚類分析、多維尺度分析和社會網絡分析等多元分析方法,將某一學科領域內的關鍵詞加以提取、統計,從而歸納出該領域的研究熱點和發展趨勢。
(2)聚類分析
聚類分析方法研究“物以類聚”問題行之有效,其本質為分類方法,根據樣本數據之間的親密程度,對數據樣本進行分類處理,分類數據中的同類數據表現出較強的親密關系,不同類別的數據表現出較大的差異性[4]。具體操作流程是將區別較大的不同矩陣導入SPSS22.0當中,然后進行分析、分類、層次聚類操作;然后將變量導入右面的變量列表當中,按照次序分別設置各類聚類分析選項,輸出圖與統計表內容。
(3)因子分析
因子分析通過運用數量較少的因子來確定原始變量之間的具體關系,并反映出原始資料中大量數據信息之間的關系。因子分析有5個基本特征:第一,因子分析模式中因子原有數量高于提取個數;第二,因子可以有效降低數據計算量,并能開展數據建模工作;第三,因子可以反饋原有變量信息中的大量重要因素;第四,因子之間不存在顯性的線性關系;第五,因子具有命名解釋的基本性能。
(4)多維尺度分析
多維尺度為降維分析,是根據具有很多維度的樣本或變量之間的相似性(距離近)或非相似性(距離遠)來對其進行分類的一種統計學研究方法,具體方式為將相異矩陣導入當中,然后進行分析、度量、多維尺度選擇,將變量全部轉移到變量列表當中,分別設置模型與選項。
(1)大數據影響分析
大數據極大地顛覆了社會各行各業原有的生產與服務模式。圖書情報領域將會受到怎樣的影響,如何抓住機遇、迎接挑戰是研究者們共同思考的問題,尤其是大數據對數字圖書館的影響備受關注。陳傳夫、錢鷗、代鈺珠指出,大數據帶來的變化將會挑戰數字圖書館現有的資源組織、信息服務與成本管理[5]。溫浩宇、李京京提出了一種基于NoSQL中間件模型的異構數據集成方法,該方法應用于數字圖書館可以更好地適應大數據帶來的海量數據分布式存儲[6]。
(2)競爭情報
競爭情報是一個企業、團體及國家為了在市場上贏得競爭優勢所需要的經過加工的信息。大數據為競爭情報的收集和分析帶來了巨大的影響與變革。吳金紅、張飛、鞠秀芳指出,大數據有利于提高競爭情報的真實性、精準性以及實時性,但同樣會帶來新的挑戰,包括情報存儲、情報分析、情報安全以及人才緊缺方面的問題,企業在情報意識、情報組織團隊、競爭情報系統以及安全制度等方面需作出相應的變革以應對挑戰[7]。劉高勇、汪會玲、吳金紅認為,大數據能夠提升競爭情報的地位、情報源價值和情報分析能力,并降低分析成本,但企業也需要在情報認知、數據處理能力和體系組織模式等方面應對大數據帶來的挑戰[8]。顧濤提出,面對與以往截然不同的海量數據處理,各組織機構可以進行競爭情報的協作共享,并提出了三種大數據下的競爭情報協作共享模式,即自主協作模式、中心協作模式或分級協作模式[9]。
(3)智慧圖書館
智慧圖書館是未來圖書館發展的新模式,它通過提供融理性智慧、價值智慧和實踐智慧為一體的公共智慧服務,打造更具魅力的公共文化環境和更大的信息共享空間。圖書館可以使用大數據的分析方法建立起新的服務體系與資源體系,以提供更好的讀者服務。樊偉紅等學者分析了圖書館的主要數據源與圖書館信息服務現狀,探討了大數據給圖書館帶來的挑戰、機遇和可能的幫助,并分析了當前的研究現狀與熱點,指出大數據可能在許多方面給圖書館帶來幫助,包括建立業務風險模型、用戶分析、新型知識服務引擎、預測資源故障等[10]。楊海亞指出,圖書館可以通過推進大數據應用、維護發展圖書館制度、強化圖書館的人文關懷、培養智慧圖書館員等方式提供公共智慧服務[11]。李恬認為大數據提供了一種全新的數據理念,重視從世俗的視角發現問題、重視數據整體、從數據中尋找關聯。建議圖書館以大數據理念處理館藏數據、書目數據、用戶數據及工作數據,提供更加深入、高效的服務[12]。韓翠峰認為大數據時代的圖書館需要創新圖書館服務,包括重視用戶數據與信息、增加大數據分析服務、利用分析技術與工具、提高服務智能化[13]。
(4)資源建設
大數據時代,圖書館資源采購重心逐漸向數字資源轉移,數字資源的甄選、建設、整合與保存都成為新的挑戰。學者們總結了大數據對圖書館數字資源建設的挑戰與機遇,并對圖書館的數字資源特點,數字資源新的采購、管理、保存、服務、共享模式,傳統文獻資源的數字化,以及數字圖書館的建設模式等進行了研究。王曉燕認為圖書館可以通過提高數據素養、建設大數據資源、開展大數據創新服務等方式應用大數據[14]。
(5)積極開發移動數據和云端處理模式
5G技術即將走進人們的生活,未來移動設備中的大數據技術開發將是主要的發展方向。雖然移動設備的運算、數據處理功能以及存儲功能還不能滿足數據處理需要,但也由此衍生了云端處理模式。云計算的出現為信息資源共享和溝通帶來更大的便利,近年來各高校圖書館都在深入研究云計算在本領域的應用,并取得了一定成果。雖然現在移動云處理研究處于起步階段,但伴隨5G技術的推廣應用,移動終端結合云端大數據處理應用研究將會得到更多研究群體的重視。同時大數據和移動云計算融合也有很多阻力,例如安全隱私、模型架構等諸多問題,但攻克這方面的技術難題指日可待。
大數據將給應用情報學研究帶來機遇和挑戰[15],研究環境、研究對象、研究方法和研究工具發生巨大變化[16]:
(1)單一領域情報研究過度到全領域情報研究。這一領域的研究在方法上滲透面更廣,跟其他學科領域相互交叉融合更多,雖然這種交叉和借鑒早就存在,但現在以及將來這種意識更強烈,手段也更為綜合;另外在研究內容上有明顯的擴展現象,圖書情報已經不再單一地局限于自己本研究領域,而是在一個更廣大的環境下,從而使得研究更為精準和嚴謹。
(2)對多種數據資源進行綜合運用。綜合利用多種數據資源進行分析已經成為大勢所趨,隨著經濟和全球一體化的發展,公眾對于情報資源的利用已經變得更為綜合和細化,僅僅涉及一種元素已經不能滿足公眾的需要了。
(3)對新型信息資源進行重新審視和分析。隨著科技的發展和應用的深入,各種新型信息資源也已經涌入大眾的視野,研究人員對于這些資源的審視和分析,不僅是當前他們自身研究的必要,也是資源利用者的需要。
(4)情報研究的嚴謹性和智能化。情報研究偏向于利用現有的各種科學技術和手段來達到目的,但是針對同樣一個問題,采用不同的技術手段可能產生不一樣的結果,為避免這種偏差,必然對研究方法和手段提出更高的要求,推動情報研究的全方面智能化,保證結果的科學、嚴謹。
將大數據應用到圖書情報工作領域的研究成果豐碩,雖然發達國家的相關研究比我們起步更早,但只要我們對圖書情報大數據環境下的熱點認真研究梳理,不但能促進大數據和圖書情報工作更加深入的融合,還能為創新圖書情報工作開辟一條新路徑。