李素梅



摘 要:文章以2012―2016年CNKI數據庫中收錄的主題為大數據的相關文獻為研究對象,借助信息可視化軟件CiteSpace和VOSviewer軟件繪制出科學知識圖譜,通過對作者及其機構合著網絡視圖的解讀,分析了該領域的代表作者、研究力量分布的相互關系,又通過對知識圖譜的研讀,探析了該領域的研究熱點及研究主題。
中圖分類號:G250文獻標識碼:A文章編號:1003-1588(2017)05-0124-03
關鍵詞:大數據;知識圖譜;可視化分析;CiteSpace;VOSviewer
“大數據”不僅是海量的、類型多樣的結構化數據(如圖片、聲音、視頻、地理位置信息等)、非結構化數據、半結構化數據的集合,它更是一種技術和理念,宗旨就是從海量、多樣性的數據資源中,進行深層次的挖掘,快速獲得有價值的信息,以創造巨大的經濟、社會及科研價值[1]。
1 數據來源和研究方法
近年來,大數據的研究與應用已經引起IT界、政府及科研部門等相關行業的廣泛關注,國內圖書館界也掀起了大數據的研究熱潮,涌現出一大批相關研究成果和文獻。筆者以中國知網(CNKI)為數據源,以主題為檢索項,以大數據(BigData)為檢索詞,不限刊發時間,檢索專輯名稱為圖書情報與數字圖書館,共檢索出原始文獻2,069篇(檢索日期2016年9月10日),通過手工篩選,剔除89篇非學術性論文及關聯性不大的文章,共搜集到從2012―2016年刊發的有效文獻1,980篇。因此,筆者選取了2012―2016年這5年間的文獻數據做大數據領域的知識圖譜進行分析。由于VOSviewer在聚類技術、圖譜繪制等方面有獨特優勢,因此,筆者綜合運用了CiteSpace和VOSviewer來繪制相應的科學知識圖譜,綜合運用二者的優勢,對近幾年國內圖書館大數據研究領域的作者、機構、熱點主題及前沿領域進行探究,準確地挖掘該研究主題的本質。
2 數據分析
2.1 文獻發表時間分布
2007―2016年,國內圖書館大數據研究文獻總發文量為1,986篇,其中2007―2011年的發文量較少,僅有6篇。2007年,隨著云計算、物聯網、機構倉儲、語義網絡等相關領域的快速發展,大規模數據的挖掘、整合、存儲成為學術界研究的熱點,為后來大數據主題的相關研究孕育了基礎。筆者通過分析文獻發現,國內圖書館關于大數據的確切概念研究的第一篇文獻發表于2012年,同時,2012年隨著大數據的技術優勢及價值被廣泛認知,大數據迅速成為各學科領域研究的重點和熱點。此后,國內圖書館對大數據的研究日益活躍起來,自2013年以后,大數據進入快速發展階段,相關研究文獻量呈現急劇增長的態勢,這充分表明了大數據已經成為國內圖書館研究的又一熱點。
2.2 文獻代表作者及其機構綜合分析
2.2.1 綜合考慮發文量和突現值的代表作者。在CiteSpace界面中,時間設置為2012―2016年,分段時間為1年,節點類型為作者,采用CiteSpace提供的突現詞檢測(Burst Detection)算法,得到發表論文數≥6篇以及突現值排名前10的作者(見表1、圖1),并初步確定這些作者為圖書館大數據研究領域的核心作者。
從圖1可以看出,組成的3人以上的小團體比較多,但子網間的聯系較少,彼此之間的合作關系不是很緊密。在3人以上的團體中,最大的是以桂林理工大學圖書館的張興旺為中心的研究團體,核心成員包括李晨暉、黃曉斌等;發文量最多的是由馬曉亭、陳臣等組成的團體,該團體共發表文獻41篇。
2.2.2 研究機構知識圖譜分析。國內圖書館大數據研究領域發文量≥8篇的機構共有12個(見表2),這12個機構共發表文獻229篇,占發文總量的11.53%。其中發文量最多的機構是武漢大學信息管理學院,其次是南京大學信息管理學院,這兩個機構是目前國內公認的圖情教育規模最大、實力最強的高校院系。網絡節點類型選擇“機構”,運行CiteSpace得到該主題研究的機構聚類知識圖譜(見圖2)。由圖2可知,各個機構間的合作不是很緊密,存在的合作關系中大多局限于區域內的機構合作,且合作頻次較低,表明該主題領域研究機構眾多,但研究實力不強,還處于相對封閉且分散的狀態。
2.3 研究熱點聚類結果分析
通過繪制關鍵詞共現知識圖譜,根據關鍵詞出現頻次的高低可以確定一個領域的研究熱點[2]。首先,將出現頻次10次以上(含10次)的78個有效關鍵詞構建成“78*78”的共詞矩陣;其次,利用Ucinet及其內嵌的Netdraw工具處理過程性數據[3];最后,把生成的NET文件導入VOSviewer進行共詞聚類分析,生成如圖3所示的關鍵詞聚類標簽圖譜。從圖3可以看出,每一種顏色代表了一個類別,擁有相同顏色的節點屬于同一個聚類。此外,筆者通過去除一些邊緣類別,整理出國內圖書館大數據研究領域7大類關鍵詞類簇(見表3)。
3 國內圖書館大數據研究領域分析
3.1 大數據時代圖書館信息服務創新
大數據時代,為使用戶隨時隨地都能獲得具有實時性、全面性、交互性、決策性、個性化的信息服務,圖書館應充分采集該地區與讀者相關的數據,通過數據了解用戶的行為、意愿及信息服務需求,借助當前的信息技術,為用戶提供適應大數據時代用戶信息需求的知識發現服務。
3.2 “互聯網+”與圖書館的融合
“互聯網+”時代的到來,給圖書館帶來了全新的發展機遇[4],依托大數據技術和“互聯網+”思維,圖書館各項服務(如:學科服務、嵌入式服務、閱讀推廣等服務)的開展也將更加便利、高效及更具有針對性。圖書館應將“互聯網+”思維應用到圖書館工作實踐之中,加強二者的深度融合與創新驅動,才能更好地發揮其作用。
3.3 大數據價值的挖掘
大數據時代的到來引發了人們對數據價值的重新認識,數據將成為圖書館的核心資產[5],如何對這些結構復雜、形式多樣的數據進行分析與處理,最終變成有價值的信息,這對圖書館提出了挑戰。所以,圖書館工作人員應借助云計算、大數據及各種智能技術,從用戶日常的信息行為乃至生活行為數據中挖掘出具有潛在價值的知識和規律,進而為圖書館的科學化管理及智能化決策提供相關支持。
3.4 大數據下的競爭情報研究
大數據環境下,大數據給競爭情報研究提供了更加全面、真實的數據資源,同時給競爭情報的數據存儲與管理提供了技術支持。企業通過利用大數據的數據處理手段及大數據分析技術,通過對競爭環境、競爭對手、競爭策略中的大量原始數據的獲取、加工、挖掘和分析,獲取其潛在的知識,為企業打造可持續的重要競爭優勢提供智力支持[6]。
3.5 大數據時代的智慧圖書館
智慧圖書館是在數字圖書館及移動圖書館的基礎上,為適應社會化、泛在化服務需求及互聯互通的發展需要,通過云計算、物聯網、移動互聯網、大數據等技術支撐圖書館發展的創新形態[7]。大數據時代,不斷產生的海量數據為圖書館智慧服務的開展提供了取之不盡的資源,智慧圖書館通過數據分析對館藏資源、用戶的行為及意愿、用戶的知識需求等進行全面、系統的了解,挖掘讀者的潛在需求,在此基礎上為用戶提供高效、便利的智慧服務,同時為管理者提供了科學的決策依據。
3.6 大數據環境下圖書館的數據素養教育研究
數據素養是信息素養在大數據環境下的延續和拓展,是人們有效且正當地收集、管理、處理與分析、評估和使用信息及數據的一種意識和能力[8]。大數據時代,數據逐漸滲透到人們生活的各個環節中,人們的學習、工作等都離不開數據的支撐。良好的數據素養是大數據環境下人們必備的技能素養之一,數據素養的教育與培養在當今這個網絡時代也顯得十分重要。圖書館以提高人們的文化素養為己任,因此,應充分發揮自身的優勢及教育職能,在人們的數據素養教育中承擔起相應的職責。
3.7 大數據的信息安全
大數據在帶來巨大價值的同時,也加大了信息安全風險,數據的大量匯集和集中存儲很容易成為黑客攻擊和竊取的目標。圖書館在為用戶提供高質量個性化服務的過程中,需要利用大數據技術對用戶行為和社會關系數據進行采集、分析與處理,這個過程顯然對讀者的隱私帶來了威脅和侵犯,在給用戶帶來危害的同時也導致了讀者流失。大數據環境下的信息安全和個人隱私保護問題已經成為眾多研究者努力探索的難題。
參考文獻:
[1]方巍,鄭玉,徐江.大數據:概念、技術及應用研究綜述[J].南京信息工程大學學報,2014(5):405-419.
[2]吳曉秋,呂娜.基于關鍵詞共現頻率的熱點分析方法研究[J].情報理論與實踐,2012(8):115-119.
[3]陳琴,蔣合領.我國知識管理研究學派、知識基礎及熱點的可視化分析[J].情報雜志,2016(2):88-92,174.
[4]張興旺,李晨暉.當圖書館遇上“互聯網+”[J].圖書與情報,2015(4):63-70.
[5]韓翠峰.大數據時代圖書館的服務創新與發展[J].圖書館,2013(1):121-122.
[6]娜日,朱淑珍,洪賢方,等.基于金融創新過程的競爭情報保障機制研究[J].情報雜志,2014(1):23-26,71.
[7]李浩.云計算、大數據、數字圖書館與智慧圖書館關聯研究:用大數據打造智慧圖書館的思考[J].四川圖書館學報,2014(6):31-34.
[8]金兼斌.財經記者與數據素養[J].新聞與寫作,2013(10):5-9.
(編校:崔 萌)