摘要:為了解國際大數據服務研究現狀,預測其未來發展趨勢,作者以Web"of"Science核心合集數據庫為數據源,利用InCites平臺和Citespace"6.3.R1軟件,對相關論文的發表時間、國家、機構、作者的分布特征,以及關鍵詞聚類和突現詞進行分析,總結國際大數據服務領域的研究進展和前沿,發現當前的研究熱點是大數據服務在可再生能源、人口、城市化、循環經濟、社交媒體分析領域的應用。
關鍵詞:大數據服務"InCites"Citespace"關鍵詞聚類"突現詞
中圖分類號:G353.1
Research"Progress"and"Hotspots"of"International"Big"Data"Service"Based"on"CiteSpace
SHEN"YanHong,"PENG"Qizhi,"WEN"XinJie
Library"amp;"Archives"of"Jiangnan"University,"Wuxi,"Jiangsu"Province,"214122"China
Abstract:"The"purpose"of"this"article"is"to"understand"the"current"status"of"international"big"data"service"research,"and"to"predict"their"future"research"trends."The"Web"of"Science"core"collection"database"was"used"as"a"data"source,"from"which"related"papers"were"selected"as"a"sample"using"the"InCites"Platform"and"Citespace"6.3.R1."The"distribution"characteristics"of"publication"time,"countries"or"regions,"institutions,"authors,"and"keyword"clusters"amp;"burst"terms"of"these"papers"werenbsp;analyzed,summarizing"the"research"progress"and"frontiers"in"the"field"of"international"big"data"services."Current"research"hotspots"include"the"application"of"big"data"services"in"renewable"energy,"population"studies,"urbanization,"circular"economy,"and"social"media"analysis.
Key"Words:"Big"data"service;"InCites;"Citespace;"Keywords"clustering;"Burst"terms
2011年6月,美國麥肯錫全球研究院發布了《大數據:下一個創新、競爭和生產力的前沿》,并對其在醫療保健、零售、公共管理、制造業、個人位置數據五大領域進行了重點分析[1]。自此,大數據服務相關研究拉開序幕,迅速涌現大量研究成果,本文采用文獻計量法和科學知識圖譜分析法,對2011—2023年國際大數據服務重要文獻進行分析,把握該領域研究概況,以便為后續研究提供一定的參考。
1 數據來源與研究方法
本文的數據來源于“Web"of"Science”(以下簡稱WoS)核心合集,檢索時間:2024年4月30日;檢索式:TI=(“big"data”AND"(server"OR"servi*"OR"mining"OR"anal*)),篩選條件:文獻類型為Article、Review;語言為英文;發表時間為2023年12月31日以前,并人工篩除不相關文獻;最終得到相關文獻4"747條。筆者借助WoS、InCites對其進行文獻計量分析,利用"Citespace6.3.R1(Advanced)進行可視化分析,總結國際大數據服務領域的研究進展、前沿以及熱點問題。
2"文獻計量分析
2.1"年度發文與高水平論文統計
大數據服務領域文獻的各年度發文與高水平論文數量如圖1所示。自2011年收錄第一篇相關論文“Big"Data,Analytics"and"the"Path"From"Insights"to"Value”起,直到2022年的1"039篇,WoS收錄該領域文獻連續攀升,但2023年收錄文獻量僅739篇,遠低于2022年度發文量。WoS平臺定義的高水平論文包括高被引論文和熱點論文[2]。高被引論文是指最近10年來被引頻次排在前1%的論文,熱點論文是指最近2年內的論文,在最近2個月被引頻次排在同學科前0.1%的論文[3]。大數據服務領域的高水平論文數量在2021年前總體呈上升趨勢,其中在2015、2019—2020年出現小幅下降,2021年達到最高點24篇之后呈下降趨勢??梢姡髷祿I域的研究經過井噴爆發后目前發展速度減慢。
2.2"國家/地區分析
4"747篇論文的作者來自122個國家/地區,其中發文超過300篇的有5個,共發文3"441篇,占總發文量的72.5%,其中中國大陸以發文1"844篇遙遙領先,美國發文840篇排名第二,印度438篇、英國366篇、韓國337篇分列第三、第四、第五名。圖2列出了上述5個國家在WoS論文數、被引頻次、學科規范化引文影響力、國際合作百分比、高被引論文等方面的表現。學科規范化引文影響力(Category"Normalized"Citation"Impact,CNCI)為實際被引次數除以同文獻類型、同出版年、同學科領域文獻的期望被引次數獲得的[4]。我國在發文量和高被引論文數上表現優異,國際合作論文百分比較低;美國的被引頻次排名第一,其他均排名第二,表現較為均衡;英國則在學科規范化影響力、國際合作方面表現突出。
值得注意的是,我國學者在國際大數據服務領域的發文量占總發文量的39.7%,以國內發文體現國內學者在該領域的研究現狀有失偏頗。故此,本研究僅針對WoS收錄的文獻開展國際大數據服務領域狀況的統計分析。
2.3機構分析
4"747篇論文的作者來自全世界3"174個組織機構,其中發文超過30篇的機構有17個,共發文597篇;發文超過40篇的機構有4個,分別為Chinese"Academy"of"Sciences、Egyptian"Knowledge"Bank"(EKB)、University"of"California"System、State"University"System"of"Florida。利用Citespace對作者機構進行分析,將“Time"Slicing”設置為“From"2011"JAN"To"2023"DEC,#Years"Per"Slice"1”,“Node"Type”設置為“Institution”,閾值“g-index”設置K=25,其余設置默認,運行后繪制出機構合作網絡圖。圖3中節點大小代表各單位發文量,節點越大,表明該機構發文量越大;連線代表機構間的合作,連線越多代表該機構的合作機構越多;中介中心性越高,代表該機構在合作網絡中的作用越重要。圖3顯示了發文超過30篇的機構的名稱,網絡密度0.0058,表明國際大數據服務領域研究機構之間合作較多,但并沒有明顯的合作團體;中介中心性最高的機構為Chinese"Academy"of"Sciences(0.24)、Hong"Kong"Polytechnic"University(0.15)、Tsinghua"University(0.11),University"of"Sydney(0.11),除University"of"Sydney發文量23篇排名略低于其他,3個機構外,其他3個機構發文量分列第一、六、五位,表明這些機構既具備雄厚的科研實力,并且在機構合作中扮演著中樞機構的角色,發揮著紐帶與橋梁的作用[5]。
2.4作者發文分析
4"747篇文獻涉及來自全世界的作者13"174位,其中Das"Anthony"Vipin、Gunasekaran,"Angappa、Tsai"Sang-Bing、Fosso"Wamba"Samuel、Dubey"Rameshwar這5位作者發文超過15篇。利用Citespace對文獻作者進行分析,其他設置同上,“Node"Type”設置為“Author”,運行后繪制出作者合作網絡圖。如圖4顯示,作者之間形成了一些大大小小的合作團體,其中規模較大成果較多的合作團體有3個,第一個是以Gunasekaran"Angappa、Wamba"Samuel"Fosso、Dubey"Rameshwar為首的合作團體,該團隊早期的研究主要集中在知識管理,近5年集中在工業4.0、供應鏈、區塊鏈;第二個是Paul"Anand、Babar"Muhammad為首的團隊,研究領域主要集中在物聯網領域;第三個是以Bag"Surajit為首的合作團體,發文主要集中在供應鏈和知識管理領域。
2.5關鍵詞聚類分析
通過CiteSpace可進行聚類分析,CiteSpace依據網絡結構和聚類的清晰度,提供了模塊值(Q值)和平均輪廓值(S值)兩個指標,一般認為,Qgt;0.3意味著聚類結構顯著,Sgt;0.5聚類合理,Sgt;0.7聚類是令人信服的[6]。本文運用CiteSpace對來自122個國家/地區的4"747條文獻的關鍵詞進行聚類分析,其他設置同上,“Node"Type”設置為“Keywords”,得到關鍵詞共獻圖譜后進行聚類,并以Timeline圖的形式呈現(如圖5所示),獲得關鍵詞超過20個的聚類7個(標簽編號從0到6),包括696個節點、4"766條連線,網絡密度為0.019"7,Q值為0.422"1,說明聚類結構顯著;S值為0.729"7,說明聚類令人信服。
0#聚類big"data"analysis"capability,包含關鍵詞141個,平均年份2019年。側重于大數據分析能力在供應鏈管理、后勤、商業、工業4.0、制造業、人力資源管理等領域的重要作用,如預測分析、決策制定、價值創造等的研究。
1#聚類electronic"medical"records,包含關鍵詞120個,平均年份2018年。主要研究內容包括:傳染病監測和建模、癌癥的預測診斷和治療、公共衛生事件中的監測和控制等、心理健康問題研究、空氣污染類疾病研究等。
2#聚類deep"learning,包含關鍵詞106個,平均年份2018年。主要研究內容包括人工智能、深度學習、神經網絡、人工神經網絡、數據模型、隨機森林、特征提取、支持向量機等。
3#聚類big"data,包含關鍵詞98個,平均年份2014,是所有聚類中平均年份最早的。主要研究內容包括大數據分析、模型、機器學習、框架、數據挖掘、云計算、特征選擇、大數據挖掘、風險管理等。
4#聚類text"mining,包含關鍵詞93個,平均年份2018年。該主題側重對來自媒體、推特、評論、口頭傳述信息等的自然語言處理、文本挖掘、情緒分析等的研究。
5#聚類Internet"of"thing,包含關鍵詞85個,平均年份2018年。側重于基于大數據的物聯網技術在建筑、醫療、智慧城市、工業4.0等領域的應用研究。
6#聚類circular"economy,包含關鍵詞25個,規模遠小于前四個聚類,平均年份2017年。側重于大數據驅動的循環經濟、可持續發展的研究。
2.6"關鍵詞突現分析
突現是指一個變量的值在短期內有非常大的波動[7]。對關鍵詞中的突現詞進行分析,發現主要涉及大數據服務技術的研究和大數據服務的應用研究兩大領域,前者主要集中在2018年之前,后者則是從2017年起陸續涌現。
大數據服務領域突現最早的是大數據,以22.18的突現值遙遙領先,可見在2013—2017年大數據是一個絕對大熱點,云計算提供了大數據處理的基礎設施和資源,大數據則為云計算提供了應用場景和需求驅動,二者相輔相成,云計算也成為了當年熱點,此外算法研究、大數據挖掘均在當年成為熱點,它們的爆發期均在2017年左右結束;2014年,利用MapReduce框架進行大數據處理研究成為的新的熱點,突現值為11.51,突現強度遠高于除大數據本身以外的其他所有關鍵詞,直到2018年爆發期結束;2015年知識發現、2016年分布式計算成為該領域的熱點;2018年數據集成、關聯規則、支持向量機成為熱點;2019年霧計算、數據模型成為新的熱點,這些熱點在2019年、2020年陸續結束,之后3年未出現大數據技術相關研究突現詞,可見大數據服務技術的研究已經相對成熟。
2017年,大數據分析在鼻咽癌領域的應用研究、推特大數據分析成為熱點,表明大數據分析技術走向成熟,在各行各業的應用熱度大幅上升。2018年,醫學、工業4.0成為研究熱點,醫學領域的研究以傳染病、癌癥、公共衛生事件、心理健康等尤為受到關注,電子病歷大數據成為重要挖掘對象;工業4.0方面,主要應用領域包括供應鏈管理、后勤管理等。2019年出現熱點能源管理,2020年出現熱點智慧城市、智能電網,均在2021年結束突現期。2021年,可再生能源、人口、城市化、循環經濟、社交媒體分析成為了研究熱點,且一直持續到2023年,是大數據分析服務應用領域當前的研究熱點。
3"結論與局限
本研究采用CiteSpace對WoS平臺檢索出的4"747篇大數據服務領域的文獻進行了全面梳理,發現大數據服務領域的研究經過井噴期后,發展速度減慢;我國在該領域研究成果數量遠超他國;研究機構中Chinese"Academy"of"Sciences、Egyptian"Knowledge"Bank"(EKB)、University"of"California"System、State"University"System"of"Florida發文較多,但未形成明顯的合作團體;科研人員中Das,"Anthony"Vipin、Gunasekaran,"AngappaTsai,"Sang-Bing、Fosso"Wamba,"Samuel、4Dubey,"Rameshwar發文較多,形成3個規模較大成果較多的合作團體。
根據大數據服務領域的研究內容聚類,主要包括大數據分析能力、電子醫療病歷、深度學習、大數據、文本挖掘、物聯網6個關鍵詞(數量在100左右)的大型聚類。根據突現詞分析,可發現該領域研究熱點主要分成兩大塊:一是大數據服務領域的支撐技術,依次為大數據、云計算、算法、大數據挖掘、MapReduce框架、知識發現、分布式計算、數據集成、關聯規則、支持向量機、霧計算、數據模型;二是大數據服務應用研究,依次為鼻咽癌、推特、醫學、工業4.0、能源管理、智慧城市、智能電網,當前研究熱點為大數據服務在可再生能源、人口、城市化、循環經濟、社交媒體分析等領域的應用,值得科研人員重點關注。
本研究也存在一些不足之處:以Web"of"Science平臺收錄的大數據服務相關文獻作為研究對象分析課題國際研究狀況,數據收集不夠全面;對檢索結果進行人工篩選時可能存在疏漏等問題,有待進一步提高。
參考文獻
[1]王劉旺.基于云計算的電力設備監測數據的集中并行處理與診斷[D].北京:華北電力大學,2017.
[2]潘飛,孫文禮,王驍龍等."“中國科技期刊卓越行動計劃”資助期刊群體畫像構建與分析——以領軍期刊與重點期刊為例"[J]."中國科技期刊研究,"2024,"35"(6):"831-840.
[3]湯森路透知識產權與科技中國辦公室.IncitesTM數據庫常用指標手冊[EB/OL].(2018-03-07)[2024-04-20].http://me.usst.edu.cn/_upload/article/files/af/d6/f2afba9f4f7ca96a95f805541962/32addea4-5294-4404-84d8-bd5906db35ea.pdf.
[4]郝若揚.3種引文規范化指標RCR、CNCI和JNCI的相關性研究[J].現代情報,2023,43(12):133-142.
[5]王坦,許家瑞,胡偉力."研究生教育研究的進展、熱點與趨勢:基于國內外核心數據庫文獻的可視化知識圖譜分析"[J]."西南民族大學學報(人文社會科學版),"2021,"42"(11):"229-240.
[6]段忠賢,滕仁玉."數據要素產權研究熱點的動態演變"[J]."科技管理研究,"2024,"44"(13):"152-160.
[7]王知津,李圓方,李巧英,等.基于WoS分析的信息行為研究現狀及趨勢[J].現代情報,2020,40(7):152-166.