聶恒輝 陳大春



摘要:本文運用Excel和CiteSpace軟件繪制了作者、機構、關鍵詞等相關知識圖譜,對我國自2010年起在知網(CNKI)刊載的大數據應用研究性文獻進行分析并得出結論。研究發現:各研究機構及作者之間的聯系較少,缺乏溝通合作;研究熱點主題有云計算、人工智能、大數據技術、數據挖掘等等,其中人工智能為我國大數據應用研究的主要研究趨勢。
關鍵詞:大數據應用;可視化分析;關鍵詞聚類分析
隨著科技和社會經濟的發展,“大數據”的概念應運而生,它的出現開啟了大規模應用、分享、儲存數據的時代。大數據的特點是體量大、種類多、速度快、價值高,能讓我們通過對大量數據的處理統計去分析事物的其他方面,它代表了一種新的數據管理與統計分析的技術,同時也打開了另一種全新的思維方式和角度。
大數據的發展經歷了三個階段:一是萌芽時期(20世紀90年代到21世紀初),1997年美國國家航空航天局在研究數據可視化中首次提出了“大數據”的概念,1998年《science》雜志上發表了一篇名為《大數據科學的可視化》的文章,“大數據”作為一個正式的公共名詞出現在大眾的視野里。二是發展時期(21世紀初期至2010年),隨著信息技術和互聯網行業的興起,大數據也進入了快速發展時期,其特點和概念得到進一步豐富。三是繁榮時期(2010年至今),專家們根據大數據分析預測未來、指導實踐的深層次應用將成為發展重點[1]。
近年來,隨著人們對大數據的深入研究,越來越多的研究者將大數據技術應用于不同的專業方向,該領域的論文數量也大大增加。為了更全面的把握大數據在目前各行業中的應用進展,本文采用可視化工具分析了大數據技術應用方向的研究熱點和前沿。
1 研究方法
本研究采用CiteSpace作為主要研究工具,同時使用Excel表格作為輔助研究工具。在CNKI的高級檢索中選擇“文獻”的主題檢索,檢索條件為文章主題、文章關鍵詞、文章篇名均為“大數據應用”“大數據研究”的文章,檢索文獻發表時間為“2010年一2020年”,共獲得文獻1975篇(2020年9月10日檢索)。將目標文獻全部選中,按CiteSpace所需參考文獻格式Refworks進行導出并轉碼儲存,并進行Excel的可視化處理,得到本文所需要的研究數據。
2 數據研究分析
2.1 基本概況分析
圖1顯示了我國大數據的相關研究性文獻在知網( CNKI)發文量隨年代變化的情況。由表可看出,2010-2014年期間,文章整體的發文量較少,均在200篇以下;自2015年起,相關文獻的發文量呈現出可觀的趨勢,2020年發文量達到頂峰。由此可知大數據的研究在我國的關注度持續上升,并且可以預計在未來幾年內其熱度仍然不會減少。
2.2 關鍵詞聚類分析
關鍵詞聚類分析是將關鍵詞共現網絡關系通過聚類統計學的方法簡化成數目相對較少聚類的過程[2]。通過對關鍵詞進行聚類分析,來得到我國大數據的研究方向趨勢。
運行CiteSpace,設置節點類型為關鍵詞,選取cluster選項,設定呈最大的現12個聚類集合,得到如圖2所示關鍵詞聚類網絡圖譜。圖中呈現了“大數據”“大數據研究”“云平臺”“大數據技術”“醫療健康”“存儲系統”等12個聚類,反應了我國大數據領域的研究熱點。通過分析不難看出,大數據幾乎存在于所有的社會領域,背后隱藏著復雜的新理念和應用價值[3]。
2.3 關鍵詞突現分析
關鍵詞突現是指在一個特定的時間內被引用的頻率爆炸式增長的情況,運行CiteSpace,參數設置“Burstterms”,選取最具有代表性的七個關鍵詞突現,得到關鍵詞突現圖(見圖3)。
由圖中可看出,最早出現的突現詞為“物聯網”,說明物聯網行業是近十年來最早的大數據應用案例,但是13年以后突現率消失,說明迅速被大數據的其他應用領域所取代;2012-2014年間的突現詞為“云計算”、“大數據時代”“數據挖掘”;2017-2018年間突現詞為“應用”“城市規劃”;2018-2020年間突現詞為“人工智能”。目前“人工智能”的突現率一直延續至今,可說明該突現詞是目前我國大數據研究的主要方向。
2.4 關鍵詞時序分析
關鍵詞時序圖能夠在一定程度上反映某一時間段內的研究趨勢,因此運行CiteSpace,在關鍵詞共現分析基礎上,按時間片段生成關鍵詞時序圖譜(見圖4)。
該圖連接節點為516個,連線數為1385條,說明雖然大數據的研究機構、研究作者之間聯系較少,缺乏溝通。但是大數據的研究方向之間聯系非常密切,各項技術的應用和變革都是依次展開,緊密相關的。從圖中可看出在不同時期的關注點不同,自2010年以來,大數據首先用在“物聯網”和“電力”上,隨著時間推移漸漸地向“云計算”、“Hadoop"數據挖掘”“電信”“農業”等不同方向發展,說明了大數據技術正在逐步滲透到各個行業領域。
3 結論與展望
文章基于知網( CNKI)數據庫,運用相關的可視化分析軟件,對2010-2020這十年間大數據的應用研究情況進行了較完整的分析。從發文量來看,在該領域發表的文章總體上升,并且在2014年以后出現程度較大的增長,這表明大數據的相關研究關注度會越來越高;從高產機構和核心作者來看,各機構和各作者之間的研究缺乏合作交流,關聯性較小;從文獻突現來看,雖然近十年來最先走入人們視線的大數據研究方向是物聯網,但研究熱點正逐漸轉到人工智能上,并還可能會持續一段時間;從關鍵詞聚類和時序分析來看,前期的研究,尤其是2012-2014年這段時間,大多集中在大數據分析、物聯網、云計算上。后期出現了關鍵詞人工智能、云平臺和其他大數據產業,表明了研究者的關注點也隨著生產生活方式的變化正在逐步轉移。總之,大數據技術是一種新型技術,其應用情景廣闊,大數據技術在應用過程中,不斷完善,不斷革新技術,以適應現代社會發展需要[4]。
大數據是將大量的原始數據匯集在一起以預測以后事物的發展趨勢,有助于人們做出正確的決策,取得更大的收益[5]。目前大數據的相關研究正處于井噴式增長期,具體的應用已經在各個領域取得了許多突破性的進展,毫無疑問,大數據的應用研究將在很大程度上改變人們的工作生活方式。大數據時代,倘若能夠更加有效地組織和使用數據,人們將得到更多的機會發揮科學技術對社會發展的巨大推動作用[6]。我們期待在未來幾年能夠出現更多重大突破。
參考文獻
[1]梅宏.大數據發展現狀與未來趨勢[J].交通運輸研究,2019,5 (05):1-11.
[2]林德明,陳超美,劉則淵,共被引網絡中介中心性的Zipf-Pareto分布研究[J].情報學報,2011 (1):76-82.鐘偉金,李佳,楊興菊,共詞分析法研究(三)一共詞聚類分析法的原理與特點[J].情報雜志,2008 (7):118-120.
[3]曾雷.大數據研究綜述[J].軟件導刊,201 5,14 (08):1-2.
[4]唐國宇,陸文成,大數據應用的現狀與展望[J],電子技術與軟件工程,2017 (19):156-157.
[5]劉智慧,張泉靈,大數據技術研究綜述[J].浙江大學學報(工學版),2014,48 (06):957-972.
[6]楊京,王效岳,白如江,祝娜,大數據背景下數據科學分析工具現狀及發展趨勢[J].情報理論與實踐,2015,38 (03):134-137+144.
作者簡介
聶恒輝(1993-),男,山東省濟南市人。碩士研究生。研究方向為訓練評估。
陳大春(1971-)(通訊作者),男,浙江省東陽市人。副教授。研究方向為軍事教育。