蔣健 舒暢





【摘要】:[目的/意義]對國內大數據技術的研究成果進行梳理與計量分析,有助于從不同角度了解注意研究狀況、發文情況,對后續的研究具有一定的參考價值。[方法/過程]本文利用共詞分析法、VOS viewer聚類分析、社會網絡分析等方法,研究關鍵詞之間的聯系,探討近年來大數據技術的前沿與熱點問題。[結果/結論]結果表明,近兩年國內對于大數據技術的研究主要有數據挖掘和數據分析技術,文章最后針對大數據技術和其應用領域的研究現狀和未來研究方向
【關鍵詞】:大數據 共詞分析 多維尺度分析 VOS viewer
一引言
隨著互聯網、物聯網等通信技術的快速發展,人類社會已進入大數據時代。在國家政策的導向和信息技術自身發展的需求兩個作用下,以“大數據”維為主題的研究熱潮迅速引起。近年來,國內外學者從各個層面各個角度基于“大數據”展開了激烈的討論與研究,也產生了很多有影響力的研究成果。為了更好的把握大數據的前沿動態與熱點領域,對“大數據”主題的研究成果進行梳理和分析是很有必要的
本文從可視化角度,通過收集中國知網(CNKI)中以“大數據”為主題的高質量期刊論文,利用文獻計量、共詞分析方法和多維尺度分析方法等對大數據技術領域的研究主題進行梳理,揭示國內該領域的前沿與熱點問題,以期揭示大數據技術的前沿動態和研究熱點,為大數據理論與應用的深入研究提供一定的參考和借鑒。
二、數據來源與研究方法
(一)數據來源
為了得到可靠、準確的數據,本為選取CNKI學術期刊中以主題=“大數據技術的應用” ,來源類別=“SCI來源期刊”or“CSSCI”or“核心期刊”的期刊論文為數據來源,得到291篇大數據領域的研究論文。
(二)研究方法
本文采用Endnote、VOS viewer、Excel作為研究工具,通過Endnote和Excel對數據進行基礎分析,統計關鍵詞頻,構建高頻關鍵詞共詞網絡;SPSS對共詞矩陣進行多維尺度分析,統計研究熱點;VOS viewer進行社會網絡分析,探究研究方向。
三、大數據技術研究文獻計量分析
(一)詞頻分析
通過對文獻集中的關鍵字段進行統計分析,從291篇論文中共提取816個關鍵詞。然后進行數據篩選與清洗,由于本文主題是大數據技術,故從關鍵詞中剔除“大數據”、“大數據技術”、“大數據時代”,得到詞頻統計不低于5的關鍵詞,詞頻分布具體如表1所示。通過對關鍵詞詞頻進行統計分析,發現“數據挖掘”、“數據分析”、“電子政務”、“云計算”等大數據技術應用領域出現次數較多,這在一定程度上反映出大數據技術在這四個領域的應用較為頻繁。
(二)高頻關鍵詞共詞矩陣
為了全面揭示大數據技術的結構、研究熱點及研究動態。構建了如表2的30*30的高頻詞共現矩陣(部分)。在共詞矩陣中,兩個關鍵詞共同出現次數越多,說明兩個關鍵詞聯系越緊密,越能體現主題的研究內容。其中,矩陣對角線為關鍵詞的詞頻,上三角或下三角表示兩個關鍵共同出現的次數。
(三)多維尺度分析
一般來說,多維尺度分析比較適合用相異矩陣,為了避免高頻詞共現矩陣中詞頻差異過大導致多元分析受到影響,本文采用Ochiia系數法將共詞矩陣轉化為相關矩陣,繼而用1減去相關系數,得到相異矩陣,在SPSS中進行多維尺度分析,得到關鍵詞的多維尺度關系圖,如圖1所示。其中:
可以看出,大數據技術的應用包括4個類團。第一類:應用于區域鏈、商業銀行、精準扶貧、隱私保護等信息化建設。第二類:應用于高校和互聯網的信息采集,人工智能技術逐漸引起重視。第三類:應用于圖書館、智能電網、互聯網金融、電子政務的云計算技術。第四類:應用于教育大數據、高校思想政治教育、數字出版的大數據平臺和數據處理技術
(四)社會網絡分析
在VOS viewer中,為了獲得使聚類結果更加精確細致,選取詞頻不低于2的關鍵詞進行分析,通過篩選與梳理,剔除“策略”、“發展”等關鍵詞,合并“數據分析”、“大數據分析”等關鍵詞,獲得有效關鍵詞81個,生成高頻關鍵詞聚類圖如圖1。根據聚類結果,將高頻關鍵詞劃分為4類最為合適。第一類:包括產業融合、人工智能、共享經濟、區域鏈、技術架構、數據模型6個關鍵詞。主要涉及人工智能技術在產業融合與共享經濟領域的應用。第二類:包括互聯網金融、商業銀行、貿易流通、征信體系、轉型升級、金融業務、銀行7個關鍵詞。體現大數據技術在金融領域的應用。第三類:包括公共治理、國家治理、數據異化、數據治理、立法數據化5個關鍵詞。體現大數據在立法、公共治理方面的應用,針對數據異化問題進行數據處理,構建電子政務體系。第四類:包括圖書館、數據采集、服務創新、知識服務、閱讀推廣、高校圖書館6個關鍵詞。體現大數據技術在圖書館建設中的數據采集、閱讀推廣以及服務創新方面的應用。
四、結果分析
多維尺度分析和VOS viewer聚類分析的目的都是為了探索數據之間的近似程度,但是聚類分析更加側重于分組,而多維尺度分析的最終結果則是圖形,其形成的類團有一定的主觀意愿影響。因此,二者結果略有不同但又大體一致。本文采用共詞分析方法,對文獻高頻關鍵詞進行統計分析,從不同層次分析大數據技術的應用,得出結論如下:
(1)多維尺度分析顯示,在不同的領域,大數據技術的技術手段略有不同,包括人工智能技術、云計算技術、信息化建設以及基于大數據平臺的數據處理技術。隨著信息社會的不斷發展,這些大數據技術逐漸成為了主流技術。所以未來關于這些技術的進一步發展,在不同領域的應用,依然是一個值得深入研究的課題。
(2)VOS viewer聚類顯示,目前大數據技術主要應用于產業融合、互聯網金融、公共治理和圖書館4個方面。隨著大數據技術的不斷發展,其應用領域越來越寬泛,適用領域越來越多,下一步的研究重點應該放在進一步擴展大數據應用領域,將大數據技術與專業領域完美結合,形成專業化大數據技術。
【參考文獻】:
【1】童子頤.國內大數據研究熱點分析[J].情報探索,2015(07):38-41+46.
【2】王一博,郭鑫,王繼民.基于詞共現的大數據研究主題分析[J].圖書館論壇,2014,34(08):96-102.
【3】王宇燦,李一飛,袁勤儉.國際大數據研究熱點及前沿演化可視化分析[J].工程研究-跨學科視野中的工程,2014,6(03):282-293.
【4】陳紅琳,魏瑞斌,張瑋,張宇航.基于共詞分析的國內文本情感分析研究[J].現代情報,2019,39(06):91-101.
【5】楊冰. 學習分析的研究熱點、主題與發展趨勢解析——基于共詞分析的可視化研究[A]. 教育部高等學校教育技術專業教學指導委員會.走向智慧時代的教育創新發展研究--第16屆教育技術國際論壇暨首屆智慧教育國際研討會論文集[C].教育部高等學校教育技術專業教學指導委員會:江蘇省教育信息化工程技術研究中心,2017:4.
作者簡介:
1.蔣健,男。(1998-),安徽財經大學管理科學與工程學院,本科生,專業:信息管理與信息系統
2.舒暢,女,(1998-),安徽財經大學管理科學與工程學院,本科生,專業:計算機科學與技術