譚珅 楊亞楠



摘要:在大數據時代背景下,數據可視化的應用的范圍愈加廣泛,重視程度更是在不斷提高。本文通過對數據可視化研究領域發表的相關文獻進行挖掘,借助社會網絡分析方法,對數據可視化研究領域的主題演化和研究現狀進行分析。
Abstract: Under the background of large data era, the application of data visualization is more and more extensive, and the degree of attention is constantly improving. In this paper, by mining the relevant literature published by domestic scholars in the field of data visualization, with the help of social network analysis method, the topic evolution and research status of data visualization research are analyzed.
關鍵詞:數據可視化;社會網絡分析;研究主題
Key words: data visualization;social network analysis;research topic
中圖分類號:TP311.1? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?文獻標識碼:A? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文章編號:1006-4311(2018)36-0215-02
0? 引言
新一代信息和互聯網技術與社會各領域的深度融合,使得人類生產和獲取數據的能力在以指數倍數增長[1],人類社會逐漸進入一個信息爆炸的時代[2]。當海量的數據充斥著世界,那么如何從海量的數據中甄別有價值的數據和垃圾數據[3],這就必然給信息處理技術帶來了更高的要求。在此背景之下,數據可視化作為數據呈現和數據分析的理論和方法被各行業越發重視。對于海量的數據,傳統技術無法直接進行分析,可視化技術借助計算機將原始數據、信息轉換更易于人類理解和接受[4],能夠更加快速的獲得具有價值的知識[5];與此同時,在某些情況下數據挖掘技術會造成數據遺失,一些更具價值“小數據”很容易被大量的數據所淹沒,如網絡安全的黑客攻擊、醫療數據的患者病例信息等,而將可視化技術和數據挖掘技術結合起來是更加有效地解決方法。總體上看,從數據的采集、數據的存儲與管理、數據的分析與挖掘、數據展現與應用,可視化技術是作為大數據產業架構最終呈現環節,對于之前環節起到了至關重要的作用,可以說數據可視化決定了數據資源管理的水平的高低。
本文旨在通過對學者們在數據可視化領域的研究成果進行梳理,借助社會網絡分析方法,呈現出我國數據可視化研究領域的研究現狀,對學者們接下來的研究方向選擇具有指導意義。
1? 數據獲取
本文選取中國知網(CNKI)為數據源,將主題、關鍵詞、篇名、摘要的檢索詞設定為“數據可視化”,并且為精確模式,四者之間為或者關系;期刊來源選定為SCI、EI和CSSCI;檢索時間設定為2002年到2017年,經檢索獲得642篇文獻。發文量趨勢線擬合方程為y=0.07x3-1.0131x2+4.1689x+18.533,其中R2=0.847,表明擬合程度較好,可信度較高。
2002年以來數據可視化的發文量比較穩定,每年50篇維持在以下,2014年發文量開始出現快速增長,反應出數據可視化的研究熱度在不斷升高。鑒于此,根據年發文量的變化,本文將數據可視化的研究劃分為2002-2013年和2014-2017年兩個階段。
2? 研究方法選擇
本文使用主要社會網絡分析方法對數據可視化技術研究情況進行探討,借助BICOMB從原始文件挖掘出中數據,使用Pajek繪制出網絡圖后,對獲取到的屬性數據進行深入分析。考慮到網絡中各衡量指標的特性,筆者選取接近度中心性作為網絡圖中的衡量指標,其計算公式為:
其中Cc(vm)表示節點vm接近度中心性,N表示節點數,dmn表示節點vm到vn的最短距離。
3? 研究結果分析
3.1 主要關鍵詞分析
借助BICOMB軟件對從文獻中提取到的關鍵詞進行提取,并且對于同義、大小寫等表達方式不同的關鍵詞進行合并處理,最后按關鍵詞進行排序統計。經統計,第一階段獲得關鍵詞907個,頻次大于等于2的關鍵詞有118個,累計占比37.68%,前三位的是可視化、數據可視化、信息可視化;第二階段共計獲得關鍵詞1093個,頻次大于等于2的關鍵詞數為120個,累計占比37.91%,頻次位于前三位的是可視化、大數據、數據可視化。從位于前三位的關鍵詞變化中可以發現,大數據在研究中地位得到突顯,涉及信息可視化研究的在減少。
3.2 關鍵詞中心性分析
通過計算兩個階段關鍵詞的中心性,將中心性劃分為三個層次:Cc(vm)≥0.60的節點為核心節點用;Cc(vm)≥0.50并且Cc(vm)<0.60的節點為中間節點;Cc(vm)<0.50的節點為邊緣節點用。
第一階段(2002-2013年):在本階段,詞頻大于等于3的關鍵詞共計41個,其中核心節點有兩個分別是可視化和信息可視化,中心性分別為0.66和0.61;處于中間節點的關鍵詞是數據可視化、數據挖掘、知識可視化和科學計量學,占總數的9.76%;邊緣節點共計35個,在總數中為85.37%。對各層次節點的數量對比可以發現邊緣層節點占比很高,這反映出在數據可視化研究較早階段研究關注點比較分散。在邊緣節點中,可視化分析、可視分析、空間分析等分析類詞頻和信息檢索、信息資源、信息系統等信息類詞頻都較多,反應出數據可視化研究在這些方面的關注度較高。進一步分析,發現節點間連線粗細進行觀察可以發現,數據可視化與大數據、數據新聞、數據挖掘和在線數據服務4個詞關聯度較高,反應出在初期階段與數據可視化聯系緊密的研究領域。
第二階段(2014-2017年):本階段詞頻大于和等于3的關鍵詞共計49個,有2個核心節點分別為可視化和大數據,中心性分別為0.65和0.62;中間節點有7個,分別為信息可視化、數據新聞、數據可視化、可視分析、數據挖掘、社會網絡分析、云計算,合計占比為14.29%;邊緣節點共計40個,合計占比為81.63%。較第一階段相比可以看出,中間節點的占比升高,數據可視化研究內容上有集中趨勢;信息可視化由第一階段的核心節點演化為第二階段中間節點;數據新聞、可視分析、數據分析等逐漸成為變為中間節點,說明這些領域的關注度在不斷升高;數據可視化領域研究內容的主要范圍已經逐漸形成。此外,節點聯系最為密切的是數據新聞和可視化兩個節點之間,并且數據新聞和大數據與數據可視化節點聯系度也較高。
3.3 網絡特性分析
經計算得到兩個階段關鍵詞網絡的網絡密度、平均度和集聚系數,如表2所示。通過數據對比發現,關鍵詞網絡的網絡密度、平均度和集聚系數在不斷升高,反映出數據可視化研究領域內關鍵詞緊密程度和聯系程度不斷升高,并且研究內容整體上有集中趨勢。
4? 結論
我國的數據可視化研究雖然稍晚于國外,但是我國學者在這方面取得了許多研究成果,本文通過借助社會網絡分析方法,從關鍵詞詞頻、關鍵詞中心性和網絡特性分析等四個方面對2002-2017年間的數據可視化研究領域的研究文獻進行梳理,梳理出以下結論:
①在研究初期學者們對數據可視化研究的關注度較低,較長時間內年發文量在50篇以下,但隨著學者們對該領域關注度不斷升高,發文量逐年上升,尤其是近年來增長迅速。
②數據可視化領域的研究主題呈現出由關注于數據挖掘和可視化呈現演化為關注于數據挖掘和基于可視化進行相關分析,如在第二階段中數據分析、可視分析、社會網絡分析等分析類詞頻熱度較高,此外,大數據、云計算等具有時代特征的關鍵詞被學者們較為關注。
③我國數據可視化的研究主題內容不斷集中,核心節點之間的關聯性在升高,邊緣節點占比在降低,主要研究內容已經逐漸形成;并且網絡密度、平均度和集聚系數等網絡特性指標在升高,研究主題之間關系越發緊密。
參考文獻:
[1]張金磊,張寶輝,劉永貴.數據可視化技術在教學中的應用探究[J].現代遠程教育研究,2013(06):98-104,11.
[2]劉智慧,張泉靈.大數據技術研究綜述[J].浙江大學學報(工學版),2014,48(06).
[3]耿學華,傅德勝.可視化數據挖掘技術研究[J].計算機應用與軟件,2006(02).
[4]HABER R B. Visualization idioms : A conceptual model for scientific visualization systems [J]. Visualization in Scientific Computing, 1990.
[5]孫秋年,饒元.基于關聯分析的網絡數據可視化技術研究綜述[J].計算機科學,2015,42(S1).