對大數據研究關鍵詞的聚類分析

2019-09-10 06:55:39劉慶悅

大眾科學·上旬 2019年4期

劉慶悅

摘要：大數據對全球各領域的理念和方法帶來了較大的影響。本文通過對近十年來大數據研究的關鍵詞進行聚類分析，得到了大數據研究關鍵詞的12個類團，以便相關人員更好地了解大數據研究的主要領域。

關鍵詞：大數據；聚類分析；共現分析

目前，大數據還沒有一個通用且準確的定義。雖然國際上有眾多對大數據的不同理解，但人們普遍認為大數據不僅有字面上的海量數據的含義，還包括對這些數據對象的處理和應用。在本文中，大數據被界定為使用非傳統處理方法，在合理時間內，對一個體量特別大、數據類型豐富的數據集進行深度挖掘，獲得有價值的信息的技術。一般認為，大數據具有3V特征：即Volume（規模性）、Variety（多樣性）、Velocity（高速性）。[1]規模性表示其數據體量龐大，多樣性表達出大數據的數據來源廣、類型豐富且不同類型的數據間可能關聯性很強。而高速性強調處理數據的效率，這一點也是它與傳統數據挖掘最大的區別。

本文選取中國知網（CNKI）的核心期刊庫作為文獻獲取來源，采取高級檢索，檢索式為：主題=（“大數據”），來源類別勾選“核心期刊”并按主題排序。選取自2008年以來每年搜索結果前5頁的文獻，共1883篇。經過篩選刪除不相關的文獻，最后得到1563篇文獻。導出這些文獻的題錄信息，以此分析大數據技術近10年來的發展規律。

從CNKI下載的文獻題錄中抽取期刊論文的標題、關鍵詞等信息，以endnot格式存入數據庫中。通過SATI文獻計量軟件進行關鍵詞的提取和頻率統計后，共得到2008-2019時間段的4058個關鍵詞。在經過關鍵詞的合并與刪除后，本文選取了出現頻次大于等于8的關鍵詞作為高頻關鍵詞，最終得到了52個高頻關鍵詞。將這52個關鍵詞兩兩配對，可得到2008-2019年大數據研究關鍵詞的共現矩陣，如表1所示：

表1：2008-2019年大數據研究關鍵詞的共現矩陣（部分）

共現矩陣數據挖掘云計算數據分析圖書館聚類 Hadoop MapReduce

數據挖掘 93 6 8 4 5 0 0

云計算 6 61 6 4 0 2 5

數據分析 8 6 56 2 0 0 0

圖書館 4 4 2 36 0 2 0

聚類 5 0 0 0 30 0 0

Hadoop 0 2 0 2 0 30 7

MapReduce 0 5 0 0 0 7 28

在共現矩陣基礎上，轉換得到共現矩陣的相異矩陣，將其導入SPSS軟件后，可得2008-2019年大數據研究關鍵詞聚類的樹狀圖。該圖反映出了關鍵詞間的親疏關系，關鍵詞聚合越早，其間關聯度越高；關鍵詞聚合越多，則說明這些關鍵詞所處的類集中程度越高。根據樹狀圖，在閾值為16.5的位置處進行切割，可將大數據技術的相關期刊文獻分為12個類團：

K1類研究的是大數據技術對金融業的沖擊，代表關鍵詞是互聯網金融、商業銀行等。它們屬于大數據應用的一部分，但近年來由于互聯網對于金融領域的沖擊格外大，因此有很多人關注大數據技術作為一種新興的信息技術會給這個領域帶來什么影響。

K2類研究大數據技術對教育界的影響，代表關鍵詞是教育大數據。教育領域以大數據為基礎構建學習者知識、行為、經驗模型，制定其學習檔案并依此分析科學的教學策略。

K3類研究數據集成，即將類型、來源不同的數據集合在一起，進行數據和信息共享，以避免信息孤島現象。

詞團K4是對大數據核心問題的研究。代表關鍵詞為數據分析和數據處理。它們都處于大數據處理的前兩個階段，即數據抽取集成和數據分析階段。

K5類是對大數據工具和處理模式進行研究。如前文所述，大數據技術與海量數據最大的區別在于它是否能采用傳統的方法對數據進行高效率的處理。因此，以Hadoop為代表的非傳統大數據處理工具自然成為了研究的焦點。

詞團K6中包含著兩個與大數據技術緊密相關的技術：云計算和物聯網。它們的發展為大數據技術提供了良好的平臺和技術豐富的數據來源，而大數據技術為處理這些海量的數據提供了可能。

K7類研究屬性約簡算法改進，它只包括粗糙集和屬性約簡兩個關鍵詞。基于粗糙集理論的屬性約簡主要可以用來降維處理高維數據對象，但由于原有的屬性約簡算法難以處理大數據集，因此很多學者提出了其改進算法，以保證算法的可靠。

K8主要研究的是數據，代表關鍵詞為數據質量和數據管理，主要探討怎樣管理好這些海量的數據，保證數據的質量。

K9類研究大數據領域的隱私和安全問題，代表關鍵詞為隱私保護和數據安全。大數據技術雖然給我們的生活帶來了便利，但也帶來了很多風險，許多過去人們不想被別人知道，或連自己都不知道的習慣被大數據記錄了下來并加以分析，將最真實的我們暴露在了互聯網的環境下。因此我們急需保護好這些個人隱私，使之得到合理有效的利用。同時，大量數據的集成也給數據的安全性問題帶來了挑戰。

K10類探討的是大數據對情報領域的影響，代表關鍵詞有競爭情報、情報分析等。大數據可以給情報領域帶來更細、更豐富的數據流，但也對該領域提出了更高的技術要求。

K11類主要研究大數據給圖書領域帶來的革新，代表關鍵詞有數字圖書館、知識服務等。圖書領域往往是較早接觸新技術的領域，它們的數字化程度普遍較高，接觸到的數據量也很大。面對圖書館數字化的需求，大數據技術也成為了相關學者的研究熱點。

詞團K12有關數據挖掘，以關聯規則和數據倉庫等關鍵詞為代表。它是大數據分析最基本的研究途徑，用以探究大量數據中潛在的有價值的信息。

詞團K13設計聚類，以聚類和有關方法為代表。它是數據挖掘等互聯網技術的基礎。

詞團K14中包含的內容較多，主要可分為機器學習和應用兩部分。機器學習的代表關鍵詞主要有神經網絡、支持向量機等，它也是一項與大數據技術緊密聯系的信息技術。而應用方面包括云會計、數據新聞、思想政治教育等，是大數據技術與其他各個領域的結合應用。

參考文獻：

[1]孟小峰，慈祥.大數據管理：概念、技術與挑戰[J].計算機研究與發展，2013，（01）：146-169.