999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

對大數據研究關鍵詞的聚類分析

2019-09-10 06:55:39劉慶悅
大眾科學·上旬 2019年4期
關鍵詞:數據挖掘研究

劉慶悅

摘要:大數據對全球各領域的理念和方法帶來了較大的影響。本文通過對近十年來大數據研究的關鍵詞進行聚類分析,得到了大數據研究關鍵詞的12個類團,以便相關人員更好地了解大數據研究的主要領域。

關鍵詞:大數據;聚類分析;共現分析

目前,大數據還沒有一個通用且準確的定義。雖然國際上有眾多對大數據的不同理解,但人們普遍認為大數據不僅有字面上的海量數據的含義,還包括對這些數據對象的處理和應用。在本文中,大數據被界定為使用非傳統處理方法,在合理時間內,對一個體量特別大、數據類型豐富的數據集進行深度挖掘,獲得有價值的信息的技術。一般認為,大數據具有3V特征:即Volume(規模性)、Variety(多樣性)、Velocity(高速性)。[1]規模性表示其數據體量龐大,多樣性表達出大數據的數據來源廣、類型豐富且不同類型的數據間可能關聯性很強。而高速性強調處理數據的效率,這一點也是它與傳統數據挖掘最大的區別。

本文選取中國知網(CNKI)的核心期刊庫作為文獻獲取來源,采取高級檢索,檢索式為:主題=(“大數據”),來源類別勾選“核心期刊”并按主題排序。選取自2008年以來每年搜索結果前5頁的文獻,共1883篇。經過篩選刪除不相關的文獻,最后得到1563篇文獻。導出這些文獻的題錄信息,以此分析大數據技術近10年來的發展規律。

從CNKI下載的文獻題錄中抽取期刊論文的標題、關鍵詞等信息,以endnot格式存入數據庫中。通過SATI文獻計量軟件進行關鍵詞的提取和頻率統計后,共得到2008-2019時間段的4058個關鍵詞。在經過關鍵詞的合并與刪除后,本文選取了出現頻次大于等于8的關鍵詞作為高頻關鍵詞,最終得到了52個高頻關鍵詞。將這52個關鍵詞兩兩配對,可得到2008-2019年大數據研究關鍵詞的共現矩陣,如表1所示:

表1:2008-2019年大數據研究關鍵詞的共現矩陣(部分)

共現矩陣 數據挖掘 云計算 數據分析 圖書館 聚類 Hadoop MapReduce

數據挖掘 93 6 8 4 5 0 0

云計算 6 61 6 4 0 2 5

數據分析 8 6 56 2 0 0 0

圖書館 4 4 2 36 0 2 0

聚類 5 0 0 0 30 0 0

Hadoop 0 2 0 2 0 30 7

MapReduce 0 5 0 0 0 7 28

在共現矩陣基礎上,轉換得到共現矩陣的相異矩陣,將其導入SPSS軟件后,可得2008-2019年大數據研究關鍵詞聚類的樹狀圖。該圖反映出了關鍵詞間的親疏關系,關鍵詞聚合越早,其間關聯度越高;關鍵詞聚合越多,則說明這些關鍵詞所處的類集中程度越高。根據樹狀圖,在閾值為16.5的位置處進行切割,可將大數據技術的相關期刊文獻分為12個類團:

K1類研究的是大數據技術對金融業的沖擊,代表關鍵詞是互聯網金融、商業銀行等。它們屬于大數據應用的一部分,但近年來由于互聯網對于金融領域的沖擊格外大,因此有很多人關注大數據技術作為一種新興的信息技術會給這個領域帶來什么影響。

K2類研究大數據技術對教育界的影響,代表關鍵詞是教育大數據。教育領域以大數據為基礎構建學習者知識、行為、經驗模型,制定其學習檔案并依此分析科學的教學策略。

K3類研究數據集成,即將類型、來源不同的數據集合在一起,進行數據和信息共享,以避免信息孤島現象。

詞團K4是對大數據核心問題的研究。代表關鍵詞為數據分析和數據處理。它們都處于大數據處理的前兩個階段,即數據抽取集成和數據分析階段。

K5類是對大數據工具和處理模式進行研究。如前文所述,大數據技術與海量數據最大的區別在于它是否能采用傳統的方法對數據進行高效率的處理。因此,以Hadoop為代表的非傳統大數據處理工具自然成為了研究的焦點。

詞團K6中包含著兩個與大數據技術緊密相關的技術:云計算和物聯網。它們的發展為大數據技術提供了良好的平臺和技術豐富的數據來源,而大數據技術為處理這些海量的數據提供了可能。

K7類研究屬性約簡算法改進,它只包括粗糙集和屬性約簡兩個關鍵詞。基于粗糙集理論的屬性約簡主要可以用來降維處理高維數據對象,但由于原有的屬性約簡算法難以處理大數據集,因此很多學者提出了其改進算法,以保證算法的可靠。

K8主要研究的是數據,代表關鍵詞為數據質量和數據管理,主要探討怎樣管理好這些海量的數據,保證數據的質量。

K9類研究大數據領域的隱私和安全問題,代表關鍵詞為隱私保護和數據安全。大數據技術雖然給我們的生活帶來了便利,但也帶來了很多風險,許多過去人們不想被別人知道,或連自己都不知道的習慣被大數據記錄了下來并加以分析,將最真實的我們暴露在了互聯網的環境下。因此我們急需保護好這些個人隱私,使之得到合理有效的利用。同時,大量數據的集成也給數據的安全性問題帶來了挑戰。

K10類探討的是大數據對情報領域的影響,代表關鍵詞有競爭情報、情報分析等。大數據可以給情報領域帶來更細、更豐富的數據流,但也對該領域提出了更高的技術要求。

K11類主要研究大數據給圖書領域帶來的革新,代表關鍵詞有數字圖書館、知識服務等。圖書領域往往是較早接觸新技術的領域,它們的數字化程度普遍較高,接觸到的數據量也很大。面對圖書館數字化的需求,大數據技術也成為了相關學者的研究熱點。

詞團K12有關數據挖掘,以關聯規則和數據倉庫等關鍵詞為代表。它是大數據分析最基本的研究途徑,用以探究大量數據中潛在的有價值的信息。

詞團K13設計聚類,以聚類和有關方法為代表。它是數據挖掘等互聯網技術的基礎。

詞團K14中包含的內容較多,主要可分為機器學習和應用兩部分。機器學習的代表關鍵詞主要有神經網絡、支持向量機等,它也是一項與大數據技術緊密聯系的信息技術。而應用方面包括云會計、數據新聞、思想政治教育等,是大數據技術與其他各個領域的結合應用。

參考文獻:

[1]孟小峰,慈祥.大數據管理:概念、技術與挑戰[J].計算機研究與發展,2013,(01):146-169.

猜你喜歡
數據挖掘研究
FMS與YBT相關性的實證研究
2020年國內翻譯研究述評
遼代千人邑研究述論
探討人工智能與數據挖掘發展趨勢
視錯覺在平面設計中的應用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
EMA伺服控制系統研究
新版C-NCAP側面碰撞假人損傷研究
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據挖掘技術在中醫診療數據分析中的應用
一種基于Hadoop的大數據挖掘云服務及應用
主站蜘蛛池模板: 国内精自视频品线一二区| 免费啪啪网址| 国产视频大全| 国内a级毛片| 亚洲综合九九| 亚洲天堂在线免费| 久热这里只有精品6| 亚洲天堂免费| 亚洲一区二区成人| 国产精品福利尤物youwu | 国产精品久久久免费视频| 久久99国产精品成人欧美| 一级毛片高清| 欧美成人A视频| 国内精品久久九九国产精品| 国产自视频| 中国丰满人妻无码束缚啪啪| 天天做天天爱夜夜爽毛片毛片| 成人看片欧美一区二区| 色综合久久久久8天国| 中文字幕2区| 午夜电影在线观看国产1区| 丝袜亚洲综合| 成人免费黄色小视频| 中文字幕调教一区二区视频| 黄片在线永久| 亚洲一区网站| 亚洲精品色AV无码看| 成人自拍视频在线观看| 欧美福利在线观看| 国产成人在线无码免费视频| 精品视频免费在线| 亚洲欧美日韩另类在线一| 国产在线观看一区二区三区| 亚洲国产成人综合精品2020| 中文字幕永久视频| 啪啪国产视频| 国产精品蜜臀| 在线观看免费人成视频色快速| 日韩欧美中文在线| 在线看AV天堂| 亚洲AV无码乱码在线观看裸奔| 熟妇丰满人妻| 91亚瑟视频| 国产精品部在线观看| 日韩中文字幕亚洲无线码| 女高中生自慰污污网站| 国产成人高清在线精品| 亚洲欧洲日韩综合| 久久香蕉国产线| 国产99在线观看| 国产av无码日韩av无码网站| 伊人色天堂| 91久久精品国产| 园内精品自拍视频在线播放| 日本日韩欧美| 国产成人免费观看在线视频| 日本人妻一区二区三区不卡影院| 综合网久久| 欧美亚洲香蕉| 老司机午夜精品视频你懂的| 成年片色大黄全免费网站久久| 亚洲一区二区日韩欧美gif| 亚洲不卡av中文在线| 色视频国产| 在线欧美日韩国产| 国产福利小视频在线播放观看| 91在线高清视频| 少妇被粗大的猛烈进出免费视频| 天天摸夜夜操| 色悠久久久久久久综合网伊人| 国产95在线 | 欧美另类一区| 久久久久88色偷偷| 午夜限制老子影院888| 国产精品开放后亚洲| 久久中文无码精品| 国产女人在线| 亚洲综合第一区| 欧美国产精品拍自| 青青青国产视频| 人妻丰满熟妇啪啪|