999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

數(shù)據(jù)挖掘研究綜述

2018-08-24 08:23:34周九常劉智明
河南圖書(shū)館學(xué)刊 2018年8期
關(guān)鍵詞:數(shù)據(jù)挖掘分析信息

周九常,劉智明

(鄭州航空工業(yè)管理學(xué)院,河南 鄭州 450046)

20世紀(jì)90年代,計(jì)算機(jī)技術(shù)和計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)開(kāi)始迅速發(fā)展,數(shù)據(jù)及信息的外延也進(jìn)一步擴(kuò)大,由傳統(tǒng)的紙質(zhì)文獻(xiàn)、文檔數(shù)據(jù)擴(kuò)增為視頻、音頻、圖形、圖像、電子檔案等多種類(lèi)型,不僅使信息的表現(xiàn)形式更加多樣化,還使信息的產(chǎn)生速度發(fā)生了質(zhì)的飛躍。以互聯(lián)網(wǎng)為例,2013年全球互聯(lián)網(wǎng)每天的流量達(dá)到1EB(約等于10億GB),并且仍然在以40%的速度增長(zhǎng),科學(xué)家預(yù)計(jì)2020年全球的信息量將超過(guò)40ZB[1]。互聯(lián)網(wǎng)技術(shù)的出現(xiàn)使人們的信息交互和合作變得更加容易,并使信息量呈指數(shù)式增長(zhǎng)[2]。

海量的數(shù)據(jù)信息為人們提供便利的同時(shí),也帶來(lái)了一定的負(fù)面影響,如信息過(guò)載、信息距離、“信息孤島”等,過(guò)多無(wú)用的信息導(dǎo)致有效的信息難以被發(fā)現(xiàn)、被提煉,這就是約翰·內(nèi)斯波特稱(chēng)之為“信息豐富而知識(shí)匱乏”的困境。因此,只有對(duì)海量的數(shù)據(jù)進(jìn)行分析,并提煉隱藏在其中的有效信息及知識(shí)資源,才能對(duì)其進(jìn)行有效利用。但是,僅依靠傳統(tǒng)的手工檢索分析方法或自動(dòng)化的數(shù)據(jù)庫(kù)分析,難以達(dá)到讓人滿(mǎn)意的效果。由于分析對(duì)象數(shù)量巨大,傳統(tǒng)的手工檢索需要消耗大量的人力、物力才能達(dá)到既定目標(biāo),且由于信息具有時(shí)效性,因此往往導(dǎo)致部分分析結(jié)果是無(wú)用的;數(shù)據(jù)庫(kù)分析雖然能夠規(guī)避信息的時(shí)效性風(fēng)險(xiǎn),但其難以對(duì)信息數(shù)據(jù)之間的關(guān)系內(nèi)容或關(guān)聯(lián)規(guī)則進(jìn)行有效整理,無(wú)法根據(jù)現(xiàn)有的數(shù)據(jù)信息對(duì)未來(lái)的發(fā)展趨勢(shì)進(jìn)行分析,更難以得到深層次的知識(shí)。因此,當(dāng)人們迫切需要一個(gè)新的工具改變這一局面時(shí),數(shù)據(jù)挖掘技術(shù)便應(yīng)運(yùn)而生。

1 什么是數(shù)據(jù)挖掘

數(shù)據(jù)挖掘,又稱(chēng)數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn),Usama M.Fayyad等給出的定義是:從大量的數(shù)據(jù)中取得有效、新穎、潛在有用、最終可理解的知識(shí)的收集過(guò)程。數(shù)據(jù)挖掘在國(guó)際會(huì)議上被公認(rèn)為“是對(duì)數(shù)據(jù)庫(kù)中蘊(yùn)含的未知、有潛在用途及非平凡知識(shí)的提取”。我國(guó)學(xué)者也對(duì)數(shù)據(jù)挖掘進(jìn)行了研究總結(jié),楊良斌認(rèn)為“數(shù)據(jù)挖掘是從數(shù)據(jù)中汲取包含過(guò)往不被知道的有利用價(jià)值的潛在信息”;化柏林認(rèn)為“數(shù)據(jù)挖掘是從大量、不完全、有噪聲、模糊及隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中,但有一定用途的潛在信息和知識(shí)的過(guò)程”;汪明認(rèn)為“數(shù)據(jù)挖掘是在大型數(shù)據(jù)存儲(chǔ)中,自動(dòng)發(fā)現(xiàn)有用信息的過(guò)程”[3-6]。總而言之,數(shù)據(jù)挖掘是一個(gè)過(guò)程,它包含了對(duì)海量數(shù)據(jù)的收集、清洗,以及通過(guò)關(guān)聯(lián)規(guī)則或分類(lèi)法對(duì)數(shù)據(jù)進(jìn)行處理、對(duì)結(jié)果進(jìn)行可視化呈現(xiàn),使海量數(shù)據(jù)的內(nèi)在聯(lián)系能夠清晰地被人們所認(rèn)識(shí)。

2 基于CNKI的數(shù)據(jù)挖掘文獻(xiàn)分析

2.1 數(shù)據(jù)來(lái)源及整理

筆者本次調(diào)查分析的文獻(xiàn)均來(lái)源于CNKI數(shù)據(jù)庫(kù),檢索時(shí)間為2017年5月29日,以2006—2016年為檢索時(shí)間,時(shí)間跨度為10年,以“數(shù)據(jù)挖掘”為主題詞進(jìn)行檢索,得到包括主題詞、關(guān)鍵詞、標(biāo)題、參考文獻(xiàn)等總計(jì)34,155條文獻(xiàn)記錄,統(tǒng)計(jì)后得到2006—2016年間數(shù)據(jù)挖掘領(lǐng)域每年的文獻(xiàn)發(fā)表分布圖(見(jiàn)圖1)。圖1顯示,在2006—2016年,每年數(shù)據(jù)挖掘文獻(xiàn)的發(fā)表數(shù)量都在2,000篇以上,由此可見(jiàn),數(shù)據(jù)挖掘及數(shù)據(jù)挖掘相關(guān)領(lǐng)域都有較高的關(guān)注熱度。從2012年起,數(shù)據(jù)挖掘相關(guān)文獻(xiàn)的發(fā)表數(shù)量一直呈逐年上升趨勢(shì),并且在2016年首次超過(guò)了4,000篇,預(yù)計(jì)未來(lái)幾年內(nèi),數(shù)據(jù)挖掘仍然會(huì)是各領(lǐng)域關(guān)注及應(yīng)用的熱點(diǎn)內(nèi)容。

圖1 2006—2016年數(shù)據(jù)挖掘論文發(fā)表數(shù)量情況圖

2.2 生成圖譜及其分析

圖2 2006—2016年數(shù)據(jù)挖掘關(guān)鍵詞共現(xiàn)圖

表1 2006—2016年數(shù)據(jù)挖掘相關(guān)文獻(xiàn)關(guān)鍵詞頻次表

關(guān)鍵詞頻次關(guān)鍵詞頻次關(guān)鍵詞頻次關(guān)鍵詞頻次關(guān)聯(lián)規(guī)則3,108粗糙集625頻繁項(xiàng)集392支持向量機(jī)303數(shù)據(jù)倉(cāng)庫(kù)1,523應(yīng)用526云計(jì)算390算法297決策樹(shù)1,218入侵檢測(cè)517客戶(hù)關(guān)系管理365聚類(lèi)算法296聚類(lèi)894電子商務(wù)509遺傳算法343Web數(shù)據(jù)挖掘270大數(shù)據(jù)792分類(lèi)487神經(jīng)網(wǎng)絡(luò)341圖書(shū)館251Apriori算法773數(shù)據(jù)庫(kù)451知識(shí)發(fā)現(xiàn)331決策支持237聚類(lèi)分析705數(shù)據(jù)挖掘技術(shù)425決策支持系統(tǒng)304聯(lián)機(jī)分析229

2.2.2 作者分布圖譜。筆者通過(guò)CNKI可視化分析工具對(duì)數(shù)據(jù)挖掘文獻(xiàn)的作者分布進(jìn)行統(tǒng)計(jì)后發(fā)現(xiàn)(由于篇幅所限僅截取排名前11位作者的文獻(xiàn)分布情況),胡學(xué)鋼與楊炳儒從2006年開(kāi)始發(fā)表數(shù)據(jù)挖掘的相關(guān)文獻(xiàn),此后幾年陸續(xù)發(fā)表了大量的文獻(xiàn),但自2011年起文獻(xiàn)發(fā)表數(shù)量逐年下降。唐常杰、楊洪軍、范欣生與上述兩位作者同期開(kāi)始發(fā)表數(shù)據(jù)挖掘文獻(xiàn),并延續(xù)至今,發(fā)文量雖然不高但他們?cè)陂L(zhǎng)期堅(jiān)持進(jìn)行數(shù)據(jù)挖掘研究。吳嘉瑞與任玉蘭較上述作者稍晚開(kāi)始發(fā)表數(shù)據(jù)挖掘文獻(xiàn),且前期研究成果較少,但他們與張冰、張曉朦在近期都有大量的研究成果發(fā)布。筆者調(diào)查后發(fā)現(xiàn),最近發(fā)文數(shù)量處于高峰期的張冰、吳嘉瑞和張曉朦都隸屬于北京中醫(yī)藥大學(xué),任玉蘭和唐仕歡隸屬于醫(yī)學(xué)界,說(shuō)明現(xiàn)階段醫(yī)學(xué)界十分重視對(duì)數(shù)據(jù)挖掘領(lǐng)域的研究(見(jiàn)圖3)。

圖3 2006—2016年數(shù)據(jù)挖掘文獻(xiàn)作者分布圖

2.2.3 機(jī)構(gòu)分布圖譜。不同機(jī)構(gòu)在同一學(xué)科中的貢獻(xiàn)是不同的,某些機(jī)構(gòu)在不同時(shí)段對(duì)同一學(xué)科領(lǐng)域的關(guān)注度也不同。筆者利用CNKI可視化分析工具對(duì)30所高校在不同時(shí)期數(shù)據(jù)挖掘領(lǐng)域的發(fā)文數(shù)量進(jìn)行了分析,由于篇幅所限僅以排名前13位的高校為例(見(jiàn)圖4)。其中,北京科技大學(xué)和合肥工業(yè)大學(xué)自2006年開(kāi)始大量發(fā)布數(shù)據(jù)挖掘的研究成果,但在高峰期過(guò)后整體呈下降趨勢(shì)且持續(xù)至今;北京中醫(yī)藥大學(xué)則處于相反的狀態(tài),該校在2006年的發(fā)文數(shù)量較少,但其后研究成果與發(fā)文數(shù)量整體呈上升趨勢(shì);武漢大學(xué)也是在2006年開(kāi)始發(fā)表數(shù)據(jù)挖掘文獻(xiàn)的,隨后幾年持續(xù)有大量文獻(xiàn)發(fā)表,特別是近年來(lái)該校文獻(xiàn)發(fā)表數(shù)量呈大幅上升的趨勢(shì);四川大學(xué)、吉林大學(xué)、同濟(jì)大學(xué)和中南大學(xué)在2006年有較多的文獻(xiàn)與研究成果發(fā)表,之后呈平穩(wěn)的發(fā)展態(tài)勢(shì);清華大學(xué)在2006年發(fā)表了大量的數(shù)據(jù)挖掘文獻(xiàn)成果后長(zhǎng)期呈下降趨勢(shì),但在2012年轉(zhuǎn)變?yōu)樯仙厔?shì)。圖4顯示,高校是發(fā)表數(shù)據(jù)挖掘領(lǐng)域文獻(xiàn)的主力軍,企業(yè)和科研院所發(fā)表的成果相對(duì)較少,這說(shuō)明數(shù)據(jù)挖掘領(lǐng)域的研究工作一般由高校承擔(dān)。機(jī)構(gòu)的分布在一定程度上表明了當(dāng)?shù)貙?duì)數(shù)據(jù)挖掘領(lǐng)域的重視程度,由圖4可知,我國(guó)南方沿海地區(qū)及中原北部地區(qū)對(duì)數(shù)據(jù)挖掘領(lǐng)域研究的重視程度較高,而西北及西南地區(qū)對(duì)數(shù)據(jù)挖掘領(lǐng)域研究的重視程度相對(duì)較低。綜合數(shù)據(jù)挖掘的文獻(xiàn)數(shù)量,武漢大學(xué)在該領(lǐng)域的研究處于領(lǐng)先地位,其在2006年就已經(jīng)發(fā)表了相當(dāng)數(shù)量的數(shù)據(jù)挖掘文獻(xiàn),并且近年來(lái)其在該領(lǐng)域的研究熱度仍然沒(méi)有降低,在未來(lái)幾年仍然會(huì)是該研究領(lǐng)域的主力軍;合肥工業(yè)大學(xué)的數(shù)據(jù)挖掘文獻(xiàn)發(fā)表數(shù)量雖然僅次于武漢大學(xué),但這些文獻(xiàn)大多發(fā)表在2011年以前,最近幾年該校降低了對(duì)數(shù)據(jù)挖掘領(lǐng)域的關(guān)注度;北京中醫(yī)藥大學(xué)在數(shù)據(jù)挖掘領(lǐng)域的研究起步較晚,發(fā)文數(shù)量也相對(duì)較少,但近年來(lái)其在數(shù)據(jù)挖掘領(lǐng)域的研究發(fā)展迅速。

圖4 2006—2016年數(shù)據(jù)挖掘領(lǐng)域文獻(xiàn)機(jī)構(gòu)分布圖

2.3 分析結(jié)果

筆者對(duì)關(guān)鍵詞及關(guān)鍵詞共現(xiàn)圖譜、作者分布圖譜、機(jī)構(gòu)分布圖譜進(jìn)行分析,從研究主題上看,數(shù)據(jù)挖掘的研究一直處于發(fā)展中,并且不滿(mǎn)足于僅對(duì)數(shù)據(jù)挖掘方法理論的研究,而是逐步將技術(shù)應(yīng)用納入研究主題,不斷將研究范圍延伸到其他領(lǐng)域,如近年來(lái)對(duì)數(shù)據(jù)挖掘進(jìn)行應(yīng)用的醫(yī)學(xué)領(lǐng)域;從作者分布看,新興領(lǐng)域作者發(fā)文數(shù)量逐漸增多,理論研究領(lǐng)域發(fā)文數(shù)量相對(duì)減少;從機(jī)構(gòu)分布看,各機(jī)構(gòu)在其關(guān)注領(lǐng)域處于發(fā)展熱點(diǎn)時(shí)期時(shí),發(fā)文數(shù)量會(huì)明顯上升,并且會(huì)帶動(dòng)整個(gè)學(xué)科領(lǐng)域的發(fā)展和應(yīng)用。目前,雖然數(shù)據(jù)挖掘領(lǐng)域的文獻(xiàn)發(fā)表大多集中在一些名校,但是新興的應(yīng)用領(lǐng)域機(jī)構(gòu)的影響力及發(fā)展不應(yīng)被忽視,未來(lái)其在該領(lǐng)域也可能擁有話語(yǔ)權(quán)。

3 數(shù)據(jù)挖掘的熱點(diǎn)與趨勢(shì)

3.1 數(shù)據(jù)挖掘的理論技術(shù)研究

進(jìn)行數(shù)據(jù)挖掘理論技術(shù)研究可以使數(shù)據(jù)挖掘技術(shù)理論體系更加完善,能夠囊括隨時(shí)代技術(shù)發(fā)展而出現(xiàn)的其他類(lèi)別的技術(shù)理論領(lǐng)域,能夠?qū)Υ罅繑?shù)據(jù)資源進(jìn)行高效率及有效的分析,并得到正確的詞間關(guān)系或潛在知識(shí)。因此,數(shù)據(jù)挖掘理論體系的研究和發(fā)展是十分有必要的。

3.2 數(shù)據(jù)挖掘的應(yīng)用技術(shù)研究

單獨(dú)存在的理論知識(shí)對(duì)用戶(hù)的意義不大,只有將理論轉(zhuǎn)化為應(yīng)用技術(shù)才能創(chuàng)造出新的價(jià)值。企業(yè)和用戶(hù)會(huì)出于利益和實(shí)用性等目的產(chǎn)生重點(diǎn)關(guān)注對(duì)象,如電子商務(wù)挖掘和客戶(hù)關(guān)系管理等數(shù)據(jù)挖掘應(yīng)用系統(tǒng)。因此,數(shù)據(jù)挖掘的應(yīng)用技術(shù)會(huì)在企業(yè)和用戶(hù)的明確需求下得到科學(xué)的發(fā)展。

3.3 大數(shù)據(jù)云計(jì)算的數(shù)據(jù)挖掘研究

大數(shù)據(jù)云計(jì)算是一種新的計(jì)算模式,是分布式處理、并行處理和網(wǎng)格計(jì)算、網(wǎng)絡(luò)存儲(chǔ)、虛擬化、負(fù)載均衡等傳統(tǒng)計(jì)算機(jī)技術(shù)和網(wǎng)絡(luò)技術(shù)發(fā)展融合在一起的產(chǎn)物[9]。大數(shù)據(jù)、云計(jì)算注重的是在對(duì)海量資源進(jìn)行快速、有效的分析后,得到蘊(yùn)含在資源內(nèi)部的隱藏知識(shí)和相關(guān)聯(lián)系,數(shù)據(jù)挖掘技術(shù)在該領(lǐng)域的發(fā)展過(guò)程中必須注意安全與隱私問(wèn)題[10]。在數(shù)據(jù)挖掘過(guò)程中會(huì)出現(xiàn)專(zhuān)利侵權(quán)和網(wǎng)絡(luò)泄密等問(wèn)題,而敏感信息的泄密會(huì)嚴(yán)重影響用戶(hù)體驗(yàn),如何在不觸及隱私及安全的前提下進(jìn)一步發(fā)展數(shù)據(jù)挖掘技術(shù)和工具,是學(xué)界未來(lái)需要研究的一個(gè)重要課題。

4 結(jié)語(yǔ)

綜上所述,數(shù)據(jù)挖掘越來(lái)越受社會(huì)各界關(guān)注,成為一個(gè)熱門(mén)的研究課題,這說(shuō)明數(shù)據(jù)挖掘的理論、技術(shù)及應(yīng)用都具有重要的意義。目前,大數(shù)據(jù)挖掘已經(jīng)涉及越來(lái)越多的領(lǐng)域,如近年來(lái)在醫(yī)學(xué)領(lǐng)域的大幅應(yīng)用,在未來(lái)還會(huì)涉及更多的領(lǐng)域。但數(shù)據(jù)挖掘并不是全能的,它只是一個(gè)分析方法和工具,還需要專(zhuān)業(yè)人員根據(jù)具體情況,結(jié)合相關(guān)行業(yè)的大環(huán)境以及國(guó)家的政策法規(guī)等進(jìn)行綜合分析后,才能得到正確及專(zhuān)業(yè)的數(shù)據(jù)挖掘信息。

猜你喜歡
數(shù)據(jù)挖掘分析信息
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
隱蔽失效適航要求符合性驗(yàn)證分析
電力系統(tǒng)不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
電力系統(tǒng)及其自動(dòng)化發(fā)展趨勢(shì)分析
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
展會(huì)信息
基于GPGPU的離散數(shù)據(jù)挖掘研究
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 成年女人a毛片免费视频| 国产jizzjizz视频| 又爽又大又黄a级毛片在线视频| 国产精品99一区不卡| 亚洲色偷偷偷鲁综合| 国产成人精品优优av| 国内熟女少妇一线天| 最新亚洲av女人的天堂| 久久国产精品77777| 大香伊人久久| 色国产视频| 三上悠亚精品二区在线观看| 美女毛片在线| 蜜臀av性久久久久蜜臀aⅴ麻豆 | 国产精品视频第一专区| 国产精品分类视频分类一区| 国产精品无码影视久久久久久久| 91在线精品免费免费播放| 亚洲欧洲日韩国产综合在线二区| 99视频全部免费| 精品夜恋影院亚洲欧洲| 2020国产精品视频| 亚洲综合狠狠| 亚洲视频色图| 四虎永久免费地址| 午夜a级毛片| 国产激情在线视频| 国产一区二区三区精品欧美日韩| 九九久久精品免费观看| 97在线公开视频| 中国国语毛片免费观看视频| 欧美一级大片在线观看| 国产一级视频久久| jizz亚洲高清在线观看| 精品国产污污免费网站| 亚洲码一区二区三区| 波多野结衣国产精品| 久久国产拍爱| 蜜臀av性久久久久蜜臀aⅴ麻豆| 在线播放国产一区| 91九色国产在线| 亚洲午夜国产片在线观看| 亚洲小视频网站| 黄色网址免费在线| 青草精品视频| 高清无码手机在线观看| 欧美a在线视频| 亚洲精品第五页| 日韩欧美综合在线制服| 高潮毛片免费观看| 香蕉综合在线视频91| 国产日本欧美亚洲精品视| 亚洲欧美人成电影在线观看| 蜜桃视频一区二区| 中文无码伦av中文字幕| 国产欧美又粗又猛又爽老| 色婷婷电影网| 一级一级特黄女人精品毛片| 9啪在线视频| 波多野结衣视频一区二区| 亚洲第一成年免费网站| 99在线免费播放| 国产成人久久综合777777麻豆| 在线免费无码视频| 在线视频97| 欧美性爱精品一区二区三区| 免费高清a毛片| 污网站在线观看视频| 亚洲人成影院午夜网站| 国产91熟女高潮一区二区| 国产理论最新国产精品视频| 中文字幕2区| 国产噜噜噜视频在线观看| AV无码一区二区三区四区| 91精品国产一区| 亚洲香蕉久久| 国产成人超碰无码| 在线色国产| 国产第一页亚洲| 亚洲成A人V欧美综合| 91视频国产高清| 午夜无码一区二区三区|