999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

數(shù)據(jù)挖掘算法的分析探討

2014-03-12 15:57:06王曉艷
新媒體研究 2014年2期
關(guān)鍵詞:數(shù)據(jù)挖掘

王曉艷

摘 要 信息技術(shù)不斷的發(fā)展,互聯(lián)網(wǎng)在全球范圍內(nèi)得到普及。這是一個(gè)信息爆炸的時(shí)代,也是一個(gè)大數(shù)據(jù)時(shí)代。人們每天會(huì)面對大量的信息和數(shù)據(jù),那么如何從這些信息中選擇自己需要的信息是一個(gè)關(guān)鍵問題。數(shù)據(jù)挖掘算法在這方面具有明顯的優(yōu)勢,筆者對數(shù)據(jù)挖掘算法進(jìn)行分析和探討。

關(guān)鍵詞 數(shù)據(jù)挖掘;粗糙集;分析探討

中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1671-7597(2014)02-0060-01

目前,數(shù)據(jù)挖掘得到了全世界信息產(chǎn)業(yè)界的廣泛關(guān)注。此外,也以難以預(yù)料的速度發(fā)展著。這和信息技術(shù)的迅速發(fā)展以及互聯(lián)網(wǎng)大范圍的普及有著很大的關(guān)系。當(dāng)人們面對大量的數(shù)據(jù)以及信息時(shí),如何選擇自己需要的數(shù)據(jù)和信息是一個(gè)核心問題。而數(shù)據(jù)挖掘則是一個(gè)重要的方法,其可以幫助人們找到對自己有價(jià)值的信息。

1 數(shù)據(jù)挖掘簡介

數(shù)據(jù)挖掘指的是從大量的數(shù)據(jù)和信息中提取到有用的信息,其是一個(gè)過程,這一定義被廣泛的接受。我們可以在數(shù)據(jù)庫中的知識(shí)發(fā)現(xiàn)中尋找到數(shù)據(jù)挖掘一詞的來源,其英文是Knowledge Discovery in Database,縮寫為KDD。

1.1 數(shù)據(jù)挖掘的基本過程

定義問題一定要在數(shù)據(jù)挖掘之前搞清楚,對問題以及目標(biāo)任務(wù)實(shí)施清晰地定義,而我們就可以得到數(shù)據(jù)挖掘的目的。在此基礎(chǔ)上,我們以挖掘基本步驟為依據(jù),就可以開展知識(shí)發(fā)現(xiàn)了。

數(shù)據(jù)挖掘的過程是很復(fù)雜的,但是基本上可以被劃分為3個(gè)階段:準(zhǔn)備階段、數(shù)據(jù)挖掘階段以及結(jié)果的解釋和評價(jià)階段。

1)數(shù)據(jù)清理。有的數(shù)據(jù)中含有大量的噪音,此外完整性以及明確性都很差,因此需要進(jìn)行清洗。2)數(shù)據(jù)集成。數(shù)據(jù)集成主要包括物理集成以及邏輯集成,這些數(shù)據(jù)在來源、特點(diǎn)、格式等方面都具有差異。數(shù)據(jù)集成可以為后面的一系列操作帶來方便。3)數(shù)據(jù)選擇。數(shù)據(jù)選擇指的是從大量的數(shù)據(jù)中找到和選擇有關(guān)的數(shù)據(jù)集,此過程需要從任務(wù)目標(biāo)出發(fā),之后抽取處理,則我們就可以獲取到具體挖掘任務(wù)的相應(yīng)操作。4)數(shù)據(jù)變換。獲取得當(dāng)?shù)谋煌诰虻臄?shù)據(jù)形式是進(jìn)行數(shù)據(jù)變換的目的。舉個(gè)例子,將離散值型數(shù)據(jù)轉(zhuǎn)換成連續(xù)值型,那么神經(jīng)網(wǎng)絡(luò)計(jì)算的進(jìn)行就比較容易。5)數(shù)據(jù)挖掘。由于多學(xué)科的知識(shí)和研究成果不斷的融入到數(shù)據(jù)挖掘中,因此數(shù)據(jù)挖掘方法的形式各種各樣。目前,使用比較多的數(shù)據(jù)挖掘方法包括:最近序列分析、時(shí)間序列分析、回歸分析以及聚類分析等。使用這些方法可以很快的得到異常數(shù)據(jù)。之后,再進(jìn)行解釋,數(shù)據(jù)中的潛在規(guī)律以及模式和知識(shí)就可以被發(fā)現(xiàn)。在這個(gè)過程中,在選擇算法時(shí)需要從數(shù)據(jù)本身的特征出發(fā),這些方法有:聚類、分類以及神經(jīng)網(wǎng)路等。6)模式評估。模式評估的對象是數(shù)據(jù)挖掘發(fā)現(xiàn)的模式,需要采取某種方法來對其進(jìn)行識(shí)別以及度量。7)知識(shí)表示。挖掘出的知識(shí)需要解釋,轉(zhuǎn)換后得到被知識(shí)就可以被用戶理解。

1.2 數(shù)據(jù)挖掘的分類

多個(gè)學(xué)科的知識(shí)和成果融入到了數(shù)據(jù)挖掘中,因此關(guān)于其的研究就比較多。為了用戶能快速的得到自己需要的數(shù)據(jù),我們需要對數(shù)據(jù)挖掘技術(shù)進(jìn)行分類。

1)按挖掘的數(shù)據(jù)庫類型分類。按照數(shù)據(jù)模型進(jìn)行分類,可以被分為以下幾類:關(guān)系型、事務(wù)型以及數(shù)據(jù)倉庫型等。假如以數(shù)據(jù)類型為分類依據(jù),則可以被分為:文本型、異構(gòu)型、空間型、流數(shù)據(jù)型、時(shí)間型、多媒體以及Web型。2)按照挖掘的知識(shí)類型分類,其指的是參考數(shù)據(jù)挖掘的功能實(shí)施劃分。一個(gè)全面的數(shù)據(jù)挖掘可以包含多種功能。數(shù)據(jù)挖掘的分類標(biāo)準(zhǔn)也可以是規(guī)則性和奇異性。一般說來,我們可以使用以下方法來進(jìn)行數(shù)據(jù)規(guī)則性的挖掘:預(yù)測、相關(guān)性分析、關(guān)聯(lián)分析、概念描述等,使用這些方法還可以方法檢測和排除噪聲。3)按應(yīng)用分類。我們可以以應(yīng)用為依據(jù)來進(jìn)行分類,比如:股票市場、生物醫(yī)學(xué)界、金融業(yè)、交通業(yè)、通信業(yè)等。

通過以上的分析,我們不難發(fā)現(xiàn),找到一個(gè)廣泛適用于各種不同應(yīng)用的數(shù)據(jù)挖掘方法是不可能的。

2 具體方法分析

2.1 聚類挖掘

作為數(shù)據(jù)挖掘技術(shù)中的一個(gè)關(guān)鍵的部分,聚類挖掘一般在實(shí)現(xiàn)時(shí)需要借助最近鄰技術(shù)。聚類分析是一個(gè)沒有監(jiān)督的學(xué)習(xí)過程,也沒有必要對訓(xùn)練數(shù)據(jù)進(jìn)行預(yù)先的處理。聚類屬于觀察型學(xué)習(xí)的一種,其不僅可以對每個(gè)類中的數(shù)據(jù)特征進(jìn)行觀察,而且可以作為其他算法的預(yù)處理步驟。我們使用該方法可以發(fā)現(xiàn)數(shù)據(jù)之間的潛在關(guān)系,因此就會(huì)很容易的得到數(shù)據(jù)的分布模式。目前,聚類主要包括以下幾個(gè)方面:層次法、劃分法、基于密度的方法、基于模型的方法以及基于密度的方法。筆者對這5類技術(shù)進(jìn)行了相應(yīng)典型分析之后,每一類技術(shù)性能的比較結(jié)果我們可以在表1中看到。

表1 聚類算法的比較

聚類技術(shù) 劃分法 層次法 基于密度的方法 基于網(wǎng)絡(luò)的方法 基于模型的方法

算法 K-MEANS CURE DBSCAN STING COBWEB

發(fā)現(xiàn)聚類形狀 球形 任意形狀 任意形狀 任意形狀 任意形狀

高維性 一般 好 好 一般 好

可伸縮性 好 較差 好 較好 較好

輸入順序

敏感性 敏感 敏感 較敏感 不敏感 敏感

噪聲敏感性 不敏感 較敏感 很敏感 敏感 較敏感

算法效率 高 較高 高 一般 較低

2.2 粗糙集

粗糙集理論是一種新型的數(shù)學(xué)分析工具,其主要是對不確定的知識(shí)進(jìn)行處理。這些知識(shí)信息一般在完整性以及一致性方面比較欠缺,因此使用粗糙集可以對其進(jìn)行分析和推理,進(jìn)而將潛在的規(guī)律發(fā)掘出來。

粗糙集算法(屬性約簡算法)。在實(shí)際的應(yīng)用中,我們需要在大量的數(shù)據(jù)中獲取到一個(gè)知識(shí),那么如何選取,怎樣提高挖掘的效率呢?這時(shí)需要一種算法,該算法可以對大量的屬性進(jìn)行簡約,將對冗余的信息技術(shù)進(jìn)行剔除,而原始信息也會(huì)得到保證。該算法可以由粗糙集提供,在此基礎(chǔ)上的數(shù)據(jù)挖掘的過程有:數(shù)據(jù)預(yù)處理、獲取規(guī)則、簡化等。首先,對原始數(shù)據(jù)源中的異常值以及缺省值實(shí)施處理。之后,構(gòu)建決策表。最后,獲取規(guī)則并對規(guī)則進(jìn)行簡化,這樣就會(huì)得到有價(jià)值的知識(shí),最終將其應(yīng)用到新數(shù)據(jù)的分析處理之中。

2.3 BP神經(jīng)網(wǎng)絡(luò)算法

信息正向傳播和誤差逆向傳播是BP神經(jīng)網(wǎng)絡(luò)算法的兩個(gè)基本的過程。對于前者來說,其僅僅需要一定的歷史數(shù)據(jù),其一般被用來預(yù)測、分類以及聚類等。不僅抗干擾的能力強(qiáng),此外計(jì)算能力也是非常高的。對于后者,需要對神經(jīng)網(wǎng)絡(luò)的各節(jié)點(diǎn)連接權(quán)值進(jìn)行初始化,這樣我們就可以得到很小的隨機(jī)數(shù)。

3 結(jié)束語

筆者從數(shù)據(jù)挖掘的概念與意義出發(fā),對基本過程以及幾種技術(shù)(聚類分析、粗糙集和 BP神經(jīng)網(wǎng)絡(luò))進(jìn)行了分析和探討,希望這些分析和探討對大家有所幫助。

參考文獻(xiàn)

[1]劉學(xué)琴,吳耀華,崔寶華.基于擴(kuò)展粗糙集的短期電力負(fù)荷預(yù)測模型[J].電力系統(tǒng)保護(hù)與控制,2012(13).endprint

猜你喜歡
數(shù)據(jù)挖掘
基于數(shù)據(jù)挖掘的船舶通信網(wǎng)絡(luò)流量異常識(shí)別方法
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
數(shù)據(jù)挖掘技術(shù)在打擊倒賣OBU逃費(fèi)中的應(yīng)用淺析
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
數(shù)據(jù)挖掘在高校圖書館中的應(yīng)用
數(shù)據(jù)挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數(shù)據(jù)挖掘研究
利用數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)LIS數(shù)據(jù)共享的開發(fā)實(shí)踐
主站蜘蛛池模板: 一区二区三区国产精品视频| 日韩精品成人网页视频在线| 国产欧美日韩一区二区视频在线| 国产办公室秘书无码精品| 伊人久久婷婷五月综合97色| 亚洲国产日韩在线观看| 91一级片| 香蕉久久永久视频| 永久免费精品视频| 亚洲AV无码乱码在线观看代蜜桃| 免费中文字幕一级毛片| 色婷婷啪啪| 国产日韩av在线播放| 欧美视频免费一区二区三区| 午夜在线不卡| 成人午夜免费观看| h网站在线播放| 日韩精品少妇无码受不了| 一区二区三区成人| 国产美女精品在线| www.精品国产| 欧美一级在线播放| 99福利视频导航| 亚洲国产日韩在线成人蜜芽| 青青青视频免费一区二区| 狠狠综合久久久久综| 五月天久久婷婷| 日韩欧美高清视频| 国产成人精品视频一区视频二区| 精品三级在线| 欧美日韩国产成人在线观看| 54pao国产成人免费视频| 精品无码人妻一区二区| 国产福利在线免费| 在线免费亚洲无码视频| 午夜视频免费一区二区在线看| 欧美亚洲另类在线观看| 欧美不卡二区| 波多野结衣中文字幕一区二区| 欧美日本一区二区三区免费| 欧美国产精品不卡在线观看| 亚洲浓毛av| 99热这里只有精品免费国产| 亚洲浓毛av| 手机在线国产精品| 成年人福利视频| 69精品在线观看| AV无码无在线观看免费| 亚洲国产成人超福利久久精品| 精品无码日韩国产不卡av| 国产精品xxx| 好吊妞欧美视频免费| 国产网友愉拍精品视频| 不卡网亚洲无码| 999国内精品视频免费| 奇米精品一区二区三区在线观看| 欧美一区二区三区国产精品| 99热最新网址| 国产偷倩视频| 日本手机在线视频| 伊人国产无码高清视频| 亚洲天堂成人在线观看| 国产欧美日韩精品第二区| 久久99精品久久久久久不卡| 久久不卡精品| 免费AV在线播放观看18禁强制| 538国产视频| 波多野结衣久久高清免费| 精品一区二区三区水蜜桃| 特级毛片8级毛片免费观看| 国产成人精品视频一区二区电影| 波多野结衣中文字幕一区二区 | 91视频国产高清| 亚洲人成网线在线播放va| 亚洲狼网站狼狼鲁亚洲下载| 午夜免费视频网站| 特级做a爰片毛片免费69| 老司机久久99久久精品播放| 国产拍揄自揄精品视频网站| 国产美女视频黄a视频全免费网站| 国产视频 第一页| 国产综合日韩另类一区二区|