999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

數(shù)據(jù)挖掘中分類算法的研究及其應(yīng)用

2018-09-30 06:43:40王飛
商情 2018年41期
關(guān)鍵詞:數(shù)據(jù)挖掘

王飛

[摘要]通過機(jī)器學(xué)習(xí)及統(tǒng)計理論,再結(jié)合數(shù)據(jù)庫的產(chǎn)物就是數(shù)據(jù)挖掘技術(shù),這項技術(shù)是在模糊的、不完全的、隨機(jī)的大量實際數(shù)據(jù)中來提取出那些隱含的、有潛在價值的、原先未知的有效信息,這是一個龐大的不平凡的過程。而數(shù)據(jù)挖掘領(lǐng)域中主要的研究課題就是分類算法問題,同時這也是數(shù)據(jù)挖掘中最重要的技術(shù)之一。分類就是一項利用分類器來對未知類別樣本進(jìn)行分類從而賦予類別的技術(shù),這里的分類器是指根據(jù)數(shù)據(jù)集的特點來構(gòu)建的。就目前分類算法來看,主要有神經(jīng)網(wǎng)絡(luò)算法、遺傳算法、貝葉斯網(wǎng)絡(luò)算法、決策樹分類算法等。因為不同的分類方法會產(chǎn)生不同的分類器,而分類器的好壞又直接影響著數(shù)據(jù)挖掘的準(zhǔn)確性以及效率,所以,當(dāng)面對海量的大規(guī)模數(shù)據(jù)的分類情況時,選擇一個最為合適有效的分類方法是非常重要的。

[關(guān)鍵詞]數(shù)據(jù)挖掘;分類算法;決策樹

一、數(shù)據(jù)挖掘和分類算法的基本概述

數(shù)據(jù)挖掘作為一個交叉學(xué)科領(lǐng)域,它包括了機(jī)器學(xué)習(xí)、統(tǒng)計學(xué)、數(shù)據(jù)庫和信息科學(xué)等,所以會受到多個學(xué)科的影響。從本質(zhì)來看,數(shù)據(jù)挖掘其實是一種支持決策的過程,它的主要的技術(shù)手段就是統(tǒng)計方法,這些統(tǒng)計方法包括多元統(tǒng)計方法、數(shù)理化統(tǒng)計方法以及時間序列分析方法等,除此之外,近年來數(shù)據(jù)挖掘也出現(xiàn)了新的統(tǒng)計思路發(fā)展,比如人工神經(jīng)網(wǎng)路、統(tǒng)計學(xué)和專家系統(tǒng)技術(shù)等。其主要的特點就是能夠深度自動分析原有的混亂的大數(shù)據(jù),然后從中找出規(guī)律從而歸納推理挖掘出新的隱含的有價值的模式,依次來預(yù)測客戶的行為,從而有利于決策者做出最為正確有效的決定。

目前數(shù)據(jù)挖掘的研究方向主要有分類挖掘、聚類挖掘、關(guān)聯(lián)規(guī)則挖掘,序列模式發(fā)現(xiàn)以及趨勢發(fā)現(xiàn)等,但其中最成熟、最重要的研究方向是分類挖掘,所以說,分類算法是數(shù)據(jù)挖掘中最為重要的技術(shù)之一,同時也是數(shù)據(jù)挖掘中至關(guān)重要的一個研究課題。分類的主要目的就是構(gòu)造一個分類器,也就是分類模型,而這個模型就是能把數(shù)據(jù)庫中的數(shù)據(jù)給映射到其同一類別的某一個中,因此分類算法可用于提取重要數(shù)據(jù)和用來預(yù)測未來數(shù)據(jù)趨勢。分類通過對輸入的數(shù)據(jù)進(jìn)行分析表現(xiàn)出來的特性,再為每一類找到其準(zhǔn)確的模型,由此來對未來的測試數(shù)據(jù)進(jìn)行分類。雖然這些數(shù)據(jù)是未知的是混亂的,但我們?nèi)匀豢梢愿鶕?jù)模型來預(yù)測這些新數(shù)據(jù)的歸屬類別,因此我們也可以更好地理解數(shù)據(jù)庫中數(shù)據(jù)的每一類別。換句話說,我們獲得了對這一類別的知識的了解。

其中包括三種分類器比較評價:預(yù)測準(zhǔn)確度、計算復(fù)雜度和模型描述簡潔度。預(yù)測準(zhǔn)確度是目前用的最多的一種比較評價尺度,尤其是對于預(yù)測性的分類任務(wù);計算復(fù)雜度是在數(shù)據(jù)挖掘中依賴具體的硬件環(huán)境和操作細(xì)節(jié),所以最重要的一個環(huán)節(jié)就是時間和空間的復(fù)雜度;而模型描述的簡潔度指的是對于描述性的分類任務(wù),模型越簡潔實用越受到喜愛。但大部分的分類算法都是內(nèi)存駐留算法,不過最近市面上出現(xiàn)了新的可伸縮性的分類技術(shù),比如神經(jīng)網(wǎng)絡(luò)算法、遺傳算法、貝葉斯算法和決策樹算法。這些算法可以處理大量的駐留在磁盤的數(shù)據(jù),而在這些新興的分類算法中,決策樹相關(guān)算法又是最為重點研究的課題方向,同時研究成果也較之其他方法較多。

二、幾種分類算法

(一)神經(jīng)網(wǎng)絡(luò)算法

神經(jīng)網(wǎng)絡(luò)算法是指通過一定的規(guī)則把簡單的神經(jīng)元連接在一起構(gòu)成新的網(wǎng)絡(luò)系統(tǒng),這種系統(tǒng)能夠模擬人類大腦的結(jié)構(gòu)和功能,可以應(yīng)用某種學(xué)習(xí)算法來從數(shù)據(jù)樣本中進(jìn)行學(xué)習(xí),然后把獲取到的知識儲存在網(wǎng)絡(luò)各個單元間的連接權(quán)中,其中連接權(quán)值就是一個分布式的矩形結(jié)構(gòu)。在學(xué)習(xí)算法階段,神經(jīng)網(wǎng)絡(luò)通過調(diào)整神經(jīng)網(wǎng)絡(luò)的權(quán)來使其可以預(yù)測出輸入樣本的正確類別。這種神經(jīng)網(wǎng)絡(luò)算法主要有三種模型:前向神經(jīng)網(wǎng)絡(luò)模型、后向神經(jīng)網(wǎng)絡(luò)模型和自組織網(wǎng)絡(luò)模型。其中應(yīng)用最為廣泛的就是前向神經(jīng)網(wǎng)絡(luò)模型。神經(jīng)網(wǎng)絡(luò)需要的訓(xùn)練時間很長,因為它需要大量的數(shù)據(jù)參數(shù),而這些參數(shù)一般主要依靠經(jīng)驗確定,例如網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)。神經(jīng)網(wǎng)絡(luò)的優(yōu)點是能夠承受較高的噪聲數(shù)據(jù),以及先天擁有較高的對數(shù)據(jù)進(jìn)行分類的能力,而缺點就是由于過于依賴經(jīng)驗導(dǎo)致可解釋性差。

(二)遺傳算法

遺傳算法是指通過模擬生物進(jìn)化過程來達(dá)到全局優(yōu)化的方法,把初始的較劣解通過一系列遺傳算子在求解空間內(nèi)按照一定隨機(jī)規(guī)則來搜索直到得到問題的最優(yōu)解。遺傳算法的優(yōu)勢就是具有隱含并行性及易于和其他模型相結(jié)合,使得它廣泛應(yīng)用于數(shù)據(jù)挖掘領(lǐng)域,還可以與BP算法結(jié)合來訓(xùn)練神經(jīng)網(wǎng)絡(luò),使其可以從網(wǎng)絡(luò)提規(guī)則。它的劣勢就是在數(shù)據(jù)挖掘中遺傳算法較為復(fù)雜,而且還存在收斂于局部極小的過早收斂等問題。

(三)貝葉斯分類算法

貝葉斯分類算法是一種基于概率統(tǒng)計學(xué)的貝葉斯定理,在已知先前概率和類似條件概率的情況下,對成員關(guān)系進(jìn)行預(yù)測的一種分類算法模式,比如計算一個給定樣本的屬于一個特定類別的概率,同時選定其中最大概率的一個類別作為該樣本的最終類別。利用先驗概率再驗分布的貝葉斯方法十分的直觀,而且只需要掃描一次訓(xùn)練數(shù)據(jù)就可以得出模型,但是由于貝葉斯分類假設(shè)的前提是各變量之間相互獨立,因此需要提前對連續(xù)的數(shù)據(jù)進(jìn)行分類,所以對解決實際問題有過高要求。

貝葉斯分類算法常見的有兩種模型,樸素貝葉斯算法和貝葉斯信念網(wǎng)絡(luò)算法。樸素貝葉斯分類算法模型可用于大型的數(shù)據(jù)庫,同時也表現(xiàn)出了較高的速度與準(zhǔn)確性,這些特性可以和神經(jīng)網(wǎng)絡(luò)算法和決策樹算法相媲美。雖然從理論上來看,樸素貝葉斯算法與其他所有算法相比具有較高的準(zhǔn)確性,但是實際來講,并不是這樣,因為樸素貝葉斯算法對其應(yīng)用的假定具有不準(zhǔn)確性,并且缺乏可用的概率數(shù)據(jù),同時,樸素貝葉斯算法也沒有規(guī)則的輸出。所以針對該缺點,研究出現(xiàn)了一些可以降低獨立性假設(shè)的貝葉斯改進(jìn)分類算法,比如半樸素貝葉斯算法、貝葉斯網(wǎng)絡(luò)信念算法等。所以另外一種常見的貝葉斯分類算法模型就是貝葉斯信念網(wǎng)絡(luò)模型,它是一種圖形模型,是由兩部分組成的。貝葉斯信念網(wǎng)絡(luò)模型的—個至關(guān)重要的特性就是他有—個結(jié)點,如果已知其父母結(jié)點,那么其條件獨立于其的所有非后代結(jié)點,所以說也可以用貝葉斯網(wǎng)絡(luò)信念來代表樸素貝葉斯分類其中的條件獨立假設(shè)。

用概率來表示各種形式的不確定性是貝葉斯分類算法的關(guān)鍵所在,貝葉斯算法還可以用來對不直接使用貝葉斯定理的其他分類算法提供依據(jù)。同時基于聚類分析思想,可提出一種更加合理可信的各方面都優(yōu)于樸素貝葉斯算法的修補(bǔ)算法。將貝葉斯算法的先驗信息和決策樹分類算法的信息增益法相結(jié)合,也就是將貝葉斯分類算法和決策樹分類算法的優(yōu)點相結(jié)合,那么在處理不完整或不一致的大量數(shù)據(jù)時,就會比單一的使用貝葉斯算法或單一的使用決策樹算法更加有效率且準(zhǔn)確度也會更高。

(四)決策樹分類算法

決策樹分類算法運(yùn)用的是決策樹技術(shù),決策樹技術(shù)則是用來分類和預(yù)測的主要技術(shù)。它采用的是自上向下的分支方式構(gòu)造,著重于從一組無規(guī)則、無順序的事例中來推理出決策樹從而表示形式的分類規(guī)則,它是以實例為基礎(chǔ)的歸納學(xué)習(xí)算法。決策樹分類算法能夠很好地學(xué)習(xí)分析噪聲數(shù)據(jù)得出表達(dá)式,是目前被使用的最為廣泛地分類算法之一。所謂的決策樹就是一種用來表示人們?yōu)榱俗龀瞿硞€決策進(jìn)行的一系列判斷過程的樹形結(jié)構(gòu),它包括決策結(jié)點、分支節(jié)點、葉子節(jié)點等。決策樹最上面的節(jié)點就是根節(jié)點,表示整個決策樹的開始,然后從根節(jié)點再到葉子節(jié)點的一條路徑就形成了一條合取規(guī)則,那整棵決策樹對應(yīng)的就是一組表達(dá)式規(guī)則。決策樹中的每個決策結(jié)點代表的是在一個屬性上的測試,每個分支代表的是一個測試輸出,每個葉節(jié)點代表的是類或類分布。也就是說,決策樹分類算法就是通過比較決策樹和樣本的屬性,來對未知的樣本進(jìn)行分類。

決策樹分類算法的優(yōu)點首先是決策樹易于被理解和解釋,這樣人們在通過合理的解釋后才會有能力去更好的理解決策樹所表達(dá)的含義;其次是對于決策樹,它能夠同時處理常規(guī)型的和數(shù)據(jù)型屬性,同時數(shù)據(jù)的準(zhǔn)備不像其他技術(shù)一樣要先把數(shù)據(jù)單一化;然后是決策樹可以在相對較短的時間內(nèi)對大型數(shù)據(jù)進(jìn)行分析做出有效可行且效果良好的結(jié)果,而且決策樹算法易于通過靜態(tài)測試來對模型進(jìn)行評測;最后關(guān)鍵的是決策樹可以很好擴(kuò)展到大型的數(shù)據(jù)庫中,同時其大小又能相對獨立于數(shù)據(jù)庫的大小。雖然決策樹分類算法有很多優(yōu)勢,但它也有其局限性,比如決策樹對于數(shù)據(jù)缺失情況的處理比較困難,在處理數(shù)據(jù)時會出現(xiàn)過度擬合的問題。而且對于那些類別不一樣的數(shù)據(jù),決策樹的處理結(jié)果更偏向于那些具有更多數(shù)值的特征而忽略了數(shù)據(jù)集中屬性之間的相關(guān)性。在決策樹建樹過程中,沒有哪一種屬性選擇的方法是最好的,每種方法都會存在它的優(yōu)缺點,只有合適與不合適之分。但總而言之,決策樹分類算法是當(dāng)前數(shù)據(jù)挖掘中所采用的最為成熟有效的一種分類規(guī)則學(xué)習(xí)方法,因為它直觀易于被理解、被實現(xiàn),也易于提取規(guī)則,達(dá)到較高的效率。

三、總結(jié)

分類和預(yù)測是數(shù)據(jù)挖掘中最重要的部分之一,對于數(shù)據(jù)挖掘的分類算法有很多,近年來又出現(xiàn)了很多新的改進(jìn)的算法,比如基于貝葉斯的TAN算法和基于粗糙集的決策樹算法等。在數(shù)據(jù)挖掘應(yīng)用中,用戶要根據(jù)數(shù)據(jù)的特點來選擇合適的分類算法或者是混合的交互分類算法。在以后的工作中,為了更進(jìn)一步的提高分類的準(zhǔn)確性同時將達(dá)其計算的復(fù)雜性,就更應(yīng)該綜合多領(lǐng)域的技術(shù),力將分類算法與多學(xué)科相互交叉滲透,使其向著更加多樣化的方向發(fā)展。

猜你喜歡
數(shù)據(jù)挖掘
基于數(shù)據(jù)挖掘的船舶通信網(wǎng)絡(luò)流量異常識別方法
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
數(shù)據(jù)挖掘技術(shù)在打擊倒賣OBU逃費中的應(yīng)用淺析
基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
數(shù)據(jù)挖掘在高校圖書館中的應(yīng)用
數(shù)據(jù)挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數(shù)據(jù)挖掘研究
利用數(shù)據(jù)挖掘技術(shù)實現(xiàn)LIS數(shù)據(jù)共享的開發(fā)實踐
主站蜘蛛池模板: 亚洲国产日韩一区| 91欧美亚洲国产五月天| 8090午夜无码专区| 久久综合丝袜长腿丝袜| 午夜一区二区三区| 亚洲天堂久久| 亚洲中文字幕在线一区播放| 国产经典在线观看一区| 色综合天天综合中文网| 欧美精品啪啪| 天堂va亚洲va欧美va国产 | 无码不卡的中文字幕视频| 亚洲六月丁香六月婷婷蜜芽| 欧美天堂在线| 中国丰满人妻无码束缚啪啪| 日韩成人高清无码| 国产呦精品一区二区三区下载 | 丁香五月激情图片| 亚洲国产成人自拍| 亚洲天堂网在线播放| 久久人人97超碰人人澡爱香蕉 | 国产成人在线无码免费视频| 一区二区三区成人| 国产精品国产三级国产专业不| 99久久免费精品特色大片| 一本无码在线观看| 视频二区欧美| 91视频区| 国产日韩欧美黄色片免费观看| 99国产精品免费观看视频| a级毛片免费看| 亚洲美女操| 国产日本欧美在线观看| 亚洲有无码中文网| 国产超薄肉色丝袜网站| 伊人色在线视频| 中文字幕免费在线视频| 亚洲一区国色天香| 欧美在线一二区| 玩两个丰满老熟女久久网| 亚洲综合色婷婷| 免费在线一区| 毛片在线看网站| 亚洲日本中文字幕天堂网| 欧美亚洲一区二区三区导航| 香蕉eeww99国产在线观看| 欧美黄网在线| 成人国产一区二区三区| 亚洲国产亚综合在线区| 91美女视频在线观看| 亚洲精品国偷自产在线91正片| 最新国产你懂的在线网址| 麻豆精品久久久久久久99蜜桃| 精品亚洲欧美中文字幕在线看| 国产喷水视频| 久久国产成人精品国产成人亚洲| 中国国产一级毛片| 国产亚洲成AⅤ人片在线观看| 欧美日本激情| 伊人久久大线影院首页| 国产真实乱子伦视频播放| 久久精品91麻豆| 8090成人午夜精品| 老司国产精品视频91| 99青青青精品视频在线| 国产精品男人的天堂| 国产人成网线在线播放va| 欧美视频在线播放观看免费福利资源| 亚洲日韩精品无码专区| 国产超碰一区二区三区| 欧美在线黄| 久久久成年黄色视频| 亚洲国产中文在线二区三区免| 色天堂无毒不卡| 网友自拍视频精品区| 国产小视频免费观看| 中文字幕在线观| 成人福利免费在线观看| 国产高清在线观看91精品| 一区二区午夜| 97在线公开视频| 无码国内精品人妻少妇蜜桃视频|