999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

農(nóng)業(yè)大數(shù)據(jù)分類預(yù)測算法研究綜述

2020-01-04 15:10:30
關(guān)鍵詞:數(shù)據(jù)挖掘分類

葉 煜 李 敏 文 燕

(成都農(nóng)業(yè)科技職業(yè)學(xué)院 信息技術(shù)分院,四川 成都611130)

1 概述

我國是一個傳統(tǒng)農(nóng)業(yè)大國。農(nóng)業(yè)生產(chǎn)、管理和經(jīng)營產(chǎn)生了大量的農(nóng)業(yè)數(shù)據(jù)。這些原始農(nóng)業(yè)數(shù)據(jù),需要經(jīng)過分析、處理、提煉,才能轉(zhuǎn)換為有意義的信息,成為有價值的知識。數(shù)據(jù)挖掘技術(shù)可以有效地從海量的農(nóng)業(yè)數(shù)據(jù)中探索出各種因素之間的聯(lián)系,從而發(fā)現(xiàn)其中隱藏的規(guī)律,它正是農(nóng)業(yè)生產(chǎn)經(jīng)營活動所需要的、能夠引導(dǎo)農(nóng)業(yè)高效生產(chǎn)的技術(shù)。通過數(shù)據(jù)挖掘技術(shù)獲得的信息和知識可以應(yīng)用于農(nóng)業(yè)生產(chǎn)經(jīng)營活動的各個領(lǐng)域從而實現(xiàn)這些信息和知識的價值。

分類是數(shù)據(jù)挖掘中的一項非常重要和關(guān)鍵的任務(wù),利用分類技術(shù)能夠從數(shù)據(jù)集中提取描述數(shù)據(jù)類的一個函數(shù)或模型——即分類器,從而把數(shù)據(jù)集中的每個對象歸結(jié)到某個已知的對象類中。從機器學(xué)習(xí)的觀點,分類技術(shù)是一種有監(jiān)督的學(xué)習(xí),通過在一組已知類別標(biāo)號的樣本中,訓(xùn)練某種分類器,從而具有能夠預(yù)測某種未知數(shù)據(jù)類型的能力[1]。從這個意義上說,數(shù)據(jù)挖掘的目的就是根據(jù)樣本數(shù)據(jù)形成的類知識,對源數(shù)據(jù)進行分類,從而也可以預(yù)測未知數(shù)據(jù)的類型。

2 數(shù)據(jù)分類技術(shù)分析

分類過程是找到描述和區(qū)分數(shù)據(jù)類的函數(shù)或模型,也就是分類器,再利用分類器預(yù)測類標(biāo)記未知的對象類。要構(gòu)造分類器,需要輸入一個數(shù)據(jù)集作為訓(xùn)練樣本,訓(xùn)練樣本數(shù)據(jù)集由一組數(shù)據(jù)庫記錄也即元組構(gòu)成,每個記錄是一個由相關(guān)字段(或?qū)傩?值和類別標(biāo)記組成的特征向量,樣本的形式可以表示為:(v1,v2,...,vn;c),其中的vi 表示字段值,c 表示類別。

數(shù)據(jù)挖掘的分類算法很多,本文僅描述常用的幾個分類算法:決策樹算法、貝葉斯分類算法、K 鄰近算法、支持向量機算法、基于關(guān)聯(lián)規(guī)則算法、人工神經(jīng)網(wǎng)絡(luò)算法等。數(shù)據(jù)分類的效果一般和數(shù)據(jù)的特點有關(guān),有的數(shù)據(jù)噪聲大,有的有空缺值,有的分布稀疏,有的字段或?qū)傩蚤g相關(guān)性強,有的屬性是離散的而有的是連續(xù)值或混合式的[2]。總的來說沒有哪一種算法優(yōu)于其他分類算法并能適合于各種特點的數(shù)據(jù)。

3 常用分類預(yù)測算法

3.1 決策樹

決策樹是用于分類和預(yù)測的主要技術(shù)之一,決策樹學(xué)習(xí)是以實例為基礎(chǔ)的歸納學(xué)習(xí)算法,它采用從一組無次序、無規(guī)則的實例中推理出以決策樹表示的分類規(guī)則[3]。構(gòu)造決策樹的目標(biāo)是要找出屬性與相應(yīng)類別之間的關(guān)系,以便用它來預(yù)測未來未知數(shù)據(jù)的類別。它采用自頂向下的樹狀結(jié)構(gòu)表現(xiàn)分類規(guī)則,內(nèi)部結(jié)點描述屬性,葉子結(jié)點代表結(jié)論,自上而下的一條路徑代表一條分類規(guī)則。它具有結(jié)構(gòu)簡單直觀、規(guī)則易于理解、有較高分類精度的特點。主要的決策樹算法有ID3、C4.5、SLIQ 和SPRINT算法等。這些算法在選擇測試屬性時所使用的技術(shù)、生成的決策樹結(jié)構(gòu)、剪枝的時機和方法,以及處理大數(shù)據(jù)集的能力等多方面都各具特點。

ID3 算法的核心思想是首先計算決策樹各個非葉子結(jié)點的每一個屬性的信息增益,用最大信息增益的屬性作為類別劃分標(biāo)準(zhǔn),因為信息增益越大,就越具有代表性、特異性,區(qū)分樣本的類別能力就越強,選取信息增益最大的特征分裂出各個子結(jié)點,然后遞歸建立決策樹的分支,當(dāng)樣本集中只有一種類別時結(jié)束,生成最終的決策樹。這是一種自頂向下的貪心策略。

C4.5 算法通過采用信息增益率來選擇特征,改善了ID3 算法屬性偏向的缺點,是ID3 算法的改進。C4.5 算對變量特征進行遞歸選擇,用最優(yōu)特征分類數(shù)據(jù)集,至到數(shù)據(jù)集中所有子集歸于同一個類為止。C4.5 算法分類規(guī)則易于理解、算法復(fù)雜度較低。

SLIQ 算法在C4.5 算法基礎(chǔ)之上,對算法的實現(xiàn)方法進行了改進,在決策樹構(gòu)造過程中采用“預(yù)排序”和“廣度優(yōu)先策略”等技巧劃分節(jié)點,減少讀寫磁盤次數(shù)從而提高算法效率。SLIQ 算法具有執(zhí)行速度快、有較好的伸縮性和較高的數(shù)據(jù)分類精確度等優(yōu)點。但由于需要將類別列表存放于內(nèi)存,因此處理數(shù)據(jù)集的大小受內(nèi)存容量限制。

SPRINT 算法進一步改進了數(shù)據(jù)結(jié)構(gòu),舍棄了SLIQ 算法需要駐留內(nèi)存的類別列表,減少駐留內(nèi)存的數(shù)據(jù)量,它將類別信息直接合并到每個屬性列表中。在遍歷每個屬性列表尋找當(dāng)前結(jié)點的最優(yōu)劃分標(biāo)準(zhǔn)時,不需要參照其他信息,對決策樹結(jié)點的劃分表現(xiàn)在對屬性列表的分割,每個屬性列表被分割成兩個,分別保存屬于各個結(jié)點的樣本對應(yīng)的信息。SPRINT 算法在尋找每個結(jié)點的最優(yōu)劃分標(biāo)準(zhǔn)更為簡單,但在分割非分割屬性的屬性列表時很困難。

3.2 貝葉斯

貝葉斯分類預(yù)測算法是基于概率統(tǒng)計知識進行分類的算法。貝葉斯算法采用Bayes 定理,假定特征條件相互獨立,利用先驗概率和條件概率計算未知類別樣本屬于某個類別的概率,以最大概率的類別作為該樣本的最終類別,如樸素貝葉斯算法。此算法在數(shù)據(jù)集屬性個數(shù)較多或者屬性之間相關(guān)性較大時,分類效果不好。TAN 算法是降低獨立性假設(shè)的改進算法,基于貝葉斯網(wǎng)絡(luò)結(jié)構(gòu),通過增加屬性對之間的相關(guān)性來實現(xiàn)。該方法包括:按降序排序每個屬性對的互信息值,依次提取節(jié)點對,遵循不生成循環(huán)的原理,構(gòu)造最大權(quán)重跨度樹直到n-1 個邊被選擇;然后確定整個無向圖的邊的方向,選擇任意一個屬性節(jié)點作為根節(jié)點,根節(jié)點的向外方向是屬性節(jié)點之間的方向;為每個屬性節(jié)點添加一個父節(jié)點,父節(jié)點分類屬性節(jié)點,這樣完成了貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)的構(gòu)建。

3.3 K- 鄰近

K- 鄰近算法是一種基于實例的分類方法。K- 鄰近算法的具體工作原理是:它有一個樣本數(shù)據(jù)集,并且在樣本集中每個數(shù)據(jù)都有一個標(biāo)簽,即已知樣本集中的每個數(shù)據(jù)與歸屬類別之間的對應(yīng)關(guān)系。在沒有標(biāo)簽的情況下輸入新數(shù)據(jù)后,將新數(shù)據(jù)的每個特征與樣本集中的數(shù)據(jù)對應(yīng)的特征進行比較,然后提取樣本中最相似的數(shù)據(jù)(最鄰近)的分類標(biāo)簽。通常,只選擇樣本數(shù)據(jù)集中k 最相似的數(shù)據(jù),即K 鄰近,通常K 是大于20 的整數(shù)。最后,選擇K 個最相似數(shù)據(jù)中出現(xiàn)次數(shù)最多的類別作為新數(shù)據(jù)的分類。K- 鄰近方法是一種懶惰的學(xué)習(xí)方法,它存儲樣本直到需要分類為止。如果樣本集是復(fù)雜的,它可能會導(dǎo)致較大的計算開銷,所以很難應(yīng)用于實時情況。

3.4 支持向量機

支持向量機是一種基于統(tǒng)計學(xué)習(xí)理論的學(xué)習(xí)方法。它是一個二元分類模型。其基本模型定義為特征空間中間隔最大的線性分類器。它的學(xué)習(xí)策略是最大化間距,并最終可以將其轉(zhuǎn)化為凸二次規(guī)劃問題的解。其最大的特點是通過最大化分類區(qū)間來構(gòu)造學(xué)習(xí)機的泛化能力,根據(jù)結(jié)構(gòu)風(fēng)險最小化準(zhǔn)則構(gòu)造最優(yōu)分類超平面,更好地解決非線性、高維和局部極小點的問題。對于分類問題,支持向量機算法從該區(qū)域的樣本中計算出該區(qū)域的決策曲面,從而確定該區(qū)域中未知樣本的類別。它具有較高的分類準(zhǔn)確率和較好的適應(yīng)能力。但處理大規(guī)模數(shù)據(jù)集時速度較慢。

3.5 基于關(guān)聯(lián)規(guī)則

關(guān)聯(lián)算法是數(shù)據(jù)挖掘中的一類重要算法。其核心是基于兩階段頻繁集思想的遞歸算法。關(guān)聯(lián)規(guī)則在分類上分為一維、單層和布爾型關(guān)聯(lián)規(guī)則。典型的算法是Apriori 算法。Apriori 算法將關(guān)聯(lián)規(guī)則發(fā)現(xiàn)過程分為兩步:第一步是迭代檢索事務(wù)數(shù)據(jù)庫中的所有頻繁項集,即支持度不低于用戶設(shè)置的閾值的項集;第二步利用頻繁項集構(gòu)造規(guī)則滿足用戶的最小信任度。其中,挖掘或識別所有頻繁項集是算法的核心,占整個計算量的大部分。算法通過發(fā)現(xiàn)樣本集中的關(guān)聯(lián)規(guī)則來構(gòu)造分類器,從而減少了對大樣本量的依賴性。

3.6 人工神經(jīng)網(wǎng)絡(luò)

人工神經(jīng)網(wǎng)絡(luò)是一門結(jié)合了眾多學(xué)科內(nèi)容的信息處理學(xué)科,它是一種應(yīng)用類似生物神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)進行信息處理的數(shù)學(xué)模型。在這個模型中,節(jié)點代替神經(jīng)元,每個節(jié)點代表一個特定的功能,它們之間的互連構(gòu)成一個巨大的網(wǎng)絡(luò)系統(tǒng)、即“神經(jīng)網(wǎng)絡(luò)”,從而達到模擬生物大腦結(jié)構(gòu)和功能來處理信息的目的。人工神經(jīng)網(wǎng)絡(luò)經(jīng)歷了從線性感知機到多層感知機的發(fā)展過程。神經(jīng)網(wǎng)絡(luò)通過網(wǎng)絡(luò)學(xué)習(xí),改變每個網(wǎng)絡(luò)節(jié)點的連接權(quán)值,使其具有分類功能,經(jīng)過訓(xùn)練的網(wǎng)絡(luò)可用于目標(biāo)識別。目前,已有多種不同的神經(jīng)網(wǎng)絡(luò)模型。常見的如BP 網(wǎng)絡(luò)、徑向基RBF 網(wǎng)絡(luò)、Hopfield 網(wǎng)絡(luò)、隨機神經(jīng)網(wǎng)絡(luò)(Boltzmann 機)、競爭神經(jīng)網(wǎng)絡(luò)(Hamming 網(wǎng)絡(luò)、自組織映射網(wǎng)絡(luò))等。然而,目前的神經(jīng)網(wǎng)絡(luò)仍然普遍存在著收斂速度慢、運算量大、訓(xùn)練時間長、無法解釋等缺點。

4 結(jié)論

數(shù)據(jù)分類預(yù)測算法是數(shù)據(jù)挖掘中的核心和基礎(chǔ)技術(shù)之一。通過數(shù)據(jù)挖掘?qū)r(nóng)業(yè)數(shù)據(jù)進行有效的采集,進而進行深層次的分析,為用戶提供分類預(yù)測和農(nóng)業(yè)決策,科學(xué)有效地利用農(nóng)業(yè)數(shù)據(jù)。本文對常見數(shù)據(jù)分類算法進行了綜合闡述,各種算法有自己的優(yōu)缺點,在數(shù)據(jù)挖掘?qū)嵺`中,用戶要根據(jù)數(shù)據(jù)的不同特點選擇合適的分類算法。準(zhǔn)確度更高、執(zhí)行速度更快、可伸縮性更強的算法還需要在今后的工作中進一步研究。

猜你喜歡
數(shù)據(jù)挖掘分類
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
分類討論求坐標(biāo)
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
給塑料分分類吧
主站蜘蛛池模板: 国产成人精品第一区二区| 在线另类稀缺国产呦| 一级一级一片免费| 国产精品性| 欧美一级99在线观看国产| 久青草国产高清在线视频| 亚洲第一视频免费在线| 伊人久久综在合线亚洲2019| 91精品视频在线播放| 午夜福利免费视频| 依依成人精品无v国产| 国产精品美乳| 中文无码影院| 无码日韩精品91超碰| 久久青青草原亚洲av无码| 免费啪啪网址| 亚洲人成网站色7777| 久久久久88色偷偷| 久久久久久国产精品mv| 国产精欧美一区二区三区| 99re这里只有国产中文精品国产精品 | 亚洲精品免费网站| 亚洲视频四区| 国产菊爆视频在线观看| 久久人人97超碰人人澡爱香蕉| 久久大香香蕉国产免费网站| 精品国产污污免费网站| 国产在线视频自拍| 久热中文字幕在线观看| 在线五月婷婷| 免费无码AV片在线观看中文| 好紧太爽了视频免费无码| 国产成人综合久久精品下载| 手机看片1024久久精品你懂的| 亚洲毛片网站| 欧美日本在线观看| 伊人大杳蕉中文无码| 欧美三级日韩三级| 五月综合色婷婷| 亚洲精品自在线拍| av一区二区三区高清久久| 免费观看男人免费桶女人视频| 亚洲美女一区| 在线免费a视频| 成人午夜网址| 欧美日韩国产成人在线观看| 超碰aⅴ人人做人人爽欧美 | 久久精品人妻中文视频| 久久久久人妻一区精品| 黄色免费在线网址| 国产欧美日韩视频一区二区三区| 国产在线观看91精品亚瑟| 亚洲婷婷六月| 丝袜久久剧情精品国产| 在线观看的黄网| 国产精品尹人在线观看| 天堂成人在线| 亚洲欧洲日韩综合色天使| 国产欧美日韩综合在线第一| 亚洲日产2021三区在线| 免费在线a视频| 成人国产小视频| 免费在线成人网| 国产成人精品2021欧美日韩 | 无码人妻免费| 四虎永久免费地址| 噜噜噜久久| 欧美激情视频二区| 免费在线看黄网址| 国产一区二区免费播放| 无码人中文字幕| 妇女自拍偷自拍亚洲精品| av一区二区三区在线观看| 国内精品伊人久久久久7777人| 国产主播在线一区| 国产在线视频自拍| 亚洲欧美精品日韩欧美| 亚洲三级电影在线播放| 成人在线第一页| 久久精品视频亚洲| 日韩少妇激情一区二区| 免费a级毛片18以上观看精品|