999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

決策技術(shù)應(yīng)用分析與驗證

2015-12-24 10:32:36億,徐
北方經(jīng)貿(mào) 2015年8期
關(guān)鍵詞:數(shù)據(jù)挖掘規(guī)則分類

王 億,徐 偉

(黑龍江職業(yè)學(xué)院,哈爾濱 150080)

一、模糊決策樹技術(shù)應(yīng)用分析

決策樹是通過一系列規(guī)則對數(shù)據(jù)進行分類的過程。它提供一種在什么條件下會得到什么值的類似規(guī)則的方法。構(gòu)造決策樹的過程為:首先尋找初始分裂。決定哪個屬性域作為目前最好的分類指標(biāo)。一般的做法是窮盡所有的屬性域,對每個屬性域分裂的好壞做出量化,計算出最好的一個分裂。建決策樹,就是根據(jù)記錄字段的不同取值建立樹的分支,以及在每個分支子集中重復(fù)建立下層結(jié)點和分支。

由于現(xiàn)實世界中某些事物的屬性是很相近的,如果按照清晰的標(biāo)準(zhǔn)把它們分到不同的類別,可能會造成信息的丟失。例如:當(dāng)“車載重量”低于100時,認為是“輕”,而高于100低于200時,則認為是“中”,那么當(dāng)重量是臨界值的時候,用模糊的方法更適合。模糊綜合評判的過程包括:綜合考慮各種屬性,建立被評判對象的因素集;建立評判集,即評價的等級和評語;建立單因素評判,即對實際對象的因素集中的屬性運用評判集進行評價;根據(jù)實際情況,賦予不同因素以不同的權(quán)重;根據(jù)權(quán)重和單因素評判結(jié)果得出綜合評判的結(jié)果。

清晰算法是一種典型的決策樹歸納算法,這種算法在假定示例的屬性值和分類值是確定的前提下,使用信息熵作為啟發(fā)式建立一棵清晰的決策樹。針對現(xiàn)實世界中存在的不確定性,人們提出了另一種決策樹歸納算法,即模糊決策樹算法,它是清晰決策樹算法的一種推廣。這兩種算法在實際應(yīng)用中各有自己的優(yōu)劣之處,針對一個具體問題的知識獲取過程,選取哪一種算法目前還沒有一個較明確的依據(jù)。

(一)生成決策樹的優(yōu)缺點

清晰決策樹(CDT)知識表示可理解性差,沒有考慮現(xiàn)實中分類的不確定性,生成樹概括能力差,對空間的劃分過于細致,不易推廣。產(chǎn)生的知識具有一定的偏差,易受噪音影響,易產(chǎn)生過于適合現(xiàn)象。模糊決策樹(FDT)知識表示可理解性強,充分考慮現(xiàn)實中分類的不確定性,生成樹的概括能力強,對空間劃分適中,易于推廣。產(chǎn)生的知識表達較為準(zhǔn)確,抗噪音能力強,避免產(chǎn)生過于適合現(xiàn)象。

(二)適用范圍

CDT適用于符號值屬性和分類較清晰、噪音小的中小型數(shù)據(jù)庫。FDT適用于各種情況的數(shù)據(jù)庫,特別是對屬性和類模糊性強,有噪音的數(shù)據(jù)庫。對模糊決策樹算法的評價決策樹對比神經(jīng)元網(wǎng)絡(luò)的優(yōu)點在于可以生成一些規(guī)則。當(dāng)進行一些決策時,還需要相應(yīng)的理由的時候,使用神經(jīng)元網(wǎng)絡(luò)就不行了。

總之,在決策樹的算法當(dāng)中,模糊決策樹更符合現(xiàn)實世界,具有更廣泛的應(yīng)用空間。

二、模型準(zhǔn)確性評估

(一)解釋評估標(biāo)準(zhǔn)

在完成一個挖掘算法之后,常常會獲得成百上千的模式或規(guī)則。顯然這些規(guī)則中會有一小部分是有實際應(yīng)用價值的。那么如何對數(shù)據(jù)挖掘所獲得的挖掘結(jié)果進行有效地評估,以便最終能夠獲得有價值的模式(規(guī)則)知識,這就給數(shù)據(jù)挖掘提出了許多需要解決的問題。

1.使一個模式有價值的因素是什么?評估一個模式(知識)是否有意義通常依據(jù)以下四條標(biāo)準(zhǔn):一是易于用戶理解;二是對新數(shù)據(jù)或測試數(shù)據(jù)能夠確定有效程度;三是具有潛在價值;四是新奇的。一個有價值的模式就是知識。

2.一個數(shù)據(jù)挖掘算法能否產(chǎn)生所有有價值的模式(知識)?這是指數(shù)據(jù)挖掘算法的完全性。期望數(shù)據(jù)挖算法能夠產(chǎn)生所有可能模式是不現(xiàn)實的。實際上一個模式搜索方法可以利用有趣性評價標(biāo)準(zhǔn)來幫助縮小模式的搜索范圍。因此通常只需要保證挖掘算法的完全性就可以了。

3.一個數(shù)據(jù)挖掘算法能否只產(chǎn)生有價值的模式?解釋評估所挖掘模式的趣味性標(biāo)準(zhǔn)對于有效挖掘出具有應(yīng)用價值的模式知識是十分重要的。這些標(biāo)準(zhǔn)可以直接幫助指導(dǎo)挖掘算法,獲取有實際應(yīng)用價值的模式知識,以及摒棄無意義的模式。更為重要的是這些模式評估標(biāo)準(zhǔn)將積極指導(dǎo)整個知識發(fā)現(xiàn)過程,通過及時清除無前途的搜索路徑,提高挖掘的有效性。判斷分類的好壞一般可從如下指標(biāo)進行考慮:預(yù)測準(zhǔn)確率、速度、創(chuàng)建速度、使用速度、處理噪聲和丟失值、伸縮性、對磁盤駐留數(shù)據(jù)的處理能力、可解釋性、對模型的可理解性、規(guī)則好壞的評價、決策樹的大小和分類規(guī)則的簡明性。

(二)二分法交叉驗證評估的實現(xiàn)方法

其中預(yù)測準(zhǔn)確度是用得最多的一種比較尺度,特別是對于預(yù)測分類任務(wù)而言,目前公認的方法是分層交叉驗證的損失函數(shù)方法。交叉驗證是一種模型評估方法。分類是有監(jiān)督學(xué)習(xí),通過學(xué)習(xí)可以對未知的數(shù)據(jù)進行預(yù)測。在訓(xùn)練過程開始之前,將一部分?jǐn)?shù)據(jù)予以保留,在訓(xùn)練之后,利用這部分?jǐn)?shù)據(jù)對學(xué)習(xí)的結(jié)果進行驗證,這種模型評估方法為交叉驗證。兩分法是交叉驗證最易用的方法,數(shù)據(jù)集被分為兩個獨立的子集,稱為訓(xùn)練集及測試集,有時也稱為正集與反集,二分法交叉驗證工作原理如圖1所示。

圖1 二分法交叉驗證工作原理

通過二分法交叉驗證,生成驗證過后的有意義的決策樹數(shù)據(jù)表,以備知識表示的相對正確性。

以上各步的目的就是利用生成的規(guī)則來預(yù)測測試集中的未知數(shù)據(jù)是屬于哪一分類,并通過測試結(jié)果與實際情況相吻合的準(zhǔn)確率來判斷該決策樹是否有效,如果準(zhǔn)確率達到或超過預(yù)先確定的閾值,則認為所建立的決策樹模型是有效的,能夠應(yīng)用于實際工作,否則該模型的分類效果不好,需要重新選定訓(xùn)練集生成新的決策樹,并繼續(xù)利用準(zhǔn)確率來判斷該決策樹模型的優(yōu)劣,直到準(zhǔn)確率達到預(yù)定的閾值為止。本模型準(zhǔn)確性評估如圖2所示。

圖2 模型準(zhǔn)確性評估的示意圖

在研究的過程中,經(jīng)過調(diào)研及專業(yè)分析,確定的準(zhǔn)確率閾值為84%,經(jīng)過對模型測試,其準(zhǔn)確率達到了89%,超過預(yù)定的準(zhǔn)確率閾值,能夠滿足用戶需求。

三、解決問題的方法

1.確定挖掘?qū)ο蟆⒛繕?biāo)。清晰地定義出挖掘?qū)ο螅鞔_目標(biāo)是數(shù)據(jù)挖掘的重要一步。明確目標(biāo)就是定義分析的目的,要弄清所分析的現(xiàn)象并不總是容易的。一般情況下,各個系統(tǒng)的目標(biāo)是明確的,但是潛在的問題很難轉(zhuǎn)化為分析需要的具體目標(biāo)。對問題和目標(biāo)的明確描述是正確建立分析的先決條件,此時確定的目標(biāo)決定后面的方法如何組織,因此挖掘的對象和目標(biāo)一定要明確。

2.數(shù)據(jù)的收集。根據(jù)確定的數(shù)據(jù)分析對象抽象出在數(shù)據(jù)分析中所需要的特征信息,然后選擇合適的信息收集方法,將收集的信息存入到數(shù)據(jù)庫中。

3.數(shù)據(jù)預(yù)處理。對收集的數(shù)據(jù)進行清理。因為在數(shù)據(jù)庫中的數(shù)據(jù)一般是不完整的、含噪聲的、不一致的,因此在這個階段中需要對數(shù)據(jù)庫中的數(shù)據(jù)進行清理,對數(shù)據(jù)進行檢查,保證數(shù)據(jù)的完整性和數(shù)據(jù)的一致性,除去噪聲,填補丟失的域,刪除無效數(shù)據(jù)等,將完整、正確、一致的數(shù)據(jù)信息存入到數(shù)據(jù)庫中。

4.數(shù)據(jù)轉(zhuǎn)換。將選取的數(shù)據(jù)轉(zhuǎn)換成一個分析模型,建立一個真正適合挖掘算法的分析模型,不同的挖掘算法可能采用不同的分析數(shù)據(jù)模型。

5.分類挖掘知識和信息。目的是根據(jù)系統(tǒng)要實現(xiàn)的功能和任務(wù)來確定挖掘的分類模型。選擇合適的數(shù)據(jù)挖掘技術(shù)及算法,并使用適當(dāng)?shù)某绦蛟O(shè)計語言來實現(xiàn)該算法,在凈化和轉(zhuǎn)換過的數(shù)據(jù)集上進行挖掘,得到有用的分析信息。

6.知識的表示——生成分類規(guī)則。將數(shù)據(jù)挖掘得到的分析信息進行解釋和評價,生成分類規(guī)則呈現(xiàn)出來。

7.知識的應(yīng)用。將分析得到的規(guī)則應(yīng)用到日常管理中,管理人員可以利用所得到的知識改進管理方法,調(diào)整管理策略,提高管理水平。

猜你喜歡
數(shù)據(jù)挖掘規(guī)則分類
撐竿跳規(guī)則的制定
數(shù)獨的規(guī)則和演變
分類算一算
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
分類討論求坐標(biāo)
數(shù)據(jù)分析中的分類討論
讓規(guī)則不規(guī)則
Coco薇(2017年11期)2018-01-03 20:59:57
教你一招:數(shù)的分類
基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
TPP反腐敗規(guī)則對我國的啟示
主站蜘蛛池模板: 国产成人精品2021欧美日韩| 十八禁美女裸体网站| 第九色区aⅴ天堂久久香| 国产情侣一区| 亚洲视频免费播放| 欧美久久网| 一级毛片高清| 国产成+人+综合+亚洲欧美| 久久精品无码专区免费| 国产真实自在自线免费精品| 亚洲欧美成aⅴ人在线观看| 欧美精品三级在线| 任我操在线视频| 六月婷婷激情综合| 国产菊爆视频在线观看| 波多野结衣视频网站| 国产成人精彩在线视频50| 热99re99首页精品亚洲五月天| 亚洲三级a| 久草视频一区| 这里只有精品在线| 国产欧美视频在线| 怡春院欧美一区二区三区免费| 粗大猛烈进出高潮视频无码| 久久99热66这里只有精品一| 综合色在线| 国产视频只有无码精品| 一级黄色欧美| 亚洲国产亚洲综合在线尤物| 日韩亚洲高清一区二区| 无码电影在线观看| 天天色天天综合网| 99热这里只有免费国产精品| 日韩欧美一区在线观看| 国产成人综合网| 一级福利视频| 久久精品无码一区二区日韩免费| 亚洲91在线精品| 女人毛片a级大学毛片免费| 青青草原国产精品啪啪视频| 国产美女自慰在线观看| 国产网站在线看| 国产女人在线| 91在线视频福利| 啦啦啦网站在线观看a毛片| 日韩毛片免费| 99re在线观看视频| 婷五月综合| 不卡无码h在线观看| 国产女人爽到高潮的免费视频| 久久人搡人人玩人妻精品| 日本在线欧美在线| 国产精品欧美日本韩免费一区二区三区不卡 | 久久久久久久97| 免费一级毛片在线观看| 91精品视频在线播放| a毛片免费看| 一本一道波多野结衣一区二区 | 久久精品这里只有精99品| 日韩A∨精品日韩精品无码| 国产丝袜啪啪| 中文字幕乱码中文乱码51精品| 国产精品手机在线播放| 日本伊人色综合网| 国产h视频免费观看| 亚洲毛片网站| 免费三A级毛片视频| 国产精品亚洲综合久久小说| 国产高清在线丝袜精品一区| 亚洲日韩第九十九页| 午夜视频www| 欧美日韩北条麻妃一区二区| 亚洲精品大秀视频| 毛片久久久| 国产极品美女在线观看| 婷婷激情亚洲| 黄色网在线免费观看| 久久成人国产精品免费软件| 亚洲欧美日韩中文字幕在线一区| 国产精品天干天干在线观看 | 国产女人综合久久精品视| 亚洲欧美在线综合一区二区三区|