999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

淺析分類規則挖掘

2009-04-29 00:00:00
科教導刊 2009年36期

摘要分類規則挖掘是數據挖掘領域中最重要的研究領域之一。本文首先分析了分類規則挖掘的產生背景及意義,其次簡述了分類規則挖掘的算法和應用領域等方面,然后從分類問題、表示方法和分類挖掘步驟三個方面進行分析,最后指出分類規則挖掘面臨的問題及挑戰。

關鍵詞數據挖掘分類規則挖掘算法

中圖分類號:TP3文獻標識碼:A

分類規則挖掘是數據挖掘領域中最重要的研究領域之一,同時,也是其它諸如人工智能、模式識別、人工神經網絡等學科的重要研究內容,并且有豐富的結果和廣泛的應用,因此對分類規則挖掘的研究是很有必要的。

1 數據挖掘概念和技術

20世紀70年代以來,數據庫技術得到了迅速發展及廣泛應用。在自然科學、工程技術、工商管理、金融證券、政府機構等領域,已經或者正在實施全面的信息化建設,其核心是建立大型復雜的數據庫管理系統。隨著信息技術的高速發展,數據庫的應用規模、范圍和深度不斷擴大,已經從點(單臺機器)、線(局域網)發展到面(廣域網),甚至到Internet全球信息系統。

隨著計算機技術的飛速發展和企業界不斷提出新的需求,數據挖掘技術應運而生。數據挖掘(Data Mining)是從大型數據庫的數據中提取人們感興趣的知識,這些知識是隱含的、事先未知的潛在有用信息。它的目標是高度自動化地分析企業原有的數據,做出歸納性的推理,從中挖掘出潛在的模式,預測客戶的行為,幫助企業的決策者調整市場策略,減小風險,做出正確的決策。IBM將數據挖掘的分析方法從功能上劃分為以下四種:(1)關聯分析(Associations);(2)序列模式分析(Sequential Patterns);(3)分類分析(Classifications);(4)聚類分析(Clusterings)。其中,分類分析(即分類規則挖掘)是數據挖掘的一項重要內容,是知識發現的一個重要方面。

分類就是找出一個類別的概念描述,它代表了這類數據的整體信息,即該類的內涵描述,并用這種描述來構造模型,一般用規則或決策樹模式表示。分類是利用訓練數據集通過一定的算法而求得分類規則,可被用于規則描述和預測。隨著數據庫技術的發展,數據庫中內容的復雜程度日益增加,大量的信息不斷加入到數據庫系統中來,研究高效和快速的分類規則挖掘方法已經成為一個十分迫切的課題。

2 分類規則挖掘的算法

分類規則挖掘是數據挖掘中應用領域極其廣泛的重要技術之一,至今已經提出多種算法。對于分類規則挖掘通常有以下幾種算法:決策樹方法、貝葉斯方法、人工神經網絡方法、粗糙集方法和關聯規則分類法、k一最臨近分類法等。這些算法是主要的算法,他們都有其優缺點,都有其適用的數據。還有一些其他的算法,比如遺傳算法,后向傳播分類、基于概念層次的分類、基于案例的推理、群智能算法如蟻群算法和粒子群算法,以及各種算法的混合算法。

分類算法的優劣直接影響數據挖掘的效率與準確性。分類算法采用五層評價標準:預測準確度(模型正確預測新數據類標號的能力);計算復雜度(依賴于具體的實現細節和硬件環境);健壯性(在有噪聲數據或空缺值的情況下模型是否具有正確預測的能力);可伸縮性(對于海量的數據或大型數據庫,是否具有有效的構造模型的能力);模型簡潔度和可理解性(學習模型是否具有提供理解和觀察的層次的能力)。

3 分類規則挖掘的應用領域

分類規則挖掘是數據挖掘領域最重要的研究課題之一,很多數據挖掘的問題都可以轉化為分類挖掘問題。目前,分類挖掘算法已經具有廣泛的應用,其中應用最集中的領域包括科學研究、金融投資、市場營銷、保險、醫療衛生、產品制造業、通信網絡管理等行業。

4 數據分類問題、表示方法

4.1 分類問題的描述

數據分類是通過挖掘已有的分類數據,集中同一類數據對象的共同特征,提取分類規則,對整個數據集進行合理分類的過程。分類方法用于預測數據對象的離散類別,分類的目的是能根據已經分類的數據構造出一個分類模型,即分類器。

要構造一個分類器,需要有一個訓練數據集作為輸入。訓練數據集由一組數據庫元組構成,每個元組由若干個屬性(又稱字段或特征)描述。假定訓練數據集的每個元組屬于一個預定義的類,由一個稱為類標號屬性的屬性確定,則每個元組與一個特定的類標號相對應。該類標號是系統的輸入,通常是以往的一些經驗數據。

4.2 分類問題的表示方法

分類模型有很多表示方法,比如分類規則、判定樹、數學公式、形式文法、形式邏輯表達式、神經網絡、框架和模式等等。與其它幾種表示方法相比,使用分類規則的好處在于:每條規則能夠獨立地表示被發現的知識;新規則的加入并不影響已經存在的規則集,而且表示形式簡單,易于理解。假設數據挖掘用于決策支持系統,但真正最后的決策者是用戶,數據挖掘的結果對于用戶來說應該是易于理解,表示形式簡單的結果,采用規則表示的分類器就比較好理解,而神經網絡的結果就比較難以理解。例如,給定一個顧客的信用信息的數據庫,可以學習分類規則,根據他們的信譽度優良或相(下轉第139頁)(上接第129頁)當好來識別顧客。這些規則可以用來為以后的數據樣本分類,也能對數據庫的內容提供更好的理解。

5 分類規則挖掘步驟

第一步,建立一個描述已知數據集類別或概念的模型。該模型是通過對數據庫中各數據行內容的分析而獲得的。每一數據行都可認為是屬于一個確定的數據類別,其類別值是由一個屬性描述(被稱為類別屬性)。分類學習方法所使用的數據集稱為訓練樣本集合,因此分類學習又可以稱為監督學習(Learning by Example)。它是在已知訓練樣本類別的情況下,通過學習建立相應的模型;而無教師監督學習則是在訓練樣本的類別與類別個數均未知的情況下進行的。

第二步,利用所獲得的模型進行分類操作。首先對模型分類準確率進行估計,例如使用保持(Holdout)方法。如果一個學習所獲模型的準確率經測試被認為是可以接受的,那么就可以使用這一模型對未來的數據行或對象(其類別未知)進行分類。

6 分類挖掘面臨的問題和挑戰

隨著對數據挖掘分類問題研究的不斷深入和廣泛應用,人們發現現實世界數據庫存在的一些固有的特點給分類挖掘帶來了巨大的挑戰。比如,在其他規則挖掘的過程中,提供一種與分類規則挖掘技術相結合的方法,把分類規則挖掘技術融入其中。還有噪音數據、數據庫的動態性以及海量數據和高維數據等這些問題都是值得研究的。

分類規則挖掘是數據挖掘領域中最重要的研究領域之一,它有著豐富的結果和廣泛的應用,因此對分類規則挖掘的研究是很有必要的。

主站蜘蛛池模板: 久久久久人妻一区精品| 韩日免费小视频| 青青青国产精品国产精品美女| 亚洲综合久久成人AV| 亚洲av综合网| 亚洲国产理论片在线播放| av在线5g无码天天| 日韩AV无码免费一二三区| 国产在线观看91精品亚瑟| 99久久亚洲综合精品TS| 亚洲一区无码在线| 1024你懂的国产精品| jijzzizz老师出水喷水喷出| 亚洲av成人无码网站在线观看| 免费视频在线2021入口| 女人18毛片一级毛片在线| 欧美人与牲动交a欧美精品 | 啪啪国产视频| 久久青青草原亚洲av无码| 亚洲高清资源| 日韩a在线观看免费观看| 亚洲国产午夜精华无码福利| 亚洲精品国偷自产在线91正片| 日韩精品无码不卡无码| 国产青榴视频在线观看网站| 国产高清在线观看91精品| 国产啪在线91| 日韩国产亚洲一区二区在线观看| a级毛片免费网站| 国产在线自揄拍揄视频网站| 精品国产Ⅴ无码大片在线观看81| 成人免费午间影院在线观看| 爆操波多野结衣| 无码一区18禁| 中国精品自拍| 日韩精品久久久久久久电影蜜臀| 992tv国产人成在线观看| 亚洲国产中文综合专区在| 欧美天堂久久| 精品视频一区二区观看| 在线观看无码av五月花| 无套av在线| 国产你懂得| 国产一区二区三区在线观看视频 | 日本91视频| 欧美色视频日本| 欧美一道本| 天堂成人在线| 91福利一区二区三区| 伊人久久大香线蕉综合影视| 少妇人妻无码首页| aⅴ免费在线观看| 久久久久夜色精品波多野结衣| 日本亚洲欧美在线| 中美日韩在线网免费毛片视频| 天堂在线视频精品| 精品福利视频导航| 999国产精品| 国产精品熟女亚洲AV麻豆| 无码'专区第一页| 99热这里只有精品国产99| 99精品视频在线观看免费播放| 国产视频自拍一区| 看av免费毛片手机播放| 高清不卡毛片| 国产人人射| 久久精品中文无码资源站| 欧美高清三区| 日本色综合网| 欧美怡红院视频一区二区三区| 狂欢视频在线观看不卡| 国产无码制服丝袜| 国产精品免费露脸视频| 色偷偷一区| 亚洲精品综合一二三区在线| 久久天天躁狠狠躁夜夜2020一| 国产在线观看第二页| 欧美一级高清视频在线播放| 婷婷亚洲最大| 国产在线观看第二页| 国产v欧美v日韩v综合精品| 日日噜噜夜夜狠狠视频|