摘要分類規則挖掘是數據挖掘領域中最重要的研究領域之一。本文首先分析了分類規則挖掘的產生背景及意義,其次簡述了分類規則挖掘的算法和應用領域等方面,然后從分類問題、表示方法和分類挖掘步驟三個方面進行分析,最后指出分類規則挖掘面臨的問題及挑戰。
關鍵詞數據挖掘分類規則挖掘算法
中圖分類號:TP3文獻標識碼:A
分類規則挖掘是數據挖掘領域中最重要的研究領域之一,同時,也是其它諸如人工智能、模式識別、人工神經網絡等學科的重要研究內容,并且有豐富的結果和廣泛的應用,因此對分類規則挖掘的研究是很有必要的。
1 數據挖掘概念和技術
20世紀70年代以來,數據庫技術得到了迅速發展及廣泛應用。在自然科學、工程技術、工商管理、金融證券、政府機構等領域,已經或者正在實施全面的信息化建設,其核心是建立大型復雜的數據庫管理系統。隨著信息技術的高速發展,數據庫的應用規模、范圍和深度不斷擴大,已經從點(單臺機器)、線(局域網)發展到面(廣域網),甚至到Internet全球信息系統。
隨著計算機技術的飛速發展和企業界不斷提出新的需求,數據挖掘技術應運而生。數據挖掘(Data Mining)是從大型數據庫的數據中提取人們感興趣的知識,這些知識是隱含的、事先未知的潛在有用信息。它的目標是高度自動化地分析企業原有的數據,做出歸納性的推理,從中挖掘出潛在的模式,預測客戶的行為,幫助企業的決策者調整市場策略,減小風險,做出正確的決策。IBM將數據挖掘的分析方法從功能上劃分為以下四種:(1)關聯分析(Associations);(2)序列模式分析(Sequential Patterns);(3)分類分析(Classifications);(4)聚類分析(Clusterings)。其中,分類分析(即分類規則挖掘)是數據挖掘的一項重要內容,是知識發現的一個重要方面。
分類就是找出一個類別的概念描述,它代表了這類數據的整體信息,即該類的內涵描述,并用這種描述來構造模型,一般用規則或決策樹模式表示。分類是利用訓練數據集通過一定的算法而求得分類規則,可被用于規則描述和預測。隨著數據庫技術的發展,數據庫中內容的復雜程度日益增加,大量的信息不斷加入到數據庫系統中來,研究高效和快速的分類規則挖掘方法已經成為一個十分迫切的課題。
2 分類規則挖掘的算法
分類規則挖掘是數據挖掘中應用領域極其廣泛的重要技術之一,至今已經提出多種算法。對于分類規則挖掘通常有以下幾種算法:決策樹方法、貝葉斯方法、人工神經網絡方法、粗糙集方法和關聯規則分類法、k一最臨近分類法等。這些算法是主要的算法,他們都有其優缺點,都有其適用的數據。還有一些其他的算法,比如遺傳算法,后向傳播分類、基于概念層次的分類、基于案例的推理、群智能算法如蟻群算法和粒子群算法,以及各種算法的混合算法。
分類算法的優劣直接影響數據挖掘的效率與準確性。分類算法采用五層評價標準:預測準確度(模型正確預測新數據類標號的能力);計算復雜度(依賴于具體的實現細節和硬件環境);健壯性(在有噪聲數據或空缺值的情況下模型是否具有正確預測的能力);可伸縮性(對于海量的數據或大型數據庫,是否具有有效的構造模型的能力);模型簡潔度和可理解性(學習模型是否具有提供理解和觀察的層次的能力)。
3 分類規則挖掘的應用領域
分類規則挖掘是數據挖掘領域最重要的研究課題之一,很多數據挖掘的問題都可以轉化為分類挖掘問題。目前,分類挖掘算法已經具有廣泛的應用,其中應用最集中的領域包括科學研究、金融投資、市場營銷、保險、醫療衛生、產品制造業、通信網絡管理等行業。
4 數據分類問題、表示方法
4.1 分類問題的描述
數據分類是通過挖掘已有的分類數據,集中同一類數據對象的共同特征,提取分類規則,對整個數據集進行合理分類的過程。分類方法用于預測數據對象的離散類別,分類的目的是能根據已經分類的數據構造出一個分類模型,即分類器。
要構造一個分類器,需要有一個訓練數據集作為輸入。訓練數據集由一組數據庫元組構成,每個元組由若干個屬性(又稱字段或特征)描述。假定訓練數據集的每個元組屬于一個預定義的類,由一個稱為類標號屬性的屬性確定,則每個元組與一個特定的類標號相對應。該類標號是系統的輸入,通常是以往的一些經驗數據。
4.2 分類問題的表示方法
分類模型有很多表示方法,比如分類規則、判定樹、數學公式、形式文法、形式邏輯表達式、神經網絡、框架和模式等等。與其它幾種表示方法相比,使用分類規則的好處在于:每條規則能夠獨立地表示被發現的知識;新規則的加入并不影響已經存在的規則集,而且表示形式簡單,易于理解。假設數據挖掘用于決策支持系統,但真正最后的決策者是用戶,數據挖掘的結果對于用戶來說應該是易于理解,表示形式簡單的結果,采用規則表示的分類器就比較好理解,而神經網絡的結果就比較難以理解。例如,給定一個顧客的信用信息的數據庫,可以學習分類規則,根據他們的信譽度優良或相(下轉第139頁)(上接第129頁)當好來識別顧客。這些規則可以用來為以后的數據樣本分類,也能對數據庫的內容提供更好的理解。
5 分類規則挖掘步驟
第一步,建立一個描述已知數據集類別或概念的模型。該模型是通過對數據庫中各數據行內容的分析而獲得的。每一數據行都可認為是屬于一個確定的數據類別,其類別值是由一個屬性描述(被稱為類別屬性)。分類學習方法所使用的數據集稱為訓練樣本集合,因此分類學習又可以稱為監督學習(Learning by Example)。它是在已知訓練樣本類別的情況下,通過學習建立相應的模型;而無教師監督學習則是在訓練樣本的類別與類別個數均未知的情況下進行的。
第二步,利用所獲得的模型進行分類操作。首先對模型分類準確率進行估計,例如使用保持(Holdout)方法。如果一個學習所獲模型的準確率經測試被認為是可以接受的,那么就可以使用這一模型對未來的數據行或對象(其類別未知)進行分類。
6 分類挖掘面臨的問題和挑戰
隨著對數據挖掘分類問題研究的不斷深入和廣泛應用,人們發現現實世界數據庫存在的一些固有的特點給分類挖掘帶來了巨大的挑戰。比如,在其他規則挖掘的過程中,提供一種與分類規則挖掘技術相結合的方法,把分類規則挖掘技術融入其中。還有噪音數據、數據庫的動態性以及海量數據和高維數據等這些問題都是值得研究的。
分類規則挖掘是數據挖掘領域中最重要的研究領域之一,它有著豐富的結果和廣泛的應用,因此對分類規則挖掘的研究是很有必要的。