摘要:為了克服現(xiàn)有決策樹分類算法在大數(shù)據(jù)集上的有效性和可伸縮性的局限,提出一種新的基于粗糙集理論的決策樹算法。首先提出基于代表性實(shí)例的原型抽象方法,該方法從原始數(shù)據(jù)集中抽取代表性實(shí)例組成抽象原型,可縮減實(shí)例數(shù)目和無關(guān)屬性,從而使算法可以處理大數(shù)據(jù)集;然后提出屬性分類價(jià)值量概念,并作為選擇屬性的啟發(fā)式測(cè)度。該測(cè)度描述了屬性對(duì)分類的貢獻(xiàn)價(jià)值量的多少,側(cè)重考慮了屬性之間以及實(shí)例與分類之間的關(guān)系。實(shí)驗(yàn)表明,新算法比其他算法生成的決策樹規(guī)模要小,準(zhǔn)確率也有顯著提高,在大數(shù)據(jù)集上尤為明顯。
關(guān)鍵詞:決策樹;粗糙集;大數(shù)據(jù)集;代表性實(shí)例;原型抽象;屬性分類價(jià)值量
中圖分類號(hào):TP18 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1001-3695(2010)08-2899-03