摘要:關(guān)聯(lián)分類具有較高的分類精度和較強(qiáng)的擴(kuò)展性,但是由于分類器是由高置信度的規(guī)則構(gòu)成,因此有時(shí)會(huì)出現(xiàn)過擬合。因此考慮在fp-growth挖掘頻繁項(xiàng)的基礎(chǔ)上,計(jì)算頻繁項(xiàng)與測試數(shù)據(jù)間的最小差異度,即分類規(guī)則與測試數(shù)據(jù)的匹配程度。將最小差異度最小的類標(biāo)號(hào)賦予測試數(shù)據(jù)。實(shí)驗(yàn)結(jié)果表明,該算法較先前算法有較高的精確度,如CBA(chssification-Based Association),CMAR(Classifircation based on Multiple Associadon Rules),CPAR(Classificadon based on Preldictive AssociadOn Rules)。但是不足之處是精確度提高的代價(jià)是存儲(chǔ)頻繁項(xiàng)的矩陣過于龐大,系統(tǒng)開銷不小。
關(guān)鍵詞:頻繁項(xiàng);矩陣;最小差異性;匹配;分類
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2009)01-0177-03