摘要:特征空間的高維特點(diǎn)限制了分類算法的選擇,影響了分類器的設(shè)計(jì)和準(zhǔn)確度,降低了分類器的泛化能力,從而出現(xiàn)分類器過擬合的現(xiàn)象,因此需要進(jìn)行特征選擇以避免維數(shù)災(zāi)難。首先簡單分析了幾種經(jīng)典特征選擇方法,總結(jié)了它們的不足;然后給出了一個(gè)優(yōu)化的文檔頻方法,并用它過濾掉一些詞條以降低文本矩陣的稀疏性;最后應(yīng)用模式聚合(PA)理論建立文本集的向量空間模型,從分類貢獻(xiàn)的角度強(qiáng)化詞條的作用,消減原詞條矩陣中包含的冗余模式,從而有效地降低了向量空間的維數(shù),提高了文本分類的精度和速度。實(shí)驗(yàn)結(jié)果表
明此種綜合性特征選擇方法效果良好。
關(guān)鍵詞:特征選擇;文本分類;詞頻;文檔頻;模式聚合
中圖分類號(hào):TP301文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1001-3695(2010)01-0036-03
doi:10.3969/j.issn.10013695.2010.01.009