摘要:基于神經(jīng)網(wǎng)絡的中文文本分類需要解決的核心問題是特征的選擇問題,特征選擇涉及選擇哪些特征和選擇的特征維度兩個問題。針對上述問題,提出了信息增益(IG)與主成分分析(PCA)相結合的特征選擇方法。通過實驗比較分析了不同特征選擇方法與特征維度對分類性能的影響,證明了該特征選擇方法在基于神經(jīng)網(wǎng)絡的中文文本分類中的優(yōu)越性,并得出神經(jīng)網(wǎng)絡的特征輸入維度在200左右的時候分類性能最佳。
關鍵詞:文本分類; 神經(jīng)網(wǎng)絡; 主成分分析; 特征選擇
中圖法分類號:TP311
文獻標識碼:A
文章編號:1001-3695(2006)07-0161-04