摘要:文本分類是研究文本數(shù)據(jù)挖掘、信息檢索的重要手段,文本特征項權(quán)重值的計算是文本分類算法的關(guān)鍵。針對經(jīng)典的特征權(quán)重計算方法TF—IDF中存在的不足,提出了一種動態(tài)自適應(yīng)特征權(quán)重計算方法(DATW)。該算法不僅考慮了特征項在文本中出現(xiàn)的頻率及該特征項所屬文本在訓(xùn)練集中的數(shù)量,而且通過考查特征項的分散度和特征向量梯度差以自適應(yīng)動態(tài)文本的分類。實驗結(jié)果表明,采用DATw方法計算特征權(quán)重可以有效提高文本分類的性能。
關(guān)鍵詞:文本分類;特征權(quán)重;TF-IDF;分散度;梯度差
中圖分類號:TP391 文獻標志碼:A 文章編號:1001—3695(2 011)11—4092—05