李金庫 張德運 高 鵬 孫欽東
摘要:分析了分段對文本分類的影響,提出了與文本語義密切相關的最大語義標志原則(MSMR)和段落間的語義激勵原則(SIR),在模糊K—最近鄰分類算法的基礎上,應用這2個原則設計并實現了一種基于上下文的文本片斷模糊分類算法.該算法依據SIR判斷文本片段分類的相互影響,降低了片段分類的錯誤率,當某一片斷類隸屬度大于某一閾值時,依據MSMR判定可知,同一文檔的后續片斷均屬于同一類別,這樣就不用計算所有片斷的類隸屬度.實驗表明:與模糊K—最近鄰分類算法相比,所提算法能有效提高系統的查準率、查全率和正確率,其中查全率可提高16%以上;在同一會話中,由于被明確分類后的后續片段不需要計,算類隸屬度,所以算法總計算時間明顯少于模糊K—最近鄰分類算法,具有較高的分類效率.
關鍵詞:文本片段分類;信息審計;K—最近鄰;模糊分類
中圖分類號:TP393文獻標識碼:A文章編號:0253—987X(2005)08—0800—04