秦東霞 姚遙
0引言
Web日志挖掘對于Web站點內部結構優化和頁面內容的重新整合有重要的價值和意義。傳統的Web數據挖掘方法如關聯規則和聚類等先將挖掘出的結構進行分析,匯總后應用到具體網站中。這些應用主要包括對Web文檔進行分類、Web頁面的預取和聚類、優化查詢功能及對客戶信息進行分類匯總等。現有的基于關聯艦則的Web日志挖掘算法都是基于所有頻繁項的,這些算法存在兩方面的問題:一個是往往產生大量的候選規則,另一個則是產生大量支持度和置信度相同的冗余規則。本文提出了一聽十新的無冗余Web日志挖掘算法,該算法引入了頻繁閉項集和最小關聯規則的概念,在保證信息不丟失的同時實現無冗余挖掘,而且挖掘過程中候選規則也相對少得多。