傅向華 馬兆豐 何 明 馮博琴
摘要:從語義相關性角度分析超鏈歸納主題搜索(HITS)算法,發現其產生主題漂移的原因在于頁面被投影到錯誤的語義基上,因此提出了一種個性化的主題提取和層次發現算法(PTDHE),通過個人查詢日志擴展查詢詞,構造符合用戶需要的個性化根集和基礎集合,達到防止主題漂移的目的.PTDHE采用基于最小最大原則的圖劃分方法,層次地發現與用戶查詢相關的主題頁面集合,利用HITS算法分別計算每個主題頁面集合中頁面的權威值,返回與查詢相關的其他主題權威頁面.在14個查詢上的實驗結果表明,與HITS算法相比,PTDHE算法不僅可以減少2%一66%的主題漂移率,而且可以發現與查詢相關的多個主題.
關鍵詞:鏈接分析;超鏈歸納主題搜索;主題提取;主題漂移;查詢擴展
中圖分類號:TP311文獻標識碼:A文章編號:0253—987X(2005)02—0119—04