摘要:針對傳統方法不能很好地處理網頁中簡短域與用戶查詢之間的相關性排序問題,提出一種基于改進的編輯距離排序算法,將以詞為單位的用戶查詢和簡短網頁域通過匹配編碼轉化為2個字符串,再利用改進的編輯距離計算2個字符串之間的相似性,由于在用戶查詢與待比較的簡短網頁域之間引入了查詢詞分布的位置、順序和距離等,以及含有查詢詞修飾關系的重要信息,所以編碼字符串之間的相似程度可以衡量對應的查詢與簡短網頁域之間的相關性,經大規模真實搜索引擎買驗表明,該算法較之傳統的相關性排序算法,可以顯著地提高網頁搜索中的簡短網頁域相關性排序性能,尤其適用于簡短域與用戶查詢之間的相關性比較,
關鍵詞:網頁搜索;相關性排序;編輯距離;字符串匹配
中圖分類號:TP391 文獻標識碼:A 文章編號:0253-987X(2008)12-1450-05