傅向華 馮博琴 馬兆豐 何 明
摘要:將Web爬行看作執(zhí)行序列動作的過程,結合改進的快速Q學習和半監(jiān)督貝葉斯分類器,提出一種新的具有在線增量自學習能力的聚焦爬行方法.該方法從獲取的頁面中抽取特征文本,根據特征文本評估頁面的主題相關性,預測鏈接的Q值,然后基于Q值過濾無關鏈接.當得到主題相關頁面時產生回報,將回報沿鏈接鏈路反饋,更新鏈路上所有鏈接的Q值,并選擇相應的特征文本作為訓練樣本,增量地改善主題評估器和Q值預測器.實驗結果表明,該方法具有很快的自學習能力,獲取的頁面數目和精度均優(yōu)于離線聚焦爬行方法,更符合Web資源發(fā)現(xiàn)的要求.關鍵詞:資源發(fā)現(xiàn);聚焦爬行;在線學習;半監(jiān)督學習中圖分類號:TP391文獻標識碼:A文章編號:0253—987X(2004)06—0599—04