摘要:提出了一個同類主題的Deep web數據源選擇方法,該方法通過數據源差異性分析可有效判斷出新數據源的內容與集成系統中已有內容的重復度,進而利用查準率和查全率建立質量估計模型評估各數據源的質量,削弱了已有研究中因查準率低對質量評估產生的負面影響。在主流圖書類網站上的實驗結果表明,該方法能減少系統的負擔,同時獲取質量較高的同類主題的數據源。
關鍵詞:差異性分析;Deep Web;數據源選擇;質量評估模型
中圖分類號:TP311 文獻標志碼:A 文章編號:1001—3695(2011)09—3364—04