摘要:Deep Web結果頁面大多由網站根據請求從后臺數據庫讀取數據并動態填充到通用模板而生成的。研究如何從一系列同模板生成的頁面中生成該模板,并利用模板自動抽取數據。給出了模板生成問題的形式化描述,提出了一種新穎的模板生成方法,利用生成的模板從實例網頁中抽取數據。與現有方法相比,該方法適用于列表頁面和詳細頁面兩種類型網頁。通過在多個領域站點上實驗,說明新方法在不降低準確率的情況下能大大提高召回率。
關鍵詞:Deep Web; 數據抽取; 模板生成; 文法推斷
中圖分類號:TP311文獻標志碼:A
文章編號:10013695(2010)01020004
doi:10.3969/j.issn.10013695.2010.01.059