摘要:傳統的使用語料庫對入口標簽字符串進行匹配的方法受限于語料庫的完整性和匹配算法的靈活性。為突破這種局限,引入了基于表單元件統計特征的Deep Web入口探測方法和使用文本分類方法對其進行分類的雙層分類模型,并提出了兩種特征權重計算方法用于特征選取。在TEL-8 Query Intefaces數據集上,測試結果體現了雙層分類模型的優越性和特征向量維歸約的必要性。
關鍵詞:Deep web;網絡爬蟲;結構特征;維歸約;雙層分類模型
中圖分類號:TP391 文獻標志碼:A 文章編號:1001-3695(2009)12-4697-04