摘 要:快速高效地獲取網頁主題信息的需求使得Web信息抽取技術成為信息技術領域的研究熱點。現有的web信息抽取技術大致可以歸納為基于統計理論的、基于視覺特征的、基于DOM樹結構的和基于模板的幾類。由于網頁文本本身具有樹結構并且具有一定的相似性,基于DOM樹結構和基于模板的抽取技術發展很快而且已經得到了廣泛的應用。分別論述了上述幾類技術在近幾年來的研究進展,從自動化程度、適用范圍和復雜性三個角度分析對比了幾類技術的優缺點。關鍵詞:Web信息抽??;網頁噪聲;URL聚類;DSE算法;RoadRunner系統;MDR;視覺特征;模板中圖分類號:TP391
文獻標志碼:A
文章編號:1001—3695(2010)12—440l—05