摘要:針對網頁噪聲和網頁非結構化信息抽取模板生成復雜度高的問題,提出了一種快速獲取非結構信息抽取模板的算法。該算法先對網頁噪聲進行預處理,將其DOM樹結構進行標簽hash映射,通過自動訓練的閾值快速判定網頁的主要部分,根據數據塊中的嵌套結構獲取網頁文本抽取模板。對不同類型網站的實驗表明,該方法快速且具有較高的準確度。
關鍵詞:噪聲;非結構化;文本抽取;模板;閾值
中圖分類號:TP391 文獻標志碼:A 文章編號:1001-3695(2009)07-2646-04
計算機應用研究2009年7期
1《師道·教研》2024年10期
2《思維與智慧·上半月》2024年11期
3《現代工業經濟和信息化》2024年2期
4《微型小說月報》2024年10期
5《工業微生物》2024年1期
6《雪蓮》2024年9期
7《世界博覽》2024年21期
8《中小企業管理與科技》2024年6期
9《現代食品》2024年4期
10《衛生職業教育》2024年10期
關于參考網