摘要:提出一種改進的樹匹配算法,通過考量HTML特性,對樹編輯距離方法進行改進,根據不同HTML樹結點在瀏覽器中所顯示的相關數據的不同權重賦以不同的權重值。算法由HTML數據對象構造具有結點權重的HTML樹,模式識別通過取得兩棵構造樹的最大映射值達成。通過基于商用網站的實驗對算法有效性進行了證實。
關鍵詞:信息抽取;DOM;樹編輯距離;模式識別
注:本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文
計算機時代2010年3期
1《師道·教研》2024年10期
2《思維與智慧·上半月》2024年11期
3《現代工業經濟和信息化》2024年2期
4《微型小說月報》2024年10期
5《工業微生物》2024年1期
6《雪蓮》2024年9期
7《世界博覽》2024年21期
8《中小企業管理與科技》2024年6期
9《現代食品》2024年4期
10《衛生職業教育》2024年10期
關于參考網