摘要:隨著Internet網絡的日益普及,web上的海量數據給文本挖掘尤其是網頁主題提取帶來了更多的挑戰,現有的文本提取方法在保證高準確率的同時無法滿足web挖掘方法的通用性。通過對web網頁結構進行研究,對網頁生成樹模型進行了改進,找到網頁結構的通用規則,提出一種基于特征符號的提取方法CECS(content extraction characteristic symbols),結合相關度對網頁主題內容進行提取。實驗證明,所提算法具有很高的準確性和通用性。
關鍵詞:生成樹模型;特征符號;相關度;主題提取
中圖分類號:TP391 文獻標志碼:A 文章編號:1001-3695(2009)12-4539-03