范媚琳 司明皎 孟媛
DOI:10.19392/j.cnki.16717341.201714071
摘要:本文提出了一種新穎的通用論壇信息的提取算法。針對標(biāo)題,利用論壇標(biāo)題與網(wǎng)頁標(biāo)題相同這一特征提取。針對回帖模塊的定位,我們提出了一種稱為基于相似性度量和最低公共父節(jié)點(diǎn)的邊界確定(BDBSL)的算法。針對回帖內(nèi)容的提取,我們利用該標(biāo)簽所采用的css樣式絕大多數(shù)都含有minheight屬性這一特點(diǎn)進(jìn)行提取。針對主題帖,利用主題帖獨(dú)有的分享模塊進(jìn)行單獨(dú)提取。
關(guān)鍵詞:論壇正文提取;BDBSL算法;dom樹;html
1 標(biāo)題的提取
通過查看網(wǎng)頁的源代碼我們發(fā)現(xiàn),論壇標(biāo)題總是用來做網(wǎng)頁標(biāo)題,而網(wǎng)頁的標(biāo)題在標(biāo)簽下面的