一種高效的新聞網(wǎng)頁噪聲過濾方法

2011-05-14 11:58:46鄒永強(qiáng)鐘志農(nóng)

網(wǎng)絡(luò)安全與數(shù)據(jù)管理 2011年16期

關(guān)鍵詞：文本方法

鄒永強(qiáng)，鐘志農(nóng)

（國防科技大學(xué) 電子科學(xué)與工程學(xué)院，湖南長沙410073）

目前，互聯(lián)網(wǎng)的網(wǎng)頁除了表達(dá)主題的文本內(nèi)容之外，還常常包括與主題無關(guān)的導(dǎo)航區(qū)、超鏈接、廣告信息、版權(quán)信息等噪聲信息。這些噪聲對(duì)后續(xù)處理是十分不利的，一方面它增加了處理的工作量，耗費(fèi)了不必要的資源；另一方面它使得處理的效果大打折扣，使結(jié)果出錯(cuò)的概率大大增加。因此網(wǎng)頁噪聲過濾是每個(gè)面向網(wǎng)絡(luò)文本處理的應(yīng)用技術(shù)都要考慮的，尤其是在網(wǎng)絡(luò)文本挖掘和網(wǎng)絡(luò)人物追蹤等對(duì)精度和速度要求都比較高的應(yīng)用中，其重要性更是不言而喻。

網(wǎng)頁噪聲過濾的目的是快速準(zhǔn)確地識(shí)別并清除網(wǎng)頁內(nèi)的噪聲，它是提高各種網(wǎng)頁分析系統(tǒng)性能的一項(xiàng)關(guān)鍵技術(shù)。許多學(xué)者為了提高網(wǎng)頁濾噪的準(zhǔn)確度和效率進(jìn)行了卓有成效的研究，紛紛提出各自的方法并且不斷加以改進(jìn)[1-6]。而參考文獻(xiàn)[7]提出了一種快速且簡單的正文提取方法，它不需要構(gòu)造DOM樹而是直接把HTML源文件看作是文本塊的集合，僅通過分析每個(gè)文本塊的字符數(shù)就可以提取出正文。與基于DOM的方法相比，這種方法在處理速度上有很大的優(yōu)勢(shì)。

本文在分析總結(jié)新聞網(wǎng)頁特征的基礎(chǔ)上利用基本文本塊的字符數(shù)統(tǒng)計(jì)規(guī)律，提出了一種高效的過濾方法，它有很高的提取準(zhǔn)確率和過濾速度，并且此方法在提取出新聞?wù)奈谋镜耐瑫r(shí)還提取出了新聞網(wǎng)頁的標(biāo)題和報(bào)道時(shí)間。

1 網(wǎng)頁噪聲過濾算法

盡管網(wǎng)頁結(jié)構(gòu)、網(wǎng)頁布局千差萬別，但還是有一定的規(guī)律可循。在參考文獻(xiàn)[7]中，網(wǎng)頁源文件被分割成多個(gè)文本塊，然后根據(jù)文本塊字符數(shù)的統(tǒng)計(jì)規(guī)律，在通過一定的處理后得到nshort和nlong兩個(gè)閾值，最后根據(jù)這兩個(gè)閾值得到要提取的文本塊集合。該方法處理速度較快，但是精度上卻有所欠缺，而且會(huì)發(fā)生大段文本塊遺漏的現(xiàn)象。問題主要出在閾值的選取上，本文希望通過對(duì)參考文獻(xiàn)[7]的方法進(jìn)行改進(jìn)從而提高提取精度、減少文本塊的遺漏，同時(shí)實(shí)現(xiàn)新聞標(biāo)題和報(bào)道時(shí)間的提取。

1.1 新聞網(wǎng)頁的特征

新聞網(wǎng)頁一般包括新聞標(biāo)題、新聞報(bào)道時(shí)間、作者、新聞?wù)牡刃侣動(dòng)行畔ⅲ渤３０▽?dǎo)航區(qū)、超鏈接、版權(quán)信息以及圖片控件廣告等噪聲信息。通過大量觀察發(fā)現(xiàn)新聞?dòng)行畔⒔^大多數(shù)處于網(wǎng)頁源文件的中間位置，而且由相對(duì)較長且位置緊湊的多個(gè)段落組成。這些緊挨著的段落字?jǐn)?shù)多少不同，中間還可能插有少量的鏈接。而噪聲信息一般來說字?jǐn)?shù)比較少，而且大多一般處在邊緣位置。

再來看新聞網(wǎng)頁HTML源文件的特征。HTML源文件由各種標(biāo)簽和標(biāo)簽所修飾的內(nèi)容組成。這些標(biāo)簽根據(jù)作用的不同可以分為網(wǎng)頁布局元素（如