鄒永強(qiáng),鐘志農(nóng)
(國防科技大學(xué) 電子科學(xué)與工程學(xué)院,湖南 長沙410073)
目前,互聯(lián)網(wǎng)的網(wǎng)頁除了表達(dá)主題的文本內(nèi)容之外,還常常包括與主題無關(guān)的導(dǎo)航區(qū)、超鏈接、廣告信息、版權(quán)信息等噪聲信息。這些噪聲對(duì)后續(xù)處理是十分不利的,一方面它增加了處理的工作量,耗費(fèi)了不必要的資源;另一方面它使得處理的效果大打折扣,使結(jié)果出錯(cuò)的概率大大增加。因此網(wǎng)頁噪聲過濾是每個(gè)面向網(wǎng)絡(luò)文本處理的應(yīng)用技術(shù)都要考慮的,尤其是在網(wǎng)絡(luò)文本挖掘和網(wǎng)絡(luò)人物追蹤等對(duì)精度和速度要求都比較高的應(yīng)用中,其重要性更是不言而喻。
網(wǎng)頁噪聲過濾的目的是快速準(zhǔn)確地識(shí)別并清除網(wǎng)頁內(nèi)的噪聲,它是提高各種網(wǎng)頁分析系統(tǒng)性能的一項(xiàng)關(guān)鍵技術(shù)。許多學(xué)者為了提高網(wǎng)頁濾噪的準(zhǔn)確度和效率進(jìn)行了卓有成效的研究,紛紛提出各自的方法并且不斷加以改進(jìn)[1-6]。而參考文獻(xiàn)[7]提出了一種快速且簡單的正文提取方法,它不需要構(gòu)造DOM樹而是直接把HTML源文件看作是文本塊的集合,僅通過分析每個(gè)文本塊的字符數(shù)就可以提取出正文。與基于DOM的方法相比,這種方法在處理速度上有很大的優(yōu)勢(shì)。
本文在分析總結(jié)新聞網(wǎng)頁特征的基礎(chǔ)上利用基本文本塊的字符數(shù)統(tǒng)計(jì)規(guī)律,提出了一種高效的過濾方法,它有很高的提取準(zhǔn)確率和過濾速度,并且此方法在提取出新聞?wù)奈谋镜耐瑫r(shí)還提取出了新聞網(wǎng)頁的標(biāo)題和報(bào)道時(shí)間。
盡管網(wǎng)頁結(jié)構(gòu)、網(wǎng)頁布局千差萬別,但還是有一定的規(guī)律可循。在參考文獻(xiàn)[7]中,網(wǎng)頁源文件被分割成多個(gè)文本塊,然后根據(jù)文本塊字符數(shù)的統(tǒng)計(jì)規(guī)律,在通過一定的處理后得到nshort和nlong兩個(gè)閾值,最后根據(jù)這兩個(gè)閾值得到要提取的文本塊集合。該方法處理速度較快,但是精度上卻有所欠缺,而且會(huì)發(fā)生大段文本塊遺漏的現(xiàn)象。問題主要出在閾值的選取上,本文希望通過對(duì)參考文獻(xiàn)[7]的方法進(jìn)行改進(jìn)從而提高提取精度、減少文本塊的遺漏,同時(shí)實(shí)現(xiàn)新聞標(biāo)題和報(bào)道時(shí)間的提取。
新聞網(wǎng)頁一般包括新聞標(biāo)題、新聞報(bào)道時(shí)間、作者、新聞?wù)牡刃侣動(dòng)行畔ⅲ渤30▽?dǎo)航區(qū)、超鏈接、版權(quán)信息以及圖片控件廣告等噪聲信息。通過大量觀察發(fā)現(xiàn)新聞?dòng)行畔⒔^大多數(shù)處于網(wǎng)頁源文件的中間位置,而且由相對(duì)較長且位置緊湊的多個(gè)段落組成。這些緊挨著的段落字?jǐn)?shù)多少不同,中間還可能插有少量的鏈接。而噪聲信息一般來說字?jǐn)?shù)比較少,而且大多一般處在邊緣位置。
再來看新聞網(wǎng)頁HTML源文件的特征。HTML源文件由各種標(biāo)簽和標(biāo)簽所修飾的內(nèi)容組成。這些標(biāo)簽根據(jù)作用的不同可以分為網(wǎng)頁布局元素(如