999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種高效的新聞網(wǎng)頁噪聲過濾方法

2011-05-14 11:58:46鄒永強(qiáng)鐘志農(nóng)
關(guān)鍵詞:文本方法

鄒永強(qiáng),鐘志農(nóng)

(國防科技大學(xué) 電子科學(xué)與工程學(xué)院,湖南 長沙410073)

目前,互聯(lián)網(wǎng)的網(wǎng)頁除了表達(dá)主題的文本內(nèi)容之外,還常常包括與主題無關(guān)的導(dǎo)航區(qū)、超鏈接、廣告信息、版權(quán)信息等噪聲信息。這些噪聲對(duì)后續(xù)處理是十分不利的,一方面它增加了處理的工作量,耗費(fèi)了不必要的資源;另一方面它使得處理的效果大打折扣,使結(jié)果出錯(cuò)的概率大大增加。因此網(wǎng)頁噪聲過濾是每個(gè)面向網(wǎng)絡(luò)文本處理的應(yīng)用技術(shù)都要考慮的,尤其是在網(wǎng)絡(luò)文本挖掘和網(wǎng)絡(luò)人物追蹤等對(duì)精度和速度要求都比較高的應(yīng)用中,其重要性更是不言而喻。

網(wǎng)頁噪聲過濾的目的是快速準(zhǔn)確地識(shí)別并清除網(wǎng)頁內(nèi)的噪聲,它是提高各種網(wǎng)頁分析系統(tǒng)性能的一項(xiàng)關(guān)鍵技術(shù)。許多學(xué)者為了提高網(wǎng)頁濾噪的準(zhǔn)確度和效率進(jìn)行了卓有成效的研究,紛紛提出各自的方法并且不斷加以改進(jìn)[1-6]。而參考文獻(xiàn)[7]提出了一種快速且簡單的正文提取方法,它不需要構(gòu)造DOM樹而是直接把HTML源文件看作是文本塊的集合,僅通過分析每個(gè)文本塊的字符數(shù)就可以提取出正文。與基于DOM的方法相比,這種方法在處理速度上有很大的優(yōu)勢(shì)。

本文在分析總結(jié)新聞網(wǎng)頁特征的基礎(chǔ)上利用基本文本塊的字符數(shù)統(tǒng)計(jì)規(guī)律,提出了一種高效的過濾方法,它有很高的提取準(zhǔn)確率和過濾速度,并且此方法在提取出新聞?wù)奈谋镜耐瑫r(shí)還提取出了新聞網(wǎng)頁的標(biāo)題和報(bào)道時(shí)間。

1 網(wǎng)頁噪聲過濾算法

盡管網(wǎng)頁結(jié)構(gòu)、網(wǎng)頁布局千差萬別,但還是有一定的規(guī)律可循。在參考文獻(xiàn)[7]中,網(wǎng)頁源文件被分割成多個(gè)文本塊,然后根據(jù)文本塊字符數(shù)的統(tǒng)計(jì)規(guī)律,在通過一定的處理后得到nshort和nlong兩個(gè)閾值,最后根據(jù)這兩個(gè)閾值得到要提取的文本塊集合。該方法處理速度較快,但是精度上卻有所欠缺,而且會(huì)發(fā)生大段文本塊遺漏的現(xiàn)象。問題主要出在閾值的選取上,本文希望通過對(duì)參考文獻(xiàn)[7]的方法進(jìn)行改進(jìn)從而提高提取精度、減少文本塊的遺漏,同時(shí)實(shí)現(xiàn)新聞標(biāo)題和報(bào)道時(shí)間的提取。

1.1 新聞網(wǎng)頁的特征

新聞網(wǎng)頁一般包括新聞標(biāo)題、新聞報(bào)道時(shí)間、作者、新聞?wù)牡刃侣動(dòng)行畔ⅲ渤30▽?dǎo)航區(qū)、超鏈接、版權(quán)信息以及圖片控件廣告等噪聲信息。通過大量觀察發(fā)現(xiàn)新聞?dòng)行畔⒔^大多數(shù)處于網(wǎng)頁源文件的中間位置,而且由相對(duì)較長且位置緊湊的多個(gè)段落組成。這些緊挨著的段落字?jǐn)?shù)多少不同,中間還可能插有少量的鏈接。而噪聲信息一般來說字?jǐn)?shù)比較少,而且大多一般處在邊緣位置。

再來看新聞網(wǎng)頁HTML源文件的特征。HTML源文件由各種標(biāo)簽和標(biāo)簽所修飾的內(nèi)容組成。這些標(biāo)簽根據(jù)作用的不同可以分為網(wǎng)頁布局元素(如

)和網(wǎng)頁描述元素(如)。通過對(duì)標(biāo)簽的分析可以發(fā)現(xiàn)有些標(biāo)簽所修飾的內(nèi)容全是噪聲(如 主站蜘蛛池模板: 狠狠色噜噜狠狠狠狠奇米777| 国产精品护士| 欧美a在线视频| 亚洲青涩在线| 亚洲第一区在线| 无码一区二区波多野结衣播放搜索| 爆乳熟妇一区二区三区| 国产全黄a一级毛片| 台湾AV国片精品女同性| 日本不卡视频在线| 亚洲国产成人综合精品2020| 精品久久高清| 无码专区国产精品一区| 91福利片| 亚洲中字无码AV电影在线观看| 激情综合图区| 成人精品午夜福利在线播放| 成人另类稀缺在线观看| 爱爱影院18禁免费| 四虎成人精品在永久免费| 亚洲全网成人资源在线观看| 色婷婷成人网| 久热精品免费| 国产无码高清视频不卡| 免费AV在线播放观看18禁强制| 日韩视频免费| 日本午夜精品一本在线观看| 在线观看视频99| 亚瑟天堂久久一区二区影院| 日本人妻丰满熟妇区| 永久成人无码激情视频免费| 青青草原国产免费av观看| 国产人成乱码视频免费观看| 久久亚洲黄色视频| 香蕉视频在线观看www| 视频二区国产精品职场同事| 熟妇人妻无乱码中文字幕真矢织江| 亚洲高清在线播放| 丁香婷婷激情网| 美女无遮挡免费网站| 92午夜福利影院一区二区三区| 国产区在线看| 国产一在线| 青青青国产视频| 亚洲成人网在线观看| 999福利激情视频| 在线观看av永久| 亚洲中文在线视频| 国产真实乱子伦视频播放| 亚洲精品中文字幕无乱码| 亚洲天堂视频网| 欧美在线国产| 亚洲性视频网站| 国产69精品久久久久妇女| www.av男人.com| 久久网综合| 亚洲swag精品自拍一区| 亚洲天堂精品视频| 久久久噜噜噜| 亚洲国产成人久久精品软件| 中文字幕永久在线看| 国内精品手机在线观看视频| 999国产精品永久免费视频精品久久| 国产黄网站在线观看| 欧美精品黑人粗大| 国产一区二区三区精品久久呦| 久久精品aⅴ无码中文字幕 | 国产毛片基地| 国产成人亚洲精品无码电影| 香蕉久人久人青草青草| 国产亚洲视频免费播放| 久久99国产精品成人欧美| 婷婷亚洲视频| 无码一区18禁| 在线看片免费人成视久网下载| 亚洲h视频在线| 国产乱码精品一区二区三区中文 | 午夜不卡视频| 一级成人欧美一区在线观看| 又爽又黄又无遮挡网站| 一级毛片免费的| 伊人久久久久久久久久|