999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種新聞網頁關鍵信息的提取算法

2016-09-29 17:40:26向菁菁耿光剛李曉東
計算機應用 2016年8期

向菁菁 耿光剛 李曉東

摘要:針對網頁正文提取算法缺乏通用性,以及對新聞網頁的提取缺乏標題、時間、來源信息的問題,提出一種新聞關鍵信息的提取算法newsExtractor。該算法首先通過預處理將網頁轉換成行號和文本的集合,然后根據字數最長的一句話出現在新聞正文的概率極高的特點,從正文中間開始向兩端尋找正文的起點和終點提取新聞正文,根據最長公共子串算法提取標題,構造正則表達式并以行號輔助判斷提取時間,根據來源的格式特點并輔以行號提取來源;最后構造了數據集與國外開源軟件newsPaper進行提取準確率的對比實驗。實驗結果表明,newsExtractor在正文、標題、時間、來源的平均提取準確率上均優于newsPaper,具有通用性和魯棒性。

關鍵詞:網頁信息提取;新聞信息提取;網頁去噪

中圖分類號:TP391

文獻標志碼:A

0引言

信息抽取[1]的概念最早是由Jim Cowie和Yorick Wilks于1996年提出,他們稱信息抽取就是任何能夠選擇性地將顯式或隱式的文本進行組織和結合的方法,該概念的提出是為了解決互聯網中信息量大且過于繁雜、無法讓用戶快速獲取需要的信息的問題。在近20年的發展中,已有諸多學者針對不同的抽取需求提出了不同的信息抽取方法。在網頁信息提取方面,被提及最多的是網頁正文提取算法,但目前網頁正文提取算法尚存在缺點:首先,算法普遍存在缺乏通用性的問題;其次,在某些應用場合(如:新聞溯源)除正文之外還需要新聞的標題、時間和來源信息,但目前尚沒有能夠完全滿足需求的方法。因此,本文主要基于此展開研究。

1相關研究

針對不同的信息抽取需求,不同的學者提出的算法也不盡相同。

比如,識別網頁中的實體(如:人名、地名、事件名、時間等),文獻[2]提出了一種算法用于識別生物期刊摘要中的人體蛋白質名稱;根據抽取規則生成方式的不同,又可以分為自動生成[3-4]和半自動生成[5]兩類。

對于網頁正文的提取算法,國內外也已有許多方法,簡單歸類如下:

1)基于網頁標簽[6-8]。這類方法依賴HTML語言中的閉合標簽對(如:

)或起分割作用標簽(如:

、

)進行提取。但HTML語言本身對使用者來說不具有標準的格式,再加上層疊樣式表(Cascading Style Sheets, CSS)盛行之后,為了顯示的美觀而添加的各類元素使得頁面內容變得更為復雜,因此,該方法并不具備魯棒性。

2)基于模板[5,9-10]。這類方法通過給定的模板將需要的網頁信息輸出,優點在于準確率較其他方法高;缺點是如果為每個待提取的網頁都設計模板,計算和時間開銷大,缺乏通用性。

3)基于文檔對象模型(Document Object Model, DOM)樹結構[11-13]。HTML網頁可以解析成DOM樹的結構,然后根據DOM樹的結構特性提取正文。文獻[11]中就提出了一種方法:首先確定部分正文內容,然后依據路徑相似度尋找其他正文,最終合并為網頁正文。文獻[12]則在文獻[11]的基礎上進行了改進。

4)基于布局相似性[14-16]。網頁所屬網站的網頁具有布局相似的特點,在同一個網站多個網頁中頻繁出現的內容具有極大概率為噪聲。該方法不具備實時性,在對于某一網頁進行提取時,必須先獲取與其布局類似的其他網頁。

5)基于視覺熱區[17]。這種方法主要依據人們在瀏覽網頁時視覺頻繁停留的區域去判斷正文的位置進行提取。該方法的理論支撐不足,同時也缺乏大量的視覺數據支持

此外,還有學者使用了不同方法的結合[18]以及融合了機器學習的方法[19]。

綜上所述,以上提及的方法或過時(例如基于網頁標簽的方法中依賴

的方法,早期沒有CSS,主要使用

主站蜘蛛池模板: 亚洲无码电影| 亚洲精品777| 成人一区在线| 一本久道热中字伊人| 国产视频一区二区在线观看| 久久黄色小视频| 国产成人h在线观看网站站| AV无码无在线观看免费| 国产福利小视频在线播放观看| 欧美啪啪精品| 99re热精品视频国产免费| 国产精品亚洲精品爽爽| 日韩AV手机在线观看蜜芽| 中文精品久久久久国产网址| 高h视频在线| 999精品色在线观看| 久久婷婷五月综合色一区二区| 国产成人无码久久久久毛片| 久久亚洲高清国产| 国产精品人人做人人爽人人添| 任我操在线视频| 亚洲人成网18禁| 久久国产精品影院| 亚洲一本大道在线| 蜜臀AVWWW国产天堂| 囯产av无码片毛片一级| 亚洲最新网址| 国产黄色免费看| 国产精品亚洲а∨天堂免下载| 国产导航在线| 国产成人亚洲精品蜜芽影院| 国产区91| 久久国产亚洲偷自| 99久久国产综合精品2020| 国产黑人在线| 99视频只有精品| 中文字幕亚洲精品2页| 国产尤物在线播放| 国产精品理论片| 在线观看视频99| 无码视频国产精品一区二区| 免费在线国产一区二区三区精品| 免费国产无遮挡又黄又爽| 中文天堂在线视频| 白浆免费视频国产精品视频 | 国产国拍精品视频免费看| 国产h视频在线观看视频| 亚洲天堂视频在线播放| 欧美日韩成人| 精品夜恋影院亚洲欧洲| 日韩欧美国产另类| 国产成人乱码一区二区三区在线| 久青草免费在线视频| 一级爱做片免费观看久久| 日a本亚洲中文在线观看| 免费看美女毛片| 99r在线精品视频在线播放 | 亚洲综合第一页| 国产美女免费网站| 欧洲免费精品视频在线| 97久久人人超碰国产精品| 成·人免费午夜无码视频在线观看 | 久久综合九色综合97网| 国内老司机精品视频在线播出| 99视频只有精品| 亚洲精品日产精品乱码不卡| 国内精品一区二区在线观看| 青青热久麻豆精品视频在线观看| 国产肉感大码AV无码| 中文字幕永久在线观看| 五月婷婷丁香综合| 国产日韩欧美在线视频免费观看| 国产成a人片在线播放| 欧美黄网在线| 国产综合精品日本亚洲777| 亚洲欧美一区二区三区麻豆| 99福利视频导航| 亚洲人成高清| 国产乱子伦精品视频| 国内精品自在自线视频香蕉| 1级黄色毛片| 久久久久久久蜜桃|