999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于網絡爬蟲的新聞網站自動生成系統的設計與實現

2019-08-23 03:06:36劉暉石倩
電子技術與軟件工程 2019年13期
關鍵詞:內容信息

文/劉暉 石倩

1 緒論

網絡媒體隨著網絡技術的發展迅速壯大,這使得人們能夠更快地獲取新聞信息。網絡媒體的新聞來源有來自于自己所采訪的新聞,也有許多引用自其他的網站。如何快速準確地采集新聞,更新新聞網站成為網絡媒體的一個重要問題。

2 研究進展

早期的新聞采集大多靠人工去搜索和整理,直到網絡爬蟲技術的出現才使得人工得以解放,大大提高了新聞的采集速度。為了更加快速準確地抓取網頁,Cho[1]等人在爬蟲中引入了網頁抓取策略的概念。針對特定領域的新聞,王辛[2]等人基于站點分類的網頁抓取策略,設計了即時新聞采集分析系統。雖然現在有了不少爬蟲框架,陳歡[3]等人也利用Scrapy爬蟲框架設計了有效的網絡新聞爬蟲。但由于網絡中的網頁中存在著大量的與新聞無關的噪聲信息,如何去除噪聲,快速有效地找到有效的新聞信息近年被廣泛地研究。陳西安[4]提出了基于網頁文本標簽特征挖掘的網頁正文提取方法來解決噪聲問題。

快速新聞網站生成系統的重要組成部分,除了快速采集新聞,還有新聞頁面模板。新聞頁面模板可以為采集到的新聞內容自動生成新聞頁面,這能大大加快新網網站內容更新速度。另一方面,可以借助新聞頁面模板,將新聞網頁轉換成靜態網頁,這能大大提高用戶訪問頁面的速度。王莉利[5]等人提出的將動靜技術相結合的思路則能夠既保留動態網站的交互性,又克服傳統網站訪問效率低、并發性差的問題。

3 系統分析和設計

3.1 系統功能模塊劃分

本文根據新聞網站采集和更新的相關功能需求,設計一個新聞網站自動生成系統,它包括“新聞采集管理”、“新聞管理”、“新聞模板管理”三部分。通過管理新聞網站網址及新聞內容的特殊標簽,讓爬蟲根據預先設置的參數迅速地采集新聞信息,并利用網頁模板自動生成新聞靜態網頁,從而達到新聞網站自動快速更新的效果。整個系統的功能模塊如圖1所示。

3.2 新聞采集管理

“新聞采集管理”是對預備采集新聞的網站網址進行管理以及進行新聞搜索。為了更快速準確地去采集新聞信息,系統不會對網絡中的所有網站進行新聞信息爬取,而是有針對性地選擇主流的新聞網站作為新聞采集對象,建立新聞采集網址庫。

在爬蟲自動抽取網站新聞信息時,主要抽取的信息包括新聞標題、新聞來源、新聞日期、新聞內容等。通常同一個網站內的新聞網頁都具有相同的格式,這些信息都由特定的HTML起止標簽容納。所以可以通過預先設置需要采集項目的HTML起止標簽讓爬蟲自動地對網頁進行分析,抓取其中有用的新聞信息。在設置HTML起止標簽時,需要考慮如下問題:

(1)有些標簽是單標簽,此時需要擴大起止標簽的范圍,避免選擇單標簽;

(2)在抓取新聞信息的過程中,需要注意網站頁面設置的編碼是UTF-8還是GB2312,這對于爬蟲分析網頁是十分重要的。

設置好所有預備采集的新聞網站的采集參數后,就可以通過“搜索新聞”功能自動地運行爬蟲程序去抓取新聞內容,并將相關內容保存到本地服務器的數據庫中。由于爬蟲搜索網頁并存儲到本地服務器的過程通常會比較耗時,所以通常在新聞網站訪問量較少的夜間自動進行。

為提高搜索新聞的速度,我們提出了一種批處理的方式進行搜索。批處理的搜索是利用多線程來實現的,以隊列的方式建立線程池,通過多線程來提高搜索的效率。因為網速等客觀原因,在搜索和分析新聞網站時需要的響應時間不同,系統會自動根據網路傳輸速度調節分析新聞網頁的延時。

3.3 新聞管理

“新聞管理”是對采集到的新聞進行管理,它包括預覽、編輯、確認等操作。雖然在新聞采集階段,通過參數設置可以基本保證采集到的新聞信息具有較高的準確度,但也不可完全避免采集到的信息出錯的情況。所以,新聞編輯人員可以通過提供的預覽功能對采集到的新聞信息進行預覽和審核。當發現有些采集到的新聞信息中有部分內容不準確時,新聞編輯人員可以通過“編輯新聞”對其進行編輯加工。更多的出錯情況通常是因為有部分新聞網頁信息沒有遵循網站共同的格式而導致采集到的信息出錯,此時采集到的整條新聞內容信息都可能異常。不論何種情況,新聞編輯人員都可以通過“確認新聞”的功能來確定這條新聞是否可刊登。只有那些被標記為“允許刊登”的新聞信息條目才會自動生成靜態新聞網頁,并在網站上正式發布。

圖1:系統功能模塊圖

對于確認過的新聞,系統每天定時在夜間維護時創建一個當天的新聞數據表,并將當天所有確認的新聞復制到此表中,這樣每天生成新聞網頁時可從這個數據表讀取要刊登的新聞。當數據量比較大時,這樣可以提高數據庫的訪問效率。當采集的新聞數據非常大時,我們也可以借助基于Hadoop框架的大數據存儲系統來管理新聞數據。

3.4 新聞模板管理

“新聞模板管理”包括新聞模板的展示,以及靜態新聞網頁的生成。新聞網頁的內容雖然不同,但頁面的樣式、風格可以統一。所以我們事先設計好很多不同風格樣式的網頁模板供新聞編輯人員進行選擇。新聞編輯人員可以通過“新聞模板顯示”查看已有的網頁模板并進行選擇。選擇好合適的網頁模板后,通過“靜態網頁生成”功能可將編輯人員確認允許刊登的新聞數據轉化轉化成靜態網頁格式。為了節省時間,系統默認從當天確認刊登的新聞數據表中逐條讀取新聞數據,然后將新聞標題、新聞來源、新聞日期、新聞內容等字段的內容放置在新聞模板中對應標簽中。所有生成的靜態網頁保存在以對應日期命名的文件夾內。靜態網頁使得用戶訪問時大大減少由于讀寫數據庫而造成的效率低下問題。

4 系統測試與結論

通過對多個網站的教育板塊進行新聞信息抓取,我們發現所設計的系統能夠快速準確地實現自動采集新聞、自動生成新聞網站的功能。但是,由于采集信息是根據新聞網頁中的特殊HTML標簽進行采集的,如果采集來源網頁樣式發生改變,則會抽取不出新聞內容,此時需要重新標注采集來源網址中的特殊HTML標簽。此外,對于新聞內容的合法性,目前主要通過人工校驗,今后可以考慮借助文本的語義分析等手段進行自動處理。

猜你喜歡
內容信息
內容回顧溫故知新
科學大眾(2022年11期)2022-06-21 09:20:52
內容回顧 溫故知新
科學大眾(2021年21期)2022-01-18 05:53:48
內容回顧溫故知新
科學大眾(2021年17期)2021-10-14 08:34:02
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
主要內容
臺聲(2016年2期)2016-09-16 01:06:53
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
信息
建筑創作(2001年3期)2001-08-22 18:48:14
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
健康信息(九則)
祝您健康(1987年2期)1987-12-30 09:52:28
健康信息(十則)
祝您健康(1986年5期)1986-12-30 09:52:22
主站蜘蛛池模板: 丁香婷婷激情网| 任我操在线视频| 国产喷水视频| 亚洲黄色视频在线观看一区| 国产乱人伦精品一区二区| 2020国产在线视精品在| 伊人久久精品亚洲午夜| 美女黄网十八禁免费看| 日本不卡在线视频| 91久久天天躁狠狠躁夜夜| 国产精品成人免费视频99| 欧美在线一二区| 国产精品浪潮Av| 好紧太爽了视频免费无码| 少妇精品在线| 1024你懂的国产精品| 亚洲精品第一页不卡| 美女毛片在线| 五月天福利视频| 国产99视频在线| 日韩精品中文字幕一区三区| 在线观看无码av免费不卡网站 | 亚洲人成在线免费观看| 国产成人做受免费视频| 国产网友愉拍精品视频| 亚洲天堂网2014| 青青草一区| 国产亚洲欧美在线中文bt天堂| 国产精品九九视频| 一本久道久久综合多人| 国产区成人精品视频| 久久久久亚洲AV成人人电影软件| 国产成人免费手机在线观看视频 | 99热免费在线| 91系列在线观看| 亚洲精品成人片在线观看| 97国产在线视频| 亚洲永久视频| 欧美国产菊爆免费观看 | 国产精品观看视频免费完整版| 亚洲综合狠狠| 国产精品30p| 青青草一区| 67194亚洲无码| 国产在线观看99| 国产激情在线视频| 亚洲综合专区| 麻豆精品在线视频| 欧美日韩亚洲国产| 114级毛片免费观看| 日韩国产一区二区三区无码| 国产欧美日韩视频怡春院| 成人福利在线看| 丁香六月激情综合| 久久免费精品琪琪| 中文字幕1区2区| 99久久精品无码专区免费| 亚洲成人高清在线观看| 国产在线视频二区| 啪啪免费视频一区二区| 国产麻豆精品久久一二三| 香蕉视频在线观看www| 国产丝袜一区二区三区视频免下载| 成人字幕网视频在线观看| a级毛片网| 日韩二区三区| 91福利片| 亚洲第一色网站| 国产不卡在线看| 国产手机在线ΑⅤ片无码观看| 久久成人国产精品免费软件| 日韩精品免费在线视频| 少妇精品网站| 久久精品一品道久久精品| 久久久久久久97| 成人精品视频一区二区在线| 丝袜国产一区| 中文一区二区视频| 欧美亚洲欧美| 91精品国产丝袜| 激情亚洲天堂| 国产欧美在线观看一区|