999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于大數據技術的新聞采集和事件分析系統的設計與實現

2018-02-14 12:49:08馬旭王淑麗
數字技術與應用 2018年10期
關鍵詞:數據采集大數據技術

馬旭 王淑麗

摘要:為了解決獲取互聯網新聞時查找慢、數據雜、閱讀效率低的問題,本文提出了一種基于大數據技術的新聞采集和事件分析系統。該系統首先采集互聯網新聞數據,運用數據清洗、分布式存儲等技術存到數據庫;接著對數據進行分析,運用機器學習等技術,進而得到新聞主主題;然后新聞進行聚合,獲取到事件主題;最后根據事件主體對所有時間進行展示,實現了對于互聯網新聞的采集與事件分析的全過程。該系統提高了獲取互聯網新聞的效率,并解決了數據雜亂和閱讀效率低的問題。

關鍵詞:大數據技術;數據采集;事件分析;新聞分析;系統設計

中圖分類號:TP311? ?文獻標識碼:A? 文章編號:1007-9416(2018)10-0000-00

1 前言

隨著社會的快速發展,現代科技的進步,使得互聯網以一種迅猛的速度快速增長,影響著人們的生活和工作方式。特別是近些年來,移動互聯網、大數據、云計算等新興技術的出現和其迅猛的發展,使人們在網絡空間的活動范圍不斷擴大,這也使得網絡上的信息與日俱增。新聞報道一般具有多維的特征,但是一篇新聞可能僅僅包含其中一維或幾維特征,通過一篇新聞往往不能夠更加深入的了解某個事件。

在信息化技術高速發展的時代,網民人數不斷增多,互聯網信息呈指數增長,網絡輿情的表達方式多種多樣,新聞、微博、貼吧等是其中重要的信息傳播渠道。例如,閱讀移動新聞客戶端推送新聞是網民獲取第一手信息最為常見的方式,而微博和貼吧等平臺則為網民提供了充分表達意見分享觀點的平臺。多個平臺形成了一個相互關聯的互聯網信息網絡。互聯網信息傳播中,同一事件在不同平臺上有不同的表現形式,同一參與者在不同平臺上也有不同的虛擬身份和行為特征。正因為如此,輿情信息可迅速跨平臺傳播,其傳播機理更為復雜,人為分析很難獲取到準確的信息,給相關企業、部門造成巨大的影響。

隨著人們的物質需求的逐漸滿足,人們逐漸將注意力轉移到了效率上,但是由于互聯網新聞的爆炸式增長以及組織方式雜亂無章,嚴重降低民眾獲取信息的效率。傳統新聞事件的處理是由工作人員人工確定新聞的主題,并將相同主題的新聞關聯在一起,供用戶閱讀,但是這樣的處理方式效率較低,并占用了大量的人工成本。

2 平臺簡介

針對上述提到的一些問題,本文提出了基于大數據技術的新聞采集和時間分析系統。該平臺基于大數據技術,能夠滿足民眾對于獲取新聞的有關需求,提高了用戶獲取信息的效率。平臺具體包括采集數據、清洗數據、存儲數據、分析數據和展示數據等功能。用戶通過這個平臺可以獲取關于某個主題相關的信息或者獲取事件相關的信息,免去了用戶手動去辨別新聞的時間,在一定程度上增加了獲取信息的效率該平臺在一定程度上能夠解決傳統新聞行業中信息雜、效率低等缺點。

3 系統設計流程

該平臺的整體分為三個部分,分別為數據獲取、數據分析、數據展示。其中數據獲取的詳細過程為:首先使用Python的bs4和requests等庫對當天的新聞進行獲取,同時對獲取到的數據進行處,去除無用的標簽、圖片新聞和視頻新聞等,以獲取正常的文本信息,方便后續的處理;數據分析的詳細過程如下:在Hadoop平臺使用Map和Redece程序將每條新聞進行分詞處理,其中的分詞工具為Python的jieba分詞模塊,在分詞的過程中去除停用詞和其他沒有實際應用價值的副詞等;然后分別計算每一個詞的TF-IDF值,通過TF-IDF間的相互計算,得出每條新聞的關鍵詞,然后通過訓練好的LDA主題模型,對這個新聞的主題進行確定該條新聞的主題,這樣就獲得了每條新聞的一個在二維展開的向量;獲得每條新聞的向量之后計算向量之間的距離,其中距離大于設定的閾值的,系統判定為話題相同。其中數據展示的詳細過程為:用戶在前端操作后,后臺返回相應數據,由前端進行展示。新聞的采集和事件分析系統過程如圖1所示。

前端的交互界面流程如圖2所示。

4 平臺的實現方案

4.1 數據采集

平臺在每天凌晨自動運行數據爬取程序,將新聞的題目、正文、來源、發布時間和作者的等信息清洗出來,并將數據存儲在數據庫中。

4.2新聞來源統計

在前端,系統的默認展示界面是新聞來源統計界面。當該界面被打開的時候,前端向后端發送請求,后端獲取到請求之后,從數據庫中取全部的數據,獲取它們的來源字段并統計,統計完成之后將數據打包成json格式并返回到前端,前端通過Echarts框架將數據解析,并生成美觀的圖表,用戶就可以看到效果了。

4.3 智能搜索

在前端,系統的第二個界面是智能搜索界面。用戶將想要搜索的新聞主題填入搜索框,用戶點擊按鈕之后,前端將該新聞主題發送到后端,后端接收到數據之后,將數據通過提前訓練好的模型進行計算,獲取到與該主題詞距離相近的若干新聞之間的距離,然后根據距離排序將數據打包成json格式并返回到前端。前端接收數據之后,根據距離的大小通過列表的形式將數據展示出來。

4.4 事件展示

在前端,系統的第三個界面是智能搜索界面。每次爬蟲工作做完之后,系統將獲取到的數據分別進行分詞并導入模型進行計算,然后分別統計每兩條新聞之間的距離,然后統計距離,將距離小于閾值的形成一簇,這個距離需要多次運算得出結果,這一簇就是一個新聞事件,在完成整個程序的運算之后,就得到了許多簇這樣的數據,這樣就得到了許多這樣的事件。然后將這些事件與之對應的新聞建立索引。前端在獲取到之前建立的索引之后,根據索引給出的事件和新聞將數據通過列表的形式展示出來。

4.5 新聞展示

在前端,系統的第四個界面是智能搜索界面。用戶在進入這個界面之后前端向后端申請數據,后臺接收到請求之后將數據庫中的所有數據根據頁數返回,前端接收到數據之后,將數據進行解析,通過列表的方式進行展示。

5 結語

本文通過對基于大數據的新聞采集和事件分析系統的研究,提出了一個方便、節約時間的新聞處理方案。相比傳統的新聞處理方式,本文提出的基于大數據技術的新聞采集和事件分析系統的設計方式,能夠很大程度上節約處理新聞的時間,在一定程度上能夠節約用戶獲取信息的時間,增加用戶獲取信息的效率。采用機器學習與大數據的相關技術,能夠保證信息處理的準確性。通過前后臺分離、數據庫與數據處理分離的方案,在一定程度上保證數據傳輸的穩定性與安全性。系統在實驗環境下基本實現所示功能,可通過蘋果電腦完成上述新聞采集與事件分析的基本過程,實現預期功能。

參考文獻

[1]喻國明.大數據方法與新聞傳播創新:從理論定義到操作路線[J].江淮論壇,2014,(04):5-7+2.

[2]張建林.智能新聞采集處理系統的設計與實現[D].山東大學,2017.

[3]王博,劉盛博,丁堃,劉則淵.基于LDA主題模型的專利內容分析方法[J].科研管理,2015,36(03):111-117.

Design and Implementation of News Acquisition and Event

Analysis System Based on Big Data Technology

MA Xu,WANG Shu-li

(Beijing Information Science And Technology University Computer School, Chaoyang District,Beijing 100101)

Absrtact: In order to solve the problems of slow search, miscellaneous data and low reading efficiency in obtaining Internet news, this paper proposes a news acquisition and event analysis system based on big data technology. The system first collects Internet news data and stores it in the database by using data cleaning and distributed storage technology; then it analyses the data and uses machine learning technology to get the main theme of news; then it aggregates the news to get the event theme; finally, it exhibits all the time according to the subject of the event. It implements the whole process of collecting and analyzing Internet news. The system improves the efficiency of obtaining Internet news, and solves the problems of data clutter and low reading efficiency.

Key words: big data technology; data acquisition; event analysis; news analysis; system design

猜你喜歡
數據采集大數據技術
大數據技術在電子商務中的應用
大數據技術對新聞業務的影響研究
論大數據技術在智能電網中的應用
高校檔案管理信息服務中大數據技術的應用
CS5463在植栽用電子鎮流器老化監控系統中的應用
大數據時代高校數據管理的思考
科技視界(2016年18期)2016-11-03 22:51:40
鐵路客流時空分布研究綜述
基于廣播模式的數據實時采集與處理系統
軟件工程(2016年8期)2016-10-25 15:54:18
通用Web表單數據采集系統的設計與實現
軟件工程(2016年8期)2016-10-25 15:52:53
大數據技術在電氣工程中的應用探討
主站蜘蛛池模板: 亚洲综合精品香蕉久久网| 九色视频一区| 国产a v无码专区亚洲av| 亚洲人成电影在线播放| 国产区免费精品视频| 色久综合在线| 国产欧美视频在线| 免费人成网站在线高清| 97se亚洲综合| 波多野结衣第一页| 思思热在线视频精品| 黄网站欧美内射| 日日碰狠狠添天天爽| 毛片免费在线视频| 国产精品尤物铁牛tv | 1024你懂的国产精品| 色妞www精品视频一级下载| 成人一区专区在线观看| 国产精品无码久久久久久| 日韩123欧美字幕| 国产十八禁在线观看免费| 国产不卡在线看| 69av免费视频| 日韩欧美中文在线| 成人在线亚洲| 四虎永久免费网站| 亚洲人成网址| 国产超薄肉色丝袜网站| 欧美狠狠干| 国产欧美日韩va另类在线播放 | 色哟哟国产精品| 国产制服丝袜91在线| 国产精品99一区不卡| 久久综合激情网| 日韩人妻无码制服丝袜视频| 色135综合网| 亚洲av无码人妻| 亚洲视频一区在线| 精品国产欧美精品v| 国产va在线观看免费| 天天躁夜夜躁狠狠躁图片| 欧美97欧美综合色伦图| 日韩精品亚洲精品第一页| 日韩av在线直播| 在线观看国产网址你懂的| 久久成人18免费| 99精品国产自在现线观看| 九九视频免费在线观看| 国产乱论视频| 色老二精品视频在线观看| 国产精品自拍露脸视频| 国产小视频免费观看| 美美女高清毛片视频免费观看| 国产国产人在线成免费视频狼人色| 高潮爽到爆的喷水女主播视频| 99精品久久精品| 好久久免费视频高清| 谁有在线观看日韩亚洲最新视频 | 国产精品久久久久婷婷五月| 日韩精品久久久久久久电影蜜臀| 精品伊人久久久大香线蕉欧美| 亚洲Aⅴ无码专区在线观看q| 香蕉精品在线| 欧美在线精品怡红院 | 九色综合伊人久久富二代| 亚洲第一视频网站| 国产精品女在线观看| 无码免费视频| 精品无码国产自产野外拍在线| 一区二区在线视频免费观看| 日韩乱码免费一区二区三区| 欧美在线视频a| 国内丰满少妇猛烈精品播| 97综合久久| www.亚洲天堂| 欧美一区中文字幕| 欧美日韩午夜| 亚洲黄网在线| 亚洲美女操| 欧美日韩91| 国产一区二区丝袜高跟鞋| 99精品视频在线观看免费播放|