999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

海量數據的分析研究

2020-07-08 02:00:34黃素萍常加強
科學技術創新 2020年15期
關鍵詞:信息

黃素萍 常加強 高 妍

(咸陽師范學院 計算機學院,陜西 咸陽712000)

1 概述

近十年來,互聯網迅速發展,資訊來源也從過去的報刊雜志、電視、電臺,變成當下的網絡新聞門戶、博客網站、微博、推特等各種各樣的網絡輿情平臺。獲得資訊的方式也從過去的定時播報、定時收聽收看變成了現在的即時訂閱,隨時隨地訪問。網絡已成為人們獲取各類信息的重要渠道。然而,網絡中每天如潮水般的大量信息,使人們很難快速獲取到自己想要的信息,因此,如何從海量的數據中快速篩選、過濾出用戶需要的重要信息的分布狀況,幫助用戶快速獲取有用信息,已成為當今研究的熱點之一。本文以新聞信息為例,介紹了海量新聞信息的分析處理過程,以可視化的結果,向用戶展示了熱點新聞的分布狀況,幫助人們快速了解掌握熱點新聞信息。

2 海量數據分析的相關技術

在進行海量新聞信息的數據采集、數據消費、處理和數據分析過程中涉及到如下核心技術:

2.1 Hadoop

Hadoop 是一個分布式處理框架,是大數據技術中最核心的組件,像Hbase,Spark,ZooKeeper 都是基于Hadoop 搭建的[1]。它里面有兩個核心的組件Hdfs 和Mapreduce, 其中Hdfs 用來存儲海量數據,Mapreduce 用來進行數據計算。

隨著Apache Hadoop 系統開源化的發展,Hadoop 平臺從最初只包含HDFS、MapReduce、HBase 等基本子系統,到現在已演變成包含很多相關子系統的完整的大數據處理生態系統[2]。

2.2 ZooKeeper

ZooKeeper 是集群的管理者,它監督著Hadoop 各個組件集群的節點,當某一個集群的節點掛掉時,ZooKeeper 中flower 就會檢測到接收請求并向observer 傳遞消息,observer 接收到請求后會將請求轉發給leader,隨后leader 就會及時更新狀態,所以ZooKeeper 主要是用來協調Hadoop 各個組件集群的工作,當集群中一個節點出現故障,ZooKeeper 會自動檢測正常節點,并安排它進行工作,保證集群的正常運行。ZooKeeper 只適合存儲一些少量信息如配置文件、發布信息、訂閱信息等,而不適合存儲大規模的信息。Hadoop、Storm、消息中間件、RPC 服務框架、分布式數據庫同步系統,這些都是Zookeeper 的應用場景。

2.3 Flume

Flume 是一個可以從不同的數據源有效的進行數據采集,并將數據傳輸到數據中心的分布式、可靠、和高可用系統,它可以接受任何數據源,在日志系統中進行設置,用于收集、聚合從許多來源傳來的大量流數據事件,并將它們轉移到一個中央數據存儲中,它提供對數據進行簡單處理,并寫到各種數據接收方。

2.4 Spark

Spark 是一個開源的基于內存計算的集群計算系統,包含了Spark Core、Spark SQL、Spark Streaming、Spark MLlib、Spark GraphX 等大數據領域常見的各種計算框架[3]。其中Spark Core是離線計算,主要對已加載的數據進行計算處理;Spark Streaming 是實時流式計算,主要對傳輸中數據進行計算;Spark SQL 是交互式查詢,通過SQL 語句查詢數據;Spark MLlib 用于機器學習;Spark GraphX 用于進行圖計算[4]。這些組件可以使它完成一站式的大數據任務。同時,Spark 提供了更多的數據集操作的方法,幫助開發人員處理更復雜的任務。

3 海量數據的分析過程

3.1 數據的采集

目前,數據采集主要使用爬蟲采集器和網絡爬蟲,兩種網絡爬蟲技術。網絡爬蟲獲取數據的過程較繁瑣,需要用戶編寫代碼,效率較低,容易出現問題。采用爬蟲采集器無需用戶編寫代碼,操作方便,效率較高。本次采用八爪魚采集器獲取網絡新聞數據。

八爪魚采集器獲取數據的流程:先采集器選擇采集數據方式,設置要采集數據的網址,如https://news.sina.com.cn/china/并保存,選擇相應的流程滾動設置,設置要爬取的數據項(如,新聞標題),保存設置后可開始采集數據。數據采集完成,選擇導出數據格式,如Excel 格式文檔。

3.2 數據預處理

前期從各大新聞網站爬取的大量新聞數據格式雜亂無章,沒有統一格式,沒有規律,各類符號都混雜在一起,如果直接使用這些原始新聞數據進行處理,既浪費精力,工作效率又低。所以要對采集的新聞數據進行預處理,即是對新聞數據進行統一格式化處理,此處是將原始新聞數據格式統一轉換成以逗號分隔的連續字符串。具體的做法是將數據集文檔格式轉換為log類型文檔,再使用命令cat,將數據集文檔中的制表符,空格符等更換為逗號。

3.3 數據清洗和存儲

接下來需要在Hadoop 數據處理集成平臺中進行數據的處理。這個過程需要進行Flume 和Kafka 系統的安裝和部署。

3.3.1 數據清洗

數據清洗主要是把有用的數據留下,無用的數據刪掉。它是整個數據處理分析過程中最核心的一個環節。這里使用了SparkStreaming 并行計算框架,通過其Transformation 轉換算子進行數據的轉換和處理,對實時傳輸過來的新聞數據進行清洗,從中獲取新聞標題、分類名、新聞網站等信息,分別統計出標題出現的次數,標題分類名和新聞網站出現的次數。

數據清洗的過程為:先獲取Kafka 從Flume 中消費的數據,同時創建DStream。DStream 是以鍵值對的形式存在,對DStream進行Map 操作獲取到它的value 值,即所有實時傳輸進來的數據,返回一個新的DStream。再對DStream 進行Map 操作返回多行數據,隨后用函數獲取到新聞標題、分類名、新聞網站等關鍵數據,最后進行聚合操作,獲取各個項目名對應的出現次數。

3.3.2 數據存儲

清洗后的數據需要進行存儲,這里采用MySQL 數據庫完成。

數據存儲的具體實現:先將獲取到的Dstream 轉換成Spark中的RDD,再對RDD 進行分區,然后遍歷每個分區中出現的信息。并和MySQL 數據庫進行連接,調用存儲過程將對應數據插入到相應表的字段中,完成數據存儲。

進行數據存儲的表有三張:標題表(Title),分類表(Classify)和新聞網站表(Url)。標題表主要存儲新聞的標題名和出現的次數。分類表存儲新聞分類名和出現的次數。新聞網站表存儲新聞網站名和出現的次數。

3.4 數據分析和結果展示

3.4.1 程序框架及插件簡介

本次研究開發的程序使用Spring Boot 和Echarts 框架。Spring Boot 框架可以非常容易和快速的創建應用程序,從而使開發人員不再需要定義樣板化的配置。Echarts 是一款非常優秀的可視化前端框架,支持如IE,Chrome,Firefox 在內的多種瀏覽器。它提供了豐富的API 接口以及文檔,通過合理設置并結合后臺傳送的JSON 數據,即可展示所需的數據主題。

3.4.2 程序功能設計和實現

通過研究,新聞標題出現的頻度可以反映新聞話題的熱度,程序基于已處理的新聞數據,按新聞出現的次數,結合echarts圖表庫,展示出排名前5 的新聞話題。同時,基于排名的新聞話題,分別對其所屬的新聞類型和來源的新聞網站的次數進行統計,獲得熱點新聞所屬的新聞類型和來源網站統計結果,展示出排名前10 的新聞領域和排名前6 的新聞網站。

圖1 熱點新聞話題排名

圖2 新聞分類展示結果

圖3 新聞網站展示結果

4 結論

本次研究是基于數據采集、數據處理和數據分析等技術,通過采集器采集新聞數據,用Kafka 和Flume 集成環境對海量的新聞數據進行傳輸,使用SparkStreaming 并行計算框架進行數據處理,將數據存儲在MySQL 數據庫,最后結合Echarts 可視化插件,將熱點新聞數據狀況以動態,以更直觀的方式展示熱點新聞的分布信息。由于各方面的局限性,本次工作只是在現有技術的基礎上,做了一些具體的實現。今后在海量信息的處理方面,還需進一步的深入研究。

猜你喜歡
信息
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
信息超市
大眾創業(2009年10期)2009-10-08 04:52:00
展會信息
展會信息
展會信息
展會信息
展會信息
信息
建筑創作(2001年3期)2001-08-22 18:48:14
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 99热这里只有精品久久免费| 亚洲国产成人久久77| 日韩欧美中文字幕在线精品| 中文无码影院| 丁香婷婷久久| 日韩高清一区 | 免费久久一级欧美特大黄| 久久久久久午夜精品| 香蕉蕉亚亚洲aav综合| 亚洲无码高清免费视频亚洲| 999国产精品永久免费视频精品久久 | 国产欧美另类| 日韩国产精品无码一区二区三区| 欧美成人精品一区二区| 国产欧美日韩综合一区在线播放| 伊人色在线视频| 性激烈欧美三级在线播放| 久热99这里只有精品视频6| 国产真实乱了在线播放| 国产丝袜无码精品| 无码国产偷倩在线播放老年人 | 亚洲人成网站日本片| 午夜福利无码一区二区| 国产一区二区三区免费观看| 欧美午夜在线观看| 久久精品免费国产大片| 欧美精品成人| 婷婷六月在线| 99热最新在线| 免费看的一级毛片| 婷婷六月天激情| 在线看免费无码av天堂的| 亚洲国产系列| 67194亚洲无码| 日本黄色a视频| 九九九国产| 视频一区视频二区中文精品| 国产精品自在自线免费观看| 亚洲精品午夜无码电影网| 青草视频免费在线观看| 午夜国产精品视频黄| 亚洲国产精品不卡在线| 色哟哟精品无码网站在线播放视频| 国产福利2021最新在线观看| 91成人在线观看视频| 欧美日本一区二区三区免费| 91无码视频在线观看| 国产精品男人的天堂| 日本三级欧美三级| 亚洲A∨无码精品午夜在线观看| 人与鲁专区| 亚洲αv毛片| 欧美在线黄| 色综合成人| 欧美日本视频在线观看| 欧美精品高清| 亚洲IV视频免费在线光看| 亚洲伊人天堂| 亚洲三级色| 久久女人网| 国产特级毛片| 91精品视频网站| 色欲不卡无码一区二区| 色综合色国产热无码一| 久久情精品国产品免费| 国产精鲁鲁网在线视频| 中文字幕免费播放| 亚洲中文字幕在线观看| 久久精品亚洲热综合一区二区| 天天操天天噜| 国产成人久久综合一区| 色网站免费在线观看| 99精品在线看| 色久综合在线| 99久久成人国产精品免费| 国精品91人妻无码一区二区三区| www亚洲天堂| 欧美日韩国产在线播放| 成人免费视频一区| www.日韩三级| 国产在线自乱拍播放| 黄色网址免费在线|