999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

數據采集在大數據中的應用

2018-10-20 04:43:30劉陽
數碼設計 2018年9期
關鍵詞:數據采集大數據互聯網

劉陽

摘要: 當今世界已經進入了一個信息化時代,大數據在很多行業中都扮演著十分重要的角色,影響著人們的生產生活方式。本文圍繞數據采集在大數據中的應用展開研究,重點分析了大數據的概念、數據采集的方式方法與如何用Python來進行數據采集。

關鍵詞: 大數據;互聯網;信息;數據采集

中圖分類號: TP212.9;TN929.5?? ?文獻標識碼: A?? ?文章編號: 1672-9129(2018)09-0006-01

Abstract: ?the world has entered an information age. Big data plays a very important role in many industries, influencing people's production and lifestyle. This paper conducts research on the application of data collection in big data, and mainly analyzes the concept of big data, methods and methods of data collection and how to use Python to conduct data collection.

Key words: ??big data;Internet;Information;The data collection

1 大數據概述

大數據的含義是不能夠在一定的時間范圍里面使用常規軟件工具來進行捕捉、管理與處理的數據集合,是需要使用新的處理模式才能夠具有更加強烈的決策能力、洞察能力以及流程優化能力的海量、增長率較高、內容多樣化的信息資產[1]。大數據技術的推廣和使用,最為重要的意義不在于掌握和管理龐大的數據庫,而是對這些含有一定意義的數據作出更加專業化、科學性的處理和利用。換句話來說,如果把大數據看成是一種產業的話,那么這一產業能夠取得經濟利益的關鍵之處,就在于提高對數據的“加工能力”,通過對數據進行加工來做到對數據價值的提升。適用于大數據的技術,包括數據采集、大規模并行處理(MPP)數據庫、數據挖掘、分布式文件系統、分布式數據庫、云計算平臺、互聯網和可擴展的存儲系統。下面我們就大數據采集方式方法做簡單介紹。

2 數據采集的方式方法

2.1系統日志采集方法。絕大部分的互聯網企業都擁有自己專屬的海量數據采集工具,一般是用于對系統日志進行采集,例如Hadoop的Chukwa、Fecebook專用的Scribe以及Cloudera的Flume等等,這些工具都是采取分布式類型的架構,可以滿足很大的使用需求,絕大多數都可以滿足每秒時間內數百MB的日志數據采集以及傳輸需求。

2.2網絡數據采集方法。網絡數據采集方法的意思是說通過利用網絡爬蟲或者是網站公開API等各種方式從網站上面得到相關的數據信息。使用這種方法能夠非常簡單地將一些非結構化的數據從網頁之中抽取出來,并且將這些數據信息統一地存儲在本地的數據文件之中,并且能夠以結構化的形式進行存儲。這種數據采集方法能夠采集圖片數據信息、音頻數據信息以及視頻數據信息,而且也能夠采集附件,附件能夠和正文之間自動地關聯在一起。除了互聯網中包含的一些信息內容之外,對于那些網絡流量進行采集的時候一般會選擇使用DPI或者是DFI等一些寬帶管理技術來進行處理。

2.3其他數據采集方法。對于那些對企業生產經營數據或者是有關學科的研究數據等保密程度要求比較高的數據信息來說,可以采用與企業或者是科學研究機構進行合作的方式,通過使用特定系統接口等一些有關的方式來對數據進行收集。

2.4大數據采集平臺。Apache Flume。Flume是Apache旗下開發出來的一款具有多重優勢的數據采集系統,其具有的優勢主要有可靠度高、擴展性強、管理簡便易行、支持客戶擴展等等。Flume是通過Jruby來進行構建的,因此其運行環境依靠Java來實現。

Splunk Forwarder。Splunk屬于一個分布式類型的機器數據平臺,主要扮演著三個重要的角色:Search Head承擔的主要任務是對數據進行搜索和處理,同時需要提供搜索過程中的信息抽取情況;Indexer主要負責對相關數據進行存儲和索引;Forwarder主要負責對數據進行收集、清洗和變形處理,并且發送給Indexer.

Python屬于一種開源語言,這種語言能夠提供十分豐富的API和工具,能夠通過使用C語言和C++等對這一模塊進行編寫和擴寫,也能夠通過第三方庫來進行,具備非常高的靈活性和適應性,所以說越來越多的人開始選擇通過使用Python來對互聯網數據進行采集和整理。

3 如何用Python進行數據采集

Python數據采集之Scrapy框架,Scrapy是一個快速的屏幕抓取和web抓取框架,用于抓取web站點并從頁面中提取結構化的數據。Scrapy用途廣泛,可以用于數據挖掘、輿情監測和自動化測試。

3.1 Scrapy整體框架。

Scrapy由引擎(Scrapy Engine)、調度器(Scheduler)、下載器(Downloader)、爬蟲(Spiders)、項目管道(Item Pipeline)、下載器中間件(Downloader Middlewares)、爬蟲中間件(Spider Middlewares)、調度中間件(Scheduler Middewares)等部件組成。

3.2 Scrapy運行流程。

(1)引擎打開域名,指定Spider來處理這個域名,獲取第一個要爬取的URL;

(2)引擎從Spider中獲取第要爬取的URL,并在調度器以Request請求調度;

(3)引擎向調度器請求下一個要爬取的URL;

(4)調度返回要爬取的URL給引擎,引擎通過下載中間件將URL發送到下載器;

(5)下載器生成一個該網頁Response響應,將其通過下載中間件發送給引擎;

(6)引擎從下載器接收Response響應,并通過Spider中間發送給Spider;

(7)Spider處理Response響應,并返回爬取到Item和新的Request請求;

(8)引擎將爬取到的Item給Item Pipeline,將Request請求發給調度器;

(9)重復(2)操作,度器中沒有新Request請求,引擎斷開與該域名的鏈接。

3.3 采集實例。獲取某電影網站的排名數據采用Python實現方式如下:

import requests

import re

Url = 'http://dianying.2345.com/top/meiguo.html'

response = requests.get(Url)

html = response.text

#print(html)

#

主演:(.*?)(.*?)(.*?)

pattern = re.compile(r'TOP(.*?).*?.*?

主演:.*?.*?

(.*?)

.*?
',re.S)

re_result = re.findall(pattern,html)

list = re_result

i =list[:]

for i in list:

print (i)

#print(re_result)'''

pattern = re.compile(r'TOP(.*?)')

re_result = re.findall(pattern,html)

print(re_result)'''

程序運行結果如下:

4 結論

當前,社會已經進入了一個信息化時代,掌握了豐富多彩的信息,也就等于掌握了制勝的關鍵。市場競爭越來越激烈,科學技術的運用能夠為企業的發展增添動力。通過本文的研究也能夠看出,大數據的使用能夠為企業運營和決策帶來諸多的便利。從長遠來看,大數據必然將迎來一個又一個發展高峰,也將為社會的發展帶來更多的機遇和挑戰。

參考文獻:

[1]顧軍林.大數據在農業無人機上的應用研究[J].農機化研究,2018(04):213-217.

[2]黃金國,劉濤,周先春,嚴錫君.基于可變粒度機會調度的網絡大數據知識擴充算法[J/OL].計算機應用研究,2019(03):1-3

[3]王承軍. 高并發大數據在線學習系統中的關鍵技術研究[D].中國地質大學,2015.

猜你喜歡
數據采集大數據互聯網
鐵路客流時空分布研究綜述
基于廣播模式的數據實時采集與處理系統
軟件工程(2016年8期)2016-10-25 15:54:18
通用Web表單數據采集系統的設計與實現
軟件工程(2016年8期)2016-10-25 15:52:53
基于開源系統的綜合業務數據采集系統的開發研究
從“數據新聞”看當前互聯網新聞信息傳播生態
今傳媒(2016年9期)2016-10-15 22:06:04
互聯網背景下大學生創新創業訓練項目的實施
考試周刊(2016年79期)2016-10-13 23:23:28
基于大數據背景下的智慧城市建設研究
科技視界(2016年20期)2016-09-29 10:53:22
以高品質對農節目助力打贏脫貧攻堅戰
中國記者(2016年6期)2016-08-26 12:52:41
主站蜘蛛池模板: 国产麻豆精品久久一二三| 福利国产在线| 欧美成人A视频| 成人福利免费在线观看| 国产无人区一区二区三区| 成人蜜桃网| 精品人妻AV区| 国产91无码福利在线| 国产精品视频猛进猛出| 亚洲国产91人成在线| 夜夜操国产| 日韩精品无码免费专网站| 国产永久在线视频| 亚洲欧洲免费视频| 伊人婷婷色香五月综合缴缴情| 免费无码AV片在线观看中文| 亚洲一区二区三区香蕉| 亚洲国产综合精品中文第一| 天天色综网| 色婷婷色丁香| 香蕉伊思人视频| 国产精品尤物在线| 婷婷色一二三区波多野衣| 狠狠色综合久久狠狠色综合| 国产精品开放后亚洲| 久久女人网| 国产成人精品高清不卡在线| 亚洲一级毛片在线观播放| 一级一级一片免费| 毛片久久网站小视频| 国产91丝袜在线播放动漫 | 免费可以看的无遮挡av无码| 色哟哟国产精品| 免费高清a毛片| 99久久精彩视频| 日韩美女福利视频| 国产一级毛片在线| 国产成人一区免费观看| 国产幂在线无码精品| 国产99欧美精品久久精品久久| 亚洲综合久久一本伊一区| 真实国产乱子伦视频| 日韩欧美国产精品| 亚洲综合激情另类专区| 四虎免费视频网站| 久久久久国产一级毛片高清板| 国产农村妇女精品一二区| 91av国产在线| 乱色熟女综合一区二区| 亚洲成人黄色在线观看| 少妇精品网站| 午夜激情婷婷| 久久婷婷综合色一区二区| 亚洲丝袜中文字幕| 四虎亚洲精品| 日韩成人午夜| 欧美精品亚洲二区| 亚洲日韩高清在线亚洲专区| 免费人成视网站在线不卡| www.狠狠| 欧美成人a∨视频免费观看| 欧美亚洲国产一区| 伊人久热这里只有精品视频99| 国产欧美日本在线观看| 亚洲成人黄色在线| 欧美一区二区三区不卡免费| 欧美日韩另类国产| 在线免费看黄的网站| 国产91小视频| 精品国产中文一级毛片在线看| 2022国产91精品久久久久久| 亚洲手机在线| 欧美在线导航| 这里只有精品国产| 天天躁夜夜躁狠狠躁躁88| 高清乱码精品福利在线视频| 超薄丝袜足j国产在线视频| 毛片免费观看视频| 日韩成人高清无码| 亚洲精品在线影院| 国产精品无码在线看| 色综合久久无码网|