999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Python的網頁數據分析及可視化應用

2021-10-21 02:15:54李傳科肖自乾
信息記錄材料 2021年9期
關鍵詞:可視化

李傳科,肖自乾

(海南軟件職業技術學院 海南 瓊海 571400)

1 引言

隨著互聯網的快速發展和廣泛運用,網絡數據呈現爆炸性增長,并且隨著時間的推移,網絡數據的沉淀和冗余,產生大量無效數據,導致人們對于有效信息的獲取變成一種挑戰,因此大數據技術成為各行各業的轉型方向[1]。而Python作為數據分析領域的最佳選擇語言,其跨平臺、靈活簡單的特性,加上Python在數據分析方面擁有極為豐富的外部庫,為大數據分析運用提供了重要保障。本文利用Python技術實現數據搜集、分析和整理,并以可視化方式將抽象數據通過圖表呈現,使得人們更加便捷和直觀地獲取到需求數據。

2 設計思路

本文研究以網頁為基礎數據,采用Python技術,根據業務實現流程可分為3部分:數據采集、數據分析、數據可視化,具體的應用實現流程見圖1。

圖1 應用實現流程圖

3 網頁數據采集

在網頁數據采集技術中,網絡爬蟲(又稱網絡蜘蛛)是十分關鍵的組成部分,其通過提取互聯網特定頁面內容實現網頁數據信息的收集。網絡爬蟲主要借助Python技術中的scrapy爬蟲框架,基本流程為:抓取數據—解析數據—存儲數據[2],創建爬蟲框架包括items.py、piplines.py、Middlewares.py、settings.py等py文件,項目程序結構見圖2。

圖2 scrapy爬蟲程序結構圖

(1)items.py文件用于實現封裝需要爬取的各個網頁字段,定義繼承scrapy.Item類,并將所有需要爬取的網頁中不同節點字段定義為nodeName = scrapy.Field()類型即可。

(2)piplines.py文件中建立ExamplePipline類并實現process_item(self,item,spider) 方法用于處理爬取到的每個Item,把Item存儲到字典中。

(3)Middlewares.py作為中間層文件,可以分為spider middleware和downloader middleware兩類,用于處理爬取網頁的網絡請求和響應,可以設置一些代理IP等。

(4)settings.py是配置文件,其中很多模塊默認是注釋掉的,當需要使用的時候,根據注釋提示,編寫自己的內容,比如設置請求和響應的中間層,指定操作數據的Pipeline類等。

基于以上項目結構,可以創建spider_name.py文件用于建立對應的scrapy.Spider類,并生成parse(self,response)方法,在parse方法中利用Response對象進行response.xpath()或者response.css()方法進行頁面數據的解析提取。

最后,要存儲json數據,需要創建.json文件,把網頁爬取到的數據通過json.dumps()方法處理存儲為json數據文件。

4 數據處理分析

數據處理分析主要目的是使用適當的統計、分析方法對網頁抓取的大量數據進行過濾、匯總。Python中進行數據分析庫很多,根據不同的數據集使用不同的處理方法。本應用主要針對網頁信息使用Pandas進行json數據處理和jieba文本分詞匯總分析。

4.1 導入數據集

網頁爬取的數據存儲為json格式文件,json文件每一行內容都是以字典格式存儲的字符串,其中字典的鍵(key)為爬取到的網頁節點名稱,值(value)是對應的節點內容。為方便處理json數據集,可借助Python中pandas庫的read_json()方法讀取json數據集內容,再根據字典中的鍵(key)來獲取對應的值(value),寫入到data.txt文檔中。導入json數據集代碼如下。

4.2 jieba中文分詞

jieba是目前最好的 Python中文分詞組件,通過使用jieba分詞對數據提煉出的文本進行分詞,統計次數出現最多的詞語,支持3種分詞模式:精確模式、全模式、搜索引擎模式。導入的數據集使用jieba.lcut()方法針對txt文檔中的詞語進行分詞,分別統計匯總關鍵詞出現頻率數[3]。使用jieba進行高頻詞統計代碼如下。

5 數據可視化

數據可視化是一種利用分析理論和可視化界面來幫助用戶解釋復雜數據的技術,數據可視化是數據挖掘途徑的重要手段。這里主要應用Python中常用的兩個數據可視化組件:Matplotlib和Pyecharts[4-5]。

5.1 Matplotlib數據可視化

Matplotlib是Python中最基礎的Python可視化庫,作為Python較出色和較常用的繪圖軟件,matplotlib有一套仿照MATLAB的函數形式的繪圖接口,在matplotlib的pyplot子模塊中,常用的導入形式為import matplotlib.pyplot as plt。繪圖之前,需要使用figure對象創建窗口對象,畫布通過figsize的參數來指定畫布大小。Matplotlib中常用的函數繪制圖形包括:plot()繪制折線圖、bar()繪制柱狀圖、barh()繪制直方圖、pie()繪制餅圖、scatter()繪制散點圖、boxplot()繪制箱線圖等。

示例使用Matplotlib繪制餅圖展示海南東部市縣人口占比見圖3,代碼如下。

圖3 示例代碼對應的餅狀效果圖

5.2 Pyecharts數據可視化

Pyecharts是一款將python與echarts結合的強大第三方數據可視化工具集,echarts是百度的一個開源的數據可視化工具,能夠展示出更加美觀的圖表,而且是純Javascript圖表庫,能夠在PC端和移動設備上流暢運行,兼容當前絕大部分瀏覽器,是目前商業級數據圖表展示的重要工具。

目前,v1版本以上的pyecharts通過pyecharts.charts模塊導入,常用的繪圖庫有:Bar柱狀圖、Pie餅圖、Boxplo箱型圖、Line折線圖、Radar雷達圖、EffectScatter動態散點圖、Map動態地圖等。圖4為示例Pyecharts實現海南各市縣人才招聘數據的動態散點圖,代碼如下。

圖4 示例代碼對應的動態散點圖

6 結語

未來屬于大數據時代,Python技術在大數據分析運用中的優勢越來越明顯,大大提高了數據采集和數據分析的效率,并且數據可視化的應用,也成為大數據分析過程中非常重要的展示手段。綜上所述,本文合理運用Python和相關第三方庫,全面闡述和示例了基于網頁數據的抓取、分析及可視化的技術應用,對于大數據分析運用提供了較好的學習和借鑒價值。

猜你喜歡
可視化
無錫市“三項舉措”探索執法可視化新路徑
基于CiteSpace的足三里穴研究可視化分析
自然資源可視化決策系統
北京測繪(2022年6期)2022-08-01 09:19:06
三維可視化信息管理系統在選煤生產中的應用
選煤技術(2022年2期)2022-06-06 09:13:12
思維可視化
師道·教研(2022年1期)2022-03-12 05:46:47
基于Power BI的油田注水運行動態分析與可視化展示
云南化工(2021年8期)2021-12-21 06:37:54
自然資源可視化決策系統
北京測繪(2021年7期)2021-07-28 07:01:18
基于CGAL和OpenGL的海底地形三維可視化
可視化閱讀:新媒體語境下信息可視化新趨勢
“融評”:黨媒評論的可視化創新
傳媒評論(2019年4期)2019-07-13 05:49:14
主站蜘蛛池模板: h视频在线播放| 好久久免费视频高清| 成人在线不卡视频| 91午夜福利在线观看| 国产真实乱子伦视频播放| 日韩黄色在线| 国产区成人精品视频| 国产美女精品人人做人人爽| 自拍中文字幕| 91精品福利自产拍在线观看| 国产区精品高清在线观看| 在线观看免费国产| 国产第一页亚洲| 日本福利视频网站| 免费A∨中文乱码专区| A级全黄试看30分钟小视频| 天堂岛国av无码免费无禁网站| 国产乱人伦AV在线A| 久久精品中文字幕免费| 亚洲成AV人手机在线观看网站| 91久久青青草原精品国产| 久久久成年黄色视频| 欧美不卡视频在线观看| 夜夜操狠狠操| 亚洲永久视频| 国产主播一区二区三区| 亚洲中文字幕在线一区播放| 精品视频一区在线观看| 蜜桃视频一区二区| 在线免费观看AV| 日韩在线播放欧美字幕| 国产日韩丝袜一二三区| 国产成人精品视频一区视频二区| 亚洲成在人线av品善网好看| 青青青国产视频手机| 日韩精品成人网页视频在线| 无码精品国产dvd在线观看9久| 青青青国产在线播放| 欧美中文字幕在线视频| 蜜臀AVWWW国产天堂| 国产另类视频| 全部无卡免费的毛片在线看| 在线看片免费人成视久网下载| 国产人人射| 99久久国产综合精品2020| 亚洲福利片无码最新在线播放| 国产伦片中文免费观看| 97国产成人无码精品久久久| 国产精品视频系列专区| 茄子视频毛片免费观看| 无套av在线| 国产高清在线精品一区二区三区 | 97视频精品全国在线观看| 免费高清毛片| 日本黄色不卡视频| 人妻少妇久久久久久97人妻| 精品无码日韩国产不卡av| 特级欧美视频aaaaaa| 国产精品第一区| 亚洲系列中文字幕一区二区| 久久精品无码一区二区日韩免费| 久久黄色毛片| 毛片一区二区在线看| 欧美无专区| a色毛片免费视频| 日韩大片免费观看视频播放| 蝌蚪国产精品视频第一页| 夜精品a一区二区三区| 这里只有精品免费视频| 日本在线免费网站| 九色在线观看视频| 亚洲精品在线影院| 国产91色| 国产在线精品人成导航| 国产精品无码作爱| 日韩欧美在线观看| 欧美一级大片在线观看| 人人看人人鲁狠狠高清| 亚洲AV电影不卡在线观看| 精品福利国产| 亚洲最大情网站在线观看| 欧美色亚洲|