999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Anaconda的嬰兒用品數據爬取及可視化分析

2021-01-14 00:47:20謝美英
現代信息科技 2021年14期
關鍵詞:數據采集數據分析

摘 ?要:隨著國家對二胎、三胎政策的全面放開,新生兒出生數量有所增長,對嬰兒用品的數量和質量需求也發生著改變。本文主要研究嬰兒用品的商品評論相關信息的爬取,對目標網站的網頁進行分析,采集數據。獲取數據后,采用Python語言中的Pandas、Numpy等庫進行數據預處理。然后,使用Matplotlib、Nltk、Jieba庫對數據分析,去除重復評論,去除停用詞,詞頻統計后制作詞云圖等可視化數據結果,挖掘出大數據背后的隱含信息。

關鍵詞:Anaconda;嬰兒用品;數據采集;數據分析;數據可視化

中圖分類號:TP391 ? ? ? ? ? ? ? ? ? ? 文獻標識碼:A文章編號:2096-4706(2021)14-0090-04

Abstract: With the full liberalization of the national policy on the second and third children, the number of newborns has increased, and the demand for the quantity and quality of baby products has also changed. This paper mainly studies the crawling of information related to commodity reviews of baby products, analyzes the web pages of the target website, and collects data. After obtaining the data, the paper uses pandas, numpy and other libraries in Python language to preproces data. Then, uses Matplotlib, Nltk and Jieba libraries to analyze the data, removes repeated comments, removes stop words, makes word cloud and other visual data results after word frequency statistics, and mines the hidden information behind the big data.

Keywords: Anaconda; baby care; data acquisition; data analysis; data visualization

0 ?引 ?言

三胎政策的全面實行,在未來,將會有不少行業迎來爆發式的增長,而母嬰行業受益顯而易見。若一個家庭準備生養小孩,必不可少的是準備母嬰用品。小到奶嘴尿布,大到孕婦食品和兒童家具,這一系列的消費將隨著新生兒數量的增長而迎來井噴式的發展高峰。尤其在網絡購物方面,反映商品體驗感和觀點的評論詞匯,成為消費者了解商品及其質量的重要渠道。大數據、人工智能的發展則對嬰兒用品詞匯數據的處理帶來了更多便利。

構建嬰兒用品消費的詞匯數據,并進行有效分析和可視化處理,是各個地區商家經營母嬰用品,對商品的種類、材質、規格、銷量等參數進行有效控制的手段。同時,也對研究人口出生政策起到側面的支撐作用。

1 ?嬰兒用品數據采集

1.1 ?準備環境

Anaconda是一個基于Python語言的數據處理和科學計算平臺,已經內置了許多非常有用的第三方庫,裝上Anaconda,相當于把Python和一些如Numpy、Pandas、Scrip、Matplotlib 等常用的庫自動安裝好,比常規Python安裝更容易。

首先,進入官網,點擊下載對應安裝包,下載完成后,按照提示步驟,逐一點擊安裝。選擇安裝其他地址的,可以單獨新建一個文件夾來存放跟Anaconda相關數據,點擊結束后安裝完畢。然后,需要配置環境變量。找到安裝Anaconda的路徑,包含一個scripts文件,復制該路徑,通過右鍵“我的電腦”,選擇“屬性”,高級系統設置,環境變量,點擊環境變量,在系統變量中找到path,選中path,編輯好復制的路徑,粘貼在分號后面,點擊確定,保存后關閉就可以啟動Anaconda。

1.2 ?數據采集

1.2.1 ?分析網站頁面

爬取電商平臺的嬰兒用品數據之前,為更有效編寫代碼的邏輯,需要對該網站的域名結構和層次劃分清楚。本文以淘寶網為例,進入首頁,搜索輸入“奶瓶”,進入展示頁面,點擊第一個產品,進入“comotomo可么多么原裝進口硅膠奶瓶新生兒套裝韓國官方正品”的銷售頁面,該頁面包含了“累計評價”數據,其中,本次有效處理提取的數據是商品的評論內容、評論時間和商品分類類型。

爬取數據前,登錄淘寶網,查看可么多么原裝進口硅膠奶瓶的評論,建議選擇谷歌瀏覽器,選擇開發者工具或者按快捷鍵F12,找到Network選項,打開源代碼頁查找,發現源代碼頁沒有任何關于商品評論的信息,再去檢查頁進行查找,查找以“list_detail_rate.htm?”開頭的文件,在檢查頁的json數據里找到,然后需要向這些數據發送請求。該頁面的檢查頁信息和評論信息如圖1所示。

1.2.2 ?編寫代碼爬取數據

(1)導入需要用到的包,代碼如以下所示:

import requests ? # 導入第三方模塊requests庫

import csv

import re # 導入正則表達式庫

import numpy as np ? # 導入科學計算庫

import pandas as pd ? # 導入數據分析庫

import time

import random

(2)根據上面的網頁結構分析,找到真正的需要爬取的頁面URL和Headers頭部信息,包括referer、user-agent和cookie。評論頁面的地址很長,但是可以分析出規律,比如其中itemId是商品id,sellerid是賣家id,currentPage是頁面號,reply是評論回復等等。編寫的代碼以及運行結果是全部的頁面信息,如圖2所示。

(3)利用正則表達式對全部頁面信息進行提取,得到該款嬰兒用品的評論內容、評論時間和產品類型。多觀察分析幾個URL后,發現只有currentPage部分不同,表示評論頁碼。因為全部評論內容包含59頁多,需要用到循環結構實現。循環之前,先定義3個初始為空的列表,分別表示評論內容、評論時間和商品類型。編寫的關鍵代碼為:

for i in range(1,60):

url2 = ‘https://rate.tmall.com/list_detail_rate.htm?itemId=558660246338&spuId=878404666&sellerId=3296637765&order=3&currentPage=’+str(i)+’&append=0&content=1…’(說明:該url很長,此處省略了后面一部分。)

time.sleep(random.randint(3,9))

data = requests.get(url2,headers = headers).text

pat_content = re.compile(‘”rateContent”:”(.*?)”,”fromMall”’)

pat_time = re.compile(‘”rateDate”:”(.*?)”,”rateContent”’)

pat_type = re.compile(‘”auctionSku”:”(.*?)”,”anony”’)

content.extend(pat_content.findall(data))

content_time.extend(pat_time.findall(data))

type.extend(pat_type.findall(data))

data

dict = {

'評論':content,

'時間':content_time,

'類型':type

}

new_frame = pd.DataFrame(dict)

運行結果得到需要的評論數據,如圖3所示。

(4)存儲數據到csv文件,得到“嬰兒用品評論信息.csv”。Python提供了多種格式的數據存儲形式,由于本實驗數據量不大,選擇了csv文件格式。以可么多么原裝進口硅膠奶瓶為對象商品評論表,包含1210條原始評論數據。

2 ?嬰兒用品數據預處理

(1)導入相關包和嬰兒用品評論信息文件內容:

import nltk ? # 導入自然語言工具包

import nltk.book

file_path = open(‘D:/Python/嬰兒用品評論信息.csv’)

file_data = pd.read_csv(file_path)

(2)原始評論數據中有些是重復的,比如“此用戶沒有填寫評論!”,需要進行去重復處理。去掉重復評論剩余1086條數據。去除重復評論代碼為:

file_data = file_data.drop_duplicates()

(3)為了方便后期分別對評論內容進行詞頻統計,對商品的類型評論條數進行展示,將文檔分解成評論內容和產品類型兩個csv文件。

3 ?嬰兒用品數據分析及可視化

(1)對文本內容的評論分析需要導入Python中的自然語言工具包ntlk,利用jieba庫進行中文分詞。導入代碼為:

import jieba#導入jieba庫

from nltk.book import *

cut_words = jieba.lcut(str(file_data[‘評論’].values),cut_all=False)

(2)加載停用詞列表,對中文分詞去除停用詞,比如評論中的“你”“他”“的”“地”“得”等詞語,刪除停用詞后,從輸出的結果中可以大致看出評價的特征信息,不過后期還需要統計詞語出現的次數,才能進一步知曉用戶對該款嬰兒用品的喜惡。部分代碼為:

with open(‘D:/Python/停用詞表.txt’,encoding=’ utf-8’) as f:

stop_words = f.read()

new_data = []

for word in cut_words:

if word not in stop_words:

new_data.append(word)

(3)詞頻統計和產品分類評價統計。部分代碼如下:

import matplotlib.pyplot as plt ?# 導入模塊

import numpy as np

%matplotlib inline

%config InlineBackend.figure_format = ‘svg’

freq_list = FreqDist(new_data)

most_common_words = freq_list.most_common()

most_common_words

plt.figure(“分類統計”,figsize=(10,7))

plt.rcParams[‘font.sans-serif’] = [‘SimHei’]

plt.rcParams[‘axes.unicode_minus’] = False

new_x = np.linspace(0,9,12)

plt.xticks(new_x)

plt.ylim(0,30)

movie_name = [‘十字嘴’,’丫字嘴’,’粉色’,’藍色’,’250ml+150ml大小套’,’250ml’,’150ml’,’含重力球’,’不含重力球’]

y = [11.92,12.97,13.42,12.07,3.45,19.96,1.48,20.14,4.58]

plt.xticks(range(0,9),movie_name,)

plt.xticks(rotation=45)

index = np.arange(9)

plt.bar(index,y,0.5,color=[“r”,”g”,”b”],align=”center”)

通過調用nltk庫中的FreqDist類,對評論內容中每個詞語出現的次數進行詞頻統計,再把主要詞語的次數以柱狀圖展示出來。同時,對評論數據中類型字段進行分類統計,如十字嘴和丫字嘴的類型評論次數相差不大,但是,有重力球和不含重力球、250 ml和150 ml的商品類型評論次數相差明顯。詞頻統計柱狀圖和商品分類評價百分比柱狀圖如圖4、圖5所示。

(4)制作詞云圖。根據上一步中用戶評價的特征信息,使用wordcloud模塊進行詞云展示。將出現頻率高的評價詞匯進行放大顯示,頻率較低的詞語縮小顯示。代碼為:

from wordcloud import WordCloud

from matplotlib import pyplot as plt

wc=WordCloud(font_path=’D:/simhei.ttf’,background_color=’white’,width=1000,height = 800).generate(“ “.join(new_data))

plt.imshow(wc)

plt.axis(“off”)

plt.show()

從詞云圖中可以直觀地看出,“寶寶”“質量”“喝”“牌子”和“不錯”等詞語最為突出,表明用戶對該款嬰兒用品的質量和品牌總體感覺不錯,以寶寶是否愛喝作為重要的評判點。運行得到的詞云圖如圖6所示。

4 ?結 ?論

首先,通過本文研究發現:該款嬰兒用品銷售量,在不同的產品參數方面有所不同,用戶對寶寶是否愛喝、商品質量、是否有重力球和品牌等方面有較強的體驗感。合理運用Python在Anaconda環境下的科學計算庫、文本分析庫以及數據可視化等庫,可以高效便捷地完成簡單數據的采集,并且對原始數據進行預處理和可視化展示,對嬰兒用品商家提供銷售數據支持,也從側面反映二胎、三胎政策影響下的嬰兒用品需求變化。

然后,為了完善嬰兒用品詞匯資源庫,后續研究尚需要對其他商品的評論數據進行補充,對評論內容的文本情感分析和相似度分析進行思考和探索。

參考文獻:

[1] 呂云翔,李伊琳,王肇一,等.Python數據分析實戰 [M].北京:清華大學出版社,2018.

[2] 陳紅波,劉順祥.數據分析從入門到進階 [M].北京:機械工業出版社,2019.

[3] 李培.基于Python的網絡爬蟲與反爬蟲技術研究 [J].計算機與數字工程,2019,47(6):1415-1420+1496.

[4] 章蓬偉,賈鈺峰,邵小青,等.基于文本情感分析的電商產品評論數據研究 [J].微處理機,2020,41(6):58-62.

[5] 聶晶.Python在大數據挖掘和分析中的應用優勢 [J].廣西民族大學學報(自然科學版),2018,24(1):76-79.

[6] 鄭晶晶.融入Python應用的學生考勤數據管理分析 [J].數字技術與應用,2021,39(2):83-84+89.

[7] 郝海妍,潘萍.Python技術在數據分析中的應用 [J].電子技術與軟件工程,2020(12):179-181.

作者簡介:謝美英(1984—),女,漢族,湖南漣源人,講師,碩士研究生,研究方向:軟件技術、數據挖掘。

猜你喜歡
數據采集數據分析
CS5463在植栽用電子鎮流器老化監控系統中的應用
大數據時代高校數據管理的思考
科技視界(2016年18期)2016-11-03 22:51:40
鐵路客流時空分布研究綜述
我校如何利用體育大課間活動解決男生引體向上這個薄弱環節
體育時空(2016年8期)2016-10-25 18:02:39
基于廣播模式的數據實時采集與處理系統
軟件工程(2016年8期)2016-10-25 15:54:18
通用Web表單數據采集系統的設計與實現
軟件工程(2016年8期)2016-10-25 15:52:53
Excel電子表格在財務日常工作中的應用
淺析大數據時代背景下的市場營銷策略
新常態下集團公司內部審計工作研究
中國市場(2016年36期)2016-10-19 04:31:23
淺析大數據時代對企業營銷模式的影響
主站蜘蛛池模板: 伊人蕉久影院| 国内毛片视频| 国产视频欧美| 伊人国产无码高清视频| 强乱中文字幕在线播放不卡| 99这里只有精品在线| 国内精品伊人久久久久7777人| 黄色三级网站免费| 精品无码人妻一区二区| 欧美在线综合视频| 天天色综合4| 色综合天天操| 欧美中文字幕一区二区三区| 内射人妻无码色AV天堂| 另类欧美日韩| 91久久精品日日躁夜夜躁欧美| 婷婷亚洲天堂| 国产精品美人久久久久久AV| 久久免费精品琪琪| 91 九色视频丝袜| 四虎AV麻豆| 91亚洲国产视频| 亚洲成人高清在线观看| 91久久夜色精品| 国产精品自在在线午夜区app| 久久黄色小视频| 国产大片喷水在线在线视频| 99热这里只有免费国产精品 | 国产日韩欧美黄色片免费观看| 久久成人18免费| 日韩123欧美字幕| 久久精品无码专区免费| 毛片在线区| 国产在线日本| 欧美精品一二三区| 欧美国产三级| 国产福利一区二区在线观看| 欧美成人午夜影院| 91极品美女高潮叫床在线观看| 六月婷婷激情综合| 欧美日韩一区二区三区在线视频| 福利视频99| 欧美精品影院| 久久综合亚洲鲁鲁九月天| 91精品啪在线观看国产91| 国产精品女同一区三区五区| 91久久偷偷做嫩草影院电| 亚洲第一视频区| 亚洲第一成人在线| 亚洲视频黄| 久久一日本道色综合久久| 国产精品短篇二区| www.av男人.com| 国产视频一二三区| 色国产视频| 欧美在线黄| 99精品免费在线| 亚洲电影天堂在线国语对白| 狠狠色狠狠综合久久| 天天色综网| 亚洲首页在线观看| 美女内射视频WWW网站午夜 | 亚洲欧美综合精品久久成人网| 国产男人的天堂| 亚洲国产天堂久久综合| 四虎免费视频网站| 免费福利视频网站| 亚洲精品第1页| 欧美成人看片一区二区三区| 国产黄网永久免费| 亚洲美女一级毛片| 福利视频一区| 久久久久青草大香线综合精品| 午夜精品久久久久久久2023| 久久精品国产91久久综合麻豆自制 | 夜夜操国产| 精品国产www| 91精品国产一区自在线拍| 欧美黑人欧美精品刺激| 3344在线观看无码| 国产精品一区二区在线播放| 亚洲中文字幕97久久精品少妇|