馮傳新
摘要:基于大數據技術對客戶信息進行行為分析和預測,已經引起越來越多的企業進行關注。本文根據京東購物網站的各個店鋪網頁分析,并通過數據挖掘,數據分析,完成了一個基于Django web框架搭建的一個簡易的后臺,然后將分布式所抓取的數據和數據分析連接起來,并將分析所得結果返回給前端顯示的一個京東購物數據分析系統。從而對京東商鋪客戶評價進行分析,獲取該商品的質量優劣,可以迅速的幫助用戶獲取商品的很多重要信息。
Abstract: The behavior analysis and prediction of customer information based on large data technology has caused more and more enterprises to pay attention to it. According to the data mining, data analysis of the every store website in the JINGDONG mall, a simple backstage is completed based on the Django web framework, and then the captured data and analysis of distributed data analysis are linked, and the results are sent to a data display front-end analysis system of JINGDONG mall. Therefore, and the quality of the product can be obtained by analyzing the evaluation of the JINGDONG mall customers. It can help the users to obtain many important information of the commodity quickly.
關鍵詞:數據分析系統;python2.7;Django;數據挖掘;數據分析
Key words: data analysis system;python2.7;Django;data mining;data analysis
中圖分類號:TP31 文獻標識碼:A 文章編號:1006-4311(2018)28-0255-04
0 引言
隨著大數據的發展、以及國家推動實施大數據的號召,各個行業都應加強信息化和工業化深度的融合,加快進入數字經濟時代。當前網絡購物已經成為人們生活不可分割的一部分,但面對琳瑯滿目的商品,人們需要去瀏覽和對比各個店鋪的信息,如好評,差評,購買人數等繁瑣的步驟。通過分析網購活動,收集每個商家的所有有用信息,并對這些大數據進行分析,將對消費者有用的信息直接簡單明了的展示給客戶。
本課題的提出意在開發一個面向消費者的一個購物網站數據分析系統,以京東購物網站為例,根據京東購物網站數據分析系統的實現,基于python2.7,scrapy爬蟲框架,redis數據庫以及Django web框架,pandas數據分析模塊等技術進行綜合運用,從而開發實現一套以數據挖掘及分析為核心的京東商城數據分析系統。
1 系統關鍵技術研究
整個系統使用python2.7編程語言,開發平臺使用pycharm作為開發平臺,數據挖掘使用scrapy開源框架,redis作為數據庫,數據分析以pandas作為數據分析工具,以Django web框架搭建一個簡易的web后臺。具體的研究內容包括了以下這幾個方面:
①研究完成該系統的關鍵技術:scarpy+redis實現分布式爬蟲,pandas實現數據分析,django實現web展示;
②對京東商城進行網頁源代碼分析以及爬取所用信息,對所用信息進行分析提煉,以詞云,圖表形式展現出來;
③使用python編程語言,實現數據挖掘、數據分析、前端展示三大部分。
2 系統需求分析
2.1 總體需求
京東數據分析系統是以京東網絡購物網站為研究對象,主要目的是獲取給定商鋪的url,通過系統分析,直接將商鋪的商品信息,及評論中對商品評價的關鍵詞直接呈現給消費者,使消費者對商品信息一目了然,從而節約大量時間。
2.2 性能需求
系統開發的總體任務是實現京東商城的自動化爬取及分析,以一種快速、全名、高提練度和高對比度的信息獲取和展示方式。
2.3 開發環境
Python2.7 + Pycharm5.7 + Redis4.0 + Window 10
3 京東數據分析系統設計
3.1 數據庫設計
數據挖掘中,爬取數據時,單進程將會使爬蟲的效率嚴重下降,請求返回的等待時間會消耗大量時間,而分布式爬蟲卻可以大大降低時間的消耗。Redis數據庫是開源且用ANSI C語言編寫、支持網絡、可基于內存一個持久化的日志型、key-value數據庫,而且支持各種語言的Api。Redis就是一個數據庫類型的系統,但它在分布式中,由于它的隊列性特別的好用,所以分布式開發中它成為一個不錯的選擇,本系統采用Redis作為分布式爬蟲數據庫。
本系統數據庫主要由商品抓取記錄表和商品分析結果表兩部分組成。
①商品抓取記錄表(Command)。
②商品評論分析結果表(Result)。
3.2 數據爬取模塊設計
該模塊負責系統中源數據的集成,采用分布式抓取,快速的在短時間內盡量抓取足夠多的商品評價,通過Chrome的抓包分析出京東網上商城的評價請求URL,檢測Cooke之類的反爬措施等,編碼利用Scrapy框架抓取京東商城物品評價信息存入數據庫以備用。
具體步驟如圖1所示。
4 京東數據分析系統
平臺搭建、數據抓取、數據分析、項目的功能模塊的實現。
4.1 平臺的搭建
本項目以python2.7作為開發語言,本項目主要由Scrapy和Django框架搭建而成,所以在進行項目開發前需要搭建好相應的環境。
scrapy框架搭建:
scrapy是一個非常好用的爬蟲框架,進入cmd命令窗口,進入jd_analysis-master目錄下輸入以下命令便可創建一個jd_spiders為名稱的項目,即scrapy startproject jd_spiders,便可得到一個spiders文件夾及其目錄結構。
4.2 數據爬取模塊實現
抓取的url起始頁,由用戶輸入的京東商鋪開始,代碼如圖2所示。
在使用python爬蟲爬取數據地時候,經常會遇到一些網站的反爬措施,一般針對于headers中的user-agent,如果沒有對headers進行設置,user-agent會聲明自己是python腳本,一般有反爬想法地網站,會拒絕這樣的連接,而修改headers可以將自己地爬蟲腳本偽裝成瀏覽器地正常訪問,來規避這一機制。Headers的配置如圖3所示。
4.3 數據分析模塊實現
此模塊主要用于分析爬取的數據,并圖形化,并在前端展示。以“百富帝純棉四件套”商品為例,客戶只需輸入該商品的url,即可開始分析,總體數據分析如圖4所示。
好評數據如圖4所示。
該商品不同顏色購買數量關系圖如圖4所示,圖中 “玫瑰金”、“黑色”和“金色”三種系列顏色銷量最好,分別達到34.667%、21.333%和16.000%,其余系列都沒有達到10%。
購買渠道占比分析圖如圖5所示,從中可以看出移動端渠道購買的為92.8%,網頁端購物渠道為7.2%。
購買用戶的等級分布圖如圖6所示,前三名分別是PLUS會員、銀牌會員和金牌會員,百分比分別達到了32.4%、23%和18%。
至此數據數據分析完成,已將該商品的全部有用信息即商品評價、顏色銷量、購買時間、購買渠道和用戶等級分別展示給了用戶。
5 結束語
數據是一個企業的核心無形競爭力,在這樣的環境下,更需要提煉每個行業的有用信息,促進每個行業的利益最大化。
本文以電商平臺為研究對象,只有通過數據挖掘對用戶的分析,才能更好地實現用戶信息的數據化、程序化,才能精準營銷,一方面對于消費者來說,可以更直觀地享受消費過程,另一方面對于銷售者來說,可以更容易把控用戶的喜好,抓住用戶,培養用戶習慣,提高產業的服務和收益。所以數據挖掘對于提升電商平臺的用戶黏度又有著其非凡的意義,能夠促進電商平臺的發展,促進電子商務的發展。
參考文獻:
[1]錢程,陽小蘭,朱福喜.基于Python的網絡爬蟲技術[J].黑龍江科技信息,2016(36):273.
[2]謝克武.大數據環境下基于python的網絡爬蟲技術[J].電子制作,2017(9):44-45.
[3]李昊,張敏,馮登國,等.大數據訪問控制研究[J].計算機學報,2017(1):72-91.
[4]胡一.基于大數據的電子商務個性化信息推薦服務模式研究[D].吉林大學,2015.
[5]濮文強,曹磊,夏斌.基于Django框架的關鍵詞排名監控系統設計[J].微型機與應用,2017,36(20).
[6]朱蔚恒,陳健,印鑒.數據挖掘在電子商務中的應用[J].計算機工程,2002,28(8):73-74.