基于Scrapy的商品評價獲取系統設計*

2017-10-21 03:40:21施威，夏斌

網絡安全與數據管理 2017年19期

關鍵詞：頁面評價信息

施威，夏斌

(上海海事大學信息工程學院，上海 201306)

基于Scrapy的商品評價獲取系統設計*

施威，夏斌

(上海海事大學信息工程學院，上海 201306)

隨著電子商務的迅速發展和競爭愈加激烈，對于電商平臺上第三方賣家而言，如何準確獲取商品評論信息從而正確選擇上架的商品變得愈來愈重要。目前第三方賣家在獲取商品評價工作上主要依賴于人工收集信息，不僅效率十分低下，并且準確度得不到保障。為了幫助電商平臺上第三方賣家高效并準確地解決這一問題，文中設計出了一種基于網絡爬蟲的商品評價獲取工具。該工具實現了對一個暢銷商品類目下的所有商品評論進一步細化與篩選，為用戶提供更加直觀的商品指標，同時固化存儲商品評論為后續的進一步優化提供數據源。該系統主要技術采用Scrapy框架，開發語言采用Python2.7，經過測試后發現達到了良好的效果。

電子商務；網絡爬蟲；Scrapy；Python

0 引言

電子商務的興起促進了商業模式的變革，作為最資深的電商平臺，Amazon擁有巨大的用戶群體，僅僅美國站的第三方賣家數量就超過20萬。平臺上每個商家店鋪的運營好壞與商家的選品質量緊密相關，尤其對于平臺上的第三方賣家。選品的效率越高，準確度越高，商品自然更加吸引消費者，店鋪的客戶群體也會更多。因此提高選品質量是提升店鋪收益的重要手段。

目前選品工作的一個重要判斷依據就是商品的評價信息，如何高效準確地獲取商品評價信息并得出一些商品的相關數據指標，對于選品的質量至關重要。獲取商品評價信息主要依賴于人工去檢索信息，這種方式效率十分低下。另外電商平臺也會提供商品綜合評價指標，但數據量太過抽象，可參考性不足。對于不同商家對評論數據的需求不同，電商平臺很難提供有價值的信息。因此本文設計了一個基于Scrapy框架的評價獲取系統，用戶通過提供特定的商品類目來獲取更加直觀的商品評價數據，從而為選品工作提供相應評價指標。

1 相關技術簡介

1.1網絡爬蟲與Python

網絡爬蟲[1](Web Crawler)是一種特定的應用程序或者腳本，可以按照一定的匹配規則自動地提取Web頁面中特定的內容。它最典型的應用就是搜索引擎從互聯網上抓取數據，并且下載Web頁面。網絡爬蟲最原始的目的就是從互聯網上下載數據到本地進行備份。爬蟲是從一個或有多個URL的集合開始進行爬取，首先獲取一個URL并下載此URL頁面內容，提取該頁面中其他需要的URL放入集合隊列中，反復此過程直至爬取所有Web頁面。常見的爬取策略有廣度優先爬蟲、重復爬取已有頁面爬蟲和定向爬蟲。

Python語言是一種語法簡單明晰、功能強大、兼具面向過程與面向對象的開源編程語言，特別適用于應用程序的敏捷開發，它幾乎可以在所有主流的操作系統上運行。Python語言提供了非常豐富的網絡協議標準庫，例如自帶的urllib、urllib2等最基本的爬蟲庫。另外，Python生態包含非常豐富的第三方工具包[2]，比如強大的Scrapy、requests、BeautifulSoup等網絡工具庫。

1.2Scrapy

Scrapy[3]是基于Python語言開發的一個開源Web并行爬取框架，它能夠快速爬取Web站點并從頁面中提取自定義的結構化數據。因突出的爬取性能，Scrapy在數據挖掘、數據監測和自動化測試領域得到了廣泛應用。Scrapy使用Twisted這個異步網絡庫來處理網絡通信，架構清晰，并且包含了各種中間件接口，用戶只需要在Scrapy框架的基礎上進行模塊的定制開發就可以輕松實現一個高效的爬蟲應用[4]。Scrapy整體架構如圖1所示。

圖1 Scrapy整體架構

(1)Scrapy Engine：框架引擎，用來處理整個系統的數據流處理，觸發事務；

(2)Scheduler：調度器，用來接受Engine發過來的請求，壓入隊列中，并在引擎再次請求時返回；

(3)Spiders：蜘蛛，也稱為爬蟲，用來定制特定解析規則爬取頁面并提取自定義的item數據；

(4)Downloader：下載器，用來下載頁面內容，并將內容返回給Spiders；

(5)Item Pipeline：項目管道，Spiders解析過后的數據被送到項目管道進行進一步的處理；

(6)Downloader Middlewares：下載器中間件，處理Scrapy引擎與下載器之間的請求及響應。

1.3Xpath

Xpath即為XML路徑語言，它被用來標示XML(標準通用標記語言的子集)文檔中的特定位置[5]。Xpath基于XML的樹狀結構，提供在樹形結構數據中定位節點的功能。因為爬蟲爬取的通常是HTML頁面，HTML同XML一樣也是樹狀結構，所以Xpath同樣也支持HTML。爬蟲的目的是為了獲取數據，而需要的數據通常都不是頁面的全部，獲取指定的數據需要進行數據匹配。常用的匹配技術有Python自帶的正則表達式類庫(re)，但正則匹配不能完全保證匹配到指定的數據節點，表達式的書寫也比較復雜。Xpath語言簡化了匹配表達式的書寫，匹配成功率也更高。Python語言對Xpath具有良好的支持，Scrapy與Xpath結合使得爬蟲效率高效并且可靠。

2 系統設計

2.1系統整體框架

系統主要分為五大部分，分別是URL管理、頁面數據解析、數據的提取與處理、數據的存儲、爬蟲調度。Scrapy引擎從URL管理器獲取需要并行爬取的URL，然后進行頁面解析，提取出需要的數據。再進一步進行數據過濾及處理，最后將需要的數據進行存儲固化，將結果導出為Excel表格。系統整體框架如圖2所示。

圖2 系統框架

2.2爬蟲調度

爬蟲調度[6]是Scrapy爬蟲的控制單元，對爬蟲系統的各個模塊進行協調和調度，核心功能包括：

(1)實現抓取數據的流程；

(2)控制其他模塊的執行；

(3)為HTTP請求添加請求信息，例如Headers；

(4)采取合適的反爬蟲措施避免反爬蟲機制。

2.3頁面加載器

頁面加載器通過爬蟲調度器提供的HTTP請求體信息以及URL管理器的URL，向Web服務器發起HTTP請求，獲取服務器響應的HTML頁面。為了避免反爬蟲機制導致服務器無法及時響應或拒絕訪問，頁面加載器采用定時機制限制請求的頻次。

2.4HTML解析器

HTML解析器對頁面加載器獲取的頁面數據進行解析，解析后的數據為樹狀結構，以便后續利用Xpath進行匹配選取。同時HTML解析器會將解析出來有需要的URL反饋給爬蟲調度器。本系統采用的是第三方Python網絡協議庫：requests，它包含的get、post等靜態方法對常見的HTTP請求響應處理都有很好的封裝。

2.5數據輸出

數據輸出分為兩部分，一部分是將有用的數據固化下來，以便后續對系統進一步優化升級。本系統采用Python自帶的IO文件模型進行固化。另一部分是將系統計算的結果導出為Excel表格，采用Scrapy自帶導出命令行工具，簡單直觀。

3 系統實現

3.1頁面解析及數據提取

圖5 樣例展示

頁面加載過后需要對頁面數據進行解析，解析后提取出需要的數據，然后對提取出的數據進行整合，最后對數據加以處理，并將有效的評價信息進行文件固化。利用Xpath對HTML原數據進行提取操作。例如，提取商品價格get_price的Xpath語法如下：link = get_price.xpath('div[@class="zg_itemWrapper"]/a[@class="a-link-normal"]/@href')[0].extract()。同理也能得到其他需要的數據，然后根據定義的數據模型進行整合。Item是Scrapy用來保存數據的容器模型，創建Item子類并定義相應字段field即可創建數據模型。數據提取流程如圖3所示。

圖3 數據提取邏輯圖

3.2數據的處理及輸出

在提取到商品基本信息(名稱、價格、鏈接)后，通過商品詳情頁的URL再次請求得到商品的評價數據。Scrapy是一個異步的爬蟲框架，所以異步對評價進行深度遍歷增強了程序的交互友好性。Amazon的評價分為兩種，一種是驗證通過(Verified Purchases)的評論，一種是未通過的。未通過Amazon認證的評價顯然可靠性不高，所以此類評價將被過濾掉。數據處理邏輯如圖4所示。

圖4 數據處理邏輯圖

評價時效區間的選擇可以自定義設定，一般認為近6個月的評價更具參考性。評價的好差評定策略以3星為分界點，大于3星認為是好評，小于等于3星認定為差評。評價的固化利用Python的IO文件模型保存到txt文件，文件名為商品名，以便后期對評價的內容做進一步的分析。輸出結果利用Scrapy的結果輸出模塊導出為Excel表格，如圖5所示。

proReviewSum為所有認證過的評價總數，proPosiReview為有效時間段內好評總數，proNegReview為有效時間段內差評總數。根據結果數據可以得出兩個參數，一個為總的評價數量，數量越高說明該產品人氣越高，另一個為好評數與差評數的比值，比值越高說明產品好評率越高。對兩個參數進行綜合考量，可以對選品起到一定的指導參考作用。

3.3反爬機制應對策略

反爬[7]是很多網站都會采取的保護措施，不同網站采取的反爬策略不同，所以本系統實現了常見的反爬應對策略，充分保證系統運行不受反爬機制的影響。實現的反爬應對策略如下：

(1)設置DOWNLOAD_DELAY，該參數為Scrapy在同一個網站兩個不同頁面之間跳轉需要等待的時間。可以在setting.py文件里面設置：DOWNLOAD_DELAY=3 s；

(2)使用用戶代理User-Agent，User-Agent是描述HTTP請求終端信息的參數，使用動態變化的User-Agent可以避免反爬機制的識別和訪問流量統計異常。采用User-Agent池加上Python原生隨機生成算法可以實現動態變化的User-Agent；

(3)禁止cookies[8]，可以防止網站利用cookies識別爬蟲軌跡[9-10]。在setting.py文件中設置：COOKIES_ENABLED=False。

4 結論

通過將商品基本信息、評論數據抓取下來，并對評論進一步地精確化，計算出更具參考價值的選品指標，對選品質量起到了一定的提高作用，同時也大大節約了眾多店鋪商的手工查詢時間，幫助他們實現更好的收益。本文利用互聯網技術簡化了電子商務平臺上繁雜性的工作，有很強的應用價值。

[1] PANI S K, MOHAPATRA D, RATHA B K. Integration of Web mining and Web crawler: relevance and state of art[J]. International Journal on Computer Science & Engineering, 2010, 2(3):772-776.

[2] 徐詠梅. Python網絡編程中的遠程調用研究[J]. 電腦編程技巧與維護, 2011(18):80-81.

[3] XIE D X, XIA W F. Design and implementation of the topic-focused crawler based on scrapy[J]. Advanced Materials Research, 2013, 850-851:487-490.

[4] Twisted 15.4.0 documentation[EB/OL].(2017-02-20)[2017-03-26].http://twistedmatrix.com/documents/current/core/howto/defer.html.

[5] 楊文柱, 徐林昊, 陳少飛,等. 基于XPath的Web信息抽取的設計與實現[J]. 計算機工程, 2003, 29(16):82-83.

[6] 李婷. 分布式爬蟲任務調度與AJAX頁面抓取研究[D].成都：電子科技大學,2015.

[7] 鄒科文,李達,鄧婷敏,等. 網絡爬蟲針對“反爬”網站的爬取策略研究[J]. 電腦知識與技術,2016(7):61-63.

[8] HARDING W T. Cookies and Web bugs: what they are and how they work together[J]. Information Systems Management, 2001, 18(3):17-24.

[9] 漆志輝, 楊天奇. 網絡爬蟲性能研究[J]. 微型機與應用, 2011, 30(5):72-74.

[10] 王勇杰. 電子商務網站中購物車的實現[J]. 微型機與應用, 2011, 30(17):11-12.

The design of product reviews acquisition system based on the Scrapy framework

Shi Wei, Xia Bin

(College of Information Engineering, Shanghai Maritime University, Shanghai 201306, China)

With the rapid development of e-business and the increasingly fierce competition, how to accurately obtain product reviews information and select stores goods correctly become more and more important, especially for those third-party sellers on e-business platform. At present, the third-party sellers mainly depend on artificial gathering information for the product reviews getting work, not only the efficiency is very low, and the accuracy can not be guaranteed. In order to help those third-party sellers on e-business platform to solve this problem efficiently and accurately, this paper designed a product reviews acquisition tool based on web crawler. This tool implements further refining and filter for all goods under a best-selling merchandise category, to provide users with more intuitive product indicators, at the same time to grab and store goods comments as data source for further optimization. The main technology of this system is Scrapy framework, development language adopts Python 2.7. After testing, it has achieved good results.

e-business; the crawler; Scrapy; Python

TP391.9

10.19358/j.issn.1674- 7720.2017.19.004

施威，夏斌.基于Scrapy的商品評價獲取系統設計[J].微型機與應用，2017,36(19)：12-15.

上海市科學技術委員會資助項目(14441900300)；國家自然科學基金(61550110252)

2017-04-08)

施威(1993-)，男，碩士研究生，主要研究方向：智能商務信息處理。夏斌(1975-)，通信作者，男，博士，副教授，碩士生導師，主要研究方向：腦-機接口、云計算及人工智能。E-mail:xawen267@gmail.com。