陳超
網絡爬蟲(Web Spider)又稱網絡蜘蛛、網絡機器人,是一段用來自動化采集網站數據的程序。如果把互聯網比喻成一個蜘蛛網,那么Spider就是在網上爬來爬去的蜘蛛。Python適用于網站、桌面應用開發,自動化腳本,復雜計算系統,科學計算,生命支持管理系統,物聯網,游戲,機器人,自然語言處理等很多方面。本文簡要介紹對于定向信息采集所需了解基本知識和相關技術,以及python中與此相關的庫,同時提供對與數據抓取有關庫的封裝實現。
一、應用場景
爬蟲技術在科學研究、Web安全、產品研發、輿情監控等領域可以做很多事情。如:在數據挖掘、機器學習、圖像處理等科學研究領域,如果沒有數據,則可以通過爬蟲從網上抓取;在Web安全方面,使用爬蟲可以對網站是否存在某一漏洞進行批量驗證、利用;在產品研發方面,可以采集各個商城物品價格,為用戶提供市場最低價;在輿情監控方面,可以抓取、分析微博的數據,從而識別出某用戶是否為水軍。
二、運行流程
對于定向信息的爬取,爬蟲主要包括數據抓取、數據解析、數據入庫等操作流程。其中:(1)數據抓?。喊l送構造的HTTP請求,獲得包含所需數據的HTTP響應;
(2)數據解析:對HTTP響應的原始數據進行分析、清洗以提取出需要的數據;
(3)數據入庫:將數據進一步保存到數據庫(或文本文件),構建知識庫。
三、相關技術
爬蟲的相關技術包括:
(1)數據抓?。毫私釮TTP請求和響應中各字段的含義;了解相關的網絡分析工具,主要用于分析網絡流量,如:burpsuit等。一般情況,使用瀏覽器的開發者模式即可;
(2)數據解析:了解HTML結構、JSON和XML數據格式,CSS選擇器、Xpath路徑表達式、正則表達式等,目的是從響應中提取出所需的數據;
(3)數據入庫:MySQL,SQLite、Redis等數據庫,便于數據的存儲;
以上是學習爬蟲的基本要求,在實際的應用中,也應考慮如何使用多線程提高效率、如何做任務調度、如何應對反爬蟲,如何實現分布式爬蟲等等。
四、python相關庫
在爬蟲實現上,除了scrapy框架之外,python有許多與此相關的庫可供使用。其中,在數據抓取方面包括:urllib2(urllib3)、requests、mechanize、selenium、splinter;在數據解析方包括:lxml、beautifulsoup4、re、pyquery。
對于數據抓取,涉及的過程主要是模擬瀏覽器向服務器發送構造好的http請求,常見類型有:get/post。其中,urllib2(urllib3)、requests、mechanize用來獲取URL對應的原始響應內容;而selenium、splinter通過加載瀏覽器驅動,獲取瀏覽器渲染之后的響應內容,模擬程度更高。
具體選擇哪種類庫,應根據實際需求決定,如考慮效率、對方的反爬蟲手段等。通常,能使用urllib2(urllib3)、requests、mechanize等解決的盡量不用selenium、splinter,因為后者因需要加載瀏覽器而導致效率較低。
對于數據解析,主要是從響應頁面里提取所需的數據,常用方法有:xpath路徑表達式、CSS選擇器、正則表達式等。其中,xpath路徑表達式、CSS選擇器主要用于提取結構化的數據,而正則表達式主要用于提取非結構化的數據。相應的庫有lxml、beautifulsoup4、re、pyquery。
五、反爬蟲
1. 基本的反爬蟲手段,主要是檢測請求頭中的字段,比如:User-Agent、referer等。針對這種情況,只要在請求中帶上對應的字段即可。所構造http請求的各個字段最好跟在瀏覽器中發送的完全一樣,但也不是必須。
2. 基于用戶行為的反爬蟲手段,主要是在后臺對訪問的IP(或User-Agent)進行統計,當超過某一設定的閾值,給予封鎖。針對這種情況,可通過使用代理服務器解決,每隔幾次請求,切換一下所用代理的IP地址(或通過使用User-Agent列表解決,每次從列表里隨機選擇一個使用)。這樣的反爬蟲方法可能會誤傷用戶。
3. 希望抓取的數據是如果通過ajax請求得到的,假如通過網絡分析能夠找到該ajax請求,也能分析出請求所需的具體參數,則直接模擬相應的http請求,即可從響應中得到對應的數據。這種情況,跟普通的請求沒有什么區別。
4. 基于JavaScript的反爬蟲手段,主要是在響應數據頁面之前,先返回一段帶有JavaScript代碼的頁面,用于驗證訪問者有無JavaScript的執行環境,以確定使用的是不是瀏覽器。
六、結論
網絡爬蟲不僅能夠為搜索引擎采集網絡信息,而且還可以作為定向信息采集器,定向采集某些網站下的特定信息。而隨著近幾年來的發展,python的受歡迎度也越來越高,而它的運用的領域也是越來越多,比如人工智能和大數據等領域,python都是在其中扮演者重要的角色。
[1] 《Python程序設計與算法基礎教程》. 江紅,余青松 主編. 清華大學出版社. 2018
[2] 《Python成型設計案例教程——從入門到機器學習》. 張思民 編著. 清華大學出版社. 2018
[3] 基于Python的網絡爬蟲技術[J]. 錢程,陽小蘭.黑龍江科技信息. 2016,36:273