基于網絡爬蟲的新浪微博數據抓取技術

2019-01-27 09:12:27王金峰彭禹王明鐘聲趙雪輝

中小企業管理與科技 2019年1期

王金峰，彭禹，王明，鐘聲，趙雪輝

（1.防災科技學院，河北廊坊 065201；2.河北女子職業技術學院，石家莊 050000）

1 引言

隨著移動互聯網的飛速發展，人們越來越多地在社交網絡上發表自己的見解，分享自己的生活，與他人進行交流討論。新浪微博作為國內最大的社交平臺之一，同時也成了各類消息發布的最主要渠道之一。截至2017年9月，微博月活躍用戶3.76億，日活躍用戶1.65億，每天都有用戶發布上億條微博，評論、轉發或點贊其他微博。一個如此龐大和公開的社交平臺，每天都能產生海量信息，能為各種輿情監控、商業推廣分析、自然語言處理等系統提供大量的數據支持[1]。在國外，開展了針對于Twitter和Facebook等社交平臺的一系列研究，但是不同于國外的Twitter和Facebook等平臺，微博官方并沒有提供相關接口給人們下載與微博相關的數據集，并且微博的登錄、瀏覽等操作都有較敏感的反爬蟲機制，這給數據的采集帶來了困難，對普通的想獲取相關數據的人員來說是個極大的挑戰。因此，快速獲得微博數據的方法就是構建一個穩定高效的爬蟲抓取系統。

2 網絡爬蟲

2.1 原理

網絡爬蟲（Web Crawler），是自動地抓取萬維網信息的程序或者腳本，它們被廣泛用于互聯網搜索引擎或其他類似網站。爬蟲一般分為數據采集、處理和儲存三個部分。傳統爬蟲從一個或若干初始網頁的URL開始，獲得初始網頁上的URL，在抓取網頁的過程中，不斷從當前頁面上抽取新的URL放入隊列，直到滿足系統的一定停止條件。

2.2 網絡爬蟲框架Scrapy

Scrapy是Python開發的一個快速、可擴展的Web抓取框架，用于抓取Web站點并從頁面中提取結構化的數據。通過Scrapy中的Spider模塊，能方便地定義網址爬取和數據提取的規則。

3 微博爬蟲策略

現在各種爬蟲的搜索策略[2]主要為：深度優先搜索策略、廣度優先搜索策略、非完全PageRank策略以及大站優先搜索策略。

微博跟其他普通網站相比，動態性和網頁結構都比較復雜，其對于爬蟲的防范也更加嚴格，普通的爬蟲程序一般不能直接獲取到相應的網頁內容，但其網頁內容中的數據格式較為統一。所以，針對微博相關的瀏覽機制，運用一些工具和方法，就可以較為方便地獲取到微博中的有關數據。

3.1 微博爬取入口選擇

微博網頁端基本分為PC端用戶入口（域名：weibo.com）和移動端用戶入口（域名：weibo.cn）。這兩種頁面雖然展現內容的方式和策略有所區別，但能獲取的數據基本相同，且由于PC入口為大多數網頁端用戶瀏覽微博的主要途徑，從安全性和用戶體驗等角度考慮，該入口交互設計都更復雜，并設置有許多動態刷新的內容，這給數據的爬取造成了一定難度，而移動端網頁可以直接發送不同的HTTP請求來獲取相應的內容[3]，相比PC端而言，后者網頁結構更加簡單，設置的反爬措施也更少，所以選取通過移動網頁入口來進行數據的爬取和解析。

3.2 微博登錄和爬取

在微博中進行網頁瀏覽是需要進行登錄并保持登錄狀態的，否則是無法獲取到相關信息的。我們使用多個微博賬戶通過Selenium自動化工具加Firefox瀏覽器無頭模式訪問微博登錄頁面進行登錄，登錄成功后將其相應的cookies保存起來。為了提高爬取的穩定性和成功率，還需要建立一個User-Agent池，再對Scrapy的middlewares模塊進行擴展，在其中的process_request方法里對Scrapy的request加入自動化登錄微博后獲得并已保存在數據庫的Cookies，在Scrapy請求微博服務器時使用一個可用的Cookies并隨機抽取一個User-Agent進行偽裝，這樣就能順利訪問頁面，減少爬蟲請求被微博服務器屏蔽和賬戶被封號的概率。采用的抓取策略是廣度優先搜索，通過社交關系[4]，抓取用戶的關系數據。只要利用一小群“種子用戶”，每個用戶都對應有一個微博ID，通過使用微博ID也就能獲得該用戶的全部個人信息和他所發布的微博。以某個“種子用戶”為起點，獲得他的關注人和粉絲等關系[5]，再對其好友進行關系搜索，并按此方法遞歸爬取，將得到的用戶去重[6]和排序，加入待爬取的隊列，從而得到一個龐大的待爬取的用戶數據集。理論上，這可以爬取到微博上所有的用戶信息。

4 微博數據抓取

4.1 微博信息的爬取

得到用戶ID后，就能通過發起不同的HTTP請求訪問他們的個人信息、微博列表、粉絲列表和關注列表等頁面，將頁面下載之后，能看到這些頁面都是有固定結構的HTML代碼，只要在Scrapy里自定義的Spider中通過正則表達式或者Xpath等工具分別對Response結果進行不同的解析，就能得到相應的結構化數據。

一般的爬取只需保留四類數據：①微博信息；②個人信息；③用戶關系（只保留關注者的信息）；④微博評論信息。例如，微博信息主要抓取的是該用戶發布過的所有微博的內容、時間、轉發數、評論數、點贊數、發布微博時的地點（經緯度坐標）以及發布微博所用的設備或平臺等，如果是轉發微博，還可以獲得源微博的URL鏈接等。

同時，微博下面的評論與回復也可以按需求進行抓取并以時間排序，作為對話語料數據保存。

4.2 低價值信息的過濾

微博中因為各種各樣的原因[7]，通常會存在一些爬取價值不大的賬號和信息，例如，常見的無人使用的“僵尸賬號”或一些“惡意營銷號”等，如果不加處理而直接爬取則會浪費許多爬取性能和儲存空間，這就需要過濾待爬取的原數據。

目前，在爬取過程中不能很好地識別或直接判斷無價值信息，但微博用戶可以設定某些條件來達到過濾的目的[8]，如設置被爬取的主體賬號的粉絲和關注數閾值在5000之內，判斷其是否有正常的頭像，昵稱是否是常見的“垃圾賬號”類的昵稱等，也可針對不同的爬取需求來設置爬取對象的屬性，如地域、年齡、發布的微博數等，從而得到相應的結果數據。

5 結語

本爬蟲從技術和思路上提供了獲取微博上相關數據的一些方法，對于中小型的數據需求有較好的適用性，并且基于Scrapy框架進行了擴展，相比于一般的爬蟲系統，有著更好的應對反爬蟲的機制，提高了爬取的效率和穩定性。

作為主流社交互動平臺，在當今大數據時代，微博存在著巨大的可挖掘價值。如何提供更快、更準確的數據爬取技術，將會是今后極具研究價值和挑戰的方向。