陳 珂,藍鼎棟,柯文德,黎樹俊,鄧文天
(廣東石油化工學院 計算機與電子信息學院,廣東 茂名 525000)
基于Java的新浪微博爬蟲研究與實現
陳 珂,藍鼎棟,柯文德,黎樹俊,鄧文天
(廣東石油化工學院 計算機與電子信息學院,廣東 茂名 525000)
為了高效獲取更多的微博數據,針對調用微博API和網頁版(com版)等傳統微博爬蟲在數據采集中所存在的問題,設計開發了一個基于Java的采集新浪微博Weibo.cn站點的網絡爬蟲系統。該系統通過廣度遍歷結合組拼URL的方式采集網頁源碼,使網頁源碼更加簡潔,純凈度更高,降低了網絡傳輸壓力并減少了HTML源碼解析時間。主要實現了微博模擬登陸、微博網頁爬取、微博頁面數據提取和任務調度控制,并對爬取數據進行了分析,在爬蟲中添加了主題微博篩選功能。為驗證該系統的有效性和可行性,與其他傳統方法進行了分析對比。實驗驗結果表明,所提出的系統爬取效率更高,實現代碼更簡便。
新浪微博;網絡爬蟲;Java;數據挖掘
隨著計算機與網絡技術的快速發展,社交網絡平臺是人們喜愛的網絡社交方式。目前廣為流行的微博系統,對人們的生活方式影響巨大。伴隨著微博使用人數的急劇上升,產生了巨大的數據量,由此可以從中挖掘出大量的有用信息,而基于微博的數據挖掘研究已成為當今社會科學和計算機科學研究的重點。微博(Weibo)是一種通過關注機制分享簡短實時信息的廣播式的社交網絡平臺,也是一個基于用戶關系的信息分享、傳播以及獲取的平臺[1]?!?br>