劉丹 葉子青 周舒 唐瑤 粟妮 張璐妮
(北京郵電大學,北京海淀 100876)
信息爬取工具MetaSeeker的介紹及其在微博中的應用
劉丹 葉子青 周舒 唐瑤 粟妮 張璐妮
(北京郵電大學,北京海淀 100876)
移動互聯網為微博的發展帶來了契機,如何深入理解微博用戶的行為,從而利用好微博平臺,這是政府相關管理機構和網絡營銷企業共同關注的問題。從海量的微博數據中提取有用的數據就要依賴于網絡爬蟲技術,而選擇合適的爬蟲技術可以使我們的研究簡便且有效率。
微博;網絡爬蟲;爬蟲工具
目前來說,微博已經成為了一種新型社交的重要媒介,以其實現了移動終端與互聯網的無縫連接,以及易用、隨意、即時、傳播快等特點,在不到三年的時間內已發展成為重要的分享工具和自媒體傳播平臺,成為人們網上生活的重要組成部分。在使用微博的過程中,一條微博的評論量與轉發量會與什么因素相關引起了我們興趣,故而希望通過捕捉大量的數據,進行實證分析,來確定評論量與轉發量的影響因素及其關系。本項研究是基于網絡爬蟲工具MetaSeeker完成的,在眾多爬蟲工具中選擇MetaSeeker是由于其可以在web頁面的語義結構進行描述,輸出適合計算機自動處理的描述文件和指令文件,且能夠持續地、大批量地提取web信息,輸出帶有語義結構元數據的信息提取結果文件,可以高效地為信息服務系統補充內容。
網絡爬蟲技術是通過專門的工具實現對海量網絡數據的提取、挖掘。在大數據時代,數據即意味著財富,生活中的很多信息感知和采集終端提供了海量的數據,借助大數據,使我們感知和看待世界的方法發生了改變,不再像過去那樣憑借直覺和經驗得出結論,而是基于大量的數據分析。但從海量的數據中如何提取有價值的信息,還需要專門的爬蟲技術。網絡爬蟲是一個自動提取網頁的程序,它為搜索引擎從Web上下載網頁,是搜索引擎的重要組成部分,通用網絡爬蟲從一個或若干個初始網頁的URL開始,獲得初始網頁的URL列表;在抓取網頁的過程中,不斷從當前頁面上抽取新的URL放入待爬行隊列,直到滿足系統的停止條件[1]。
目前相關的爬蟲軟件較多,比如MetaSeeker爬蟲工具軟件包、多可網絡爬蟲、LoalaSam網絡爬蟲等。由于微博信息目前并沒有一個成型的數據庫,必須從網頁中逐個抓取。實現方式主要有兩種,一種是基于python等編程語言實現,另一種是采用MetaSeeker等數據采集工具包進行實現。
Python是一種基于面向對象,且功能超強的編程語言。Python是開放源代碼的軟件之一。用戶可以自由發布軟件的拷貝,閱讀原代碼,對它改動以用于新的軟件。Python還具有龐大的標準庫,可以處理各種工作,Python語言編寫網絡爬蟲可用于在線微博用戶的行為數據的抓取。
MetaSeeker是一個WEB網頁抓取、數據抽取和頁面信息提取工具包,能夠按照用戶的指導,從web頁面上篩選出需要的信息,并輸出含有語義結構的提取結果文件(XML文件),metaseeker解決了一個關鍵問題:將無結構的web頁面信息轉換成有結構的適用于機器處理的信息,可應用于專業搜索、mashup和web數據挖掘領域。
與phyton相比,metaseeker不需要設計采集規則,因此實現較為簡單。此外,在數據采集的后期,由于新浪微博API接口對采集數據量的限制,無法繼續通過python軟件抓取數據。因此,本研究數據采集通過metaseeker來搜集。
(1)MetaSeeker的數據采集流程包括三步:①確定目標網址,制定相關抓取規則;②使用Metastudio定義抓取規則,創建線索,上載數據;③使用datascraper提取數據。
(2)關于抓取時間的設定:微博平臺的信息傳播具有迅速、實時性強的特點,雖然這種實時性為微博營銷帶來了及時互動、迅速反饋的優勢,但另一方面,這種實時性卻會導致微博平臺各類信息更新快,而用戶的接收量有限,基于人的習慣動力學行為[2][3]用戶的注意力主要會集中新近發布的微博上,從而導致前期發布的微博內容會很快的被湮沒,從而降低其影響力。根據以上微博平臺數據時間的特點,推斷至多在微博發布7天之后此條微博便會失去其時效性。因此我們重點關注新浪微博熱門搜索榜上的微博和一周之內的熱門微博,從中抓取數據并進行分析。
(3)關于數據抓取內容的設定:微博雖然內容簡短在140個字以內,但就是因為字數的限制,所以微博通過很多機制進行表意壓縮。根據對新浪微博內容的分析發現,無論是微博正文內容、被轉發內容、圖片、鏈接或是評論轉發量,都是可能對企業微博營銷有效性研究起到重要作用的指標和變量,因此在數據抓取階段,將會把每條微博的全部內容抓取下來,以備后續分析。
(1)打開MetaStudio,在地址欄輸入要采集數據的地址;
(2)建立整理箱;
(3)設置反向選擇;
(4)設置多實例采集規則:選中整理箱;
(5)當樣例復制品映射兩次都做好之后,就可以點擊工具條上的schema按鈕,啟動上載過程,觀察工作流文件;
(6)轉到Clue Editor工作臺;
①點擊newClue按鈕,創建一個線索
②點擊Marker類型,設定為記號線索,“下一頁”字樣就是記號
③指定為線內線索類型。
(7)再次點擊工具條上的schema按鈕,啟動上載過程,觀察工作流文件;
(8)打開DataScraper,輸入相應的主題名,找到相關提取線索,進行提取即可。
通過由MetaSeeker爬取的微博數據的分析,可以深入理解微博用戶的行為,從而利用好微博平臺,這是政府相關管理機構和網絡營銷企業共同關注的問題。
[1]于娟,劉強.主題網絡爬蟲研究綜述[J].計算機應用研究, 2007,24(10).
[2]Frank M C,Goldwater S,Griffiths T L,et al.Modeling HumanPerformance in Statistical Word Segmentation[J]. Cognition,2010,117(2):107-25.
[3]JiaoY,Liu Y,Wang J,et al.Model for Human Dynamics Based on Habit[J].Chinese Science Bulletin,2010,55(24): 2744-2749.
Introduction of Information Crawling Tool“Metaseeker”and Its Application in Weibo
LIU Dan,YE Zi-qing,ZHOU Shu,TANG Yao,SU Ni,ZHANG Lu-ni
(Beijing University of Posts and Telecommunication,Beijing 100876,China)
Mobile Internet has brought an opportunity for the development of micro-blog(Weibo).Now it is the common concern of government administration and Internet enterprise to understand micro-blog users’behavior,so as to make good use of micro-blog platform.To extract useful data from the mass of micro-blog data largely depends on web crawler technology.Appropriate choice of crawler technology enables simple and efficient study.
micro-blog;web crawler;crawler-like tool
TN971
A
1008-1739(2015)10-72-2
定稿日期:2015-04-26
受北京郵電大學大學生創新研究基金資助(基金號:500050024)