999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

信息爬取工具MetaSeeker的介紹及其在微博中的應用

2015-04-16 13:23:09劉丹葉子青周舒唐瑤粟妮張璐妮
計算機與網絡 2015年10期
關鍵詞:頁面用戶信息

劉丹 葉子青 周舒 唐瑤 粟妮 張璐妮

(北京郵電大學,北京海淀 100876)

信息爬取工具MetaSeeker的介紹及其在微博中的應用

劉丹 葉子青 周舒 唐瑤 粟妮 張璐妮

(北京郵電大學,北京海淀 100876)

移動互聯網為微博的發展帶來了契機,如何深入理解微博用戶的行為,從而利用好微博平臺,這是政府相關管理機構和網絡營銷企業共同關注的問題。從海量的微博數據中提取有用的數據就要依賴于網絡爬蟲技術,而選擇合適的爬蟲技術可以使我們的研究簡便且有效率。

微博;網絡爬蟲;爬蟲工具

1 引言

目前來說,微博已經成為了一種新型社交的重要媒介,以其實現了移動終端與互聯網的無縫連接,以及易用、隨意、即時、傳播快等特點,在不到三年的時間內已發展成為重要的分享工具和自媒體傳播平臺,成為人們網上生活的重要組成部分。在使用微博的過程中,一條微博的評論量與轉發量會與什么因素相關引起了我們興趣,故而希望通過捕捉大量的數據,進行實證分析,來確定評論量與轉發量的影響因素及其關系。本項研究是基于網絡爬蟲工具MetaSeeker完成的,在眾多爬蟲工具中選擇MetaSeeker是由于其可以在web頁面的語義結構進行描述,輸出適合計算機自動處理的描述文件和指令文件,且能夠持續地、大批量地提取web信息,輸出帶有語義結構元數據的信息提取結果文件,可以高效地為信息服務系統補充內容。

2 關于網絡爬蟲技術

網絡爬蟲技術是通過專門的工具實現對海量網絡數據的提取、挖掘。在大數據時代,數據即意味著財富,生活中的很多信息感知和采集終端提供了海量的數據,借助大數據,使我們感知和看待世界的方法發生了改變,不再像過去那樣憑借直覺和經驗得出結論,而是基于大量的數據分析。但從海量的數據中如何提取有價值的信息,還需要專門的爬蟲技術。網絡爬蟲是一個自動提取網頁的程序,它為搜索引擎從Web上下載網頁,是搜索引擎的重要組成部分,通用網絡爬蟲從一個或若干個初始網頁的URL開始,獲得初始網頁的URL列表;在抓取網頁的過程中,不斷從當前頁面上抽取新的URL放入待爬行隊列,直到滿足系統的停止條件[1]。

目前相關的爬蟲軟件較多,比如MetaSeeker爬蟲工具軟件包、多可網絡爬蟲、LoalaSam網絡爬蟲等。由于微博信息目前并沒有一個成型的數據庫,必須從網頁中逐個抓取。實現方式主要有兩種,一種是基于python等編程語言實現,另一種是采用MetaSeeker等數據采集工具包進行實現。

3 Python與MetaSeeker的對比

Python是一種基于面向對象,且功能超強的編程語言。Python是開放源代碼的軟件之一。用戶可以自由發布軟件的拷貝,閱讀原代碼,對它改動以用于新的軟件。Python還具有龐大的標準庫,可以處理各種工作,Python語言編寫網絡爬蟲可用于在線微博用戶的行為數據的抓取。

MetaSeeker是一個WEB網頁抓取、數據抽取和頁面信息提取工具包,能夠按照用戶的指導,從web頁面上篩選出需要的信息,并輸出含有語義結構的提取結果文件(XML文件),metaseeker解決了一個關鍵問題:將無結構的web頁面信息轉換成有結構的適用于機器處理的信息,可應用于專業搜索、mashup和web數據挖掘領域。

與phyton相比,metaseeker不需要設計采集規則,因此實現較為簡單。此外,在數據采集的后期,由于新浪微博API接口對采集數據量的限制,無法繼續通過python軟件抓取數據。因此,本研究數據采集通過metaseeker來搜集。

4 MetaSeeker爬取數據的流程及相關設定

(1)MetaSeeker的數據采集流程包括三步:①確定目標網址,制定相關抓取規則;②使用Metastudio定義抓取規則,創建線索,上載數據;③使用datascraper提取數據。

(2)關于抓取時間的設定:微博平臺的信息傳播具有迅速、實時性強的特點,雖然這種實時性為微博營銷帶來了及時互動、迅速反饋的優勢,但另一方面,這種實時性卻會導致微博平臺各類信息更新快,而用戶的接收量有限,基于人的習慣動力學行為[2][3]用戶的注意力主要會集中新近發布的微博上,從而導致前期發布的微博內容會很快的被湮沒,從而降低其影響力。根據以上微博平臺數據時間的特點,推斷至多在微博發布7天之后此條微博便會失去其時效性。因此我們重點關注新浪微博熱門搜索榜上的微博和一周之內的熱門微博,從中抓取數據并進行分析。

(3)關于數據抓取內容的設定:微博雖然內容簡短在140個字以內,但就是因為字數的限制,所以微博通過很多機制進行表意壓縮。根據對新浪微博內容的分析發現,無論是微博正文內容、被轉發內容、圖片、鏈接或是評論轉發量,都是可能對企業微博營銷有效性研究起到重要作用的指標和變量,因此在數據抓取階段,將會把每條微博的全部內容抓取下來,以備后續分析。

5 微博相關信息抓取示例

(1)打開MetaStudio,在地址欄輸入要采集數據的地址;

(2)建立整理箱;

(3)設置反向選擇;

(4)設置多實例采集規則:選中整理箱;

(5)當樣例復制品映射兩次都做好之后,就可以點擊工具條上的schema按鈕,啟動上載過程,觀察工作流文件;

(6)轉到Clue Editor工作臺;

①點擊newClue按鈕,創建一個線索

②點擊Marker類型,設定為記號線索,“下一頁”字樣就是記號

③指定為線內線索類型。

(7)再次點擊工具條上的schema按鈕,啟動上載過程,觀察工作流文件;

(8)打開DataScraper,輸入相應的主題名,找到相關提取線索,進行提取即可。

6 結束語

通過由MetaSeeker爬取的微博數據的分析,可以深入理解微博用戶的行為,從而利用好微博平臺,這是政府相關管理機構和網絡營銷企業共同關注的問題。

[1]于娟,劉強.主題網絡爬蟲研究綜述[J].計算機應用研究, 2007,24(10).

[2]Frank M C,Goldwater S,Griffiths T L,et al.Modeling HumanPerformance in Statistical Word Segmentation[J]. Cognition,2010,117(2):107-25.

[3]JiaoY,Liu Y,Wang J,et al.Model for Human Dynamics Based on Habit[J].Chinese Science Bulletin,2010,55(24): 2744-2749.

Introduction of Information Crawling Tool“Metaseeker”and Its Application in Weibo

LIU Dan,YE Zi-qing,ZHOU Shu,TANG Yao,SU Ni,ZHANG Lu-ni
(Beijing University of Posts and Telecommunication,Beijing 100876,China)

Mobile Internet has brought an opportunity for the development of micro-blog(Weibo).Now it is the common concern of government administration and Internet enterprise to understand micro-blog users’behavior,so as to make good use of micro-blog platform.To extract useful data from the mass of micro-blog data largely depends on web crawler technology.Appropriate choice of crawler technology enables simple and efficient study.

micro-blog;web crawler;crawler-like tool

TN971

A

1008-1739(2015)10-72-2

定稿日期:2015-04-26

受北京郵電大學大學生創新研究基金資助(基金號:500050024)

猜你喜歡
頁面用戶信息
大狗熊在睡覺
刷新生活的頁面
保健醫苑(2022年1期)2022-08-30 08:39:14
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
如何獲取一億海外用戶
創業家(2015年5期)2015-02-27 07:53:25
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
同一Word文檔 縱橫頁面并存
淺析ASP.NET頁面導航技術
主站蜘蛛池模板: 日本高清在线看免费观看| 精品人妻无码区在线视频| 精品精品国产高清A毛片| 嫩草影院在线观看精品视频| 亚洲欧美不卡视频| 欧美激情首页| 国产精品微拍| 国产成人夜色91| 中国黄色一级视频| 国产精品自在线天天看片| 日韩高清中文字幕| 中文字幕亚洲第一| 中文字幕欧美日韩高清| 一级毛片a女人刺激视频免费| 热久久综合这里只有精品电影| 国产亚洲一区二区三区在线| 国产精品一区二区在线播放| 91综合色区亚洲熟妇p| 国产精品美乳| 亚洲精品视频免费看| 中文字幕亚洲精品2页| 伊人婷婷色香五月综合缴缴情| 亚洲精品不卡午夜精品| 22sihu国产精品视频影视资讯| 久久综合丝袜长腿丝袜| 99热这里只有精品5| 欧美精品1区2区| 午夜福利网址| 成人日韩欧美| 精品国产电影久久九九| 国产免费网址| 国产午夜精品一区二区三| 在线国产91| 免费毛片a| 在线免费a视频| 婷婷色中文网| 久久人搡人人玩人妻精品| 婷婷综合在线观看丁香| 国产一级毛片yw| 色婷婷成人网| 亚洲三级电影在线播放| 青青青伊人色综合久久| 国产在线视频自拍| 亚洲欧美综合另类图片小说区| 亚洲国产91人成在线| 中文字幕精品一区二区三区视频| 欧美性天天| 国产AV无码专区亚洲A∨毛片| 91在线播放免费不卡无毒| 91九色视频网| 激情视频综合网| 亚洲三级色| 国产在线拍偷自揄观看视频网站| 国产一级精品毛片基地| 全裸无码专区| 19国产精品麻豆免费观看| 国产日韩久久久久无码精品| 国产成人AV综合久久| 中文字幕av无码不卡免费| 亚洲精品在线影院| 夜夜操国产| 亚洲美女一区| 欧洲极品无码一区二区三区| 91麻豆久久久| 亚洲男人天堂2020| 色男人的天堂久久综合| 国产日本视频91| 亚洲an第二区国产精品| 99热线精品大全在线观看| 久热99这里只有精品视频6| 91精品国产丝袜| 国产第一页亚洲| 中文字幕66页| 美女潮喷出白浆在线观看视频| 国产污视频在线观看| 色婷婷狠狠干| 成年人福利视频| 中文毛片无遮挡播放免费| 亚洲高清在线天堂精品| 久久国产精品麻豆系列| 国产一区在线视频观看| 丁香婷婷激情网|