999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向地震宏觀異常的主題爬蟲研究1

2013-11-26 06:47:38張曉東
震災防御技術 2013年4期
關鍵詞:頁面策略信息

方 帥 李 林 張曉東

(中國農業大學信息與電氣工程學院,北京 100083)

引言

隨著現代社會信息技術的發展,互聯網已經超過報紙和電視等傳統媒體,成為公眾傳播和獲取信息最迅速的傳播平臺。地震信息作為公眾十分關注的熱點信息,在網絡上也有著極高的傳播量,并且在地震發生的前后一段時間內具有爆炸性的增長。在這些地震信息中,有一類信息是描述地震宏觀異常現象的,這類信息與地震的發生之間存在相關性,因此許多科學家致力于研究如何獲取網絡上的宏觀異常信息,并篩選和評價網絡上的這些地震宏觀異常信息,以期對地震的預測預報服務。網絡宏觀異常信息和其他網絡信息一樣日益龐大,采用傳統的人工檢索的方式采集這類信息無疑費時費力,這就要求我們采用一種新的自動采集方式來獲取這類信息。

傳統的網絡信息自動獲取技術,主要指網絡爬蟲技術。通過網絡爬蟲,可以盡可能多地爬取網絡信息頁面,在搜索引擎等信息檢索領域有著重大應用。但這種技術在獲取特定的網絡信息,例如地震宏觀異常現象時,依然會采取原有的信息采集方式,消耗大量系統資源、網絡帶寬和時間,如何提高信息采集效率是本文的研究內容。本文旨在使用主題爬蟲技術,改進原有的網絡爬蟲信息獲取方式,提高特定事件信息的獲取效率。

1 主題爬蟲技術簡介

網絡爬蟲是一種根據既定規則自動抓取網頁信息的程序或者腳本。它從一個初始的URL鏈接或者URL集開始訪問,將訪問到的網頁或者網絡文檔中所包含的URL放入待訪問的URL隊列中,之后從隊列中取出URL繼續訪問,然后重復以上活動,直至滿足結束條件為止。

主題爬蟲是在網絡爬蟲技術上發展而來的,主要通過對頁面內主題內容的鑒別,確定爬蟲URL訪問順序,并且根據對主題的判定,確定頁面的取舍。因此主題爬蟲的核心內容是爬取策略的選取。主要的爬取策略分為三大類:基于文本啟發式的策略;基于Web連接分析的策略;基于分類器的策略。

基于文本的啟發式的策略是最早出現的主題爬蟲采用的策略。1994年,Debra等(1994)提出了一種主題爬蟲的雛形,名為Fish Search。1998年,Hersovicim等(1998)在Fish Search基礎上改進提出了Shark Search算法。同年,Cho等(1998)也提出了Best First Search算法,他利用了已爬取的網頁進行待訪問網頁主題相關性的預測,從而確定URL的訪問順序。

基于Web連接分析的策略,起源于Brin等(1998)的Page Rank算法,這個算法用于Google搜索引擎的搜索結果排序。利用PR值可以方便地調整URL訪問序列,但問題是網絡重要度更大的網頁不一定與主題相關。

基于分類器的策略,主要基于幾種常用的分類數學模型,如:SVM分類器、貝葉斯分類器、BP神經網絡分類器等。例如:1999年Chakrabarti提出了基于樸素貝葉斯分類法,這個分類器在只有一個主題的爬蟲系統中效果很好,對于爬取的網頁可以進行準確的分類。

上述幾類爬取策略在實現難度,適用領域,算法效率方面都有不同的優缺點。對于不同主題,應當充分考慮目標主題及目標信息的特點,選取合適的爬取策略,設計有針對性的主題爬蟲。對于地震宏觀異常現象這個主題而言,可能發生異常的事物主體在以往的資料中多有記錄,因此可以采取文本啟發式的策略,將與地震宏觀異常現象有關的詞語作為主題描述詞,挖掘頁面內容與主題描述詞組的相關性,利用Best First Search的方式預測待訪問網頁鏈接的主題相關性,從而形成符合地震宏觀異常現象主題的主題爬蟲爬取策略,并獲取網絡中的地震宏觀異常信息。

2 主題爬蟲方案設計

2.1 主題爬蟲框架

本文設計的主題爬蟲是在Heritrix的基礎上進行的二次開發。Heritrix是Source Forge上的開源產品,是一個JAVA語言下的爬蟲框架。它是由一系列組件構成的,開發者可以根據自己的需要方便地修改和擴展各個組件,來定制一個屬于自己的爬蟲。Heritrix主要包括:范圍部件、邊界部件、處理器鏈。范圍部件主要根據規則決定進入訪問隊列的 URL;邊界部件跟蹤將被訪問的URL和已訪問的URL,選擇下一個待訪問的 URL鏈接,去除已處理的URL;處理器鏈包含幾個處理器獲取URL,分析結果并將其傳給邊界部件(孫庚等,2010)。Heritrix的框架構圖如圖1所示。

圖1 Heritrix框架圖Fig. 1 Framework of Heritrix

從圖1可以看到Heritrix的主要組件:CrawlOrder、CrawlController、Frontier、Processor Chains。Heritrix的工作流程為:CrawlController是Heritrix的控制器,由它開始一次任務;CrawlOrder決定這次抓取工作的起點,從Frontier取出URL,傳遞給ProcessorChains中的線程池;ProcessorChains控制爬取線程,訪問并返回網頁信息,從中獲取發現新的URL交由Frontier;Frontier通過對ProcessorChains下載的網頁分析并獲取新的URL,根據訪問策略提供新的URL給CrawlOrder,繼續爬取工作。當滿足任務結束條件時,由CrawlController結束整個任務。

初始 URL集應當選擇與地震宏觀異常信息相關的網站,通過對網絡上地震相關網站的查詢與搜集,共選擇198個地震專業網站,24個新聞門戶網站作為初始的URL集。對于定制的主題爬蟲,根據爬取策略和主題內容重寫Frontier組件即可。在Frontier組件中,有三個接口是實現地震宏觀異常主題判別與爬取策略的關鍵,它們分別是:Finished、Schedule、Next。Finished接口負責分析ProcessorChains下載的頁面,從中取出URL,而計算主題相關性正需要進行頁面分析,因此需要在這里重寫該接口,添加相關度計算模塊,利用地震宏觀異常主題描述詞組與相關度計算算法,計算該頁面的主題相關度與頁面內URL鏈接的相關度。之后,根據計算出的相關度,利用Schedule接口調度 URL隊列,最后利用Next取出需要爬取的URL交予CrawlOrder,實現爬蟲的主題判別與爬取策略。

2.2 地震宏觀異常主題的表示

所謂地震的宏觀異常現象,就是人的感官可以直接察覺到的,或者利用一些簡單的工具可以觀測到的與地震的發生具有一定聯系的自然現象。地震的宏觀異常現象表現形式復雜多樣,根據國內外有關資料,異常的種類多達幾百種,異常的現象多達幾千種,大體上可分為動植物異常、地下水異常、地形變異常、電磁異常、氣象異常等。通過對一些國內權威機構出版的地震宏觀異常資料查閱分析,共得出10大類,216小類異常現象(中國地震局監測預報司,2010)。

由于網絡上的地震宏觀異常信息主要以文本信息為主,所以已確定的異常現象類別選取一定數量的關鍵詞用于描述地震宏觀異常現象這個主題。一條完整且有價值的地震宏觀異常現象應當具備時間、地點、事物主體、經過、結果五大組成部分。其中與地震異常相關的主要是事物主體、經過、結果三個部分。由于地震宏觀異常的具體現象種類繁多,對單一事物某類行為是否屬于地震宏觀異常需要特別分析,在此主要選擇可能發生地震宏觀異常現象的事物主體作為主題相關詞。同時,為了確保異常信息與地震相關,最好采集到的信息已經包含對該現象是否是地震宏觀異常現象的判斷。關鍵詞的選取如表1所示。

表1 地震宏觀異常現象主題關鍵詞Table 1 Keywords of earthquake macro-anomaly

2.3 主題相關度計算

主題相關度的計算應當達到兩個方面的目的:判別當前頁面的相關性;預測待訪問URL的相關性。

2.3.1 當前頁面相關性

由于主題關鍵詞已經確定,因此計算主題相關性采取向量空間模型的方法較好,可以將關鍵詞中的詞語視為該向量空間的特征。因此對于關鍵詞組有特征向量:

式中,MainKeyWords為異常的事物主體關鍵詞組特征向量;ExtreKeyWords為異常判別的關鍵詞組特征向量。

對于一個頁面而言,由于其結構化的特性,包含了不同的內容塊,如:導航塊、廣告塊、主體塊等,因此可以利用頁面標簽及內容對頁面進行分塊。可以得到頁面內容塊的特征向量:

通過以上步驟,可以將當前待處理的頁面文本特征化,使用向量表示當前頁面。之后使用向量夾角余弦來計算主題相關度:

式中,w代表權值,對于不同向量的權值,其計算公式也不同。

同時,由于頁面文本分為不同的文本塊,因此對于異常的事物主體關鍵詞組特征向量MainKeyWords,其第i個特征權值有:

式中,,ijtf為關鍵詞i在j內容塊中的詞頻;itl為第i個關鍵詞的詞長;jcbL為j內容塊的文本長度;jcbi為j內容塊的重要度。計算方法為該部分頁面代碼占頁面內總代碼的百分比。

對于異常判別的關鍵詞組特征向量ExtreKeyWords,其第i個特征權值有:

由于異常判別這類關鍵詞并不是必需的,因此為防止頁面中未出現該類關鍵詞時,該權值為0,故設其權值+1。

對于頁面內容塊的特征向量ContentBlock,其第i個特征權值有:

通過上述算法可以計算得出當前頁面的相關度Topic。設閾值M,當Topic>M時,則認為當前頁面符合地震宏觀異常現象這個主題,保存它的頁面內容,URL鏈接,主題相關度值、標題、時間等信息,以便進一步爬取和進行下一步信息處理。這里的M值將由試驗確定。

2.3.2 URL相關性

得到頁面的相關度后,需要對頁面內的URL進行預測及排序。URL相關度的計算一般考慮URL地址、錨文本、上下文相關度,在這里考慮錨文本和上下文相關度,使用頁面相關度作為上下文相關度(劉朋等,2009)。其計算公式為:

式中,itnf、itmf分別為事物主體關鍵詞和異常判別關鍵詞的詞頻;itnl、itml為事物主體關鍵詞和異常判別關鍵詞的詞長;urlL為錨文本長度。

通過計算Topicurl并與URL隊列中非初始URL比較排序,然后插入URL隊列相應的位置中。至此,完成URL訪問策略的制定與主題相關度的計算,進入常規的爬蟲工作流程。對于Heritrix,其URL隊列的控制主要由Frontier組件完成,因此重寫Frontier組件中相應接口即可,主要是負責ProcessorChains中完成URL的下載后進行鏈接抽取和頁面相關度計算的Finished,以及負責處理URL隊列的Schedule和負責提供下一個Next。

3 實驗分析

實驗的目的主要是為了確定頁面相關度的閾值R以及比較添加主題相關性預測的爬蟲,和為具備此項功能的爬蟲采集結果,共設計了兩項實驗。實驗環境為臺式PC機,中央處理器為core2雙核2.7GHz,2G內存,32位WIN7操作系統。所使用的Heritrix爬蟲為1.14.4版本,在Eclipse環境下,采用的JRE1.7版本。

第一項實驗為確定頁面相關度的閾值R,設定爬取線程為10,爬取深度為3,時間為900s,分別設定R值為0.1、0.3、0.5、0.7、0.9時進行爬取,結果如表2所示。

表2 閾值R實驗結果Table 2 Experimental results of threshold value R

由該實驗結果可以看出,當R值超過0.5后,符合主題的網頁急速減少,說明主題爬蟲的針對性更強。因此若想獲取更加準確的網頁,應當將R值設置超過0.5。

第二項實驗為測試主題爬蟲與傳統爬蟲的效果比較。設定主題爬蟲R為0.5,利用相關度計算模塊計算傳統爬蟲的爬取結果,實驗時間為900s,結果如表3所示。

表3 主題爬蟲效果實驗結果Table 3 Experimental results of the topic crawler

由表3可以看出,雖然主題爬蟲在單位時間內爬取數量不及傳統爬蟲,但獲取符合要求的信息的效率大大強于傳統爬蟲,這說明主題爬蟲在面向地震宏觀異常現象這個主題的網絡信息獲取方面具有優勢。

4 結束語

主題爬蟲是較好的地震宏觀異常現象信息的自動采集方式,但是其爬取策略的制定和主題相關性的判別依然是問題的難點。由于地震宏觀異常現象本身的復雜多樣,目前的主題表述仍然是不足的,因此需要進一步的研究,豐富主題關鍵詞組,在主題相關性上進行進一步優化,這樣的主題爬蟲將能夠更好地解決地震信息采集問題。

劉朋,林泓,高德威,2009. 基于內容和鏈接分析的主題爬蟲策略. 計算機與數字工程,37(1):22—26.

孫庚,馮艷紅,于紅等,2010. 一種基于Heritrix的網絡主題爬蟲算法——以漁業信息網絡為例. 軟件導刊,(5):47—49.

中國地震局監測預報司,2010. 地震宏觀異常摘編. 北京:地震出版社.

Brin S., Page L., 1998. The anatomy of a large-scale hypertexual Web search engine. See: B. Furht. Proc. of the 7th World Web Conference, Brisbane [sn]. 30 (1): 107—117.

Cho J., Garciam H., Page L., 1998. Efficient crawling through URL ordering. See: Computer Networks and ISDN Systems. 30 (17): 161—172.

Debra P., HouBen G., Kornatzky Y. et al., 1994. Information retrieval in distributed hypertexts. See: M. Diligenti.Proc. of the 4th Riao Conference, NewYork. 23 (25): 481—491.

Hersovicim, Jacovim, Maarekys, 1998. The Shark-Search algorithm: an application tailored Web sitemapping. See:H. Philip. Proc. of the 7th International World Wide Web Conference, Brisbane [sn]. 2 (10): 65—74.

猜你喜歡
頁面策略信息
大狗熊在睡覺
刷新生活的頁面
保健醫苑(2022年1期)2022-08-30 08:39:14
例談未知角三角函數值的求解策略
我說你做講策略
高中數學復習的具體策略
數學大世界(2018年1期)2018-04-12 05:39:14
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
Passage Four
同一Word文檔 縱橫頁面并存
淺析ASP.NET頁面導航技術
主站蜘蛛池模板: 国产精品成人免费视频99| 日韩AV无码免费一二三区| 国产在线无码一区二区三区| 国产精品大尺度尺度视频| 亚洲精品人成网线在线| 久久亚洲黄色视频| 亚洲精品手机在线| 国产成人啪视频一区二区三区| 伊人天堂网| 国产精品成人AⅤ在线一二三四| 亚洲动漫h| 九色综合视频网| 67194亚洲无码| 久久国产精品嫖妓| 无码精品国产dvd在线观看9久| 狼友视频国产精品首页| 国产微拍精品| 亚洲福利一区二区三区| 2019国产在线| 国产日本一区二区三区| 亚洲中文字幕日产无码2021| 国产精品妖精视频| 91年精品国产福利线观看久久| 五月婷婷激情四射| 亚洲第一成网站| 亚洲一区二区日韩欧美gif| 国产精品无码一区二区桃花视频| 日本高清在线看免费观看| 国产无码网站在线观看| 中文字幕永久在线看| 国产日韩精品欧美一区灰| 四虎成人在线视频| 久久96热在精品国产高清| 欧美在线一级片| 少妇人妻无码首页| 色婷婷电影网| 中文精品久久久久国产网址| 高清无码一本到东京热| 色偷偷av男人的天堂不卡| 欧美午夜视频在线| 日韩色图在线观看| 国产91无码福利在线| 国产亚洲精品97在线观看| 色噜噜狠狠色综合网图区| 亚洲系列无码专区偷窥无码| 色欲综合久久中文字幕网| 2022国产无码在线| 97se亚洲综合在线天天| 亚洲欧美一区二区三区麻豆| 亚洲精品福利视频| av在线手机播放| 欧美黄网站免费观看| 四虎成人在线视频| AV天堂资源福利在线观看| 一本大道香蕉中文日本不卡高清二区 | 欧美一级高清免费a| 亚洲精品第1页| 久久免费看片| 亚洲无卡视频| 久久情精品国产品免费| 国产精品欧美激情| 久久一级电影| 香蕉久久国产超碰青草| 在线a视频免费观看| 丰满少妇αⅴ无码区| 国产精品男人的天堂| 国产高清无码第一十页在线观看| 亚洲男人在线天堂| 欧美一级在线| 亚洲男人在线天堂| 成人在线天堂| 免费看a毛片| 婷婷久久综合九色综合88| 天天综合网色中文字幕| 欧美激情伊人| 国产一区二区三区精品久久呦| 久久精品丝袜高跟鞋| 少妇人妻无码首页| 国产精品真实对白精彩久久| 2021国产精品自产拍在线观看| 日韩精品一区二区三区swag| 国产精品久久久精品三级|