999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

Hidden Web信息獲取

2007-01-01 00:00:00陳小英
計算機時代 2007年5期

摘要:如今Web上越來越多的信息可以通過查詢接口獲得,但為了獲取某Hidden Web站點的頁面,用戶不得不鍵入一系列的關鍵詞。由于沒有直接指向Hidden Web頁面的靜態鏈接,當前大多搜索引擎不能發現和索引這些頁面。然而,研究表明,由Hidden Web站點提供的高質量的信息對許多用戶來說非常有價值。文章通過研究針對特定類型的表單,建立一個有效的Hidden Web爬蟲,以便獲取Hidden Web后臺數據庫信息。

關鍵詞:Hidden Web;Hidden Web爬蟲;靜態鏈接;搜索引擎;采樣策略

0 引言

網絡上大部分內容是不能通過靜態鏈接獲取的,特別是大部分隱藏在搜索表單之后的頁面只有通過用戶鍵入一系列關鍵詞才可以獲得。這些頁面被稱為Hidden Web。由于當前的搜索引擎不能索引到或不能在它們的返回結果中顯示這些頁面,因此對用戶來說這部分頁面是隱藏的。Hidden Web最初由Dr.Jill Ellsworth于1994年提出,指那些由普通搜索引擎難以發現其信息內容的Web頁面。2001年,Christ Sherman、GaryPrice對Hidden Web定義為:雖然通過互聯網可以獲取,但普通搜索引擎由于受技術限制而不能或不作索引的那些文本頁、文件或其它通常是高質量、權威的信息。根據最近對HiddenWeb的調查文獻得到了如下有意義的發現:

(1)Hidden Web大約有307,000個站點,450,000個后臺數據庫和1,258,000個查詢接口。它仍在迅速增長,從2000年到2004年,它增長了3~7倍。

(2)Hidden Web內容分布于多種不同的主題領域,電子商務是主要的驅動力量,但非商業領域相對占更大比重。

(3)當今的爬蟲并非完全爬行不到Hidden Web后臺數據庫內,一些主要的搜索引擎已經覆蓋Hidden Web大約三分之一的內容。然而,在覆蓋率上當前搜索引擎存在技術上的本質缺陷。

(4)Hidden Web中的后臺數據庫大多是結構化的,其中結構化的是非結構化的3.4倍之多。

(5)雖然一些Hidden Web目錄服務已經開始索引Web數據庫,但是它們的覆蓋率比較小,僅為0.2%~15.6%。

(6)Web數據庫往往位于站點淺層,多達94%的Web數據庫可以在站點前3層發現。

可以看出Hidden Web中信息量要比Surface Web信息量多得多,同時由于Hidden Web頁面信息是由后臺數據庫動態產生的,數據庫大多是結構化的關系數據庫,因此信息的質量比非結構化的頁面要高。

本文以不含或含有少量的文本元素,其它類型元素都具有值的表單作為研究對象,提出了Hidden Web爬蟲沒設計的—種框架。

1 Hidden Web爬蟲

為實現自動獲取Hidden Web頁面的任務,此爬蟲必須能自動尋找表單,填寫表單,然后獲取和識別結果頁面。HiddenWeb爬蟲系統結構如圖1所示。

圖1 Hidden Web爬蟲系統框架

1.1尋找Hidden Web入口頁面

Web上存在多種多樣的表單,同時表單上含有各種各樣的元素,如單選按鈕、下拉列表框、文本框等,有些還是用戶自定義的,因此處理所有的表單是比較困難的。為此,需要先解析HTML頁面,獲取要研究的表單類型,同時從中抽取有用信息。本文要研究的是不含或含有少量的文本框元素,其它類型元素都具有默認值的表單。這很容易通過解析HTML表單來完成,如可以使用標記序列樹或DOM(文檔對象模型)來過濾出要研究的表單。

1.2自動提交表單

當搜索表單提供了每一表單元素所有可能的值時,直接的方法是對具有少量的文本框元素使用空串作為默認值,窮盡表單其他元素所有可能值的組合來填寫表單,獲取后臺數據庫全部的數據。此方法存在兩個問題:①處理過程非常耗時;②在窮盡所有可能值組合之前,也許已經獲取了所有或大部分的后臺數據庫數據,從而出現了重復提交;③多個字段組合可能存在語義上的沖突。Hidden Web爬蟲設計的目標是使用最少的資源(如提交時間或次數等)獲取特定Hidden Web站點內最大量的數據,然而不能保證對所有表單使用有限次的提交可以獲取后臺數據庫的全部數據,因此有必要再次發送查詢來確定是否已獲取了全部數據。本文提出一種兩階段采樣爬行策略以充分獲取Hidden Web數據,它分為如下兩個步驟:

(1)首先使用表單提供的默認值來提交;

(2)然后對表單元素值組合進行采樣以確定默認值提交是否返回了后臺數據庫的所有數據,若返回了后臺數據庫所有或大部分數據則可以結束提交過程。否則,在爬蟲所具有資源限制范圍內窮盡所有可能值的組合。

1.2.1采樣查詢后臺數據庫

下面介紹采樣階段以確定默認值提交是否返回了后臺數據庫的全部數據。一種方法是從表單元素所有可能值的組合中隨機采樣來提交表單。然而隨機采樣提交不能覆蓋表單元素每種取值,造成所有可能值的不均勻使用,如表1所示。這里形式化定義表單的第i個元素為因子Li。集合L1,L2,…,Ln是對應于表單上具有有限值的所有元素,| Li|表示第i個因子可能取值的個數,則表單元素所有可能值組合的個數為:

這里考慮了表單具有多個元素而勢很小的情況。其中「log2N」的選擇參見文獻。

對表單元素所有可能值組合采樣C次后若沒有新的數據記錄返回則表明已經獲取了所有數據。舉例來說,假設一個含有兩個元素的表單,它們都具有有限的值域,每個元素可能取值個數為7和4,則上述N=28,C=6。

表1 隨機采樣

從表1中可以看到,對于元素A的可能值a6和a7,元素B的可能值b3在采樣提交中一次都沒有使用,同時元素B的可能值b1在6次采樣提交中就使用了3次。這說明使用隨機采樣來提交表單可能造成表單元素某些值可能過分使用,而漏用其它一些值的情況。解決這個問題的一種方法是記錄采樣因子已經使用的值的次數,擴大采樣值的范圍,即“分層采樣”的方法。使用此方法采樣提交模式如表2所示。

表2 使用規則模式的“分層采樣”

表2使用了一個規則的模式“分層采樣”來覆蓋每個因子的所有可能值。根據上述規則下次將使用(a7,b4)來填寫表單元素。可以看到此方法覆蓋了元素B的所有可能值,這種規則的模式必然會對某些元素有所偏重。為了覆蓋所有元素的可能值,表3使用了一個隨機的“分層采樣”方法。

對上述處理含有兩個因子的表單的方法加以擴展,可用于含有兩個以上元素的表單。

在C次采樣提交的過程中,系統處理返回的頁面來確定是否已返回了后臺數據庫的所有記錄。若返回了所有記錄則結束提交過程,否則進入窮盡階段。用來確定一個查詢提交是否返回了新的數據記錄的方法很多。一種方法是使用Web信息抽取工具抽取返回頁面中的記錄,把記錄存儲到數據庫中,然后通過數據庫記錄比較來確定是否有新的記錄加入。這里使用改進后的復本檢測系統來判斷記錄是否重復。它主要是計算每個候選記錄的哈希值,視具有相同哈希值的為重復記錄。

表3 使用隨機模式的“分層采樣”

1.2.2窮盡后臺數據庫信息

如果C次采樣提交每次都產生了新的記錄,則窮盡表單元素其它可能值組合來提交表單,直到滿足特定的結束條件。然而在繼續提交表單前,先要估計完成這樣的操作所需的最大剩余時間和用于存儲所有結果記錄所需的最大空間。可以指定如下幾個參數來完成此階段的任務:最大查詢提交次數、最大存儲空間和最大剩余時間等。

可以通過疊加每次查詢所返回的數據量來估計所需最大存儲空間S。類似地可以估計最大剩余時間T。

在窮盡階段,可以使用幾個參數閥值來提前結束提交過程。包括:

(1)獲取Web數據庫數據的百分比:通過估計Web數據庫百分比以確定獲取了多少數據以后可以結束提交過程。

(2)查詢提交次數:通過確定查詢提交次數來減輕站點的負擔。

(3)獲取數據的數量:即獲取了多少惟一性的Web數據庫信息。

(4)提交時間:爬行某特定站點需要多長時間。

上述每一個閥值或其組合都可以在窮盡階段提前結束爬蟲爬行。

1.3識別和存取查詢結果

對表單提交操作產生的響應主要有如下幾種情況:響應頁含有后臺數據庫部分或所有數據;響應頁不僅包含有數據還包含鏈接;響應頁含有數據和原始表單結構;響應頁可能是另一張需要進一步填寫的表單;錯誤頁面通知;無記錄通知或需要缺失字段。這一步主要是針對這些可能出現的情況進行處理。然后從含有豐富數據的頁面中使用信息抽取工具抽取結構化的數據構建數據,以進一步提供信息檢索服務。

2 結束語

本文提出一種針對特定類型表單獲取Hidden Web頁面的爬蟲設計原型系統,它首先使用默認值來提交表單,以兩階段采樣策略確定是否充分獲取了后臺數據庫數據,然后從響應頁中抽取出用戶感興趣的信息。此爬蟲可以獲取一部分Hidden Web頁面,它彌補了當前爬蟲只能索引靜態頁面的不足。下一步需要做的工作是,在真實Hidden Web站點進行大量實驗及解決自動發現搜索接口等問題以完善此系統。畢竟存在很多需要填寫文本元素的表單,這就需要擴展此系統使其能自動填寫文本域元素。如使用HiWE系統中的屬性標簽值對表或使用領域本體知識庫來自動學習填寫表單以處理更多類型的表單,從而從Hidden Web中獲取更多的用戶感興趣的高質量信息。

注:本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文。

主站蜘蛛池模板: 日韩av电影一区二区三区四区| 天天躁夜夜躁狠狠躁躁88| AV在线天堂进入| 亚洲国产精品日韩专区AV| 午夜啪啪网| 日韩黄色精品| 欧美高清视频一区二区三区| 国产欧美视频综合二区| 国产成人无码AV在线播放动漫| 久久久噜噜噜久久中文字幕色伊伊| 国产sm重味一区二区三区| 国产成人亚洲综合A∨在线播放| 国产人成在线视频| 亚洲国产一区在线观看| 99热这里只有精品久久免费| 婷婷99视频精品全部在线观看 | 国产精品嫩草影院视频| 国产精品林美惠子在线观看| 69免费在线视频| 少妇被粗大的猛烈进出免费视频| 天天躁夜夜躁狠狠躁图片| 亚洲天堂精品视频| 欧美日韩北条麻妃一区二区| 女人18一级毛片免费观看| 亚洲天堂在线免费| 丰满人妻被猛烈进入无码| 巨熟乳波霸若妻中文观看免费| 99re在线视频观看| 亚洲国产天堂久久综合| 国产成人精品日本亚洲| 91精品国产自产在线老师啪l| 视频二区欧美| 免费国产高清精品一区在线| 幺女国产一级毛片| 亚洲欧美日韩中文字幕在线一区| 久久男人视频| 久久久久久久蜜桃| 久久动漫精品| 亚洲AV无码久久精品色欲| 国产成人AV综合久久| 亚洲成人黄色在线观看| 亚洲AⅤ无码日韩AV无码网站| 国产极品粉嫩小泬免费看| 欧美国产日韩另类| 国产粉嫩粉嫩的18在线播放91| 欧美午夜网| 99久久国产自偷自偷免费一区| 国产精品无码AⅤ在线观看播放| 国产精品视频猛进猛出| 一本色道久久88亚洲综合| 中文字幕在线播放不卡| 国产精品自拍合集| 2018日日摸夜夜添狠狠躁| 亚洲三级网站| 伊人久久福利中文字幕| 国产一级毛片网站| 国产精品青青| 国产尹人香蕉综合在线电影| 99re在线免费视频| 男女男免费视频网站国产| 91欧洲国产日韩在线人成| 久久九九热视频| 青青草a国产免费观看| 国产va视频| 欧美日韩北条麻妃一区二区| 中文字幕亚洲电影| 亚洲精品成人片在线观看| 免费看的一级毛片| 国产一区二区色淫影院| 亚洲成在线观看| 中文精品久久久久国产网址| 好吊妞欧美视频免费| 国产麻豆永久视频| 欧美精品另类| 国产亚洲精品自在线| 日韩av手机在线| 欧美日韩一区二区三| 精品久久久久久久久久久| 91亚瑟视频| 国产精品对白刺激| 亚洲人成网18禁| 中文成人在线|