999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

爬蟲技術在WAP網站內容監測中的應用

2010-04-17 01:52:10鄒一心范海平
電信科學 2010年1期
關鍵詞:內容

鄒一心,范海平

(1.中國電信上海研究院 上海 200122;2.北京微智信業科技有限公司 北京 100080)

爬蟲技術在WAP網站內容監測中的應用

鄒一心1,范海平2

(1.中國電信上海研究院 上海 200122;2.北京微智信業科技有限公司 北京 100080)

本文提出了一種WAP網站內容監測的網絡爬蟲系統,該系統可以自動遍歷WAP網站,并且對網頁進行規范性檢查,網頁內容進行違規檢查。

WAP網站;內容監測;網絡爬蟲;WML

1 引言

為了規范WAP服務提供商(SP)的行為和業務內容,確保增值業務的服務質量,為手機用戶提供一個安全、監控的業務環境,需要對WAP網站的內容和業務邏輯進行自動監測和核查。如果僅依靠人工手動的檢查和審核WAP網站,不僅檢查的成本高而且效率低下。本文提出了一種WAP網站內容監測的網絡爬蟲系統,通過該系統可以自動遍歷整個WAP網站,下載每個WAP網頁,并且進行相應的網頁規范性檢查和內容違規檢查,當發現網頁不規范或者含有違規內容的時候,可以把錯誤和違規記錄到數據庫中,審查人員可以通過內容監測平臺查看檢查結果,及時通知SP對其WAP網站進行整改。

2 網絡爬蟲系統架構

2.1 網絡爬蟲的簡介

網絡爬蟲(crawler)是一個自動采集網頁的程序,它從一個或者若干個初始網頁的URL開始,獲取初始網頁的URL,在抓取網頁的過程中,不斷地從當前網頁上抽取新的URL添加到抓取隊列中,直到滿足一定的停止條件。網絡爬蟲通過周期性地自動編譯給定的WAP網站,檢查網站的內容,從而避免了手工檢查的種種不便。

2.2 工作流程

網絡爬蟲遍歷網站的過程可以分解為三個部分,如圖1所示。

(1)網頁的抓取;

(2)網頁的分析;

(3)網頁中新鏈接的提取。

網頁的抓取過程如下:網絡爬蟲先向WAP網站服務器發送一個HTTP請求,然后從服務器接收一個HTTP響應。如果成功獲取網頁,則網頁的內容包含在這個HTTP響應中。因此網頁的抓取過程就是一個基于HTTP的客戶端與服務器之間的交互過程。

當網絡爬蟲成功獲取網頁后,就要對該網頁進行分析。目前WAP網頁有兩個格式:一種是基于WAP 1.X的WML格式;另一種是基于WAP 2.0的XHTML格式。這兩種格式的網頁都是XML文檔,因此可以使用DOM解析器來解析WAP網頁,提取網頁中的鏈接和文本內容,把提取的新鏈接添加到URL隊列中進行遍歷,同時進行網頁規范性檢查和違規檢查。

2.3 系統架構

網絡爬蟲系統主要有內容監測管理平臺、任務管理器、網頁采集器、網頁內容分析器、URL管理器幾部分組成,如圖2所示。通過內容監測平臺,工作人員可以將SP提供的WAP網站入口URL加入到任務隊列中。任務管理器從數據庫中讀取入口URL,使用不同的遍歷策略控制各個網頁采集器對網站進行遍歷。采集的網頁內容提交給網頁內容分析器進行處理,從網頁中提取新的鏈接,并且檢查網頁的規范性和合法性。

3 網絡爬蟲系統的設計和實現

3.1 網頁采集器的設計

在網絡爬蟲系統中,網頁采集器負責通過HTTP與WAP內容服務器進行交互,獲取網頁內容。如果通過無線網絡獲取一個WAP網頁,必須經過WAP網關才能得到WAP內容服務器中的網頁。WAP網關的作用是把WAP協議的請求轉換為HTTP請求,并且對內容進行編解碼。因此,可以通過模擬WAP網關與內容服務器之間的交互來獲取相應的WAP頁面。

3.2 URL管理器的設計

URL管理器從任務管理器接收入口網址和遍歷策略保存到URL列表中。為了保證整個遍歷過程的完整性,避免重復采集同一個網頁,URL管理器需要具有URL去重功能,即判斷新發現的URL是否在URL池中存在。

3.3 任務管理器的設計

任務管理器負責從數據庫的任務表中讀取任務記錄,然后把任務的網站入口地址和遍歷的策略發送給URL管理器。此外,它還負責把網頁內容分析器檢查出的網頁違規信息保存到數據庫,提供內容監測平臺展現給工作人員。

3.4 網頁內容分析器的設計

網頁內容分析器使用DOM解析器對網頁進行解析,提取出網頁中的鏈接和內容進行如下處理:

(1)從網頁中提取的新鏈接發送給URL管理器添加到URL列表中;

(2)對于網頁內容進行規范性檢查(是否包括運營商信息,是否含有交叉鏈接等);

(3)對于網頁的文字內容使用多關鍵詞匹配技術進行違規檢查;

(4)對于圖片使用涉黃圖片識別技術進行違規檢查;

檢查出的違規和不規范的網頁記錄發送給任務管理器保存到數據庫中。

4 實驗與分析

網絡爬蟲系統在實際使用中可以很好地完成WAP網站的監測和核查任務。我們對300個WAP網站進行站內遍歷,并且同時進行規范性和內容檢查。

站內遍歷時,分別使用1~16個爬蟲進行網頁采集,每次采集的文件數目大約為10 000個左右,文件平均大小為 1.8 KB,結果見表 1。

進行監測和核查時,為了盡量減少對內容服務器的負荷,不需要使用太多的爬蟲線程的數目,一般2~4個就可以了,即使是使用單線程采集也足夠完成內容監測任務。

表1 實驗結果

5 結束語

為了對SP提供的WAP網站進行有效的監管,采用人工手動方式檢查WAP網站會面臨審核成本高和效率低的雙重壓力。本文提出了一種WAP網站內容監測的網絡爬蟲系統,該系統可以自動遍歷WAP網站,并且對下載的WAP網頁進行規范性和違規檢查,用戶通過內容監測平臺查看違規的網頁,通知SP對其WAP網站進行處理和整改,可以為用戶提供一個安全、監控的業務環境。本文的創新點在于通過使用網絡爬蟲技術可以有效地對SP提供的WAP網站進行自動審核,極大地提高了WAP網站的監測效率。

2010-07-14)

猜你喜歡
內容
內容回顧溫故知新
科學大眾(2022年11期)2022-06-21 09:20:52
內容回顧 溫故知新
科學大眾(2021年21期)2022-01-18 05:53:48
內容回顧溫故知新
科學大眾(2021年17期)2021-10-14 08:34:02
內容回顧溫故知新
科學大眾(2021年19期)2021-10-14 08:33:02
內容回顧 溫故知新
科學大眾(2021年9期)2021-07-16 07:02:52
內容回顧 溫故知新
科學大眾(2020年23期)2021-01-18 03:09:18
內容回顧 溫故知新
科學大眾(2020年17期)2020-10-27 02:49:04
引言的內容
引言的內容
主要內容
臺聲(2016年2期)2016-09-16 01:06:53
主站蜘蛛池模板: 国产导航在线| 九九久久99精品| 久久久久久高潮白浆| 日本福利视频网站| 国产精品嫩草影院av| 五月天在线网站| www.日韩三级| 国产精品护士| 国产视频大全| 国产大片喷水在线在线视频| 久久精品欧美一区二区| 亚洲日韩久久综合中文字幕| 婷婷久久综合九色综合88| 色天天综合| 亚洲成人黄色网址| 99久久精品免费看国产电影| 一级毛片基地| 久久免费视频6| 噜噜噜久久| 国产三区二区| AV不卡无码免费一区二区三区| 九色免费视频| 亚洲最大福利网站| 亚洲天堂.com| 狂欢视频在线观看不卡| 香蕉99国内自产自拍视频| 亚洲天堂成人| 黄色a一级视频| 欧美成人综合视频| 国产va在线| 2021无码专区人妻系列日韩| 日韩 欧美 小说 综合网 另类| 国产精品嫩草影院av| 国内精品视频| 欧美视频免费一区二区三区| 无码中字出轨中文人妻中文中| 亚洲天堂免费在线视频| 99久久无色码中文字幕| 成人亚洲天堂| 人人91人人澡人人妻人人爽 | 亚洲人人视频| 日韩成人免费网站| 日本草草视频在线观看| 91小视频在线观看免费版高清| 国产最爽的乱婬视频国语对白| 亚洲免费毛片| 99福利视频导航| AV天堂资源福利在线观看| 日韩中文无码av超清| 亚洲妓女综合网995久久| 国产男女XX00免费观看| 成人小视频在线观看免费| 国产成人高清亚洲一区久久| 久久精品国产一区二区小说| 欧美第二区| 婷婷成人综合| 国产第一页第二页| 国产啪在线91| 久久久久国产一区二区| 97超级碰碰碰碰精品| 中文字幕亚洲第一| 这里只有精品在线| 日本国产精品一区久久久| 欧美黑人欧美精品刺激| 色综合网址| 欧美区一区| 久久这里只有精品8| 亚洲最大情网站在线观看| 9cao视频精品| 一本大道东京热无码av| 国产黄色视频综合| 性69交片免费看| 久久福利片| 中文无码日韩精品| 国产电话自拍伊人| 国产精品无码一区二区桃花视频| 国产尹人香蕉综合在线电影| 97se亚洲综合在线韩国专区福利| 亚洲日韩第九十九页| 四虎AV麻豆| 欧美激情视频一区| 91精品网站|