999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于自動(dòng)化測(cè)試的定向網(wǎng)絡(luò)爬蟲(chóng)的設(shè)計(jì)與實(shí)現(xiàn)

2019-10-23 03:20:26朱麗英吳錦晶
微型電腦應(yīng)用 2019年10期
關(guān)鍵詞:頁(yè)面

朱麗英, 吳錦晶

(公安部第三研究所 物聯(lián)網(wǎng)技術(shù)研發(fā)中心, 上海 201204)

0 引言

在過(guò)去幾年中,人工智能出現(xiàn)了爆炸式的發(fā)展,其在交通和治安領(lǐng)域中的應(yīng)用場(chǎng)景越來(lái)越多元化,其中車輛品牌、款系和年代識(shí)別功能不僅有助于套牌車輛篩查,而且正逐步發(fā)展成為刑偵工作中的重要技術(shù)手段。為實(shí)現(xiàn)車輛品牌、款系和年代識(shí)別功能,需要人工標(biāo)注大量的訓(xùn)練樣本,而人工標(biāo)注過(guò)程中需要相應(yīng)的車輛品牌圖片進(jìn)行參考。基于建立車輛品牌參考庫(kù)的迫切需求,本文提出了一種基于自動(dòng)化測(cè)試的定向爬蟲(chóng)程序的設(shè)計(jì)與實(shí)現(xiàn)。通過(guò)自動(dòng)化測(cè)試技術(shù)模擬人瀏覽網(wǎng)頁(yè)的方式,自動(dòng)化地采集指定網(wǎng)頁(yè)的車輛品牌外觀圖片,從而建立一個(gè)款系、年代分類別存儲(chǔ)的車輛品牌參考庫(kù)。

1 網(wǎng)絡(luò)爬蟲(chóng)技術(shù)

網(wǎng)絡(luò)爬蟲(chóng)技術(shù)[1]又被稱為網(wǎng)絡(luò)機(jī)器人、網(wǎng)路蜘蛛,是一種按照規(guī)則,自動(dòng)抓取信息的程序或者腳本,是用戶從互聯(lián)網(wǎng)中獲取信息資源的有效工具。通用網(wǎng)絡(luò)爬蟲(chóng)[2]從一個(gè)或若干初始網(wǎng)頁(yè)的URL開(kāi)始, 獲得初始網(wǎng)頁(yè)上的URL列表;在抓取網(wǎng)頁(yè)的過(guò)程中,不斷從當(dāng)前頁(yè)面上抽取新的URL放入待爬行隊(duì)列,直到滿足系統(tǒng)的停止條件。通用網(wǎng)絡(luò)爬蟲(chóng)的目標(biāo)就是盡可能多地采集信息頁(yè)面,而在這一過(guò)程中它并不太在意頁(yè)面采集的順序和被采集頁(yè)面的相關(guān)主題。

然隨著網(wǎng)絡(luò)的不斷普及,網(wǎng)絡(luò)上的海量信息呈爆炸式增長(zhǎng),用戶的需求也越來(lái)越個(gè)性化,定向網(wǎng)絡(luò)爬蟲(chóng)應(yīng)運(yùn)而生。定向網(wǎng)絡(luò)爬蟲(chóng),顧名思義就是定向爬取目標(biāo)網(wǎng)站,該種方法只對(duì)系統(tǒng)指定的網(wǎng)址進(jìn)行數(shù)據(jù)采集,通過(guò)在系統(tǒng)中根據(jù)目標(biāo)網(wǎng)站的特點(diǎn)設(shè)定的模板,可以使系統(tǒng)達(dá)到很高的數(shù)據(jù)精度。另外,對(duì)于網(wǎng)頁(yè)更新速度快的數(shù)據(jù)源,采用增量式的采集方法也是尤為必要的[3]。增量式網(wǎng)絡(luò)爬蟲(chóng)是指對(duì)已下載網(wǎng)頁(yè) 采取增量式更新和只爬行新產(chǎn)生的或者已經(jīng)發(fā)生變化網(wǎng)頁(yè)的爬蟲(chóng),它能夠在一定程度上保證所爬行的頁(yè)面是盡可能新的頁(yè)面,可有效減少數(shù)據(jù)下載量,減小時(shí)間和空間上的耗費(fèi)。

本文聚焦車輛品牌外觀圖片的爬取,網(wǎng)絡(luò)爬蟲(chóng)的過(guò)程是以一個(gè)URL為初始點(diǎn),獲取該網(wǎng)頁(yè)上的多個(gè)URL,放入U(xiǎn)RL列表進(jìn)行循環(huán)獲取,直到滿足停止條件。為提高工作效率,通用網(wǎng)絡(luò)爬蟲(chóng)會(huì)采取一定的爬行策略,常用的爬行策略[4]有深度優(yōu)先策略、廣度優(yōu)先策略。本文采取深度優(yōu)先策略,其基本方法是從根節(jié)點(diǎn)出發(fā),依次訪問(wèn)下一級(jí)葉子節(jié)點(diǎn)的網(wǎng)頁(yè)鏈接,直到不能再深入為止。爬蟲(chóng)在完成一個(gè)爬行分支后返回到上一鏈接節(jié)點(diǎn)進(jìn)一步搜索其它鏈接。當(dāng)所有鏈接遍歷完后,爬行任務(wù)結(jié)束。URL爬行模型如圖1所示。

2 自動(dòng)化測(cè)試工具Selenium

自動(dòng)化測(cè)試[5]是基于手工測(cè)試而存在的,主要通過(guò)相應(yīng)的軟件測(cè)試工具、腳本等來(lái)實(shí)現(xiàn),具有較好的可操作性、可重復(fù)性和高效率等特點(diǎn)。Selenium是一個(gè)開(kāi)源的、便攜式的自動(dòng)化軟件測(cè)試工具,提供一套測(cè)試函數(shù),用于支持Web應(yīng)用程序的自動(dòng)化測(cè)試,函數(shù)非常靈活,能夠完成界面元素定位、窗口跳轉(zhuǎn)、結(jié)果比較等,具體有如下特點(diǎn):能在不同的瀏覽器進(jìn)行測(cè)試,如IE、Mozilla Firefox、Mozilla Suite、Safari、Chrome、Android手機(jī)瀏覽器等;支持多種語(yǔ)言,如Java、Python、C#、Ruby等;支持多種操作系統(tǒng),如Windows、Linux、IOS、Android等。

圖1 URL爬行模型

目前網(wǎng)頁(yè)廣泛采用JS加載、Ajax 異步傳輸、前端MVC等動(dòng)態(tài)技術(shù),這些技術(shù)對(duì)于以靜態(tài)頁(yè)面分析為主的傳統(tǒng)網(wǎng)頁(yè)爬蟲(chóng)提出了新的挑戰(zhàn),解決這種問(wèn)題唯一的辦法是讓爬蟲(chóng)自己變成一個(gè)沒(méi)有界面的瀏覽器。基于Selenium的網(wǎng)絡(luò)爬蟲(chóng)能夠繞過(guò)某些頁(yè)面對(duì)于爬蟲(chóng)的檢測(cè)和限制[6],它具有簡(jiǎn)單、靈活、仿真性強(qiáng)等優(yōu)點(diǎn),且可進(jìn)行基于無(wú)頭瀏覽器的數(shù)據(jù)抓取和捕獲,本文采用自動(dòng)化測(cè)試框架Selenium,以Python語(yǔ)言編寫網(wǎng)絡(luò)爬蟲(chóng)程序,模擬人操做瀏覽器的方式,采集車輛品牌外觀圖片。

3 系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

車輛品牌爬蟲(chóng)的具體功能是對(duì)汽車之家品牌庫(kù)內(nèi)的所有品牌對(duì)應(yīng)的外觀圖片進(jìn)行抓取,存儲(chǔ)到本地磁盤。圖片存儲(chǔ)時(shí)需按照?qǐng)D片對(duì)應(yīng)的品牌、款系、年份等分類別存儲(chǔ),具體類別格式如“上汽大眾 凌渡 2014款 概念版”、“上汽大眾 凌渡 2015款 230TSI 手動(dòng)風(fēng)尚版”。另外,新車型不斷上市,汽車之家的品牌庫(kù)亦會(huì)不斷更新,為獲得新品牌圖片,需要具有對(duì)網(wǎng)站新變動(dòng)的部分進(jìn)行數(shù)據(jù)分析提取功能,達(dá)到增量式爬取的效果。

車輛品牌爬蟲(chóng)整體流程如圖2所示。

啟動(dòng)Selenium,以無(wú)頭方式打開(kāi)Chrome瀏覽起器,并加載汽車之家品牌庫(kù)URL。

3.1 品牌款系URL提取

在頁(yè)面解析,品牌款系URL、圖片數(shù)量提取的過(guò)程中,利用了Selenium的如下特性。

1)元素查找

Selenium中元素查找共有八種方法,可通過(guò)id、name、className、tagName、linkText、partialLinkText、xpath、cssSelector定位元素,其中的xpath定位具有更大的靈活性,對(duì)于html文檔樹(shù)中某個(gè)節(jié)點(diǎn)既可以向前搜索,也可以向后搜索,且可采用絕對(duì)定位方式或相對(duì)定位方式。本系統(tǒng)中主要通過(guò)xpath、 id、linkText等方式尋找特定頁(yè)面元素,如下述方法獲取品牌樹(shù)下的所有品牌鏈接:driver.find_elements_by_xpath("http://div[@class='cartree']/ul/li/h3/a")。

圖2 整體流程

2)鼠標(biāo)交互

通過(guò)Click操作頁(yè)面元素。進(jìn)入子品牌頁(yè)面,“車身外觀”、“下一頁(yè)”、“查看停產(chǎn)車型”等的頁(yè)面切換都是通過(guò)模擬鼠標(biāo)點(diǎn)擊操作完成。

3)異常處理

通過(guò)頁(yè)面元素查找失敗的異常捕獲,來(lái)判斷頁(yè)面上元素是否存在。

4)屬性獲取

通過(guò)元素屬性獲取方法get_attribute可獲得元素的各個(gè)屬性,如通過(guò)son_brand_ele.get_attribute('href')獲得品牌車款URL。

品牌款系URL提取的過(guò)程如圖3所示。

圖3 品牌款系URL提取過(guò)程

3.2 增量式爬取

市面上新的車型不斷上市,汽車之家網(wǎng)站的品牌庫(kù)亦頻繁更新,因此車輛品牌爬蟲(chóng)需不定期地爬取這一網(wǎng)站。為避免重復(fù)數(shù)據(jù)爬取,提高爬取效率,系統(tǒng)增加了對(duì)網(wǎng)站新變動(dòng)部分的數(shù)據(jù)分析提取功能,在重復(fù)爬取時(shí),僅對(duì)變動(dòng)部分進(jìn)行爬取。

車輛品牌爬蟲(chóng)系統(tǒng)在爬取過(guò)程中對(duì)品牌圖片數(shù)量進(jìn)行了記錄。爬蟲(chóng)啟動(dòng)后,在車輛品牌款系URL提取時(shí),同時(shí)提取了當(dāng)前網(wǎng)站各車輛品牌款系存在的圖片數(shù)量,而上次爬取時(shí)各車輛品牌款系的圖片數(shù)量則從文件中讀取,比較兩者的一致性,當(dāng)兩者不一致時(shí),才將車輛品牌款系URL加入到URL隊(duì)列。

3.3 圖片下載存儲(chǔ)

每個(gè)車輛品牌的圖片數(shù)量多寡不一,每種車款對(duì)應(yīng)的“車身外觀”頁(yè)面,元素“下一頁(yè)”、“查看停產(chǎn)車型”不一定存在,因此,通過(guò)頁(yè)面元素查找失敗的異常捕獲,來(lái)判斷頁(yè)面上上述元素是否存在。并且,每一圖片的URL是固定不變的,通過(guò)URL提取的圖片名稱也是固定不變的,因此,當(dāng)重復(fù)爬取時(shí),可通過(guò)與已抓取圖片的名稱比較,來(lái)判斷該圖片是否已被抓取,只有本地磁盤中不存在的圖片才進(jìn)行抓取,圖片下載存儲(chǔ)流程如圖4所示。

圖4 圖片下載存儲(chǔ)流程

4 總結(jié)

本文在充分觀察了汽車之家網(wǎng)頁(yè)結(jié)構(gòu)之后,利用自動(dòng)化測(cè)試工具Selenium,設(shè)計(jì)和實(shí)現(xiàn)了基于汽車之家品牌庫(kù)的定向網(wǎng)絡(luò)爬蟲(chóng)。通過(guò)增量式的爬取,使得該爬蟲(chóng)系統(tǒng)能夠非常高效地抓取目標(biāo)數(shù)據(jù)。通過(guò)本爬蟲(chóng)系統(tǒng),為車輛品牌識(shí)別系統(tǒng)提供了相對(duì)完備的品牌參考庫(kù)。

猜你喜歡
頁(yè)面
微信群聊總是找不到,打開(kāi)這個(gè)開(kāi)關(guān)就好了
大狗熊在睡覺(jué)
刷新生活的頁(yè)面
在本機(jī)中輕松完成常見(jiàn)PDF操作
移動(dòng)頁(yè)面設(shè)計(jì):為老人做設(shè)計(jì)
Web安全問(wèn)答(3)
同一Word文檔 縱橫頁(yè)面并存
網(wǎng)站結(jié)構(gòu)在SEO中的研究與應(yīng)用
幾種頁(yè)面置換算法的基本原理及實(shí)現(xiàn)方法
淺析ASP.NET頁(yè)面導(dǎo)航技術(shù)
主站蜘蛛池模板: 一区二区三区在线不卡免费| 亚洲精品无码不卡在线播放| 免费一级毛片完整版在线看| 亚洲欧美日韩天堂| www.91在线播放| 国产精品久久久免费视频| 人妻丰满熟妇αv无码| 亚洲中字无码AV电影在线观看| 中文字幕久久亚洲一区| 欧美色丁香| 青青操国产视频| 亚洲精品午夜天堂网页| 久久精品一品道久久精品| 欧美一级片在线| 欧美第二区| 亚洲毛片一级带毛片基地| 99久久精彩视频| 99无码熟妇丰满人妻啪啪 | 欧美综合区自拍亚洲综合绿色| 伊人婷婷色香五月综合缴缴情| 尤物在线观看乱码| 香蕉视频国产精品人| 成年看免费观看视频拍拍| 中国国产A一级毛片| 亚洲人成色77777在线观看| 国产福利大秀91| 91无码国产视频| 亚洲精品人成网线在线 | 国产精品任我爽爆在线播放6080| 精品国产自在在线在线观看| 波多野结衣一区二区三视频| 亚洲成在线观看| 国产丝袜一区二区三区视频免下载| 亚洲无码免费黄色网址| 国产高清毛片| 日韩毛片免费| 一本大道AV人久久综合| 97色婷婷成人综合在线观看| 国产美女久久久久不卡| 一级香蕉人体视频| 九色在线观看视频| 一级毛片免费不卡在线| 亚洲欧洲日本在线| 久久亚洲综合伊人| 欧美亚洲国产精品第一页| 国产日产欧美精品| 丁香六月综合网| 一本久道久综合久久鬼色| 91成人精品视频| 538国产在线| 久久99久久无码毛片一区二区| 国产在线八区| 国产精品原创不卡在线| 亚洲a免费| 午夜视频在线观看免费网站| 欧美一区二区三区欧美日韩亚洲 | 亚洲乱码在线播放| 欧美三级不卡在线观看视频| 日韩欧美中文| 日韩在线第三页| 18禁色诱爆乳网站| 四虎影视永久在线精品| 久久99热这里只有精品免费看| 国产日本欧美亚洲精品视| 国产精品无码制服丝袜| 日本一区中文字幕最新在线| 久久综合丝袜日本网| 奇米精品一区二区三区在线观看| 国产成人艳妇AA视频在线| 高清乱码精品福利在线视频| 午夜a级毛片| 国产91透明丝袜美腿在线| 国产91丝袜在线播放动漫 | 国产成人亚洲精品无码电影| 精品国产Ⅴ无码大片在线观看81 | 香蕉久久国产超碰青草| 人人爽人人爽人人片| 91色国产在线| 91麻豆国产视频| 91精品国产丝袜| 中文字幕久久精品波多野结| 亚洲免费黄色网|