999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于網(wǎng)絡(luò)爬蟲的地理空間信息采集方法

2016-07-18 09:30:00鞏保勝魏春苗
甘肅科技 2016年7期
關(guān)鍵詞:信息

鞏保勝,魏春苗

(61243部隊(duì),新疆 烏魯木齊830006)

?

基于網(wǎng)絡(luò)爬蟲的地理空間信息采集方法

鞏保勝,魏春苗

(61243部隊(duì),新疆 烏魯木齊830006)

摘要:網(wǎng)絡(luò)環(huán)境下地理空間信息的搜集與獲取,是地理空間研究信息獲取重要途徑。網(wǎng)絡(luò)環(huán)境中數(shù)據(jù)信息量大,主題門類多,如何高效快速地獲取地理空間主題信息是一個(gè)亟待解決的問題。本研究提出了基于網(wǎng)絡(luò)爬蟲的地理空間主題信息采集方法,該方法能高效自動的采集目標(biāo)網(wǎng)絡(luò)上的地理空間信息,提高了地理空間信息采集效率,為進(jìn)一步建立地理空間主題信息庫提供數(shù)據(jù)支撐。

關(guān)鍵詞:信息采集;網(wǎng)絡(luò)爬蟲;地理空間信息;Scrapy

近年來,隨著互聯(lián)網(wǎng),云計(jì)算等IT與通信技術(shù)的迅猛發(fā)展,信息社會已進(jìn)入了大數(shù)據(jù)時(shí)代[1],網(wǎng)絡(luò)上地理空間主題相關(guān)信息越來越多[2],除Google地圖,百度地圖以及一些符合標(biāo)準(zhǔn)(OGCWMS、WFS、WCS)的地理空間信息服務(wù)網(wǎng)站外,還有一些網(wǎng)絡(luò)服務(wù)(例如開放大學(xué)圖書館)也包含了此類信息。這些地理空間信息的獲取需要從半結(jié)構(gòu)化或無結(jié)構(gòu)的Web頁面中準(zhǔn)確的抽取數(shù)據(jù),轉(zhuǎn)換成結(jié)構(gòu)化的數(shù)據(jù)以進(jìn)行挖掘和利用。網(wǎng)絡(luò)爬蟲[3]可以自動爬取目標(biāo)網(wǎng)站,實(shí)現(xiàn)精準(zhǔn)的網(wǎng)頁信息采集,根據(jù)需要還可將采集數(shù)據(jù)存入數(shù)據(jù)庫中,構(gòu)建地理空間主題信息檢索[4],為更深層次的用戶提供更專業(yè)的目標(biāo)信息檢索。

1 網(wǎng)絡(luò)爬蟲

網(wǎng)絡(luò)爬蟲[5]是一個(gè)自動提取網(wǎng)頁的程序,它為搜索引擎從Web上下載網(wǎng)頁,是搜索引擎的重要組成部分。其基本原理是從一些“目標(biāo)”站點(diǎn)出發(fā),通過HTTP等協(xié)議請求并獲取網(wǎng)頁資源,分析頁面內(nèi)容并提取鏈接,以循環(huán)迭代的方式訪問整個(gè)目標(biāo)網(wǎng)絡(luò)。網(wǎng)絡(luò)爬蟲有選擇的訪問相關(guān)網(wǎng)頁和鏈接,釆集數(shù)據(jù),并將數(shù)據(jù)按照規(guī)定的格式存儲。

網(wǎng)絡(luò)爬蟲的工作步驟(如圖1所示),首先通過通用搜索引擎,挑選符合目標(biāo)預(yù)期的網(wǎng)頁加入目標(biāo)網(wǎng)址隊(duì)列,然后網(wǎng)絡(luò)爬蟲依次讀取網(wǎng)站地址,訪問網(wǎng)頁讀取網(wǎng)頁內(nèi)容,然后結(jié)構(gòu)化抽取網(wǎng)頁中的目標(biāo)數(shù)據(jù),另一方面解析出網(wǎng)頁內(nèi)容里包含的其他網(wǎng)址,并通過判重算法判斷是否己經(jīng)抓取過,如果網(wǎng)址未曾抓取過,則將其放入該隊(duì)列中,如果網(wǎng)址曾被抓取過,則放入已抓取網(wǎng)址隊(duì)列中,如此循環(huán),直到網(wǎng)址隊(duì)列為空為止。網(wǎng)絡(luò)爬蟲保證了搜索結(jié)果的領(lǐng)域相關(guān)性,排除了很多與查詢無關(guān)的頁面,極大程度上滿足了人們對搜索準(zhǔn)確性的要求。

圖1 網(wǎng)絡(luò)爬蟲工作流程圖

2 利用網(wǎng)絡(luò)爬蟲進(jìn)行地理空間信息采集工作流程

利用網(wǎng)絡(luò)爬蟲采集地理空間信息是網(wǎng)絡(luò)環(huán)境下地理空間信息采集的重要手段。具體工作流程如圖2所示。

圖2 地理空間信息采集流程圖

首先,對擬獲取的地理空間信息建立索引關(guān)鍵字,在通用搜索引擎中建立搜索式,通過優(yōu)化搜索式,提高通用搜索引擎的搜索效率和目標(biāo)匹配度。

其次,通過人工查看、干預(yù)的方式,對搜索出來的相關(guān)網(wǎng)站,網(wǎng)頁進(jìn)行預(yù)判斷,進(jìn)一步提高網(wǎng)站與關(guān)鍵詞的相關(guān)度。最后確立需要進(jìn)行地理空間信息采集的目標(biāo)網(wǎng)站。

第三步就是利用網(wǎng)絡(luò)爬蟲對整個(gè)目標(biāo)搜索網(wǎng)站集進(jìn)行搜索,記錄搜索目標(biāo)地理空間信息有關(guān)的文本信息,形成地理空間信息搜集信息庫,為進(jìn)一步的數(shù)據(jù)挖掘和后續(xù)處理提供數(shù)據(jù)支撐。

最后,如果目標(biāo)網(wǎng)站價(jià)值較高,需要持續(xù)跟蹤,可以利用網(wǎng)絡(luò)爬蟲定期對網(wǎng)站內(nèi)容進(jìn)行爬取,檢測網(wǎng)站上需要關(guān)注的地理空間信息,實(shí)現(xiàn)地理空間信息跟蹤的自動化。

3 利用Scrapy網(wǎng)絡(luò)爬蟲進(jìn)行地理空間信息采集

以德克薩斯大學(xué)圖書館網(wǎng)站的收錄地圖網(wǎng)頁作為目標(biāo)網(wǎng)站進(jìn)行地理空間信息采集,本研究以Scrapy框架構(gòu)建網(wǎng)絡(luò)爬蟲,Scrapy是Python開發(fā)的快速Web信息采集框架,用于抓取web站點(diǎn)并從頁面中提取數(shù)據(jù)。

首先創(chuàng)建一個(gè)信息采集項(xiàng)目,名稱為Mymap。在Scrapy下運(yùn)行:scrapystartprojectMymap命令。該命令將會創(chuàng)建包含網(wǎng)絡(luò)爬蟲的內(nèi)容目錄。

item.py中定義了你要采集的目標(biāo)變量。目標(biāo)網(wǎng)站信息如圖3所示。

圖3 目標(biāo)網(wǎng)頁源碼

本研究中需要采集亞洲地區(qū)的掃描地圖數(shù)據(jù)信息,通過上圖可以看出,該信息包含了掃描地圖的網(wǎng)絡(luò)連接,圖幅區(qū)域和掃描圖其他信息,所以item對象定義為:

importScrapy

classMymapItem(scrapy.Item)

url=scrapy.Field();

region=scrapy.Field();

info=scrapy.Field();

Spiders.py定義了如何爬去某個(gè)網(wǎng)站,包括了爬取的動作以及如何從網(wǎng)頁的內(nèi)容中提取結(jié)構(gòu)化數(shù)據(jù)(爬取item),是定義爬取的動作及分析某個(gè)網(wǎng)頁(或者是有些網(wǎng)頁)的地方。Scrapy提取數(shù)據(jù)有自己的機(jī)制,通過特定的XPath或者CSS表達(dá)式來“選擇”HTML文件中的某個(gè)部分。本采集部分代碼如下:

利用Xpath,通過Scrapy自動提取html中a、href、li標(biāo)簽的相應(yīng)屬性,實(shí)現(xiàn)了目標(biāo)網(wǎng)頁信息采集。最終采集到的網(wǎng)頁信息如圖4所示。

圖4 地圖信息采集結(jié)果

通過圖4可以看出,利用Scrapy構(gòu)建的網(wǎng)絡(luò)爬蟲,能精準(zhǔn)的對目標(biāo)網(wǎng)頁信息進(jìn)行采集。后續(xù)如果還需對該網(wǎng)頁持續(xù)跟蹤,可將該網(wǎng)站加入目標(biāo)網(wǎng)址庫,定期利用Scrapy爬蟲進(jìn)行數(shù)據(jù)采集。

4 結(jié)束語

網(wǎng)絡(luò)環(huán)境下的地理空間主題信息采集是地理空間研究重要數(shù)據(jù)來源,本研究分析了目前信息采集的作業(yè)流程,提出了用網(wǎng)絡(luò)爬蟲采集網(wǎng)站信息的工作流程方法。該方法能精準(zhǔn)的提取網(wǎng)頁數(shù)據(jù),提高數(shù)據(jù)采集的自動化程度,為后續(xù)地理空間信息主題庫的建立,以及數(shù)據(jù)挖掘提供數(shù)據(jù)支撐。

參考文獻(xiàn):

[1]王元卓,靳小龍,程學(xué)旗.網(wǎng)絡(luò)大數(shù)據(jù):現(xiàn)狀與展望[J].計(jì)算機(jī)學(xué)報(bào),2013,36(6):1125-1135.

[2]孫瑞英.網(wǎng)絡(luò)數(shù)據(jù)內(nèi)容分析研究[J].圖書館學(xué)研究,2005 (5):35-39.

[3]劉金紅,陸余良.主題網(wǎng)絡(luò)爬蟲研究綜述[J].計(jì)算機(jī)應(yīng)用研究,2007,24(10):26-29.

[4]王曙,吉雷靜,張雪英.面向網(wǎng)頁文本的地理要素變化檢測[J].地球信息科學(xué)學(xué)報(bào),2013(10):15-5.

[5]羅剛,王振東.自己動手寫網(wǎng)絡(luò)爬蟲[M].清華大學(xué)出版社, 2010.

中圖分類號:TP391.3

猜你喜歡
信息
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
信息超市
展會信息
展會信息
展會信息
展會信息
展會信息
信息
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 67194成是人免费无码| 国产精品无码一二三视频| 国产黄色片在线看| 在线色综合| 人人爽人人爽人人片| 手机精品视频在线观看免费| 国产美女精品人人做人人爽| 日本道综合一本久久久88| 国产精品嫩草影院av| 色综合久久88色综合天天提莫| 精品国产免费人成在线观看| 亚洲人成网站在线播放2019| 天天综合色网| 亚洲国产精品无码久久一线| 试看120秒男女啪啪免费| 四虎AV麻豆| 亚洲无码一区在线观看| 国产人成乱码视频免费观看| 女人av社区男人的天堂| 性欧美精品xxxx| 又黄又湿又爽的视频| 欧美亚洲国产精品久久蜜芽| 91在线播放国产| 国产尤物视频在线| 五月婷婷伊人网| 综1合AV在线播放| 国产农村妇女精品一二区| 国产99免费视频| 成人在线观看一区| 午夜影院a级片| 日韩中文字幕亚洲无线码| 亚洲男人天堂网址| 谁有在线观看日韩亚洲最新视频| 国产又黄又硬又粗| 国产爽爽视频| 国产第三区| 女同国产精品一区二区| 欧美日韩一区二区三区四区在线观看| 伊人五月丁香综合AⅤ| 小13箩利洗澡无码视频免费网站| 日韩国产欧美精品在线| 国产成人精彩在线视频50| 波多野结衣一级毛片| 99热在线只有精品| 国产凹凸一区在线观看视频| 亚洲人成人无码www| 在线毛片网站| 91福利免费| www.狠狠| 国产在线一区二区视频| 欧美激情,国产精品| 欧美日本在线| 67194在线午夜亚洲| 亚洲精品欧美日本中文字幕| 成人国产一区二区三区| 91欧美亚洲国产五月天| 777国产精品永久免费观看| 中文字幕av一区二区三区欲色| 国产乱子伦视频在线播放| 天天干天天色综合网| 国产真实乱人视频| 欧美日韩午夜| 伊人无码视屏| 黄色福利在线| 欧美区在线播放| 天堂成人av| yy6080理论大片一级久久| 青青操国产| 色哟哟国产精品一区二区| 真人免费一级毛片一区二区| 五月天综合婷婷| 国产精品网曝门免费视频| 波多野结衣视频一区二区 | 国产女人水多毛片18| 国内精品久久九九国产精品| 99这里精品| 国产粉嫩粉嫩的18在线播放91| 中文成人在线视频| 欧美高清视频一区二区三区| 婷婷六月综合网| 国产精品污视频| 国产高清无码麻豆精品|