999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于網絡爬蟲的地理空間信息采集方法

2019-08-08 06:23:04繆治任敏敏
電腦知識與技術 2019年18期
關鍵詞:信息

繆治 任敏敏

摘要:在網絡爬蟲的地理空間信息的采集方法上,也就是說在網絡的環境下對地理空間信息進行獲取和相關資料的搜集工作,對于地理空間信息的研究具有十分重要的作用,是地理空間研究領域獲取信息最為重要的途徑之一。在網絡空間下對數據的主題信息的采集工作是進行地理空間信息采集的重要工作內容,是地理空間信息進行研究最基本的根據之一。數據網絡中,對于地理空間信息的采集具有以下幾個特點:一是數據采集主題的門類比較多,采集的方法各種各樣,數據的格式也是千差萬別,對于如何快速、準確、高效地獲取地理空間信息來說是一個復雜的問題。

關鍵詞:信息采集;網絡爬蟲;地理空間;采集方法

中圖分類號:TP311? ? ? ? 文獻標識碼:A

文章編號:1009-3044(2019)18-0009-02

Abstract: In terms of the collection method of Geospatial information of web spiders, that is to say, the acquisition of Geospatial Information and the collection of relevant data in the network environment play a very important role in the research of Geospatial information, and is one of the most important ways to obtain information in the field of Geospatial Information. The collection of the subject information of the data in the network space is an important work of Geospatial information collection and is one of the most basic bases of Geospatial information research. In the data network, the collection of Geospatial information has the following characteristics: first, the subject of data collection is more categories, collection methods are various, the format of data is also varied, for how to quickly, accurately and efficiently obtain Geospatial information is a complex problem.

Key words: information collection; web spider; geographic space; collection method

隨著互聯網技術的迅猛發展,信息化的社會發展已經進入了大數據的發展時代,人們可以通過信息的采集發現用戶的喜好,進而進行精準化的營銷活動。而在網絡空間上,地理信息的相關主題變得越來越多,除了谷歌以及百度地圖、高德地圖等符合標準之外,還有一些網絡服務,例如:開放大學的圖書館也包含了地理空間的信息。在開放大學的地理空間信息的獲取上需要從半結構化或者結構化的網頁中抽取數據,然后對數據進行信息上的采集和轉化才可以對數據進行使用和挖掘,進而實現對數據的利用。相對于開放大學的這種數據收集方式特性,網絡爬蟲可以很好地解決這一類問題,對數據實現精準的信息采集,然后根據數據有關需要和要求,將數據存入到相應的數據庫中去,為日后的采集工作提供便利,同時也為構建地理信息的主題信息檢索提供了另一種路徑,提供數據更為深層次的數據檢索。

1 網絡爬蟲的基本概念

網絡爬蟲就是一個可以自動對網頁內容進行提取的程序,它主要是根據搜索引擎的指示從網站上下載網頁數據,從這個角度來看,網絡爬蟲也是搜索引擎的關鍵組成部分,網絡爬蟲的基本工作原理是從一個目標站點出發,舉例來說就是在一個固定的門戶網站上對數據進行精準的搜集。然后通過網絡的協議獲取網頁的資源,分析頁面的內容和及時的提取出相關數據的鏈接,以循環迭代的方式對整個數據網絡進行目標的訪問。網絡爬蟲對于數據的采集以及訪問是具有一定目標的,可以精準地找到內容,同時將有關的內容及時存入數據庫中,為地理信息空間的采集提供了一定便利,同時可以按照數據規定的格式對采取到的數據進行分類儲存。

網絡爬蟲工作最為基本的步驟,如圖1所示。網絡爬蟲最開始是通過最基本的搜索引擎找到預定目標的網絡,然后通過網絡加入目標的網頁中去,之后網絡爬蟲就開始按照既定的流程去進行工作了。首先對網站的網址進行讀取,然后根據對網站網頁數據的訪問讀取網頁的內容,對于系統化、結構化的數據進行采集以及搜集,抽取目標化的數據內容。之后是解析網頁內容里面包含的其他的網址,通過一定的算法對有關的數據進行判斷,是否已經對數據進行有關解讀工作。如果網絡中的網址沒有對數據進行抓取,就將其放入這個未抓入隊列中去,如果已經對數據進行搜集和抓取就要計入已經抓取的范圍中去,然后對數據的搜集以及抓取工作進行循環的工作,直到網絡的隊列為空。網絡爬蟲的優點就是可以精準的搜集網絡的相關的網頁,排除很多沒有必要或者不相關的網頁,實現滿足人們對于信息搜素的精確性的要求與精準化搜索的目的。

2 利用網絡爬蟲進行地理空間信息采集的工作流程

利用網絡爬蟲對地理空間信息進行采集已經成為網絡工作中的重要的途徑之一,對于采集空間信息具有重要的作用,具體的工作的流程參考圖2。

對獲取的地理空間信息進行引擎搜索與有關的網頁的匹配度。

第一,通過人工的查看以及有關技術干預的方式,對網絡爬蟲搜集出來的相關的網頁進行提前的預判斷,進一步提供網絡爬蟲查找數據與網頁相關度檢索,提高與關鍵詞的相關度,最后確立需要進行地理空間信息的采集的目標的網站。

第二,利用網絡爬蟲對整個目標地理空間信息有關的文本信息,形成一個信息搜索的信息庫,進一步對數據進行挖掘和處理,為數據提供最為基本的支撐。要賦予搜集的目標網站較高的價值,就需要進行持續的跟蹤,可以利用網絡爬蟲定期地對搜集到的網站進行信息的爬取,檢測網站上需要關注的地理信息,實現地理空間信息的價值需要對信息進行自動化搜索。

第三,利用網絡爬蟲對整個目標地理空間信息有關的文本信息,形成一個信息搜索的信息庫,進一步對數據進行挖掘處理,為數據提供最為基本的支撐。

第四,要賦予搜集的目標網站較高的價值,就需要進行持續的跟蹤,可以利用網絡爬蟲定期對搜集到的網站進行信息的爬取,檢測網站上需要關注的地理信息,實現地理空間信息的價值需要對信息進行自動化搜索。

3 利用scrapy網絡爬蟲進行地理空間信息的采集

把大學開放網站收錄的地圖網頁作為目標網站進行地理信息空間的采集,通過利用網絡爬蟲可以構建網絡爬蟲的框架,從相關的數據網站對數據進行精準的抓取工作。在爬蟲進行數據采集工作的時候,首先,需要建立一個信息采集項目,在scrapy網絡爬蟲下進行運行工作,這項工作會包括網絡爬蟲的目錄,對地圖的信息進行掃描。scrapy網絡爬蟲定義了如何對網站進行數據的爬取以及如何對數據進行搜集,包括對數據的提取以及對網絡的結構化提取的步驟。利用scrapy網絡爬蟲進行數據的提取工作可以對目標網頁進行信息的精準采集,后續如果需要對工作進行持續的跟蹤,可以將該網站加入目標的網址,定期對scrapy網絡爬蟲的數據進行搜集與持續的跟進。舉例來說:如表1。通過對數據的關鍵字的提取,然后網絡爬蟲進行數據搜索,查詢所需要的地址以及對信息進行分類編碼。

4 結束語

網絡空間下對數據的主題信息的采集工作是進行地理空間信息采集工作的重要的工作的內容,是地理空間信息進行研究的最為基本的根據之一,為此,本文對目前網絡爬蟲進行數據采集的作業的流程以及對網絡爬蟲的數據網站的信息的采集的工作流程進行了詳細的探討,提出了網絡爬蟲進行信息采集以及搜集的方法,對網頁的數據進行精準化的提取,使用這種方法可以對數據進行精準化的提取,提高數據的自動化的采集程度,為我國的后續的地理空間信息的采集工作中的 主題數據庫的信息提供了一定的基礎,為數據的繼續對挖掘提供了支撐。據采集的主題的門類比較多,對于如何快速、準確、高效的獲取地理空間信息來說是一個問題,基于網絡爬蟲的地理空間信息的采集辦法對這類問題進行解決,這種方法在網絡信息的采集方面具有省時間、高效以及便捷的優點,大大地提高了地理空間信息采集的效率,促進網絡數據信息采集的精準化。

參考文獻:

[1] 鞏保勝, 魏春苗. 基于網絡爬蟲的地理空間信息采集方法[J]. 甘肅科技, 2016, 32(7):17-18.

[2] 曾李陽. 基于分布式網絡爬蟲的Web空間數據獲取與管理方法研究[D]. 西南交通大學, 2016.

[3] 易曉峰.基于WebGIS系統的分布式空間數據庫的集成技術研究與應用[D].武漢理工大學, 2005.

[4] 鐘凱.基于網格的地理空間數據庫訪問和操作中間件研究[D].國防科學技術大學,2009.

[5] 馬聯帥.基于Scrapy的分布式網絡新聞抓取系統設計與實現[D]. 西安電子科技大學, 2015.

[6] 陶興海.基于Scrapy框架的分布式網絡爬蟲實現[J]. 電子技術與軟件工程, 2017(11):23-23.

[7] 孫歆,戴樺,孔曉昀,等.基于Scrapy的工業漏洞爬蟲設計[J]. 網絡空間安全, 2017,8(1):66-71.

【通聯編輯:代影】

猜你喜歡
信息
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
信息超市
大眾創業(2009年10期)2009-10-08 04:52:00
展會信息
展會信息
展會信息
展會信息
展會信息
信息
建筑創作(2001年3期)2001-08-22 18:48:14
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 全部免费特黄特色大片视频| 中文字幕在线视频免费| 国产精品视频观看裸模| 亚洲香蕉久久| 婷婷亚洲最大| 激情五月婷婷综合网| 丁香六月激情综合| 99久久无色码中文字幕| 精品無碼一區在線觀看 | 亚洲国产综合精品中文第一| 日韩无码视频专区| 在线国产三级| 午夜久久影院| 国产地址二永久伊甸园| 久久久国产精品无码专区| 少妇极品熟妇人妻专区视频| 国产日韩久久久久无码精品| 精品国产Av电影无码久久久| 成人蜜桃网| 91精品国产麻豆国产自产在线| 成人综合网址| 18禁高潮出水呻吟娇喘蜜芽| 欧洲成人免费视频| 欧美成人二区| 国产大全韩国亚洲一区二区三区| 色综合网址| 亚洲男人的天堂久久香蕉| 欧美一级片在线| 日韩中文字幕免费在线观看 | 亚洲无码熟妇人妻AV在线| 久久激情影院| 乱系列中文字幕在线视频| 国产成人高清精品免费5388| 99热这里只有精品久久免费| 特级精品毛片免费观看| 日本a级免费| 精品91视频| 国产精品亚洲欧美日韩久久| 99精品伊人久久久大香线蕉 | 国产精品福利在线观看无码卡| 免费在线色| 伊人AV天堂| 国产呦精品一区二区三区网站| 在线观看国产黄色| 强奷白丝美女在线观看| 国产精品一区在线观看你懂的| 一边摸一边做爽的视频17国产| 国产成人精品亚洲77美色| 97久久超碰极品视觉盛宴| 精品国产成人a在线观看| 精品视频第一页| 国产小视频网站| 114级毛片免费观看| 91网在线| 国产人人射| 精品国产污污免费网站| 亚洲日韩高清在线亚洲专区| 亚洲免费黄色网| 美女免费黄网站| 国产精品久久久久久久伊一| 国产精品网址在线观看你懂的| 久久国产乱子| 久久亚洲国产视频| 色九九视频| 老司机aⅴ在线精品导航| 亚洲成AV人手机在线观看网站| 热伊人99re久久精品最新地| 国产免费网址| 国产欧美精品专区一区二区| 亚洲大尺码专区影院| 激情国产精品一区| 国产幂在线无码精品| 欧美一区二区三区国产精品| 精品国产Av电影无码久久久| 久久成人18免费| 日韩毛片免费| 免费女人18毛片a级毛片视频| 99在线免费播放| 一级一级一片免费| 91蜜芽尤物福利在线观看| av性天堂网| 久久精品女人天堂aaa|