繆治 任敏敏



摘要:在網絡爬蟲的地理空間信息的采集方法上,也就是說在網絡的環境下對地理空間信息進行獲取和相關資料的搜集工作,對于地理空間信息的研究具有十分重要的作用,是地理空間研究領域獲取信息最為重要的途徑之一。在網絡空間下對數據的主題信息的采集工作是進行地理空間信息采集的重要工作內容,是地理空間信息進行研究最基本的根據之一。數據網絡中,對于地理空間信息的采集具有以下幾個特點:一是數據采集主題的門類比較多,采集的方法各種各樣,數據的格式也是千差萬別,對于如何快速、準確、高效地獲取地理空間信息來說是一個復雜的問題。
關鍵詞:信息采集;網絡爬蟲;地理空間;采集方法
中圖分類號:TP311? ? ? ? 文獻標識碼:A
文章編號:1009-3044(2019)18-0009-02
Abstract: In terms of the collection method of Geospatial information of web spiders, that is to say, the acquisition of Geospatial Information and the collection of relevant data in the network environment play a very important role in the research of Geospatial information, and is one of the most important ways to obtain information in the field of Geospatial Information. The collection of the subject information of the data in the network space is an important work of Geospatial information collection and is one of the most basic bases of Geospatial information research. In the data network, the collection of Geospatial information has the following characteristics: first, the subject of data collection is more categories, collection methods are various, the format of data is also varied, for how to quickly, accurately and efficiently obtain Geospatial information is a complex problem.
Key words: information collection; web spider; geographic space; collection method
隨著互聯網技術的迅猛發展,信息化的社會發展已經進入了大數據的發展時代,人們可以通過信息的采集發現用戶的喜好,進而進行精準化的營銷活動。而在網絡空間上,地理信息的相關主題變得越來越多,除了谷歌以及百度地圖、高德地圖等符合標準之外,還有一些網絡服務,例如:開放大學的圖書館也包含了地理空間的信息。在開放大學的地理空間信息的獲取上需要從半結構化或者結構化的網頁中抽取數據,然后對數據進行信息上的采集和轉化才可以對數據進行使用和挖掘,進而實現對數據的利用。相對于開放大學的這種數據收集方式特性,網絡爬蟲可以很好地解決這一類問題,對數據實現精準的信息采集,然后根據數據有關需要和要求,將數據存入到相應的數據庫中去,為日后的采集工作提供便利,同時也為構建地理信息的主題信息檢索提供了另一種路徑,提供數據更為深層次的數據檢索。
1 網絡爬蟲的基本概念
網絡爬蟲就是一個可以自動對網頁內容進行提取的程序,它主要是根據搜索引擎的指示從網站上下載網頁數據,從這個角度來看,網絡爬蟲也是搜索引擎的關鍵組成部分,網絡爬蟲的基本工作原理是從一個目標站點出發,舉例來說就是在一個固定的門戶網站上對數據進行精準的搜集。然后通過網絡的協議獲取網頁的資源,分析頁面的內容和及時的提取出相關數據的鏈接,以循環迭代的方式對整個數據網絡進行目標的訪問。網絡爬蟲對于數據的采集以及訪問是具有一定目標的,可以精準地找到內容,同時將有關的內容及時存入數據庫中,為地理信息空間的采集提供了一定便利,同時可以按照數據規定的格式對采取到的數據進行分類儲存。
網絡爬蟲工作最為基本的步驟,如圖1所示。網絡爬蟲最開始是通過最基本的搜索引擎找到預定目標的網絡,然后通過網絡加入目標的網頁中去,之后網絡爬蟲就開始按照既定的流程去進行工作了。首先對網站的網址進行讀取,然后根據對網站網頁數據的訪問讀取網頁的內容,對于系統化、結構化的數據進行采集以及搜集,抽取目標化的數據內容。之后是解析網頁內容里面包含的其他的網址,通過一定的算法對有關的數據進行判斷,是否已經對數據進行有關解讀工作。如果網絡中的網址沒有對數據進行抓取,就將其放入這個未抓入隊列中去,如果已經對數據進行搜集和抓取就要計入已經抓取的范圍中去,然后對數據的搜集以及抓取工作進行循環的工作,直到網絡的隊列為空。網絡爬蟲的優點就是可以精準的搜集網絡的相關的網頁,排除很多沒有必要或者不相關的網頁,實現滿足人們對于信息搜素的精確性的要求與精準化搜索的目的。
2 利用網絡爬蟲進行地理空間信息采集的工作流程
利用網絡爬蟲對地理空間信息進行采集已經成為網絡工作中的重要的途徑之一,對于采集空間信息具有重要的作用,具體的工作的流程參考圖2。
對獲取的地理空間信息進行引擎搜索與有關的網頁的匹配度。
第一,通過人工的查看以及有關技術干預的方式,對網絡爬蟲搜集出來的相關的網頁進行提前的預判斷,進一步提供網絡爬蟲查找數據與網頁相關度檢索,提高與關鍵詞的相關度,最后確立需要進行地理空間信息的采集的目標的網站。
第二,利用網絡爬蟲對整個目標地理空間信息有關的文本信息,形成一個信息搜索的信息庫,進一步對數據進行挖掘和處理,為數據提供最為基本的支撐。要賦予搜集的目標網站較高的價值,就需要進行持續的跟蹤,可以利用網絡爬蟲定期地對搜集到的網站進行信息的爬取,檢測網站上需要關注的地理信息,實現地理空間信息的價值需要對信息進行自動化搜索。
第三,利用網絡爬蟲對整個目標地理空間信息有關的文本信息,形成一個信息搜索的信息庫,進一步對數據進行挖掘處理,為數據提供最為基本的支撐。
第四,要賦予搜集的目標網站較高的價值,就需要進行持續的跟蹤,可以利用網絡爬蟲定期對搜集到的網站進行信息的爬取,檢測網站上需要關注的地理信息,實現地理空間信息的價值需要對信息進行自動化搜索。
3 利用scrapy網絡爬蟲進行地理空間信息的采集
把大學開放網站收錄的地圖網頁作為目標網站進行地理信息空間的采集,通過利用網絡爬蟲可以構建網絡爬蟲的框架,從相關的數據網站對數據進行精準的抓取工作。在爬蟲進行數據采集工作的時候,首先,需要建立一個信息采集項目,在scrapy網絡爬蟲下進行運行工作,這項工作會包括網絡爬蟲的目錄,對地圖的信息進行掃描。scrapy網絡爬蟲定義了如何對網站進行數據的爬取以及如何對數據進行搜集,包括對數據的提取以及對網絡的結構化提取的步驟。利用scrapy網絡爬蟲進行數據的提取工作可以對目標網頁進行信息的精準采集,后續如果需要對工作進行持續的跟蹤,可以將該網站加入目標的網址,定期對scrapy網絡爬蟲的數據進行搜集與持續的跟進。舉例來說:如表1。通過對數據的關鍵字的提取,然后網絡爬蟲進行數據搜索,查詢所需要的地址以及對信息進行分類編碼。
4 結束語
網絡空間下對數據的主題信息的采集工作是進行地理空間信息采集工作的重要的工作的內容,是地理空間信息進行研究的最為基本的根據之一,為此,本文對目前網絡爬蟲進行數據采集的作業的流程以及對網絡爬蟲的數據網站的信息的采集的工作流程進行了詳細的探討,提出了網絡爬蟲進行信息采集以及搜集的方法,對網頁的數據進行精準化的提取,使用這種方法可以對數據進行精準化的提取,提高數據的自動化的采集程度,為我國的后續的地理空間信息的采集工作中的 主題數據庫的信息提供了一定的基礎,為數據的繼續對挖掘提供了支撐。據采集的主題的門類比較多,對于如何快速、準確、高效的獲取地理空間信息來說是一個問題,基于網絡爬蟲的地理空間信息的采集辦法對這類問題進行解決,這種方法在網絡信息的采集方面具有省時間、高效以及便捷的優點,大大地提高了地理空間信息采集的效率,促進網絡數據信息采集的精準化。
參考文獻:
[1] 鞏保勝, 魏春苗. 基于網絡爬蟲的地理空間信息采集方法[J]. 甘肅科技, 2016, 32(7):17-18.
[2] 曾李陽. 基于分布式網絡爬蟲的Web空間數據獲取與管理方法研究[D]. 西南交通大學, 2016.
[3] 易曉峰.基于WebGIS系統的分布式空間數據庫的集成技術研究與應用[D].武漢理工大學, 2005.
[4] 鐘凱.基于網格的地理空間數據庫訪問和操作中間件研究[D].國防科學技術大學,2009.
[5] 馬聯帥.基于Scrapy的分布式網絡新聞抓取系統設計與實現[D]. 西安電子科技大學, 2015.
[6] 陶興海.基于Scrapy框架的分布式網絡爬蟲實現[J]. 電子技術與軟件工程, 2017(11):23-23.
[7] 孫歆,戴樺,孔曉昀,等.基于Scrapy的工業漏洞爬蟲設計[J]. 網絡空間安全, 2017,8(1):66-71.
【通聯編輯:代影】