陳興華
(1.福建省基礎(chǔ)地理信息中心,福建 福州 350003)
福建省目前還采用傳統(tǒng)的數(shù)據(jù)采集和更新方式,從數(shù)據(jù)采集到數(shù)據(jù)入庫時間,跨度大、周期長。現(xiàn)代社會發(fā)展快,地物要素變化也非常快,傳統(tǒng)的數(shù)據(jù)采集方式已經(jīng)無法滿足需求,因此,有必要探索新的采集方式,加快地理信息采集和更新速度,促進(jìn)地理信息的應(yīng)用與發(fā)展。
以主流門戶網(wǎng)站和社交媒體網(wǎng)站為研究對象,根據(jù)網(wǎng)站公開的API接口說明文檔,學(xué)習(xí)API接口的使用方法及參數(shù)信息,研究語義匹配和空間數(shù)據(jù)搜索技術(shù),通過眾多網(wǎng)站API接口的調(diào)用,從目標(biāo)網(wǎng)站中獲取空間地理信息。
基于因特網(wǎng)發(fā)布的空間地理信息是經(jīng)過脫密處理的,獲取的地理要素信息無法基于統(tǒng)一坐標(biāo)系使用,根據(jù)API文檔中對空間信息坐標(biāo)系的描述,研究幾何校正技術(shù),把獲取的空間地理信息轉(zhuǎn)換為CGCS2000坐標(biāo)系。
通過各類網(wǎng)站上收集的地理信息資源,數(shù)據(jù)量龐大、數(shù)據(jù)格式不一,若人工進(jìn)行數(shù)據(jù)篩選和處理,工作量巨大。為減少人工干預(yù)的工作量,制定數(shù)據(jù)篩選規(guī)則,通過規(guī)則智能化地從眾多地理信息中篩選出符合條件的數(shù)據(jù)資源。
本項(xiàng)目將以現(xiàn)有的空間數(shù)據(jù)為基礎(chǔ),分析現(xiàn)有空間數(shù)據(jù)的特點(diǎn)和組織結(jié)構(gòu),基于因特網(wǎng)分析網(wǎng)絡(luò)空間數(shù)據(jù)的組織方式和特點(diǎn),設(shè)計空間數(shù)據(jù)組織方式,研究在線空間數(shù)據(jù)搜索技術(shù)、空間數(shù)據(jù)校正技術(shù)等,實(shí)現(xiàn)空間數(shù)據(jù)的在線搜索,在此基礎(chǔ)上實(shí)現(xiàn)技術(shù)成果的應(yīng)用。
1)資料收集與技術(shù)分析。通過網(wǎng)絡(luò)或者其他方式收集國內(nèi)外在此領(lǐng)域的先進(jìn)技術(shù)與經(jīng)驗(yàn),了解空間數(shù)據(jù)搜索方面使用的關(guān)鍵技術(shù),對技術(shù)進(jìn)行一定的評估和分析,提出實(shí)現(xiàn)關(guān)鍵技術(shù)的思路和技術(shù)方案。
2)關(guān)鍵技術(shù)研究。研究在線空間數(shù)據(jù)搜索API接口及方法,通過調(diào)用在線接口實(shí)現(xiàn)空間數(shù)據(jù)的搜索技術(shù),實(shí)現(xiàn)不間斷的空間數(shù)據(jù)搜索,研究語意匹配技術(shù),匹配和語意相近的結(jié)果集;研究不同來源的空間數(shù)據(jù)校正技術(shù),把不同來源的空間數(shù)據(jù)坐標(biāo)系校正為CGCS2000坐標(biāo)系,并對校正后的坐標(biāo)偏移量進(jìn)行評估;研究空間數(shù)據(jù)更新技術(shù),把已搜索的空間數(shù)據(jù)更新到空間數(shù)據(jù)庫中。分項(xiàng)實(shí)現(xiàn)項(xiàng)目中的關(guān)鍵技術(shù),并對每一項(xiàng)關(guān)鍵技術(shù)進(jìn)行測試與實(shí)驗(yàn),在分項(xiàng)關(guān)鍵技術(shù)研究的基礎(chǔ)上,合并和集成各項(xiàng)關(guān)鍵技術(shù)。
3)技術(shù)實(shí)現(xiàn)。在關(guān)鍵技術(shù)研究的基礎(chǔ)上,設(shè)計數(shù)據(jù)庫表結(jié)構(gòu),以“天地圖·福建”現(xiàn)有的空間數(shù)據(jù)為基礎(chǔ),搭建在線公眾地理信息變化與發(fā)現(xiàn)系統(tǒng),實(shí)現(xiàn)在線實(shí)時的地理空間數(shù)據(jù)搜索與采集、幾何校正等多項(xiàng)功能,把校正后的空間數(shù)據(jù)存儲到空間數(shù)據(jù)庫中,并對不同來源的空間數(shù)據(jù)標(biāo)識其來源和采集時間,采集后的空間信息資源為公眾地理信息的更新提供多源參考資料。
本課題采用B/S結(jié)構(gòu),分別是服務(wù)層、引擎層和應(yīng)用層,其技術(shù)架構(gòu)如圖1所示。
1)數(shù)據(jù)層。數(shù)據(jù)共分為2個部分,現(xiàn)有的“天地圖·福建”的空間數(shù)據(jù)為基礎(chǔ)數(shù)據(jù)庫,通過網(wǎng)絡(luò)發(fā)現(xiàn)變化的數(shù)據(jù)是課題中研究的另外一部分空間數(shù)據(jù)。

圖1 技術(shù)架構(gòu)圖
2)服務(wù)層。服務(wù)層分為2個部分,第1部分是基于因特網(wǎng)從網(wǎng)站搜索已經(jīng)變化的空間地理信息,運(yùn)用技術(shù)對空間信息進(jìn)行一定的處理;第2部分是以2個空間庫的數(shù)據(jù)為基礎(chǔ),通過查詢、對比等功能對空間數(shù)據(jù)進(jìn)行驗(yàn)證。
3)應(yīng)用層。把已經(jīng)變化和發(fā)現(xiàn)的空間地理信息成果應(yīng)用到網(wǎng)站和平臺。
1)空間數(shù)據(jù)表結(jié)構(gòu)設(shè)計。課題中的數(shù)據(jù)來源于因特網(wǎng)上不同的網(wǎng)站,不同網(wǎng)站中的空間數(shù)據(jù)組織和結(jié)構(gòu)完全不相同,針對此情況,按照求同存異的方法,對空間數(shù)據(jù)進(jìn)行一定的歸納,歸納出網(wǎng)站中公共字段。設(shè)計一個表存儲公共字段,標(biāo)明數(shù)據(jù)來源和更新時間,對于其他不同于公共字段的屬性信息,采取獨(dú)立建表存儲的方法,設(shè)計字典表補(bǔ)充說明字段的含義、來源、用途等,實(shí)現(xiàn)不同來源的空間數(shù)據(jù)都能兼容的存儲方法。
2)在線空間地理信息的變化與發(fā)現(xiàn)。以現(xiàn)有“天地圖·福建”的公眾地理信息數(shù)據(jù)庫為基礎(chǔ),通過語義匹配、區(qū)域范圍、行政區(qū)域等方法搜索出相近和類似的結(jié)果。搜索結(jié)果和現(xiàn)有庫中數(shù)據(jù)進(jìn)行對比,主要比對的字段包括名稱、地址、空間位置及其他描述信息,空間數(shù)據(jù)的位置與原庫中位置允許偏差在20 m范圍,如果超出這個范圍則認(rèn)為數(shù)據(jù)發(fā)生變化。若在相同的空間位置上,現(xiàn)有庫中的數(shù)據(jù)變化為其他名稱,說明此要素已經(jīng)不存在。
對主流門戶網(wǎng)站進(jìn)行分析,分為2種情況:①網(wǎng)站提供了API接口,有相應(yīng)的方法和屬性;②網(wǎng)站無API接口,只有網(wǎng)頁供用戶瀏覽。若網(wǎng)站提供了API接口,則使用網(wǎng)站中的API接口,API接口包括關(guān)鍵字搜索、范圍搜索等方法,搜索出符合查詢條件的結(jié)果,把結(jié)果存儲在臨時表中;如果網(wǎng)站沒有提供API接口,抓取網(wǎng)頁中的內(nèi)容,通過關(guān)鍵字匹配的方法,匹配出相近的結(jié)果,若結(jié)果中沒有包含空間信息,采用“天地圖·福建”地址庫匹配出相應(yīng)的空間位置坐標(biāo)。
關(guān)鍵詞搜索方法,對現(xiàn)有要素名稱進(jìn)行分詞,如“福建省測繪地理信息局”,被分解為“福建省”、“測繪”、“地理信息”等幾個詞匯,通過名稱或者關(guān)鍵字組合搜索出和語義相關(guān)的要素信息,通過名稱、地址和空間位置等信息比較,判斷要素是否變化。
范圍搜索方法,范圍搜索包括點(diǎn)和矩形范圍搜索2種方法,點(diǎn)搜索法是以該點(diǎn)為中心點(diǎn),以5 m或者10 m為半徑搜索在該區(qū)域范圍的地理要素信息,矩形搜索法是搜索該矩形范圍內(nèi)的空間地物要素信息,對搜索后結(jié)果按照規(guī)則進(jìn)行逐一比對。
3)空間地理信息幾何校正。在研究的部分主流網(wǎng)站中,空間數(shù)據(jù)都是經(jīng)過脫密或者變形處理,應(yīng)把變形處理后空間數(shù)據(jù)經(jīng)過一定的處理,轉(zhuǎn)換到統(tǒng)一的空間坐標(biāo)平臺上。通過分析和反復(fù)實(shí)踐,有2種方法可把變形后地物要素糾正到統(tǒng)一的坐標(biāo)系:①從現(xiàn)有庫中選取一定密度的空間要素作為控制點(diǎn),運(yùn)用橡皮筋糾正法把空間要素糾正到和控制點(diǎn)相同的坐標(biāo)系;②查閱相關(guān)資料和說明,獲取網(wǎng)站的變形說明,在不同區(qū)域選取足夠多的要素進(jìn)行比較,以0.001°×0.001°作為單元,獲取在橫軸和縱軸上的偏差值,通過要素比較制作要素偏差糾正庫,其他要素以此庫作為基礎(chǔ)進(jìn)行校正。
4)制定規(guī)則,篩選空間地理信息。空間數(shù)據(jù)篩選主要是制定規(guī)則,根據(jù)規(guī)則篩選出符合條件的空間數(shù)據(jù)。規(guī)則還得根據(jù)實(shí)際情況不斷地修改和完善。制定的篩選規(guī)則是,以“天地圖·福建”的空間數(shù)據(jù)庫為基礎(chǔ),從網(wǎng)絡(luò)上獲取的空間數(shù)據(jù)為比較對象,如果2個庫中的空間數(shù)據(jù)都存在,并且二者距離差小于20 m,說明該數(shù)據(jù)沒有發(fā)生變化。若“天地圖·福建”的數(shù)據(jù)庫中存在該條數(shù)據(jù),其他所有網(wǎng)站都不存在該條數(shù)據(jù),說明該條數(shù)據(jù)已經(jīng)發(fā)生變化或者該項(xiàng)信息已消失。若“天地圖·福建”的數(shù)據(jù)庫中不存在該條數(shù)據(jù),而網(wǎng)站中存在該條數(shù)據(jù),此項(xiàng)信息需人工核實(shí)后,確定是否存在該條空間信息。對于部分網(wǎng)站中存在空間信息而“天地圖·福建”數(shù)據(jù)庫中不存在的,仍然需借助人工判斷。
通過對以上幾項(xiàng)關(guān)鍵技術(shù)的研究,建立了地物要素變化監(jiān)測系統(tǒng)。自系統(tǒng)上線運(yùn)行以來,已經(jīng)為“天地圖·福建”更新了約40 000條興趣點(diǎn)數(shù)據(jù)和1 000 條公交數(shù)據(jù)。關(guān)鍵技術(shù)的實(shí)現(xiàn)為“天地圖·福建”空間庫的更新提供了重要的數(shù)據(jù)來源,拓展了地理信息更新渠道,縮短了空間地理信息的更新周期,節(jié)約了大量的人力和物力。但還存在著諸多不足,如通過語意匹配搜索的能力還較弱,不能從各個網(wǎng)站智能提取空間信息,篩選規(guī)則也有待進(jìn)一步完善。
[1]國家測繪地理信息局地理信息與地圖司.“天地圖”省市級節(jié)點(diǎn)建設(shè)方案[EB/OL].http://www.sbsm.gov.cn/article/zcfg/zygfxwj/201107/20110700085953.shtml, 2011-07-07/2015-01-01
[2]郭俊楓,趙仁亮,鄭嬌龍.面向網(wǎng)頁文本的地理要素變化發(fā)現(xiàn)[J].地理信息世界,2015,22(1):52-56
[3]劉娟,智升翠.“天地圖”市級節(jié)點(diǎn)地名地址數(shù)據(jù)建設(shè)的研究[J].測繪與地理空間信息,2012,35(9):109-112
[4]陳軍,趙仁亮,王東華.基礎(chǔ)地理信息動態(tài)更新技術(shù)體系初探[J].地理信息世界,2007,14(5):4-9
[5]閆會杰,趙巍.服務(wù)于基礎(chǔ)地理信息數(shù)據(jù)動態(tài)更新的網(wǎng)絡(luò)蜘蛛[J].測繪技術(shù)裝備,2012,14(2):21-22
[6]張春菊,張雪英,朱少楠,等.基于網(wǎng)絡(luò)爬蟲的地名數(shù)據(jù)庫維護(hù)方法[J].地球信息科學(xué)學(xué)報,2011,13(4):492-499
[7]王凱.基于互聯(lián)網(wǎng)信息檢索的“天地圖”數(shù)據(jù)變化發(fā)現(xiàn)技術(shù)研究[J].測繪技術(shù)裝備,2014,16(4):9-11