張建英,劉高
(1.嘉興市規劃管理局,浙江 嘉興 314000; 2.武大吉奧信息技術有限公司,湖北 武漢 430223)
當前,政務大數據建設在各地方政府中得到空前重視,各地政府紛紛投入巨大資源建設政務大數據。政務大數據的一個顯著特征是具有典型的空間特性和時間特性。因此,如何解決政務專題與空間信息的關聯,實現政務專題數據的實時空間化,成為當前研究的一個熱點。
空間信息具有唯一性,是空間信息能夠成為關聯和承載其他政務信息的載體,這個載體,具體體現為地理實體數據。地理實體數據實現了地理信息的對象化,是地理信息能夠像其他信息一樣由當代計算機技術進行處理和分析,從而推動了空間信息和專題信息的融合。使政務信息的關聯和大規模空間分析和挖掘成為可能。
地理實體是指現實世界中具有共同性質的自然或人工地物,是具有社會意義的最小地理單元。地理實體數據是在原有基礎地理數據基礎上,按照一定的標準與規范抽取、轉換而獲取,它是專題數據進行融合掛接的載體,是時空信息平臺的時空地理基礎[1]。

空間特征的描述與表達 表1
地理實體數據最基本的特征是其空間特征,在空間特征表達上,采用點、線、面形式來描述和表達數據,如表1所示。每一個地理實體根據其在自然環境中的形態選擇表現形式,可同時采用多種表現形式。
(1)點狀數據幾何表達基本規則
地理實體的點狀數據以地理位置標識點表達,地理位置標識點的定義規則如下:①區域實體點狀數據的地理位置標識:行政區劃的政治、經濟、文化中心所在地的點位;行政區劃內標志性建筑物的點位;面狀區域的重心點點位。②線狀實體點狀數據的地理位置標識:線狀實體中心點的點位;線狀實體中心線系列點的點位;線狀地物(河流、山脈等)的標志點。③點狀實體點位數據的地理位置標識:門(樓)址標牌位置或建筑物內任意點的點位;標志物中心點的點位;自然地物的中心點或標志點。
(2)線、面狀數據幾何表達基本規則
地理實體數據的幾何表達應遵循以下規則:①以線表達的水系、交通等要素應保證線段的連續。例如,面狀河流或道路應提取骨架線或中軸線,并與相接的線狀河流或道路構成連通網絡,遇有橋梁使河流或道路中斷時,應在斷開處添加線段使河流或道路保持連通。②以面表達的政區、院落、房屋等要素應保證面的封閉。例如,表示院落時應提取構成院落輪廓的邊線并構建封閉面。③正確處理要素間的空間關系,保證要素間空間關系的合理與邏輯一致。例如,以河流為界的界線數據,表示界線的線應當與表示河流的線在空間上一致。
(3)數據一致性處理
地理實體數據可能存在多種幾何圖形表現形式,數據之間的一致性,通過實體標識碼進行維護。凡具有相同實體標識碼的幾何對象,均認為其是一個實體的不同表現形式。
(4)數據邏輯組織
地理實體數據以空間連續、內容分層的方式進行邏輯組織。地理實體的圖形數據由單個或多個點、線、面幾何對象組合而成,它具有特定的地理意義與空間唯一性,能夠與相關社會經濟信息進行掛接,滿足信息交換共享的需要。地理實體數據采用標識碼來唯一標識每個對象。
4.血矛線蟲病。捻轉血矛線蟲宿主的感染主要在溫暖季節,在溫暖季節血矛線蟲病發生較多,本次呈慢性經過, 直至動物死亡。
地理實體的屬性由基本屬性、擴展屬性、專業屬性三部分組成。
基本屬性:指確定其唯一性而應具有的屬性,作為所有地理實體的必不可少的內容存在;基本屬性提供地理實體與其他擴展和專業屬性關聯的信息。擴展屬性:指地理實體所關聯的具有共享性質的社會經濟屬性,凡專業管理部門有明確標準管理的,采用行業標準。專業屬性:指專業部門根據管理需要賦予實體的專業性、行業性的屬性內容。
現狀地理實體建設思路為:根據相關標準,在矢量、三維、地名地址等數據的基礎上,細化包括房屋、道路、水系、院落等在內的重要地理單元的劃分顆粒度,以現實世界中可以獨立的對象作為空間單體的最小表達模型,并賦予唯一的標識ID。
歷史地理實體建設思路為:按照地理實體標準規定,通過現狀地理實體數據與已收集的多種歷史數據比對,將現狀地理實體數據中已采集的數據修正其產生和消亡時間,將已消亡的地理實體進行補充采集,形成具有一定時間序列、統一時空基準的地理實體數據庫,地理實體數據生產和建庫流程如圖1所示。

圖1 地理實體數據生產和建庫流程圖
政務專題數據空間化是通過專題數據與地理實體的關聯融合所實現的,采取“軟件自動化+人工干預”的處理方式,空間化的成果數據輸入到政務專題數據庫中。
政務專題數據與地理實體的關聯可采用以下幾種方式:①政務專題數據中含有地址項,但地址信息不標準,將地址信息標準化之后,根據標準地址進行關聯。②政務專題數據中含有位置坐標項,通過與地理實體位置信息進行空間分析關聯匹配。③政務專題數據中含有實體名稱項,通過實體名稱進行關聯。④政務專題數據中含有實體標識碼項,通過實體標識碼進行關聯[2]。⑤政務專題數據中含有個人的身份證號或企業的統一社會信用代碼,通過身份證號或統一社會信用代碼與其他已空間化的數據進行關聯[3]。
專題數據空間化須遵循以下要求:①專題數據須檢查拓撲關系,與背景要素(道路面、建筑物、植被、水系圖層)拓撲關系保持一致。②專題數據各信息點要素相對空間位置關系正確,無重復或遺漏。③對于精確匹配上圖的政務專題數據,專題數據在底圖上的位置與相應POI或地址的位置須保持一致。
政務專題數據空間化包括數據清洗整理、地名地址匹配、空間信息掛接三個部分,具體如圖2所示。

圖2政務專題數據空間化的技術流程圖
首先進行數據清洗整理:單位提供接入的政務數據格式、結構均不相同,為了能更準確地進行地名地址匹配,須對政務專題數據進行清洗整理,依照數據自身情況,共5種不同的處理方法:①空間數據:無須處理,可直接用于各類應用。②已匯總Excel表格數據:調整字段格式,保證其可以在導入GIS軟件后正確顯示。③已匯總文本數據:導出為Excel表格形式,調整格式。④未匯總表格或文本數據:匯總為Excel表格形式,調整格式。⑤數據庫格式數據:先行在數據庫進行整理,導出為csv數據,并轉換為Excel表格數據。
然后進行地名地址匹配:基于地理實體數據庫,利用地名地址建庫工具,創建標準地名地址數據庫索引,發布地名地址匹配服務,提供地名地址匹配的能力。地名地址匹配,支持兩種方式:①地址匹配。將專題數據中的地址信息與標準地址進行匹配,掛接坐標值。②地名匹配。將專題數據中的地名信息與地名地址進行匹配,掛接坐標值。可支持的城區地址描述結構為:[行政區劃]+[街路巷]+[門牌號]+[小區/單位]+[樓棟號]。可支持的郊區地址描述結構為:[行政區劃]+[鄉鎮]+[村莊名]+[組/隊]+[門牌號]。
最后進行空間信息掛接:獲取匹配上的地理實體標識碼信息,并補充到政務專題數據屬性中,即可完成專題數據空間化。
政務專題數據和地理實體數據一樣,具有可以唯一標識地理對象的屬性字段。通過這個字段,最終實現政務專題數據的空間化——政務專題數據能夠隨時根據這個唯一標識關聯字段找到對應地理實體,從而獲得它的空間信息。
空間化后的政務專題信息,納入時空信息大數據管理系統進行統一存儲和管理。
對入庫的政務專題數據按照相應的標準進行分類存儲,可以通過多維度的分類方法對數據進行分類,提高數據存儲以后的應用效率,對所整合后的數據進行統一存儲。
通過地理實體與政務專題數據的關聯融合,可以實現空間展示每棟房子關鍵的各類專題數據,通過熱力圖,渲染圖等展示用電用水活躍生活居住區,活躍辦公區,建議停車位規劃位置等。
空間化后的政務專題信息,以地理空間為橋梁,可建立數據之間廣泛的關聯關系[4,5]。

圖3嘉興市城市脈動效果圖
政府測繪地理信息部門對本地區地理實體數據利用主要是滿足國家、省級和本地區的需求。在基于地理實體數據利用的同時,由于政府測繪地理信息部門和國土、交通、水利等行業部門積累的大量基礎地理實體數據或政務專題數據標準不統一、形式和內容也存在差異,還需要對測繪地理實體數據和政務專題數據進行整合加工和必要的改造,使其符合地理實體數據認知的表達要求,構建通用數據庫樣本庫以及本地區的框架數據庫、基本比例尺數據庫和專題數據庫,生產滿足國家、省級和本地區需要的各類專題產品[6]。
建立共享與交換機制、時空大數據與政務信息的融合會更好地服務城市空間治理現代化,各類政務專題數據的匯聚和關聯,是通過地理實體數據實現的。地理實體數據庫與人口庫、法人庫和經濟庫合稱為城市四大基本庫,作為四大基本庫之一,地理實體庫提供地理對象的劃分、標識、唯一性維護等功能。通過地理實體庫的建設,建立起具有唯一標識體系的空間地理基礎信息,為各類專業信息提供空間位置信息和空間定位能力[7]。新型地理實體是城市大數據的核心,為跨部門數據融合、智能化應用開拓了一條新路徑。