賈澤露,朱 毅,唐文武
(1.寶安區政務服務數據管理局,廣東 深圳 518000;2.吉奧時空信息技術股份有限公司 湖北 武漢 430223)
塊數據作為大數據發展的更高形態,是一種數據治理的理念和方法,實際就是數據的條塊結合,其本質主要體現為平臺化,關聯性集聚和數據開放共享[1]。通過塊數據,把原來分散在各個職能部門的人、事、物、組織按照區、街道、社區、網格的管理層級落圖入塊,即將人口、企業和事件都落入到樓棟、房間,而且將數據互相關聯[2]。在塊數據系統里選擇寶安任何一個社區的任意一間房屋,都可以清楚看到房間里人、事、物、企業的詳細信息,真正做到了“底數清、情況明”,強化了基層的數據意識,建立起用數據說話、用數據管理、用數據決策、用數據創新的治理理念,推動精準治理[3]。
人和房是社會治理最核心的兩大要素,借助塊數據打破數據壁壘,搭建了寶安區精細化治理的智能數字底座,實現了人房綁定,以人查房,以房查人。
傳統意義上的基礎地理數據缺乏語義關系表達,無法滿足地理知識智能推理的需要,急需研制將地理信息組織從數據架構發展為地理語義網及知識架構的技術體系,實現地理信息服務智能化的目標。通過為現有的基礎地理數據庫配置語義信息,構建地理實體(數據)庫,使其升級為具有一定智能推理能力的地理知識庫。只有在地理實體語義框架支持下,將當前地理信息的組織方式由數據架構發展為知識架構,才能為日益增加的相關行業用戶或公眾用戶提供專業、權威且智能的地理信息數據服務與應用推理計算服務。
地理實體空間語義模型將主要從地理認知入手,從滿足多尺度表達和地理信息分析應用的角度重新定義地理單元實體的表達規則。能夠綜合反映地理單元實體之間粒度、層次及空間、屬性、拓撲等關系的地理單元實體關系模型,規范各行業對通用的框架性地理單位實體的表達,從而更有效地實現時空信息的共享交換。
基于地理實體技術和理念,通過數據語義映射,模板化,自動化抽取,輔助編輯等過程,將區域管理單元的基礎測繪數據的碎片數據轉換為可統計、可計算、可分析、可掛接專題屬性的地理實體數據[4];采用區域管理單元代替業務工作中的地址概念,升級社會治理空間塊內涵、外延,充實塊數據空間塊;厘清業務現狀、需求,分析所需空間單元具體要求與規格,基于特定業務屬性與規則建立社會和城市治理所需空間單元。建立統一的地名地址、管理區域與業務信息的關聯方法,夯實塊數據底座。
人、地、事、物、組織在基層社會治理場景中可映射為人、房或某個自定義的區域、企業、城市事件和城市部件。這些實體兩兩之間形成了基于社會治理場景的23類關聯關系,如圖1所示。

圖1 社會治理要素關聯關系類型
基于這些關系類型可進一步分解為若干符合社會治理業務場景需求的地理實體對象實例,通過對這些對象實例建模,構建面向基層社會治理要素的地理地板,為下一步的關系模式匹配提供數據模型支撐。
依據地理實體的空間特性以及地圖上的形態表達,提取出地理實體空間上語義特征,創新性形成科學合理的新型空間數據分類標準體系,并統一賦碼標識后關聯人、房(區域)、企業、事件、部件(IOT)的對象實例建模形成地理實體空間語義模型。通過地理實體空間語義模型的構建,支撐寶安區生產生態體系的建設,完整覆蓋各職能部門管理對象空間覆蓋需求,為“底數清”打下了理論出處。
如圖2 所示,首先將城市治理過程中的人、房(區域)、企業、事件、部件(IOT)通過經緯度、地址進行空間落圖;其次,對現實世界中具有空間位置、共同屬性的獨立自然或人工地物的地理實體按空間特性、形態表達提取出“水系實體、交通實體、建筑物(房屋)實體、院落實體、管線實體、植被實體、境界和政區實體、管理服務區域實體、城市建設實體”等分類體系,并進行統一分類編碼、唯一標識編碼;然后,將落圖后的人、房(區域)、企業、事件、部件(IOT)與編碼標識后的地理實體進行編碼計算、空間運算建立地理實體空間語義關系表;最后,結合社會治理場景的23類關聯關系,通過編碼關聯、模型計算、空間運算等形成服務于城市治理的語義模型服務。

圖2 城市治理過程中語義模型的構成原理
基層社會治理“網格化”業務開展以來,極大提升了管理效率,多年來該方法的有效性已普遍得到驗證,將該思路泛化到更為普遍的“地理單元”概念下,是近幾年來的重要發展方向。
“地理單元”即地理實體在基層社會治理場景中的一種業務實現,具備空間信息的社會治理要素,可通過“空間關聯”計算的方式將其與地理實體融合,即在融入同一個地理實體的不同社會治理要素之間建立了關聯關系,形成新的融合數據集,如圖3所示。

圖3 多尺度空間關系計算示意圖
1)多尺度地理單元。社區是社會的基本單元,更是連接個人與社會,個人與國家的橋梁和紐帶,社區內的不同治理主體之間強調權責對等性,即不同治理層級之間有較為明確的范圍界限[5]。社區往下更小的基層社會治理地理單元尺度是網格,在社區內優化網格和巡辦機制,提升精細化管理水平,由社區根據地理特點、管轄對象等不同因子,科學劃分子網格[6]。通過識別不同人、房(區域)、企業、事件、部件(IOT)等實體共同的地理位置、管轄范圍,有助于多元聯動管理,壓實主體責任。而描述責任主體位置和范圍的“地理單元”是多類型、多尺度的,特別是描述基層責任主體的“地理單元”,會隨業務規則變化而變化,進而導致實體與其空間關系的變化,責任主體也隨之變化。
2)空間關聯計算。空間關聯計算是要建立社會治理要素的點位置與多尺度地理單元面要素的靈活適配關系。當前,地理單元范圍調整、治理要素位置變化后底層技術實現的主要方法是采用Spatial Join 疊置分析來進行空間關聯、屬性的追加。
3)融合數據集。融合數據集是要在空間關聯計算的基礎上,建立人、房(區域)、企業、事件、部件(IOT)與多尺度地理單元的空間關系、實體屬性的數據表集合。數據表集合一般需要將多尺度地理單元的唯一編碼標識存儲到Elastic Search 中提供高實時的搜索與數據分析能力。例如人(身份證號碼、居住地址統一地址編碼)、房(區域)(房屋統一地址編碼)、企業(社會信用統一代碼、注冊地址統一地址編碼)、事件(事件編碼、發生地統一地址編碼)、部件(IOT)(部件編碼、統一地址編碼)。多尺度地理單元為數據在不同尺度上進行融合提供了靈活性,如“網格化管理”場景中,不同地區因業務發展會劃分出不同類型的網格,在網格的上、下級又分別設定了社區和院落等存在包含關系的多級“地理單元”,社會治理要素可根據不同業務的管理粒度與不同尺度的“地理單元”融合,實現靈活適配。
以社會管理要素統一地址標準為載體,以統一地址編碼實現相同地址不同表述之間的相互映射,解決不同行業的標準地址以及老百姓習慣用語等非標準地址之間的互通互用問題[7]。構建統一地址的目的是為不具備空間信息的社會治理要素賦予空間信息,進而通過空間計算形成要素之間的關聯[8]。即利用空間信息具有唯一性的特點能夠成為關聯和承載其他政務信息的載體[9],建立地理實體唯一標識和地址的關聯關系。地址匹配技術已發展多年,一些算法模型在特定領域中已有較好的表現,但在基層社會治理領域,因涉及的地址類型復雜多樣,基于傳統模型需要構建的訓練樣本大增,否則存在泛化效果不佳的問題。
1)正負訓練樣本技術。本項目研發了根據統一地址庫自動構建正負訓練樣本技術,大幅降低人工構建訓練樣本成本,實現更深層次地提取地址語義,提高地址匹配的精確度。具體流程為:①將標準地址輸入到訓練樣本構造模塊;②選擇“省∕市∕區∕街道∕社區∕小區∕樓棟∕門牌號”的地理要素進行替換,并置為標簽0;③從8個替換結果中標簽為0的數據中隨機選擇1 個;④選擇“行政編碼”地理要素進行替換,例如將“前海路0199 號”替換為“前海路2000號”,后面小區、樓棟、門牌不變的置為標簽1,否則置為標簽0;⑤不做任何更改的地址置為標簽1;⑥將“行政編碼”地理要素替換且置為標簽1的數據與不做任何更改的數據匯聚一起,從2 個替換結果中隨機選擇1 個;⑦隨機刪除0~3 個行政地理要素,刪除的要素中不包含小區地理要素、樓棟地理要素以及門牌地理要素,則標簽不變;反之,如果刪除的要素中包含小區地理要素、樓棟地理要素以及門牌地理要素,則標簽記為0;⑧隨機選取一個標簽為1和一個標簽為0的樣本成為正負訓練樣本。
基于自動構造的訓練樣本,訓練推斷模型,從統一地址庫中匹配正確的地址,并賦予坐標,用于多尺度空間計算,而且計算結果隨著空間尺度的變化而改變;空間度量關系能被用來描述單個地理實體或者地理實體之間的關系[9],實現最終的社會治理要素關聯融合。
2)地址智能搜索引擎。基于Elastic Search 研創一套地址智能搜索引擎,如圖4 所示,實現地址、空間位置、編碼3 個參數之間的互查能力。輸入三者中的某一個參數,能夠查詢滿足條件地址信息,根據地址關鍵字或者地址編碼進行地址搜索,支持指定不同的地址方案和地址類型進行搜索。同時支持附近地址搜索,通過在地圖上面點擊右鍵,觸發搜索附近地址的查詢,通過空間信息查詢所選位置周圍的地址并在地圖上進行標記。真正讓地址數據應用至業務系統中,讓智能化的搜索將地址查詢提升至好用、易用的狀態。

圖4 地址智能搜索引擎示意圖
寶安區利用數字底座關鍵技術積極開發基層社會治理、人口普查核實、疫情防控重點人員核查、產業空間優化升級、“四上”企業推薦、建筑安全排查等政府特色應用。
1)在進一步管好“重點人”、“重點事”、“重點區域”的基層社會治理方面,通過應用地理實體空間語義模型將全區精神障礙患者、社區矯正人員、吸毒人員信息通過經緯度、地址進行落圖落房,借助空間關聯計算關聯部門和社區對應的責任人,開展協同幫扶和管控。以家事情感糾紛調處應用為例,基于多尺度空間計算模型整合包括網格辦、婦聯、公安、司法、法院等力量,實現在社區、網格、院落、房(區域)等多尺度空間的協同介入辦理率達100%,巡查整治數量比過往增加了6 倍,處置率達到了98%。
2)在助力國家“七人普”信息核實工作方面,應用多尺度地址匹配與位置關聯技術將寶安區17.3萬條樓棟建筑物的空間數據、屬性數據及樓棟內實有居住戶數等信息對接到全國人口普查系統,提高了普查員上門進行人口信息核實的數據準確性。
3)在疫情防控重點人員核查方面,應用多尺度地址匹配與位置關聯技術對公安提供的180 萬條人口數據進行了清洗、去重、匹配和上圖。以其中的湖北籍返深人員核查為例,實現對多方來源下發的29萬人員進行精準落圖定格,最終確認11 萬精準核查任務。地址匹配與位置關聯技術不僅能支撐“初篩人員”軌跡回放,還可以實現在10 min 內編制生成并導出高清實景“高風險區防外溢圖”供領導防疫決策指揮。
4)在商事主體監管及產業空間優化升級方面,一是應用多尺度地址匹配與位置關聯技術建立統一地址服務從源頭杜絕了商事主體虛假注冊,實現新增商事主體地址準確率已經達到了100%;二是應用地理實體空間語義模型、多尺度空間計算模型將全區1 754個產業園區落塊上圖,融合園區樓棟使用用途、建筑面積、租金、層高、承重等信息開發“寶i 企”小程序,實現為園區、企業提供“貝殼找房式”的供需匹配服務,自上線運行以來用戶訪問次數累計達704萬人次。
5)在“四上”企業推薦方面,應用多尺度空間計算模型對企業的水電氣、納稅、社保、信用等信息進行融合,構建出分析模型挖掘出責任主體“地理單元”內的“四上”企業推送給工信、科創、供電、水務等部門,由職能部門負責對企業扶持政策的制定、供水供電供氣的擴建與保障,幫扶這些企業的持續發展達到規上規模,截至目前,全區“四上”企業8 000多家。
6)在開展房屋分類分級監管方面,應用多尺度地址匹配與位置關聯技術將全區17.3萬棟建筑的安全檢測檔案與樓棟建立了一一關聯,以支撐對全區重要場所的建筑安全排查工作。此外,還開展了人才房、保障住房跟蹤管理,對發現的167 套人才房、保障房、政府物業資產違規注冊的企業進行了清退。
隨著信息化建設的推進,各種專題信息庫和公共信息庫的建設已初具成效,在這些信息庫中70~80%是與地理位置有關的地理空間數據,具有地理空間參照作用的地理信息底座在各類專業和公共信息庫的業務運行中起著關鍵作用。知識共享和重用已成為地理信息領域熱點問題。隨著引入地理實體來解決地理信息認知、知識表達,信息關聯方面的研究和應用課題,地理實體的語義研究和應用開始受到廣泛重視。寶安區利用地理實體的理論,在寶安區塊數據和數字底座建設過程中就進行了應用實踐,取得了良好的效果。研究的主要成果如下:
1)通過分析適合城市治理和數字孿生城市應用中地理實體數據,以及其代表的地理單元的層次、粒度、劃分、關系等,設計了適用于政務大數據治理的地理實體空間語義模型,形成了適用于寶安的地理實體數據分類標準規范。在此基礎上可以開展數字底座的建設。
2)地理實體語義,最重要的作用是準確、完備描述基層責任主體的“地理單元”。因責任主體隨業務規則變化而變化,進而導致人、地、事、物、組織等關聯關系發生變化,是政務活動和城市治理中經常發生的場景,需要掌握和反映這些變化。因此專門設計多尺度空間計算模型來解決這個多維度信息變化而造成的信息關聯障礙。
3)多尺度地址匹配與位置關聯技術很好的解決了地理實體構成的數字底座與其他行業委辦局信息的關聯匹配問題。