
摘" 要:在日常政府服務和社會管理中,積累了大量數據,這些數據分頭采集、缺乏統一標準,且位置精度不一。因此,挖掘數據間的關聯關系成為提升其效用、助力社會治理的必要手段。基于“北斗網格位置碼”構建“時空數據知識圖譜”提出一種新的數據治理方法體系,通過“北斗網格位置碼+時間碼+業務碼”將來自政府、企業、互聯網等渠道數據進行融合,實現數據的關聯匹配、脫密、高效聚類及共享分發。
關鍵詞:北斗網格位置碼" 知識圖譜" 深度學習模型" 數據要素" 聚類分析
中圖分類號:P208
Discussion on Constructing a Spatiotemporal Data Knowledge Graph Based on Beidou Grid Location Code
SONG Yueming*
Xiamen Kingtop Jingtu Information Technology Co., Ltd., Xiamen, Fujian Province, 361008 China
Abstract: A large amount of data has been accumulated in daily government services and social management, but this data is collected separately, lacks unified standards, and has varying levels of positional locational accuracy. Therefore, exploring the relationships among these data is essential for enhancing their utility and assisting insupporting social governance. A new data governance framework is proposed, which constructs a \"spatiotemporal data knowledge graph\" based on the \"Beidou grid position location code.\" "By Through the \"Beidou grid location code + time code + business code\",integrating data from various sources, including government, enterprises, and the internet, and other channels are integrated to achieve through the \"Beidou grid position code + time code + business code,\" this framework enables data association matching, declassificationde-identification, efficient clustering, and sharing distribution.
Key Wwords: BeiDou grid location code; Knowledge graph; Deep learning model; Data elements; Clustering analysis
近年來,政府服務與社會管理中積累了海量數據。然而,由于數據采集分散且標準不統一,存在以下問題:(1)地名和地址信息差異較大,難以實現關聯與匹配;(2)大部分數據缺乏空間坐標,各部門管理的數據未能有效關聯和集成;(3)部分數據帶有空間坐標,但受相關保密法規限制,數據使用范圍受限;(4)傳統基于經緯度的空間分析算法效率較低,難以滿足實時分析需求。通過基于“北斗網格位置碼”的數據處理方法,將不同來源的數據進行編碼處理,形成可關聯匹配的時空數據知識圖譜。這種方法提升了數據融合效率,并為數據脫密、數據聚類、共享分發等方面提供了新的解決方案,為政府數據治理和數據要素服務提供了新技術手段。
1" 數據治理的總體過程說明
數據統一編碼是數據治理的關鍵。采集的各種數據基本都包含時間、地點、業務屬性這3種信息,均可分別進行編碼。時間可以采用年月日進行編碼,地點可以采用“北斗網格位置碼”進行編碼,業務屬性則可以按類別建立編碼。
以公安局的標準地址庫、民政局的標準地名庫、水電燃氣快遞公司的地址庫為基礎,結合測繪部門的地理空間庫對數據賦予“北斗位置編碼+時間碼+業務碼”的“時空統一數據標識”,形成以“北斗網格位置碼”為中心,關聯“標準地名地址”“關聯歷史和現狀”“關聯業務”的時空數據知識圖譜。
在“時空數據知識圖譜”基礎上,根據業務需要按“時間、空間、業務類別”維度組合進行數據聚類分析,將網格內數據要素,聚合形成“數據塊”對外提供數據和分析服務。完整的數據治理過程如圖1所示。
2" 數據治理的具體步驟
2.1" 地名地址提取
在地名地址提取任務中,使用了BERT-BiLSTM-CRF深度學習模型來從文本中自動識別和提取非標準地名信息。該模型結合了預訓練語言模型、雙向網絡和條件隨機場層,特別適用于命名實體識別等序列標注問題。
2.2" 深度學習樣本庫構建
(1)建立地名地址分類規范:省(A1)、市(A2)、區縣(A3)、街道鄉鎮(A4)、社區村(A5)、片區(B,如店上東里)、道路(D)、樓棟(D)、門牌(E)、主地名(F1,如瑞景新村)、輔助名稱(F2,如鳴鳳苑)、定位詞-方向(G1,如往東)、定位詞-距離(G2,如20 m)、定位詞-輔助詞(G3,如路口)。
(2)采用“BIOES標注法”構建樣本標簽,其中:B(Begin)代表開頭,I(Inside)代表中間,O(Outside)代表非實體(用于標記無關字符),E(End)代表結尾,S(Single)代表單個字符。
(3)使用樣本增強技術提高樣本庫的豐富性和模型的泛化能力。例如:使用同義詞或不同表達方式替換特定地名或詞匯,如將“往東”替換為“向東”。在保持基本語義不變的情況下,隨機插入或刪除字符,以模擬真實數據中的噪聲;交換不影響整體語義的字符位置,如將“蓮前街道店上東里”替換為“店上東里蓮前街道”。同時,加入常見錯字或拼寫錯誤,以模擬用戶輸入錯誤,提高模型的容錯性。
2.3" 模型訓練和預測
利用深度學習模型進行訓練和預測,提取地名地址系統;例如:“在思明區蓮前西路708號光大商務酒店門口”對應的識別結果為“O,B-A3,I-A3,E-A3,B-C,I-C,I-C,E-C,B-E,I-E,I-E,E-E,B-F1,I-F1,I-F1,I-F1,I-F1,E-F1,B-G3,E-G3”。
2.4" 時空數據知識圖譜構建
利用現有的數據,搭建以“北斗網格位置碼”為中心,關聯“標準地名、標準地址”“關聯業務”“關聯歷史和現狀”的知識圖譜。
2.4.1" 利用北斗網格位置碼關聯地名地址
北斗網格位置碼,是在全球剖分網格[1]基礎上發展出的一種多尺度、離散、適用于導航定位服務的全球地理網格編碼模型[2]。北斗網格位置碼為地心至地上6萬里地球空間中各種大小不等、最高精度達1.5 cm的任意網格賦予全球唯一整形數編碼,可以關聯同一區域范圍內任意實體。例如:“精圖數碼大廈、軟件園二期地鐵口A出口往北50 m內”等在一定精度內落在相同“空間網格”。“空間網格”采用“北斗網格位置碼”進行統一標識,實現各類數據關聯匹配。根據地名地址精度不同,匹配不同層級的北斗網格位置碼。
此外,將地名地址、經緯度坐標轉換成“北斗網格位置碼”能夠解決坐標涉密問題。同時,北斗網格位置碼采用一維整形數標識,能夠利用空間關聯模型對興趣點等快速檢索和聚類[3],提高地球空間位置數據的組織、處理、分析、傳遞和運用效率,更好地滿足實時分析要求。
2.4.2" 進行時空統一數據標識
在北斗網格碼基礎上,對各類的數據的業務屬性進行業務標識;然后建立“北斗網格編碼+時間碼+標識碼”的“時空統一數據標識”。在具體編碼實現上,研究人員借鑒“時空融合編碼”;時空融合編碼技術是基于時空融合編碼的大數據組織與計算技術體系的簡稱。它是一項中國自主原創、有望引領全球標準的時空大數據范疇基礎性重大創新[4] 。在方法論層面,它將傳統的面向對象的數據管理轉變為面向空間的數據組織,能夠從根本上解決時空大數據組織的瓶頸性問題[4]。
2.4.3" 建立時空數據知識圖譜
(1)節點構建。將“北斗網格位置碼”作為知識圖譜中的核心節點,地名地址作為附屬節點,業務碼和時間碼作為地名地址附屬節點。每個北斗網格位置碼節點關聯其對應的地名地址節點,地名地址節點再關聯時間節點與業務類型節點。(2)邊的構建。利用北斗網格、時間和業務之間的關聯關系,建立節點之間的邊,形成完整的時空數據知識圖譜。每條邊代表了“本北斗網格內,包含了哪些地名地址;這些地名地址是屬于哪些業務,同時在哪個時間范圍內有限”的關聯,例如廈門蔡塘城中村某個位置,拆遷前地址為“蔡塘村58號”,拆遷后標準地址為“蔡塘小區10棟”,它們都屬于同一北斗網格進行關聯,并將地址設置生效時間范圍。
2.5" 數據要素服務提供
通過“北斗網格位置碼”匯聚整合全域時空數據,并根據不同業務需求提供多樣化的數據服務。通過“數據要素服務”平臺,實現聚合數據的訂閱與分發,向政府、企業和公眾提供各類時空大數據支撐,滿足城市管理、商業服務、民生服務等多方面需求。具體應用包括以下幾個方面。(1)城市管理:如消防部門可利用北斗網格對火災點所在區域內的所有消防設施、人員等進行聚類分析。(2)商業服務:可以基于北斗網格位置碼實現空域資源精細化管理[5]。(3)民生服務:通過社區網格治理[6],對社區內的人員、樓棟、組織等進行聚類管理,提升社區服務水平。
3" 結語
本文提出基于“北斗網格位置碼”構建時空數據知識圖譜方法。通過將各類數據進行空間位置、時間和業務數據統一編碼;通過北斗位置編碼與時間碼、業務碼有機結合,實現多維度關聯匹配,解決因數據采集分散、標準不統一而導致關聯匹配難題;實現精準關聯和高效融合。構建的時空數據知識圖譜能夠為社會治理、城市管理等提供有力的數據支撐;助力《“數據要素×”三年行動計劃(2024—2026年)》實現;未來可以和大模型結合,提供面向政務、民生、商業、公益等特定領域大模型,服務社會;可以和文旅等專業鄰域知識圖譜結合,滿足特定鄰域的數據分析要求。
1."" 參考文獻