張勝強
摘? 要:語義是信息能夠被人們理解的自然語言表達,隨著互聯網技術的發展與普及,互聯網成為人們獲取空間數據的重要手段。該文討論了網絡空間數據的特點、空間數據的自然語言表達利用RDF、自然語言處理對空間數據進行融合匹配,提高了空間數據服務的質量。
關鍵詞:語義? 自然語言? 網絡空間數據? RDF? 融合匹配
中圖分類號:G71 ? ?文獻標識碼:A 文章編號:1672-3791(2019)09(b)-0022-02
隨著信息技術發展產生了大量的數據,空間數據也不斷的產生、更新,涌現了大量空間數據。通過多種渠道,多種方式來獲取的空間數據具有以下特征:現勢性好、信息豐富、質量各異、語義差異、屬性字段差異、數據異構、數據冗余又不完整數據。由于原始數據的這些特征導致空間實體數據不完整、表達不一致、重復,質量無法達到要求,這些是影響空間數據服務質量的重要因素。消除空間數據間的差異實現多種來源、多種結構的空間數據融合是提供高質量的空間數據服務重要策略方法。空間數據融合主要有柵格數據融合、矢量數據融合、矢量與柵格數據之間的融合等[1]。空間數據融合的方法有地圖合并、實體匹配、數據更新以及擴展方法基于統計學方法的擴展、基于信息論方法的擴展等[2]。該文討論了語義關聯在空間數據融合中的應用,空間語義是空間數據的能夠被人們理解自然語言表達但是空間數據的自然語言表達不能被計算機所理解,實現空間數據的自然語言表達到空間數據的機器語言表達的對應關系,使我們在空間數據檢索的過程中能夠返回正確的地理信息。
1? 語義關聯框架
語義位置關聯的基本思想來源與語義網,其核心是地理位置之間的關聯關系,通過描述地理位置的語義信息、屬性語義信息間的相似度來實現的,即是利用web技術在不同數據源之間構建語義位置關聯關系給分布式空間數據加入可以被計算機理解的語義信息從而促進地理信息的共建、共享。語義位置關聯依賴于XML、RDF和Ontology三大關鍵技術結合地理編碼規則,可實現異構數據源的共享檢索。這些技術在自然語言表達層次上對空間數據分類、標識索引實現空間數據的結構性表達。語義位置關聯是在語義位置模型的基礎上,動態匯集位置本身及與位置相關的信息,并與人、物、事件等泛在信息建立關聯關系,進一步實現位置語義及位置關聯網分析,和一組通用的位置關系和時空模式計算方法,數據融合、導航等應用奠定基礎,為地理空間數據服務提供信息分類檢索、信息索引以及信息整合。語義位置關聯采從空間位置(地名地址及其編碼)、空間形態、空間關系、空間關聯、空間對比、空間趨勢、空間運動、時序序列、時間周期等方面進行時空關聯分析,探索獲取泛在信息的時空分布、聚類模式、時空異常、趨勢預測、同位模式、序列模式、周期等方面的深層關聯知識,基于位置或目標實體提供全方位綜合泛在信息[3]。語義位置關聯重在解決網絡空間數據資源的規范重構、位置語義互聯和位置智能聚類。
1.1 語義位置關聯的步驟
(1)建立地名地址語義庫,結合地理編碼規則形成地名地址語義結構標準。
(2)語義解析,結合基于字符串相似、基于內容特相似模型、基于語義距離相似等算法實現地名地址間語義關聯。
(3)與地名地址服務平臺集成。由基礎數據庫抽取元數據,對基礎資源數據進行描述標記,以便于語義表達、語義匹配、建立領域知識以便于與其他數據的關系形成地名地址數據知識庫。
(4)建立字典表,實現數據庫模式與地理本體表達的映射,進而實現異構數據庫之間的互操作。
(5)通過webservice的方式,向上為訪問集成數據的應用提供統一數據模式和數據訪問的通用接口。
1.2 空間數據語義關聯集成的原則
原則如下:
(1)數據處理主要是清洗重復數據,異常數據、糾正收集到的數據中的錯誤數據。將坐標系不同的數據集轉化為統一的坐標參考。
(2)對格式不同的數據進行格式轉化格,轉化為兼容的數據格式例如可將數據統一為shp格式數據存入空間數據庫中或發布為符合OGC規范的地圖服務。
(3)根據具體的地理實體的現實情況將地理實體劃分為不同的粒度例如行政單位實體對象可劃分為省、市、縣、鄉鎮/街道,居民地可劃分為小區/村、具體的樓號/組,戶。
(4)地理實體是地理空間數據中具有完整意義的組織單元,運用面向對象思想將地理實體抽象為空間對象采用標識碼來唯一標識每個對象并擴展地理對象的屬性。
(5)地理實體中包含點要素、線要素、面要素、體要素、屬性信息在數據重構的過程中建立實體間的級關系例如點、線、面、體的層級關系、面狀實體的隸屬關系。
(6)地理實體通過屬性表達語義,其時空語義概念由屬性集描述,而地理實體間通過泛化-特例描述地理實體間的語義關系。根據屬性集的多少建立地理實體語義樹。
2? 基于語義的空間數據匹配
在空間數據存儲管理過程中,對空間數據庫的訪問會存在空間語義描述的差異性為題,如何保證數據庫服務器能夠快速的返回正確的地理信息就需要構建空間數據間的語義關系。語義位置關聯的實現的基本技術方法是語義網與全文索引技術,其核心是建立地理位置坐標與地理位置自然語言表達之間的關聯關系,通過描述地理位置的語義信息、屬性語義信息間與數據庫中的空間數據語義表達的相似度來實現的空間數據的匹配,建立自然語義與計算機語義直接的對應關系。實現空間數據的語義關聯主要使用了自然語言處理的分詞技術、空間數據語義表達相似度計算方法、語義空間數據匹配等技術方法。基于語義的空間數據匹配實現的主要過程的步驟是:
(1)由基礎數據庫抽取元數據,對基礎資源數據進行描述標記,以便于語義表達、語義匹配、建立領域知識以便于與其他數據的關系形成地名地址數據知識庫。
(2)建立字典表,實現數據庫模式與地理本體表達的映射,進而實現異構數據庫之間空間實體數據的映射關系。
(3)建立空間數據語義表達的相似度的計算規則。
(4)通過webservice的方式,向上為訪問集成數據的應用提供統一數據的數據訪問接口。
(5)實現數據服務、以及語義匹配服務的發布。
3? 結語
網絡地理信息在生產、生活中起著越來越大的作用,網絡地理信息系統在發展過程中產生了的地理空間數據越來越復雜多樣。對于不同結構、不同表達方式的空間數據的集成融合在當代這個大數據時代占據著越來越重要的地位。對于自然語言的研究使得采用語義位置關聯、語義位置匹配成為空間數據融合集成的一個重要的方法。本文討論了基于語義關聯的空間數據融合框架,在當今互聯網大數據高速發展的過程中具有一定的優勢。
參考文獻
[1] 陳寶帥,穆剛.淺談GIS空間數據融合的方法[J].城市建設理論研究:電子版,2013(10):59.
[2] 張景雄,劉鳳珠,梅瑩瑩,等.空間數據融合的研究進展:從經典方法到擴展方法[J].武漢大學學報:信息科學版,2017(42):1628.
[3] 周成虎,朱欣焰,王蒙,等.全息位置地圖研究[J].地理科學進展,2011,30(11):1331-1335.