劉萬增,陳 軍,翟 曦,李 然,王新鵬,趙 勇,朱秀麗,徐 柱,趙婷婷,彭云璐,慎 利
1. 國家基礎地理信息中心,北京 100830; 2. 西南交通大學高鐵運營安全空間信息技術國家地方聯合實驗室,四川 成都 611756
時空數據是當代社會的重要戰略性信息資源和生產要素,在國家信息化建設和社會化應用中發揮著重要作用[1-3]。隨著大數據時代的到來,時空數據服務面臨“數據海量,信息爆炸,知識缺乏”的突出矛盾[4],催生著傳統信息服務向知識服務的轉變。從測繪自身的發展看,2018年機構改革后,測繪工作逐步成為自然資源管理鏈條中基礎性、支撐性的工作。其根本定位由單一的服務于經濟社會發展轉變“兩服務,兩支撐”[5-6],服務內容除了傳統的數據和信息,還需提供面向自然資源精準決策和智慧管控的知識服務。傳統的信息中心管理和服務模式難以實施時空大數據高效治理,無法滿足管理決策對時空知識服務的需求,因此,實現從時空數據服務到時空知識服務的轉型升級成為新時期測繪工作面臨的新挑戰[7]。應對這一挑戰,必然帶來時空數據管理、挖掘和服務方式的變革,從數據庫上升到知識庫,從傳統的地理信息(數據)中心升級到時空知識中心將成為智能化測繪的必然選擇。
如何建設時空知識中心,面臨著從數據生產到知識創造等一系列的問題。從數據支撐的角度看,高質量時空數據是一切智能、智慧、規劃、決策和管理的基礎[8-9]。由于歷史的原因,這些時空數據分屬于不同部門生產和管理,造成數據空間基準不一致、分類編碼不統一、數據格式不兼容、統計口徑不統一、尺度和精度不協調等問題,導致成果一體化融合難、集成應用效率低,難以滿足時空知識中心建設需求[5]。從知識生產的角度來看,由于缺乏時空知識建模、抽取、融合、存儲、推理的一系列模型、算法和工程化的軟件系統,尚未建立數量、質量、生態“三位一體”的山水林田湖草集成化數據治理模式,尚未形成“資源-資產-資本”為內涵的自然資源認知技術體系,導致自然資源領域普遍存在著數據海量,知識難求的現象[7,10],制約著時空知識中心的建設和發展。
為此,本文瞄準自然資源管理對時空知識服務的新需求,借鑒國內外知識中心建設的實踐,融入智能化測繪的有關理念,提出時空知識中心概念、內涵、技術框架、主體實現方法及研究進展,最后從發展趨勢、關鍵技術及工程應用3方面介紹時空知識中心未來的發展方向。
時空知識是指對實體空間位置、空間分布、空間形態、空間關系、空間統計、空間關聯、空間對比、空間趨勢、空間運動、時空變化、趨勢分析等信息進行概括和凝練,形成的具有時間和空間特性的知識[11]。時空知識庫是結構化的時空語義知識庫[8],通過統一的空間參考框架對時空知識進行組織關聯,將其轉變成為一種時空知識資源來協同提供服務[12-13]。時空知識中心是在時空知識庫概念的基礎上,借助專業領域能力以及空間分析、空間挖掘等專業技能,構建一個時空知識獲取、積累、創造、演化和利用的服務平臺或環境,提供智能知識進化和深度知識服務等[12]。
因此,時空知識中心在發展定位上以時空知識服務為目標,實現從數據-信息-知識-價值的深度增值服務;在技術實現上以GIS、大數據、人工智能、云計算技術為基礎,提供時空數據獲取與處理、時空知識挖掘與分析、知識圖譜構建與表達、時空知識推理與模擬等功能。在組織管理上以跨領域合作為基礎,通過聚合不同行業的知識資源,建立知識共享、服務和交換機制,提供數據、信息和知識共享與服務。
隨著大數據、人工智能等信息技術的發展,時空信息服務也逐漸從以時空數據服務為主轉向數據、信息與知識服務并重的階段。一些以空間型知識服務系統為支撐的知識中心相繼成立,如USGS從最初單純提供各類基礎地圖,逐步拓展為以測繪、調查、科學分析為核心,綜合利用多學科知識,圍繞自然資源各類問題的認知、發現、研究、評估,形成解決方案,為管理部門精準施策提供基礎信息和診斷型、方案型知識服務。美國國家航空航天局(NASA)從提供全球氣候、海洋、陸地等大數據服務,轉變為同時提供針對颶風、洪水、干旱等災害分析預警服務及基于空間、時間的知識發現服務;美國大自然保護協會凝練了全球發展對大自然影響的若干知識點,并與遙感影像、地表覆蓋等數據有機鏈接,形成了具有初步知識導航功能的“人類世”知識地圖服務[2]。
不難看出,從數據中心到知識中心,以知識服務拓展數據服務,正成為當今各國政府管理支撐部門的新的業務發展方向。但總體而言,時空知識中心的建設還處在起步探索階段,尚未形成成熟的體系框架、關鍵技術、標準規范和服務模式,無法為我國測繪行業智能化轉型升級提供成熟的解決方案。
綜上,將傳統的地理信息服務拓展到時空知識服務,完成從數據量測到信息提取再到知識挖掘的三級跨越,需要建立以時空數據庫為基礎,以序列化知識工程為支撐,以時空知識庫為樞紐,以知識導航為門戶的時空知識中心[2,14]。時空知識中心基本組成包括時空數據庫、知識生產、時空知識庫、知識服務等。圖1給出了構造時空知識中心的技術框架。

圖1 時空知識中心技術框架Fig.1 Technical framework of spatiotemporal knowledge center
1.2.1 時空數據庫
泛在測繪是智能化測繪階段時空數據的主要來源[3]。其產品除了測繪行業生產的基礎測繪、國情監測、全球測圖等時空數據,還包括系統內采用測繪技術生產的國土調查、林草、濕地、地表基質、水資源等調查監測數據,從泛在網絡獲取的動態的時空大數據,以及從其他部門共享的人口、經濟等行業時空數據等。數據生產的主體包括測繪、地質、國土、林草、海洋、統計等行業數據生產部門;數據消費者主要包括政府部門、企事業單位和研究機構等;數據的管理者為數據生產的行業管理部門,負責制定數據分發、安全、共享等政策。這里由數據生產者、數據使用者、數據管理者及外部相關安全環境、技術環境、經濟環境、發展環境等,共同構成互為補充、互相關聯、互相制約、分建共享、持續更新的自然資源時空數據生態(圖2)[15-16]。時空數據是管理者、生產者、消費者之間流動的“能量”,是整個數據生態系統價值實現的核心支撐,其“產生—利用—更新—再生”的整個生命周期就構成了“時空數據鏈”。由不同時態的“時空數據鏈”中的數據匯集和管理,并提供統一的數據存儲和訪問服務,稱為“時空數據庫”[15-17],它是支撐數據生態健康運轉的核心,也是時空知識中心的知識創造的基礎。

圖2 時空數據生態Fig.2 Spatiotemporal data ecology
1.2.2 時空知識庫
時空知識庫是在時空數據庫之上通過知識抽取、空間或非空間關聯,形成領域知識網絡,基于語義推理和空間計算,實現知識重組,為用戶提供時空知識服務[18]。時空知識庫針對抽取或收集的每一類時空知識,厘清其內涵、來源和用途,進行詳細的粒度劃分,有效地揭示和形式化描述領域的概念、實體、屬性及其相互關系,構成時空知識圖譜[8,19]。知識庫在邏輯上分為概念層與實例層兩個層次[20]。概念層為實體類型賦予層級結構,一般使用本體庫的公理、規則和約束條件規范實體類別及類別間關系,如國家、城市、河流等都是地理概念。實例層即實體形成的語義網絡,以事實(facts)為單位進行存儲。事實可以RDF三元組〈主體(subject),謂詞(predicate),客體(object)〉的形式表示。關系可定義在實體與實體間、概念與概念間以及實體與概念間,包括語義關系、空間關系和時間關系。空間關系可分為拓撲關系、方向關系及距離關系。時間關系用于描述時變特征較為明顯的各類地理現象,如地理事件中實體間關系隨時間動態變化[21]。
1.2.3 時空知識生產
不同于普通意義上的知識生產,時空知識生產是時空知識獲取、處理和表達的過程[22-23],一般依托于知識工程來完成,其核心部分包括知識的獲取、知識的表達和知識的運用[24]。本文將知識生產劃分為領域知識建模、知識抽取、知識融合和知識表達4個部分,實現從知識加工、知識圖譜構建到知識表達的深度序化。
領域知識建模是在專家指導下,基于多源知識進行結構化建模和關聯化處理,構建領域本體模型,目的是實現實體、屬性、關系的有序聚合,指導領域時空知識的抽取。時空知識建模除了用到語義關系,也要充分考慮時間和空間關系。實際上,基于多層級的行政區劃進行時空知識建模,逐步成為空間型知識圖譜構建的通用做法。
知識抽取是指將蘊含于信息源中的知識經過分析、識別、理解、篩選、關聯、歸納等過程抽取出來,形成知識點存入到知識庫[25]。與傳統的文本知識不同,時空知識抽取除了從結構化、半結構化和非結構化數據中抽取地理實體及其概念、語義、關系和屬性,還需利用空間分析、知識挖掘、深度學習等技術,從二維或三維空間數據中發現隱含的地理實體分布格局、空間關聯、空間關系、時空演化等過程性知識[25-29]。
知識融合旨在消除實體、關系、屬性等指稱項與事實對象之間的歧義,形成高質量的知識庫[30]。從多源異構文本中獲取的知識,存在大量的數據冗余和空間或邏輯不一致性問題,需要借助實體鏈接、本體對齊、實體匹配、屬性空間化等技術進行知識融合[31]。在知識融合前,應當進行知識歸一化處理,清洗、規范知識表達。然后,通過語義相似度計算和實體相似度計算記錄實體鏈接。經過知識驗證,進行概念、屬性、實例層次的語義對齊,達到知識融合的目的。
在計算機領域,知識表達是知識組織的基礎,用于知識客體中的知識因子與知識關聯[32]。不同于計算機領域對知識表達的定義,時空知識表達應當從時空的視角,將隱性知識同地圖表達相結合,形成靜態表達、動態表達以及交互式表達等模式,直觀地反映格局差異、趨勢特征、成因機理等系統性知識,便于人們識別和理解知識。
1.2.4 時空知識服務
時空知識產品包括行業概念知識(例如測繪學敘詞表、測繪學名詞等)、文獻知識等存量知識,以及診斷型知識、方案型知識、預測型知識等通過動態知識計算挖掘形成的增量知識[33],另外還包括提供機器學習的數據標注知識等。時空知識服務是在時空知識分類基礎上,根據地理知識字典、專業詞條以及地理標簽,構建專題導航、數據導航和知識導航,實現對時空數據庫及其資源和服務分布的導引和深度搜索。同時,面向時空知識的應用需求,構建描述型、診斷型、預測型、方案型等知識應用服務。在此基礎上,建立時空知識服務門戶網站,為用戶提供應需提供知識瀏覽、搜索、問答、推薦及特色知識應用等時空知識服務。
時間、空間是地理實體(自然資源)存在的兩種基本形式,是時空數據的基本屬性[22]。與一般的信息中心和知識中心不同,時空知識中心側重于時間、空間、語義概念建模,實現對時空知識的有效組織和管理。從空間角度來看,時空知識中心通過對地理實體進行空間維度的計算、分析和推理,挖掘地理實體本質特征、內在規律、分布格局、空間變化等知識。從時間角度分析,時空知識中心通過時間感知數據,展現地理實體的變化軌跡,揭示其內在變化規律,實現對地理現象成因、現狀、趨勢等因果關聯的一體化描述。概括起來,時空知識中心一般具有以下技術特征:
(1) 在產品內容上,除了傳統的基礎地理信息數據和信息,還包括自然資源精準決策和智慧管控所需要的時空知識以及為特定決策類型提供的時空知識應用等。
(2) 在生產方式上,拓展了“信息中心”的生產鏈條,需要面向工程應用建立全時空數據生態,突破時空知識抽取與凝練、建模與關聯、知識圖譜構建與表達、知識推理與服務等關鍵技術,形成必備的標準、軟件、平臺和裝備,支撐時空知識中心數據清洗、知識抽取、關聯挖掘等知識創造活動,實現從空間數據庫到時空知識庫升級。
(3) 在服務模式上,從柜臺式數據服務走向網絡化知識服務;從被動式“申請-審核-提供”轉向主動式應需精準推送;從作為原材料的數據支撐轉向經過提取與精化的時空知識高效賦能。
本文提出了適于時空知識中心構建的技術和方法,結合地理信息專業知識服務系統建設實踐進行驗證,形成了以知識工程序列化操作為核心,涵蓋時空數據庫構建、時空知識庫構建、知識服務平臺構建等全流程的時空知識中心主體實現方法,如圖3所示。

圖3 時空知識中心構建的主體實現方法Fig.3 The main body realization method of spatiotemporal knowledge center construction
支撐時空知識中心的時空數據庫,不僅包括多時態、多粒度、多尺度、多維度的時空數據,也包括多種類型的文本數據(測繪專業敘詞表、專題數據、文獻專利等)。這就需要針對空間數據和非空間數據提供一體化的存儲策略和多源異構數據的統一管理方法,解決數據冗余與不一致的問題[34]。針對非空間數據,通過空間化融合,添加地理標簽,建立空間索引,將自然語言描述轉換為空間查詢謂詞,與空間數據關聯,實現支持人機交互的非空間數據與空間信息的關聯索引和查詢。例如科技文獻中出現的地名、研究區等信息,建立索引后與該區域相關的地形、影像數據關聯,構造基于空間知識圖譜的數據推薦功能。時空數據庫兼具存量數據和增量數據,保證了時空知識的鮮活性,同時也對海量數據的動態處理提出了挑戰,采用高性能基礎設施(spark、hadoop等)支持的分布式批處理和流計算能力,建立半結構化數據以及非結構化數據的清洗、分詞、空間化、標準化、一致性等一系列數據處理模型和算法,為實體抽取和關系建立提供基礎數據。
時空知識庫構建的基本流程可分為領域知識建模、知識抽取、知識融合3部分,如圖4所示。首先,在專家指導下基于多源知識建立領域本體模型,確定實體及其屬性、關系等,形成拓展時間和空間維度的地理空間知識圖譜的框架;然后,對非空間數據和知識進行空間化處理,與相應的空間數據進行關聯掛接;最后,面向應用需求,基于空間化的數據和知識,進行時空知識抽取與融合,形成時空知識圖譜[25,31]。

圖4 時空知識庫構建流程Fig.4 Construction progress of spatiotemporal base
利用本體對時空知識相關概念、實體、關系進行語義表達是領域知識建模的核心。時空知識中心知識庫的構建應在地理本體的基礎上,為時空知識庫添加位置本體和時間本體,以更好地反映地理實體所涉及的時間屬性和空間屬性。按照應用需求從時空數據中提取、挖掘可獲取有特定意義的信息,而后通過結構化、關聯化處理形成領域知識體系[2]。
知識抽取除了要從結構化、半結構化和非結構化文本數據中進行實體抽取、屬性抽取和關系抽取,還需要從空間數據中挖掘地理實體及其語義關系、地理屬性、空間關系和時間關系等。針對多源異構數據存在大量的數據冗余和不一致性問題,采用語義支持的文本知識抽取方法和基于深度學習的空間數據挖掘技術,進行數據清洗以及知識提取。本文設計并實現了海量文獻元數據清洗、基于語義對齊的地理實體抽取、基于敘詞與詞向量的測繪概念模型構建、基于深度學習的地圖高精度提取、基于時序影像的地表分類信息提取等關鍵技術方法,開發了機構空間化眾包采集工具,從而實現知識的標準化清洗、結構化提取與關聯化處理。
對于提取出的知識,采用本體對齊、實體匹配、實體自動鏈接等跨領域知識融合技術,實現時空知識融合。針對傳統實體消歧法存在的有效信息利用不足、精度低等問題,本文提出一種基于凝聚子群原理的實體消歧方法,通過K-核塌縮序列分析將實體消歧算法計算范圍從社區尺度縮小到兩個待消歧實體節點間的K-最短路徑子網,極大地提高了計算效率,并通過在子網中提取凝聚子群來實現同名實體的快速消歧,提高實體消歧的準確性(圖5)。將融合后得到的時空知識,構建知識圖譜,納入可執行的計算模型中,便于時空知識的快速獲取、推理與利用。本文針對時空知識中心的應用需求,構建了測繪專業知識庫、山水林田湖草知識庫、行政區劃知識庫以及專家關系知識庫等。

圖5 基于凝聚子群原理的實體消歧方法Fig.5 Entity disambiguation method based on agglomerative subgroup principle
時空知識平臺兼具宏觀和微觀特點,需快速回答何時、何地、何事、何因等問題。但目前的知識服務體系存在效率不高、深度不夠等問題,難以充分滿足工作需要。需要基于領域本體、科學文獻、研究報告、業務邏輯和標準規范等,構建多學科領域知識模型;設計兼顧非空間和空間型一體化知識圖譜,實現對時空知識的一體化、系統化、關聯化、結構化存儲和表達;設計時空知識關聯、知識推理、知識表達等算法,建立基于云原生的“縱向貫通、橫向聯動、整體協同”的時空知識服務平臺。開展面向管理與決策的時空知識深度挖掘與格局認知、變化模擬、診斷分析等知識應用開發,提供科學合理的現狀型、目標型、方案型與診斷型在線知識服務。
自2015年起,國家基礎地理信息中心承擔了中國工程院地理信息專業知識分中心的建設工作。經過多年的努力,突破了多項時空知識智能化抽取、空間型知識圖譜動態構建等關鍵技術,建成并上線運行了地理信息專業知識服務系統,逐步形成了以時空知識關聯、推理、應用等為代表的新的服務模式,初步建立了以時空知識為主要服務內容的地理信息專業知識中心,面向領域應用需求,提供描述型、診斷型、預測型、方案型等4種類型的知識服務(圖6)。自2017年上線以來,地理信息專業知識服務系統年度訪問量達到百萬次,用戶達80余萬人。

圖6 地理信息專業知識服務系統主要功能結構Fig.6 Main function diagram of geographic information professional knowledge service system
根據平臺建設需求,收集處理了全球1∶100萬矢量數據、全國1∶25萬公開版矢量數據、3期全球30 m地表覆蓋數據等地理信息數據,集成天地圖、百度地圖等互聯網地圖服務;對6000萬條文獻元數據進行清洗、處理,將機構字段進行翻譯、分詞、判斷、標準化,消除冗余信息,對數據進行符號分析、語義分析及規則分析,得到機構抽取規則,形成標準化機構字段,提取出150萬條機構信息,基于研制的機構眾包空間化平臺,將提取的機構信息與地理信息數據的地名地址信息進行語義匹配,完成150萬條機構信息的空間化處理,進而實現6000萬條文獻及其作者的空間化,建立了融地理信息數據和文獻數據于一體的專題空間數據庫。
面向知識應用需求,研制了專家關系抽取、機構關系動態計算、研究區時空數據關聯等知識抽取算法。如針對專家關系提取,設計并實現了作者、機構映射關系計算方法,提取初步的作者-機構關系,通過實體消歧合并機構同類項,采用余弦相似度算法進行關系去重,進而構建交叉組合關系,對多作者多機構進行迭代提取。最后,對數據進行校驗處理,得到精確的作者-機構關系,據此挖掘專家間的學術合作關系,實現面向研究主題的專家關系自動聚合和表達,在空間維度展示專家間的關聯關系等。
研制了空間型知識圖譜構建方法,實現空間數據和時空知識的一體化存儲和表達。如基于空間化的全國省、市、縣、鄉四級行政區劃知識,關聯地理底圖以及地表覆蓋數據,構建地理實體與屬性知識的混合關聯模型,形成了具有系統性、關聯性的行政區劃知識圖譜。從空間維度展示省、市、縣、鄉之間的關聯關系和空間分布,在地圖上直觀展示各個行政區域實體相關的知識,包括地表覆蓋、歷史沿革、著名人物、交通運輸、人口民族、名優特產、風景名勝、自然資源、社會事業等專題知識,為用戶提供直觀、全面的行政區劃知識服務。
基于專題時空知識庫,先后開發了數據推薦、專家關系網、機構關系網等14個知識應用。在基于專家知識和深度學習的混合智能計算方面做了初步嘗試,研制了“問題地圖”智能辨識等診斷型知識服務(圖7)。針對“問題地圖”檢測速度慢、勞動強度大的問題,利用審圖專家凝煉出來的版圖知識和“問題地圖”的有關判定規則,提出并實現了多網絡融合的多尺度“錯誤地圖”的智能檢測方法,實現了海量圖片中地圖圖片自動篩選、地圖錯誤智能檢測與標識,識別正確率達到80%以上[35]。

圖7 基于深度學習的“問題地圖”診斷流程Fig.7 Flow chart of “problem map” diagnosis based on deep learning
面向“兩服務,兩支撐”的基本定位,測繪地理信息部門應抓住這一跨界融合和轉型升級的機遇,適時建立以時空數據為支撐、以時空知識為核心的數據治理模式,逐步從數據信息中心走向信息知識中心,將數據信息服務提升為信息知識服務,以適應經濟社會發展和自然資源“兩統一”管理對時空知識服務的迫切需求。
就目前狀況而言,構建時空知識中心,實現從數據生產到知識創造的跨越,對測繪地理信息部門仍是一項巨大的挑戰,還需要大量引進計算機、人工智能和知識工程領域的人才,進行跨界融合,解決人才培養、知識儲備、核心技術等短板問題。在此基礎上,建立自然資源全時空數據生態,突破時空知識抽取與凝練、建模與關聯、知識圖譜構建與表達、知識推理與服務等在關鍵技術,形成必備的標準、軟件、平臺、裝備和完善的運行機制,支撐時空知識中心的建設和高效運轉,為自然資源及相關領域精準決策和智慧管控提供高質量的知識賦能服務。
未來,隨著人工智能、大數據、物聯網等信息技術的發展,時空知識中心的內涵、外延及服務的對象和范圍也會進一步充實和拓展,不僅可為人類決策提供高效、精準的時空知識服務,還可為智能機器人提供按需“充電”,成為智能設備的時空知識“充電站”,從而實現知識賦能,更好地為人類提供各種服務。時空知識中心必將在智能化測繪、智慧城市及智能駕駛等領域發揮越來越重要的支撐作用。