劉鳳臣,程 歆,葛銀華,駱建偉,劉廣睿
(南京工業大學測繪科學與技術學院,江蘇 南京 211816)
地理數據是指與地球參考空間(二維或三維)位置有關、表達地理客觀世界中各種實體和過程狀態屬性的數據[1]。地理科學數據是地理科研人員開展研究的基礎。隨著3S技術的發展,人類對地球和太空的觀測能力空前強大,產生了大量的地理數據。然而,傳統的基于關鍵詞匹配的檢索方式,無法滿足人們對檢索結果的需要,因為地理數據間隱含的關聯信息未被有效利用。例如,以空間關鍵詞“江蘇”為檢索對象,只能檢索到包含字符“江蘇”的數據,卻不能檢索出和“江蘇”有隸屬關系的“南京”的相關數據。科研人員面臨這樣一種困境,雖處于“信息的海洋”,卻常面臨“信息泛濫、知識匱乏”的困境[2]。如何將更相關的科學數據記錄排在檢索結果的前面,減少用戶瀏覽數據的數量,幫助其快速找到需要的信息,是一項很有意義且富有挑戰性的工作。
近年來,關聯數據的出現,被認為是解決數據共享的最佳實踐。關聯數據的概念是由互聯網創始人Tim Berners-Lee提出的,他認為利用關聯數據技術可以將原本隱含而不明確的語義關系進行明確關聯和表達,構建起計算機能理解的語義數據,從而形成數據之網。
關聯數據一經提出,迅速得到語義網研究社區、圖書館、研究機構、政府和企業等方面的廣泛關注和積極響應,針對關聯數據的構建及其應用展開大量的研究與實踐。在2008年,瑞典國家圖書館把國家級的聯合書目目錄發布成關聯數據,供人們使用;沈志宏等研究人員以科技文獻、科學數據的發布為例,開展了關聯數據發布流程與關鍵問題研究[3]。關聯數據在地理數據方面的研究比較少,也取得了一定的進展[4-6]:比較有代表性的是,英國的國家制圖機構將多種地理空間數據發布成關聯數據;Linked GeoData把從OpenStreetMap項目收集到的數據布成RDF的形式,并與其他知識庫在LOD云上實現共聯。
由以上研究可知,國內關聯數據的研究剛剛起步,而且主要集中于圖書館領域[7],在地學領域的研究較少。另外,在已構建的關聯網絡中,關聯的層次太淺,無法挖掘更深層次的數據。針對這一問題,本文通過分析地學數據的特點,提出了地理科學數據語義關聯模型。另外,以寒區旱區科學數據中心和長三角科學數據中心為樣本數據,依據該模型,發布成關聯數據,并進行查詢測試。
關聯模型本質上是地理數據與數據之間通過元數據的描述信息來建立關聯,是地理空間元數據關聯的一種實現方式[8]。分析當前地學數據關聯模型發現,關聯模型只考慮地理數據在時間、空間、內容上的本質關聯,卻忽略了來源、用途等方面的必要關聯,而這些關聯的存在對整個關聯體系有重要意義。我們提出了地理科學數據語義關聯模型(圖1),該模型分為空間類、時間類、內容類、形態類、來源類和用途類,并對各類的特點作出分析,提出各類的構建方案。

圖1 地理科學數據語義關聯模型
空間是地理數據的基本維度,空間特征是地理數據的本質特征。空間特征不僅包括空間實體的形狀、大小、空間形態等幾何特性,還包括用來描述空間實體之間聯系的空間關系[9],通過傳統的方法無法識別出數據之間潛在的空間關系,這成為制約地理數據共享的一個瓶頸。
本體是對共享的概念模型的形式化說明[10],能夠對地理數據涉及到的空間特征進行語義關系的明確表達,而且具備強大的語義推理能力。本文通過構建空間本體來實現地理科學數據在空間層面上的語義關聯。參照CLINGA本體,分析常見的語義應用,提出了空間本體框架如圖2所示。

圖2 地理科學數據空間本體總體框架圖
概念方面,以人類活動是否占主導地位為依據劃分成自然地理空間概念和人文地理空間概念。關系分兩種,語義關系和空間關系。空間關系用來描述地理空間實例之間存在的與空間特性有關的關系,這些關系是數據查詢和推理的基礎[11]。在具體的構建方法上,考慮到本體工程的復雜性,采用半自動化的方式進行。概念、屬性、關系和規則通過手動構建,而實例可以通過程序自動讀入。
時間是指地理事件在現實中發生或存在的時間,時間特征是地學數據的本質特征[12]。通過構建時間本體,能夠更有效地表達時間關聯信息。但是,時間存在多尺度性、凹凸性、波動性等特征,構建地理科學時間本體將會是一個非常復雜的過程。
本文提出一種簡潔、有效的構建方法,即給時間添加屬性和描述信息,分別表示時間的類別、時間軸和時間區間。分析地理科學數據的時間特征,發現有以下特點:包括時間點和時間段兩類數據;時間段的跨度很大。根據這些特性,把時間根據時間周期劃分為瞬時、短期、中期和長期。瞬時代表一個時間點,而時間段的劃分比較復雜,沒有一個成熟的標準。本文以“寒區旱區科學數據中心”和“長三角科學數據中心”為樣本,從上到下對時間區間進行排序,根據統計學規律,選取一個有效的閥值來衡量時間周期,把時間段分為短期、中期和長期。時間的另外兩個重要的描述是時間軸和時間區間。時間軸用來描述數據發生時間節點,比如“2008-2014”,它的時間軸屬性是“2011”(取平均);時間區間用來描述數據持續的時間,上例的時間區間是“6”(相減)。
內容特性用來描述地理科學數據的內容相關信息,是地理科學數據的本質特性。內容的表現形式有多種,從寒旱區科學數據中心了解到,有主題、類別、學科,除此之外,數據的標題和摘要中也包含和內容相關的信息,這能夠通過算法自動抽取。
本文借鑒知識發現領域的思想,提出了一種構建方案:從樣本數據中獲取內容之間的相關性。以主題為例,在樣本庫中,每個數據有多個主題,而每個主題又對應多條數據,每條數據又對應多個主題,形成了一個網絡。這個網絡由地理數據和主題組成,統計出網絡中涉及到的所有主題及出現的次數,主題出現的次數越高,認為與初始設定的主題越相關。
地理科學數據的形態特征是數據內在結構特征和外在形狀特征的描述,包含了數據基準、格式、類型、比例尺等內容[13],是地理空間數據的重要特征。形態特征中包含的主要概念是數據基準、數據格式、比例尺,構建形態本體是一種高效的構建形態關聯的方法。
用途特性用于描述數據的使用狀況,是數據的必要特征。在地理科學數據基于用途的檢索中,用途關聯模型就顯得尤為重要。地理科學數據用途信息往往通過文本形式描述,需要挖掘出結構化的數據。運用自然語言處理方法,抽取用途關鍵詞,并把它作為用途關聯的通道。
數據來源特征用來描述和數據有關的人和項目。數據來源是地理空間元數據的必要特征,是衡量數據質量的重要指標,也是構建關聯數據時描述模型的必要屬性[14]。數據來源層主要包括四種類型的關聯:數據和人之間、數據和項目之間,人和機構之間,項目和項目之間。人、項目和機構形成一個關聯網絡(圖3)。
為了提高關聯的強度,項目和項目之間也可以構建關聯。把項目分為國家自然科學基金項目、國家科技基礎性工作專項、國家高技術發展計劃課題等。如果兩個數據的項目信息屬于同一類,則認為兩個數據具有一定的相關性。

圖3 地理科學數據來源類關聯模型
上一節提出了地理科學數據關聯模型,本節,依據該模型,實現關聯數據的組織和發布。首先從寒區旱區科學數據中心和長三角科學數據中心獲取元數據,抽取地理科學數據在時間、空間、內容、來源、用途和形態方面的元數據信息;其次,設計數據庫,把數據導入數據庫;最后,使用Jena平臺組織發布關聯數據并進行查詢實驗。
國家地球系統科學數據共享平臺旨在為全球變化創新研究和區域可持續發展提供數據服務[15]。由于該平臺的數據內容復雜,來源多樣,導致數據存在較為復雜的語義異構現象。在入庫之前,要對數據進行預處理。
數據預處理階段要解決的主要問題是實體匹配。實體匹配要解決的是相同實體的不同表達問題,可以借助實體的屬性進行判斷。本文首先用Python對數據進行清洗,去除字符串中空格換行符等冗余的符號。其次,使用SQL語句根據屬性特征進行實體匹配。
數據庫是數據的載體,預處理之后的數據要導入數據庫。選擇當前流行的關系型數據庫MYSQL作為存儲地理科學的倉庫。構建一個良好結構的中間數據庫可以提高組成關聯數據的效率。把表結構分為主表,附表和關系表。主表中主要存儲形態特征,比如數據大小、格式,還有數據最基本的要素,如標題、摘要、來源、數據鏈接等。附表用來存儲用于關聯的數據項,比如“主題”、“類別”、“學科”等,而主表和附表之間的關聯通過關系表建立。
圖4是主題類型的關聯設計,每條地理科學數據有多個主題,而不同數據間可能主題相同,把所有的主題數據提取出來,構建一個單獨的表,并通過關系表“r_theme”實現與主表的關聯。

圖4 數據庫設計示例
存儲在關系數據庫中的數據只有組織成關聯數據才能建立數據之間的語義關聯。Jena是最常用的用于構建語義網的應用程序包,它是由惠普實驗室開發的一個免費的、開源的語義網應用程序。Jena組織關聯數據的流程有三個:創建資源;創建屬性;向資源中添加屬性。圖5是生成的RDF文件的部分。

圖5 RDF文件片段
本體能夠對地理對象以及對象之間的語義關系進行明確的表達,從而使空間數據之間的關聯更密切。Protégé是目前使用最廣泛的本體編輯器。本文根據上文提出的空間本體框架,做了試探性的實驗。針對行政區劃這一部分,從概念、關系、屬性、規則和實例五個方面構建,并寫程序自動構建實例,最終完成行政區劃本體的構建。圖6表現了一個實例的層次結構,從圖中可以看出:“nanjing”是概念“地級市”的一個實例,是“jiangsu”的一部分;“nanjing”和“jinling”是等同關系;實例“nanjing”在屬性方面的特征等。

圖6 行政區劃本體實例
查詢是用戶獲取信息的最直接手段,構建關聯模型的目的是提高查詢效率。本文構建了一個簡單的查詢,該查詢能夠獲取到一個特定機構產生的所有地理科學數據(圖7)。地理科學數據和科研機構并沒有直接的關聯,但通過其他空間實體建立了間接關聯。實驗表明,把關聯數據技術應用在地學領域,能夠挖掘地理科學數據間潛在的語義關系。

圖7 基于地理科學數據語義關聯模型搜索結果展示
地理科學數據關聯模型是基于關聯數據技術及其在地理科學學數據中的應用,為解決互聯網大數據背景下海量、多源、異構的地理科學數據發現、共享等問題提出的元數據與元數據之間直接進行語義關聯的數據網絡。本文綜合考慮地理科學數據在時間、空間、內容方面的本質特征[16]和形態、來源、用途方面的必要特征,構建了地理科學數據語義關聯模型,該模型囊括了地理科學領域的主要方面。該模型使得地理科學數據在關聯的廣度和深度上有較大提高,為其他領域關聯模型的構建提供重要參考。
本文還探討了地理科學數據各關聯層的構建方法,并實驗了部分關聯層的構建。雖然沒能實現所有關聯層的構建,但是構建各關聯層的主要技術都涉及到,結果證明,本文提出的各關聯層構建方法具有實用性、新穎性等特點。但為了能夠實現高效檢索和智能推薦,還必須建立關聯指標體系,這將成為下一步工作的重點。
參考文獻(References):
[1]李軍,周成虎.地學數據特征分析[J].地理科學,1999.2:63-67
[2]劉煒.關聯數據:概念、技術及應用展望[J].大學圖書館學報,2011.29(2):5-12
[3]沈志宏,劉筱敏,郭學兵等.關聯數據發布流程與關鍵問題研究——以科技文獻、科學數據發布為例[J].中國圖書館學報,2013.39(2):53-62
[4]Longle P,Goodchild M,Maguire D et al.Geographic Information Systems and Science[M].NewYork:Wiley,2001.
[5]Diederik T,Ann C,Therese S.Publishing metadata of geospatial indicators as Linked Open Data:A policyoriented approach[C/OL].https://agile-online.org/Conference_Paper/cds}agile_2014/agi le2014_135.pdf
[6]YingjieH,JanowiczK,McKenzieGet al.A linked-Data-driven and semantically-enabled journal portal for scientometrics[C/OL]//http://geog.ucsb.edu/~hu/papers/SEJP.pdf
[7]王杰峰.關聯數據在圖書館館藏數字資源整合中的應用研究[J].農業圖書情報學刊,2017.29(6):40-43
[8]趙紅偉,諸云強,侯志偉等.地理空間元數據關聯網絡的構建[J].地理科學,2016.36(8):1180-1189
[9]王東旭,諸云強,潘鵬等.地理數據空間本體構建及其在數據檢索中的應用[J].地球信息科學學報,2016.18(4):443-452
[10]StuderR,BenjaminsVR,FenselD.Knowledge engineering:principles and methods[J].Data&Knowledge Engineering,1998.25(1):161-197
[11]杜世宏,秦其明,王橋.空間關系及其應用[J].地學前緣,2006.3:69-80
[12]侯志偉,諸云強,高星等.時間本體及其在地學數據檢索中的應用[J].地球信息科學學報,2015.17(4):379-390
[13]孫凱,諸云強,潘鵬等.形態本體及其在地理空間數據發現中的應用研究[J].地球信息科學學報,2016.18(8):1011-1021
[14]Heath T,Bizer C.Linked data:evolving the web into a global data space[J].Synthesis lectures on the Semantic Web:Theory and Technology,2011.1(1):1-36
[15]諸云強,宋佳,馮敏等.地球系統科學數據共享軟件研究與發展[J].中國科技資源導刊,2012.6:11-16
[16]趙紅偉,諸云強,楊宏偉等.地理空間數據本質特征語義相關度計算模型[J].地理研究,2016.35(1):58-70