摘 要:系統地論述了研究空間數據立方體的目的和意義,介紹了空間數據立方體的非空間維、空間維、數字度量、空間度量的基本概念和結構,描述了空間數據立方體的完整意思,設計出了空間數據立方體的概念模型即空間數據立方體的星型/雪片模型。最后,基于數學工具——代數系統,給出了空間數據立方體嚴格的數學定義。
關鍵詞:空間數據倉庫; GIS; 空間數據立方體
中圖法分類號:TP391 文獻標識碼:A 文章編號:1001-3695(2006)10-0027-03
Technological Frame of Spatial Data Cube
ZOU Yijiang, YANG Xiaoping
(College of Architectural Civil Engineering Environment, Ningbo University, Ningbo Zhejiang 315211, China)
Abstract:This paper states the purpose and significance to research spatial data cube, explains the relation between with spatial data cube and spatial data warehouse, introduces the concept and structure of nonspatial dimension, spatial dimension, digital measure and spatial measure, and designs conceptual model for spatial data cube, that is star/sonwflake model. At last, based on a mathematical tool: algebraic system, this paper gives definition of spatial data cube.
Key words:Spatia Data Warehouse; GIS; Spatial Data Cube
據不完全統計,全世界75%~80%的信息與地理空間信息相關,若能將地理空間信息作為組合與搭載其他信息的框架,構造出基于地理空間信息的多維信息結構進行多維信息的地理空間分析,將會使空間輔助決策分析功能更為強大、更為實用。然而目前的GIS不能高效和方便地進行基于多維信息結構的地理空間分析,這是制約GIS走出其測繪領域使用的主要因素。近年來國外新興了一門軟件技術,稱之為OLAP,其核心就是數據立方體(Data Cube)。它將來自多維信息結構中不同領域的多維信息,按維的形式組成一個人們容易理解的數據立方體或超數據立方體,用三維或更多維數來描述一個對象,每個維彼此垂直,用戶所需對象的分析結果發生在維的交叉點上。將GIS與數據立方體相結合就構成了空間數據立方體(Spatial Data Cube)。空間數據立方體是解決上述GIS所面臨問題的有效途徑,其意義十分重大。
1 基本概念敘述
空間數據立方體有一些基本概念,即非空間維、空間維、數字度量、空間度量和概念模型,這些概念對于我們理解空間數據立方體將有極大的幫助。
1.1 維
維是人們觀察對象的角度,如土地部門(土地類維)常常關心土地隨時間推移其面積產生變化的情況,這時是從時間的角度來觀察土地的變化,所以時間是一個維(時間維);土地部門(土地類維)也時常關心土地在不同地區的分布情況,這時是從地理分布的角度來觀察土地的變化,所以地理分布是一個空間維(地區維)。由此可見,土地類維、時間維、地區維往往決定著土地面積的大小和發生變更的情況。其數據立方體示意圖如圖1所示。
維的結構有層次、維成員之分。為了更好地描述、理解它們,可用兩種基本的方式表示維,即方框和樹。圖2是上述空間數據立方體時間維的方框和樹表示法。
1.1.1 非空間維
非空間維是一種僅包含非空間數據的維。在空間數據立方體中,將與地理要素關聯的各種專題信息作為非空間維,如氣象條件、經濟結構、民族文化、通信設施、部隊結構、通行能力、科學教育、醫療衛生等專題信息。由此可見,空間數據立方體中非空間維是多個的(非空間維1,非空間維2,…,非空間維n),它們共同構成了空間數據立方體的非空間維世界。
(1)非空間維的概念分層
人們觀察世界的某個非空間維還可以存在細節程度不同的多個描述方面,稱這多個描述方面為非空間維的概念分層,它是對非空間維的細節描述[1]。例如描述時間維時可以從年、月、日、周、時、分、秒等不同層次來描述,那么年、月、日、周、時、分、秒就是時間維的概念分層。由此可見,非空間維的概念分層實際上就是按維的實際意義進行歸類分層,從維的樹表示法來看,一個非空間維往往有多個分層。
(2)非空間維的格模型分層
非空間維的格模型分層實際上就是空間數據立方體中非空間維的所有組合構成的分層排列。假如某個空間數據立方體有n個非空間維,那么維的格模型就有n+1個不同等級的分層,2n種維的排列組合。圖1中的空間數據立方體有三個非空間維,就有四個不同等級的分層、八種維的排列組合。其非空間維格模型分層描述如圖3所示。
非空間維格模型分層是一種直圖,該模型代表著空間數據立方體維聚集的結果之間的相互依賴關系。直線從上向下(即沿著聚集的方向)代表著從一種聚集結果可導出另一種聚集結果,如聚集結果<地區,時間>可由<地區,時間,土地類>導出,此時維土地類被聚集掉了。非空間維的概念分層與格模型分層有著本質的區別,一般說來格模型分層強調的是若干維的聚集結果以及聚集結果間的相互關系;而概念分層強調的是維的成員取值路徑。
(3)非空間維成員
非空間維的組成元素稱為維成員,非空間維的維成員就是在維的樹表示法中從樹根節點到葉節點路徑上所有節點的組合,表示為非空間維成員::(維.成員1.成員2.…成員n),其中1,2,…,n代表維的層次。空間數據立方體時間維維成員的形象化表示就是:時間維.1995年.2月.18日。
1.1.2 空間維
空間維是一種僅包含地理空間數據的維,因此,地理要素的空間信息以及屬性信息就構成了空間數據立方體的空間維。但是這兩者在空間維中所起的作用不同:①屬性信息實際上構成了空間數據立方體的地理非空間維,由它與其他非空間維組合往往就確定了所描述的對象。②空間信息則是對維所描述對象的結果進行地理圖形表示。注意無論是何種情況,空間維中的空間信息在地理圖形表示時,其本身的平面形狀和空間位置及空間關系不會發生改變,僅作為所描述對象結果的地理圖形顯示背景。
(1)空間維的概念分層
空間維的概念分層與非空間維的概念分層相似,就是按空間維的實際意義進行歸類分層。一個空間維往往有多個概念分層,本文主要探討空間維空間信息和屬性信息的概念分層。空間維的空間信息可按地理要素的幾何特征進行概念分層。下面以圖4為例說明空間維空間信息的概念分層。
空間維的屬性信息可按地理要素的屬性特征進行概念分層,屬性特征可劃分為主碼、識別碼、描述碼、質量碼、參數碼、名稱等層次。下面以圖5為例說明空間維屬性信息的概念分層。
(2)空間維的格模型分層
對于空間數據立方體,空間維不能參與進行格模型分層,只有非空間維才能進行格模型分層,因為沒有空間維的維組合就不是空間數據立方體。
(3)空間維的成員
空間維的成員定義與上述非空間維的維成員一樣,該維的維成員就是空間維屬性信息的概念分層中從樹根節點到葉節點路徑上節點的組合,而不是空間維空間信息的概念分層。空間維成員表示為空間維成員∷(空間維.成員1.成員2.…成員n),其中1,2,…,n代表維層次。
由此可見,在空間數據立方體中,空間維成員的通用表現形式為空間維成員∷(空間維.主碼.識別碼.描述碼.質量碼.參數碼.名稱),如空間維.交通要素.國道.高速公路.路寬.鋪面質量.107國道。
1.2 度量
度量是由全部維或若干維確定的某一個對象的屬性值,度量的測量值均發生在維的交叉點上,度量往往不局限于一個,(度量1,度量2,…,度量n)共同構成了度量世界。空間數據立方體不同于數據立方體,它具有兩種度量,即數字度量和空間度量[1]。
1.2.1 數字度量
在空間數據立方體中,全部維或若干維確定的某一個對象往往是一個非地理空間對象,描述該聚集結果就得用數字度量來表述。數字度量是一種包含數字值的度量,又進一步劃分為分布式的、代數的、整體的數字度量[3]。一個數字度量是分布式的當且僅當該數字度量值能夠通過分布式聚集函數作用于該數據立方體所屬子立方體的度量聚集計算得到,如count(),sum();一個數字度量是代數的當且僅當該數字度量值能夠通過代數聚集函數作用于該數據立方體所屬子立方體的度量聚集計算得到,如avg()可以由sum()/count()計算;否則,該數字度量就是整體的。
1.2.2 空間度量
在空間數據立方體中,全部維或若干維確定的某一個對象往往是一個地理空間對象,描述這一地理空間對象的聚集結果就得用空間度量來表述[4]。例如地圖上相鄰的多邊形區域內可能具有某范圍的數據值,當用戶進行概括性瀏覽操作時,相鄰多邊形區域內具有相同描述數據值的可能性會增加,此時這些具有相同描述數據值的相鄰多邊形區域可合并為一個較大的多邊形區域,該合并的多邊形區域就是地理空間對象的聚集結果。由此可見,空間度量就是地理空間對象聚集結果的空間目標指針集合,能執行地理空間對象的空間操作,如多邊形疊加、多邊形合并等。
2 概念模型設計
2.1 基本概念
由此可見,上述非空間維、空間維、數字度量、空間度量組成的數據立方體就是空間數據立方體,其通用表達形式為
空間數據立方體::(非空間維1,非空間維2,…,非空間維n,空間維1,空間維2,…,空間維m,數字度量1,數字度量2,…,數字度量i,空間度量1,空間度量2,…,空間度量j)
其中,n,m,i,j為正整數。
本文只討論下面兩種常用的空間數據立方體,即空間維數據立方體和空間度量數據立方體,其通用表達形式為
空間維數據立方體::(非空間維1,非空間維2,…,非空間維n,空間維,數字度量1,數字度量2,…,數字度量m)
其中,n,m為正整數。
空間度量數據立方體::(非空間維1,非空間維2,…,非空間維n,數字度量1,數字度量2,…,數字度量m,空間度量)
其中,n,m為正整數。
2.2 概念模型
2.2.1 空間維數據立方體概念模型
空間維數據立方體與數據立方體的主要區別在于具有空間維,因此它們之間概念模型的區別在于空間維數據立方體具有空間維表。在該立方體中,空間維表中的維成員與其他非空間維表中的維成員共同聚集計算出事實表中的數字度量,并最終將該數字度量的結果顯示在該空間維對應的地理要素上,此時空間維表中的地理要素不發生空間位置、形狀和空間關系上的變化,僅作為圖形顯示背景反映數字度量的聚集結果。該數據立方體星型/雪片概念模型如圖6所示。
2.2.2 空間度量數據立方體概念模型
空間度量數據立方體與數據立方體的主要區別在于具有空間度量,因此它們之間概念模型的區別在于事實表中擁有空間度量,在該表中空間度量為指向水系、居民地、植被、境界、土質等具有多邊形區域的空間目標指針。在該數據立方體中,這若干個非空間維共同聚集計算出事實表中的數字度量和空間度量,此時空間度量中地理要素的多邊形區域將發生空間位置、形狀和關系上的變化,并最終將該數字度量的結果顯示在該空間度量相應的地理要素上。該數據立方體星型/雪片概念模型如圖7所示。
2.3 代數定義
空間數據立方體定義:一個n維空間數據立方體多維數據集合模式是一個三元組R=(D,M,Dstr),其中,
(1)D=(d1,d2,…,dn)稱為維集合,di稱為維,其中一個是空間維;
(2)M=(M1,M2,…,Mk)稱為度量集合,Mj稱為度量,其中一個是空間度量;
(3)Dstr={(a1,,θ1),(a2,,θ2),…,(an,,θn),}稱為維結構集合,(a1,,θ1),(a2,,θ2),…,(an,,θn)是n個約束非奇異聚集偏序集簇,(ai,,θi)定義了維di的概念層次結構和聚集約束,ai中的每個集合稱為維di的一個維層次屬性;
(4)度量集合M函數依賴于維集合D,即D與M之間存在函數F:DOM(d1)×…×DOM(dn)→DOM(M1)×…×DOM(Mk),其中DOM(di)是維di的值域,DOM(Mj)是度量的值域。
3 結束語
空間數據倉庫的分析型工具——空間數據立方體非常有用,將它們用好用活直接關系到空間數據倉庫的決策支持功能的好壞。本文討論了空間數據立方體的一些基本概念,即非空間維、空間維、數字度量、空間度量和概念模型,在此筆者只是起到拋磚引玉的作用。
參考文獻:
[1]Nebojsa Stefanovic, Jiawei Han. Objectbased Selective Materialization for Efficient Implementation of Spatial Data Cubes[J]. IEEE Transactions on Knowledge and Data Engineering,2000,12(6):121.
[2]Xiaofang Zhou, Jiawei Han. Efficient Polygon Amalgamation Methods for Spatial OLAP and Spatial Data Mining[C]. The 6th SSD, 1999.121125.
[3]Dimitris Papadias. Efficient OLAP Operations in Spatial Data Warehouses[R]. HKUSTCS0101, 2001.65-69.
[4]鄒逸江.空間數據立方體分析操作原理[J].武漢大學學報(信息科學版),2004,29(9):822-826.
作者簡介:
鄒逸江(1963-),男,江蘇宜興人,教授,博士,主要研究方向為GIS、空間數據倉庫、空間數據立方體;楊曉平(1958-),男,浙江紹興人,系主任,副教授,碩士,主要研究方向為GIS。
注:本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文