(國網黃山供電公司,安徽 黃山 245000)
地理數據廣泛應用于電力行業各類業務,包括導航地圖、遙感影像、電網設備、傳感器、用戶等的位置信息。地理數據隱含高精度空間信息,因此地理數據在共享過程中存在著較大的安全隱患[1-2],應進行脫密等處理。對涉密地理數據進行脫密處理包括數據抽取、幾何精度降低、屬性和高程處理等。其中,幾何精度脫密是指使用專業脫密技術進行位移和空間位置精度隨機干擾,使得脫密后的數據不易糾正恢復,避免要素泄密。
完成幾何精度脫密的地理數據,是否仍然能夠滿足業務應用,需建立地理數據可用性評估模型[3]。通過分析地理信息數據及電網數據的使用和展示特點,構建一個綜合評估模型,包括可用性評估內容分析、確定可用性評估量化因子、確定可用性評估等級等。模型用于評估脫密后數據或者通過其他變形手段變化的地理數據,是否滿足應用場景需求。
地理數據的可用性是指地理數據被使用時,所表現出的有效性、效率和滿意度[4-5]。脫密地理數據可用性問題的來源分為兩部分:空間數據質量問題和脫密過程引入的可用性問題。
地理數據幾何精度脫密是對地理數據的離散點坐標進行變換,其實質是建立原始地理坐標到目標地理坐標的函數映射。
幾何精度脫密模型主要包括線性模型、非線性模型、混合模型、神經網絡[6]。無論是采用哪種脫密模型,都能對地理數據加以不均勻的擾動,產生一定程度的影響,達到保密效果。脫密技術對地理數據的影響包括對精度的影響、對空間關系的影響以及對數據可視化效果的影響。
脫密技術對精度的影響體現在位置精度和圖形精度兩方面。位置精度是指空間數據表示的對象位置與現實世界中對應實體位置之間的準確度。圖形精度是指空間數據中表示的對象形狀與現實世界中對應實體形狀之間的差異程度。
脫密技術對空間關系的影響主要體現在對空間現象的幾何特性引起的空間關系,如距離、方位、連通性、相似性等。
脫密技術對地理數據可視化效果的影響,主要體現在用戶對地圖上以符號形式表達的地理環境信息的認識和解譯的過程。由于脫密處理通常采用的是非線性方式,其對地理數據可視化產生相對較大的影響。
地理數據可用性的評估內容主要包括數據可視化效果、數據在使用時的可靠性和有效性3個方面,如圖1所示。
可視化效果是指地理數據經過變化處理前后所體現出來的整體相似程度[7-8]。較低的相似度使得用戶在認知信息的過程中產生錯誤的理解,對用戶所處位置與環境產生錯誤的認知,從而使得地理數據的可用性降低。
使用變化處理后的地理數據時,可靠性是指要素之間的相對位置準確度。可靠性理論是建立在經典概率論基礎上的,主要考慮的是隨機不確定性,認為變化前后保持要素之間的相對位置是一個隨機事件。
有效性則是指變化后地理數據所能提供服務正確生效的程度。對變化處理后地理數據的有效性評估主要指地理數據變化前后空間相關關系一致性。
地理數據可用性評估分為3個步驟:1)對變化前后地理數據中要素的各個特征進行描述;2)比較變化前后要素的各特征,根據提出的評估指標依次對其進行計算,可得各指標的評估結果;3)根據特定應用特征分別賦予各指標相應的權重,在此基礎上整合各指標的評估結果得到最終的評估結果。如圖2所示。

圖1 地理數據可用性評估內容

圖2 地理數據可用性評估概念框架
在地理數據中,通常用點、線、面3類數據表示各類地理實體,從而可以將地理數據劃分為點群、線群和面群3類空間群組目標[9]。對于不同的空間群對象,結合變化處理對數據的影響,分別采用不同的度量方法。
2.1.1 點群目標的相似性度量
1)點群目標方向關系相似性度量
現實空間的點群分布,通常是描述帶有一定的方向偏離的地理現象[10-11]。度量方法為:對目標點群生成標準差橢圓,計算其方向偏離程度來度量點群目標方向相似度,并在此基礎上,根據目標點群的標準差橢圓的長、短軸之間的關系來進行點群目標距離相似度的度量。
標準差橢圓的圓心利用算術平均中心計算得到,公式為
(1)
(2)

標準差橢圓的方向以x軸為準,正北方向為0°,順時針旋轉θ,計算公式為
(3)
(4)
(5)
(6)
標準差橢圓的長、短軸的長度計算公式為
(7)
(8)
對空間點群目標生成標準差橢圓,點群目標的主要分布方向可用橢圓的長軸方向進行表示。那么該方向與x軸的夾角θ的取值范圍為[0,π],則對標準差橢圓夾角分別為θ1和θ2的兩個點群來說,其方向相似度為
SIMdire=|cos(θ1-θ2)|
(9)
當兩點群的標準差橢圓方向相互垂直時,點群之間的空間方向相似度為0;當兩點群的標準差橢圓在同一方向時,其之間的空間方向相似度為1。
2)點群要素距離關系相似性度量
點群的距離關系可用點群中要素的集中程度來表示,采用標準差的長、短軸的距離之比來描述[12]。對標準差橢圓長、短軸分別為a1、b1和a2、b2的兩個點群來說,定義其距離相似度為
(10)
3)點群要素幾何特征相似性度量
對于空間點群要素的幾何特征描述,主要是通過點群分布范圍來對空間點群目標的幾何相似性進行度量[13]。考慮到分布范圍相似度的度量需要具有旋轉、平移和縮放不變性,提出了一種形狀描述函數來計算面要素之間的形狀相似度。
(11)
式中,f(li)為點群最小外包多邊形的描述參數,即點群外包多邊形各點到形心點的距離。
4)點群要素綜合相似性度量
考慮到空間要素間的空間關系和幾何特征分布,通過其對空間點群要素相似度的影響進行分析,因此對前述3個相似度度量指標分別賦以0.4、0.3、0.3的權值,得到點要素的綜合相似度計算公式為
Spoi=0.4SIMdire+0.3SIMdist+0.3SIMscope
(12)
2.1.2 線群要素的相似性度量
1)線群要素方向關系相似性度量
利用解析幾何的方法,采用獨立于空間線狀要素之外的直接坐標系對線狀要素整體進行統計,計算整個線群要素的方向均值,利用方向均值的象限角度對線群要素的空間方向關系進行定量描述[14]。方向均值的計算公式為
(13)
式中:θv為各個線要素的方向;θR為線群要素的方向均值。
若變化前后線群要素的方向均值分別為θ1與θ2,那么兩組線群要素的空間方向關系相似度的計算方法為
Simdir=cos|θ1-θ2|
(14)
2)線群要素距離關系相似性度量
用空間線群要素的空間距離關系相似度來描述各個要素之間方向關系的不一致性程度[15]。用環形方差來對方向距離關系進行度量。計算公式為
(15)

環形方差即線群距離關系的值域在0和1之間。當OR=0時,表明線群的集中方向之間的距離為0;當OR=1時,認為各要素與線群的整體方向的距離最遠。那么距離相似度計算方法為
(16)
3)線群要素幾何特征相似性度量
線群要素幾何特征可用曲折度描述。線的曲折度可簡單定義為線的實際長度和其直線長度的比值[16]。實際長度用坐標串中點與點之間的直線距離累加來近似計算。其計算公式為
(17)
式中:L為線要素的長度;S為線要素首尾端點的直線距離。那么可以計算線群要素1和要素2的幾何相似度,計算方法為
(18)
4)線群要素綜合相似性度量
考慮到空間要素間的空間關系和幾何特征分布,通過其對空間線群要素相似度的影響分析,分別對前述計算出的3個相似度分別賦0.4、0.2、0.4的權值。那么線要素的綜合相似度計算公式為
Spline=0.4Simdire+0.2Simdist+0.4Simgeo
(19)
2.1.3 面群要素的相似性度量
1)面群要素方向關系、距離關系相似性度量
空間面群要素多為比較規則的面狀要素,因此可生成其最小面積外接矩形,如圖3所示。該面狀要素的方向就是其最小外接矩形的最長邊的方向,則可將二維的面狀要素降維至一維的線狀要素[17]。

圖3 多邊形最小面積外接矩形
2)面群要素幾何特征相似性度量
面狀要素的幾何特征值采用緊致度來描述[18]。緊致度用來描述一個給定的多邊形區域離某一特定形狀的面的偏離程度。面的緊致度采用其面積與周長之間的比率描述。對于多邊形X,其緊致度C(X)為
(20)
式中:P(Xi)為多邊形Xi的周長;Are(Xi)為多邊形的面積。那么,空間面群要素的幾何相似度為
(21)
3)面群要素綜合相似性度量
考慮到空間要素間的空間關系和幾何特征分布,通過其對空間線群要素相似度的影響分析,對前述計算出的3個相似度分別賦0.3、0.3、0.4的權值。面要素的綜合相似度計算公式為
Spgone=0.3Simdire+0.3Simdist+0.4Simgeo
(22)
2.1.4 地理數據的綜合相似性度量
人們是基于背景要素來獲取其所處的空間位置,因此在對地理數據變化前后整體相似性度量時,應分別對點、線、面要素賦予不同的權值,即0.2、0.3、0.5。那么,變化前后地理數據的可視化度量模型為
Sim=(0.2Spoi+0.3Spline+0.5Spgone)×100
(23)
相對位置準確度就是各地理要素在變化前后,其相對位置變化程度[19]。變化前隨機選取多邊形區域Si,在此區域中隨機選取mi個點,經過處理后,得到對應的Si′、mi′,其中處理后仍在Si′區域中的點數為mi″。相對位置準確度計算公式為
(24)
式中,n表示隨機選取的區域個數。
那么,變化前后地理數據可靠性度量模型為
W=100×Ac
(25)
式中,W表示地理數據可靠性綜合評分。
變化前后空間相關關系一致性是指要素間的空間相關關系在處理后得到的保持和延續。因為組成線、面的點空間相關關系不變,則線、面的空間相關關系也保持不變。因此,在采樣點的規模足夠大的情況下,空間相關關系一致性只考慮點要素的空間相關關系。
設抽象前的地理空間場景為DB,其中的空間要素集合為OB1,OB2,…,OBn,各個空間要素之間的拓撲關系分別為r(OBi,OBj)(1≤i 在對變化前后地理數據進行空間相關關系評估時,首先確定評估目標,并確定對應的空間要素。對于確定的空間場景DB和DA,其中任意兩個要素之間的關系r(OBi,OBj)和r(OAi,OAj)都是已知的,那么就可以將它們的關系進行比較,判斷它們之間的空間相關關系是否得到保持。若關系等價的,則認為空間相關關系一致,此時空間相關關系一致性為1。若關系不等價,則認為空間相關關系不一致,此時一致性為0,即有: EQU(r(OAi,OAj),r(OBi,OBj)) (26) 這樣通過計算變化前后地理數據要素之間的空間相關關系一致性程度,可以確定變化前后場景DB和DA之間的空間相關關系一致性大小。計算公式為 E=EQU(DB,DA) (27) 那么地理數據的有效性度量計算公式為 Eff=E×100 (28) 地理數據可用性評估的目的是對地理數據的處理(脫密等)結果進行分析與評估,其評估結果可表明處理后的地理數據的可用性,可用性評估越高說明其處理技術越優,處理結果越準確[20]。可將其反饋給處理(脫密等)過程中的各個環節,對處理技術進行調控和整改 ,從而得到高可用性的處理成果。 根據地理數據的可用性評估內容,可用性評估涉及到可視化效果、可靠性及有效性三方面,因此地理數據可用性評估應綜合考慮這三方面的影響。由于各個指標在評估中的重要性并不完全相同,可賦予一定的權重對地理數據可用性進行綜合評估。 在對地理數據進行可用性綜合評估前,要對其進行可用性檢測,規則如下: 1)地理數據可視化效果評價指標,在評估過程中,綜合相似度計算結果低于85時,認定數據視覺效果嚴重失真,評定該地理數據可用性為不合格。 2)地理數據可靠性評價指標,采樣規模龐大時,結果低于95,則會出現變化前后地理數據中大量點、面相對位置關系不一致的情況,不能滿足電力行業的應用需求,認定為不合格。 3)地理數據有效性評價指標,在采樣規模龐大時,結果低于95,則會出現變化前后地理數據中大量點、點空間相關關系不一致的情況,導致線、面的空間相關關系也出現不一致的情況,對地理數據的使用產生誤導,認定為不合格。 除了上述指標評價之外,對地理數據進行敏感性檢查,若存在不符合國家相關規定的要素,則評定該地理數據可用性為不合格。 當對地理數據的可用性評估通過以上檢測時,可對地理數據進行綜合評估,基于業務需求與相關標準以及處理技術特點,分析可視化效果、可靠性、有效性對地理數據可用性的影響,分別對其賦予權值并進行計算,其計算方式為 Q=Sim×0.2+W×0.4+Eff×0.4 (29) 式中:Sim表示可視化效果度量結果;W表示可靠性度量結果;Eff表示有效性度量結果。 根據相關要求與規定及用戶需求,將地理數據可用性分為4個等級,分別是優秀、良好、合格和不合格。各可用性等級對應的評分值見表1。 表1 地理數據可用性的平直區間表 實驗所采用的數據為某公園附近1:10 000地圖地理數據,實驗數據所涉及的區域約1.93 km2,采用相對獨立坐標系,按要素類型可分為點要素、線要素、面要素,如圖4所示。 首先對脫密地理數據進行檢查,檢查的內容包括數據敏感要素、數據格式、數據組織、完整性、邏輯一致性、位置準確度、專題準確度、時間準確度等等。然后依據可用性度量模型將檢測結果轉化為對地理數據可用性元素的度量,最后計算出地理數據可用性綜合評估結果。下面以模型A(自主研發地理數據脫密算法)為例進行計算說明。 圖4 實驗數據示意 1)脫密前后可視化計標計算 脫密前后可視化指標計算如表2所示。 表2 脫密地理數據可視化效果評估表 從表2中的計算結果來看,各類要素各項指標的相似度相對較高,表明此脫密較好地保證了脫密前后地理數據空間方向、空間距離及幾何相似性。脫密前后地理數據綜合相似度為99.55,表明此脫密算法較好地保持了空間方向、空間距離、圖形幾何等特征內容,評測結果與人的視覺一致。 2)脫密前后可靠性指標計算 在試驗區域隨機選取2個面要素與其中的10個點要素,根據可靠性計算方法得到評估結論,如表3所示。 表3 脫密地理數據可靠性評估表 3)脫密前后有效性指標計算 在試驗區域選取100點要素作為采集對象進行有效性計算。通過計算發現,脫密后未出現點要素之間的拓撲關系不一致,因此脫密前后拓撲關系一致性為1,有效性指標結果為100。 4)脫密地理數據綜合可用性評估與分析 根據第3節給出的方法,對脫密地理數據的可用性進行綜合評估,可用性得分為99.91。那么可認定采用模型A對地理數據脫密處理后,數據的可用性評估為優秀。 在對地理數據可用性基本理論和地理數據脫密理論分析的基礎上,對地理數據(主要針對脫密處理)的可用性評估進行剖析,研究了地理數據可用性概念框架,并根據脫密地理數據可用性問題來源,提出了基于可視化效果、可靠性、有效性的可用性綜合評估模型。所提研究可量化評估地理數據的可用性,并根據地理數據可用性評估結果預判其在應用場景中的可用性。3 地理數據可用性評估模型

4 地理數據可用性評估實驗
4.1 概述
4.2 實驗與分析



5 結 語