張文宇,彭舒凡,葉乃夫
(1.中國人民公安大學 信息網絡安全學院,北京 100038)
犯罪活動在地理空間中展開[1],因此,犯罪團伙成員之間具有大量的空間交集。公安偵查工作中,分析重點人空間數據之間的關聯,是時空關聯分析的重要步驟。空間數據關聯分析的實質為計算空間數據關聯度,根據空間數據的構成,分為2 個方面,即空間文本關聯度計算與空間實體關聯度計算。目前,在空間文本關聯度計算方面,主要包括:①計算文本類別關聯度[2-7];②計算文本專名關聯度[8-10];③綜合計算類別與專名的關聯度,得到空間文本的關聯度[11]。公安數據庫中,空間文本具有的文本類別及其專名通常超過一種,如“某省某市某區某街道”,然而已有研究認為空間文本只具有一種文本類別及其專名,不符合公安業務需求。
空間尺度包含空間范圍與空間粒度[12]。計算空間實體關聯度時所選的空間尺度,是影響結果的重要因素[13-14],同一地理實體,在不同的尺度下得出的結論可能相差甚遠[15]。在空間實體關聯度計算方面,傳統方法[16-20]主要基于空間拓撲關系計算。其中,趙紅偉[16]在此基礎上,使用空間度量關系輔助量化空間實體關聯度,提高了計算的準確性。以上方法都較少考慮到空間尺度對計算結果的影響。陳祖剛[21]雖然考慮到空間尺度的影響,但只是分別計算了2 個尺度下的關聯度,并沒有綜合考慮各個尺度的影響。
綜上,本文將重點人空間數據的關聯分析分為2 個方面:計算空間文本關聯度與空間實體關聯度。針對現有研究的不足,對于重點人的空間文本關聯度,結合文本專名與文本類別2 個多維特征,綜合計算文本關聯度。對于重點人的空間實體關聯度,考慮到各個尺度對實體關聯度的影響,通過空間實體之間的拓撲關系及度量關系對各尺度下的實體關聯度進行量化,挖掘重點人與犯罪人在空間上的關聯信息,提出了綜合多尺度空間實體關聯度的計算方法。
重點人空間數據多維特征的表達,是空間數據關聯分析的基礎。重點人的多維空間數據,具有文本專名、文本類別、實體幾何類型3 個多維特征,使用三元組表達為:
1)P為空間數據的文本專名,其值為空間文本的具體描述。
2)C為空間數據的文本類別。若空間文本由單一的文本類別及其專名構成,則C的取值為該類;若空間文本由多種文本類別及其專名構成,則C的取值為最后一個文本類別。
空間數據的文本類別體現了空間實體的類型、隸屬關系。本文根據《地名分類與類別代碼編制規則(GB/T 18521—2001) 》[22],并 基 于 上 下 位 關 系(IS-A),建立了輕量級的上層空間文本類別本體,涵蓋了重點人空間數據的全部文本類別,如圖1所示。

圖1 輕量級的上層重點人空間數據的文本類別本體
3)G為空間數據的實體幾何類型,其取值存在3種情況:點(point);線(line);面(polygon)。各個類別具有固定的實體幾何類型。
空間數據關聯分析,就是計算出空間數據之間的關聯度。由于重點人的多維空間數據由空間文本與空間實體構成,因此,將空間文本關聯度與空間實體關聯度結合,得到空間關聯度:
式中,CGeo為空間關聯度;CText為空間文本關聯度;CEntity為空間實體關聯度;WText與WEntity分別為空間文本與空間實體關聯度的權重值,滿足WText+WEntity=1。關聯分析的流程如圖2所示。先結合專名關聯度與類別關聯度計算空間文本關聯度。同時,通過空間拓撲關系與空間度量關系量化每個尺度下的實體關聯度,再將各尺度下的空間實體關聯度綜合,求得空間實體關聯度。最后,通過上式將二者加權求和,得到重點人空間數據的關聯度。

圖2 重點人多維空間數據關聯分析流程
在公安領域的應用中,若重點人與犯罪人對應的空間實體不關聯,即二者不存在于同一空間范圍內,說明二者共同實施犯罪的可能性較低,不為犯罪團伙。此時無論文本關聯度CText是否為0,均認為2 個重點人在空間上不關聯,即空間關聯度CGeo為0。
空間文本具有文本專名與文本類別2 個多維特征,將其多維特征的關聯度綜合計算,得到空間文本關聯度:
式中,CP與CC分別為專名關聯度與類別關聯度;WP與WC分為為空間專名關聯度與空間類別關聯度的權重,滿足WP+WC=1。
2.1.1 文本專名的關聯度計算
本文將文本專名看作字符串,使用葉鵬[8]提出的方法計算文本專名關聯度。設2 個空間數據的文本專名分別為p1與p2,字符總數分別為m、n,其關聯度計算如下:
式中,c為p1與p2的匹配字符數;L1(i)與L2(i)分別為匹配字符i在p1與p2中的匹配序;α與β分別為匹配度與匹配序的權重,二者常按黃金分割率,分別取值為0.6與0.4[8-9]。匹配序從左至右,根據字符依次遞增。例如,p1=“北京市西城區”,p2=“西城區”,p1與p2的匹配字符為“西”、“城”、“區”,在p1與p2中的匹配序分別為4(西)、5(城)、6(區)和1(西)、2(城)、3(區)。p1與p2的關聯度定義為:
2.1.2 文本類別的關聯度計算
當前研究主要通過建立本體,計算空間文本類別的關聯度。根據方法細分為:基于信息論、基于語義距離、基于本體屬性。基于信息論的方法,以概念出現的頻率量化關聯度;基于本體屬性的方法需對文本類別進行嚴格屬性定義,這兩類方法均不適用于空間數據的文本類別的關聯度計算,因此,本文基于第1節建立的輕量級上層本體,并采用基于語義距離的方法[23]進行計算。其中,影響關聯度的主要因素分別為:語義距離、概念深度、概念密度。設2 個空間數據的文本類別分別為c1與c2。
在本體中,連接c1與c2的最短路徑的長度為二者之間的語義距離,記為len(c1,c2) 。語義距離越大,c1與c2的關聯度越低;語義距離為0時,c1與c2是同一類別;語義距離為無窮大時,c1與c2的關聯度為0,表示c1與c2沒有關聯。語義距離對類別關聯度的影響因子記為Dis(c1,c2),公式如下:
文本類別c1的概念深度是指c1與根節點的最短路徑中所包含的邊數,記為Dep(c1),同理,文本類別c2的概念深度記為Dep(c2)。在本體中,下層概念都是對上層概念的細化,概念的含義隨著深度的增加而具體。語義距離相等時,c1與c2的深度越大,其關聯度越高;反之越低。概念深度對類別關聯度的影響因子記為Dep(c1,c2),公式如下:
c1與c2的概念密度,為c1與c2最近共同祖先的直接子節點的數量,記為degree(c1,c2)。在本體中,某節點的直接子節點數量越多,對應概念的分類越詳盡,其子節點間的關聯度越高,反之越低。概念密度對類別關聯度的影響因子記為Den(c1,c2),公式如下:
式中,degree(O)為本體樹O中各節點的直接子節點數量的最大值。
因此,c1與c2的類別關聯度計算如下:
式中,δ、ε、φ分別為3 個因子對文本類別關聯度影響的權重值,且δ+ε+φ=1。計算類別關聯度時,語義距離在3 個因素起主要作用,因此δ相對較大,ε與φ相對較小,通常取為0.9、0.05、0.05[23-24]。
考慮到空間尺度對空間實體關聯度的影響,本文將空間尺度分為5個,從大到小依次為:“一級行政區域尺度”、“二級行政區域尺度”、“三級行政區域尺度”、“四級行政區域尺度”、“其他區域尺度”,與空間文本類別中的“一級行政區域”、“二級行政區域”、“三級行政區域”、“四級行政區域”、“非行政區域”及其子類別相對應。具有多種文本類別的重點人的空間數據,在不同尺度下,映射為各自對應的空間實體。如“貴州省安順市西秀區”,在“一級行政區域尺度”時,映射為“貴州省”的空間實體;“二級行政區域尺度”時,映射為“安順市”的空間實體;“三級行政區域尺度”時,映射為“西秀區”的空間實體;“四級行政區域尺度”、“其他區域尺度”時,無可映射的空間實體。
只具有部分尺度所對應文本類別的空間文本,可能存在同名不同地的情況;具有全部尺度所對應的文本類別的空間文本,其映射的空間實體唯一。故空間實體的關聯度,應由5 個尺度下的空間實體關聯度加權計算得到:
式中,CFirst、CSecond、CThird、CFourth、COther分別為5 種尺度下空間數據所對應空間實體關聯度,通過量化各尺度下的空間拓撲關系與空間度量關系得到;WFirst、WSecond、WThird、WFourth、WOther分別為5 種尺度下的實體關聯度對應的權重值,滿足WFirst+WSecond+WThird+WFourth+WOther=1。
2個空間數據在計算關聯度時存在以下情況:①2個空間數據均具有某一尺度所對應的文本類別,則直接計算兩者在該尺度下的實體關聯度;②2 個空間數據均無某一尺度所對應的文本類別,則在該尺度下的實體關聯度為0;③2個空間數據中只有一個具有某一尺度所對應的類別,則該尺度下的實體關聯度需要跨尺度計算。如“貴州省”與“貴州省安順市”,只有后者具有“二級行政區域尺度”所對應的文本類別“地級市”,因此,該組數據在“二級行政區域尺度”下的實體關聯度為:“貴州省”與“安順市”對應實體的關聯度。
某一尺度下的空間實體關聯度由該尺度下的空間拓撲關系關聯度與空間度量關系關聯度加權得到:
式中,CS為某一尺度下的空間實體關聯度,可為CFirst、CSecond、CThird、CFourth、COther;CT、CM分 別 為對應尺度下的空間拓撲關系關聯度與空間度量關系關聯度;WT、WM分別為拓撲關系關聯度與度量關系關聯度對應的權重值,且滿足WT+WM=1。
2.2.1 空間拓撲關系的關聯度計算
空間實體具有點、線、面3 種實體幾何類型,空間拓撲關系用于描述3 種實體幾何類型之間的關系。目前,普遍采用4I 模型[25]與9I 模型[26]進行描述。由于4I模型對于線線之間、線面之間的關系描述不具備唯一性[27],因此本文采用9I模型對實體之間拓撲關系進行表達,任意2 種實體幾何類型的空間實體之間的拓撲關系如表1所示。

表1 空間實體拓撲關系
若重點人與犯罪人的空間數據,在某一尺度上對應空間實體的拓撲關系為相離,即在該尺度下二者不存在于同一空間范圍內,所對應的空間實體不關聯,此時CS為0;反之,若拓撲關系不為相離,即在該尺度下二者存在于同一空間范圍內,所對應的空間實體存在關聯,此時CT為1,CM通過計算得到;若2個重點人空間數據,在各尺度下的拓撲關系均為相離,則空間實體關聯度CEntity為0,故空間關聯度CGeo也為0。
2.2.2 空間度量關系的關聯度計算
空間度量關系用于輔助空間拓撲關系,更詳細地描述空間實體之間的關系[28]。對空間度量關系關聯度的量化分為2 個方面,一是空間實體的重疊,二是空間實體的距離。相關定義如下:
定義1,空間實體的重疊:2個空間實體重疊部分的長度/面積。
定義2,空間實體的距離:2 個空間實體之間的距離。
實體幾何類型為點-點、點-面、面-面的2個空間實體,其距離指實體幾何中心之間的歐氏距離;實體幾何類型為點-線、線-面的2個空間實體,其距離指點和面的幾何中心到線的最短距離;實體幾何類型為線-線的2個空間實體,其距離指實體之間的最短距離。
定義3,某一尺度下實體關聯度的基本權重:在各尺度下,2 個空間實體為某種拓撲關系時,該拓撲關系能決定的關聯度的最大值,即WT。
定義4,某一尺度下實體關聯度的控制權重:在各尺度下,2 個空間實體為某種拓撲關系時,空間度量關系能決定的關聯度變化的最大值,即WM。
將空間實體在某一尺度下的度量關系關聯度記為CM;重疊記為O;距離記為D。CM與O、D有關,重疊O的占比越高,CM越大;根據地理學第一定理,距離D越小則關聯度越高,同時距離對度量關系關聯度的影響與尺度相關。空間度量關系在某一尺度下的關聯度CM計算公式如下:
式中,E1、E2為2 個空間實體在該尺度下的周長/面積;S為該尺度的尺度因素,各尺度下的S取值不一;W1、W2為重疊部分分別在2個實體中的占比所對應的權重值,滿足W1+W2=1;WO、WD為空間實體的重疊與距離的權重值,滿足WO+WD=1。
空間實體的幾何類型與空間實體之間的拓撲關系,決定了2 個空間實體的重疊,進而影響度量關系關聯度的計算。
1)2 個空間實體的重疊為點時,有3 種可能:①2 個空間實體中存在幾何類型為點的實體,并且2個空間實體具有交集;②2 個幾何類型為線的空間實體,拓撲關系為Touches或Crosses;③2個幾何類型為線-面的空間實體,拓撲關系為Touches 或Crosses 或Overlaps。此時,重疊O 不具有實際意義,則度量關系的關聯度由距離D控制。
2)2 個空間實體的重疊部分為線時,有2 種可能:①2 個幾何類型為線的空間實體,拓撲關系為Overlaps 或Equals 或Contains/Within;②2 個幾何類型為面的空間實體,拓撲關系為Touches。此時,度量關系關聯度由重疊O與距離D共同控制,O取重疊的長度,E1、E2分別取2個實體的周長。
3)2 個空間實體的重疊為面時,2 個幾何類型為面的空間實體,拓撲關系為Overlaps 或Equals 或Contains/Within。此時,度量關系關聯度由重疊O 與距離D共同控制,O 取重疊的面積,E1、E2分別取2 個實體的面積。
2021年某日,某市公安局接到報警:在該市某小區,某住戶的財物遭到盜竊。經過犯罪現場勘驗,發現是規模為兩人的團伙作案,并已鎖定犯罪嫌疑人。該犯罪嫌疑人經常于“GZ 省GY 市NM 區HGY 街道”一帶活動。本文從公安重點人數據庫中,抽取出100名重點人經常到訪的空間數據。以這100 名重點人為例,本文將其空間數據分別與“GZ 省GY 市NM 區HGY街道”進行空間關聯分析,得到與犯罪人的空間關聯度,為偵查提供思路。
本文邀請地理科學、犯罪學領域專家對多維空間數據關聯分析方法中的各權重進行打分,平均結果如表2所示。

表2 本文權重取值表
由于篇幅限制,將計算結果中關聯度大于等于0.2 的重點人及其空間數據排序,如表3 所示,其中,將空間文本關聯度與根據文獻[16]方法計算得到的空間實體關聯度結合,結果作為傳統方法的空間關聯度,與本文方法進行對比分析。

表3 與空間數據“GZ省GY市NM區HGY街道”關聯度≥0.2的重點人空間數據排序
由表3 可知,本文方法綜合了空間數據在各尺度下的關聯度,只有在5 個尺度下均一致時,空間關聯度為1。同時,在各尺度下實體關聯度的計算中,本文更加注重拓撲關系的影響,而度量關系起輔助作用。在具有空間關聯時,與空間實體具有映射關系的空間文本描述越細致,即空間文本具有的文本類別越多,其關聯度可能越高;反之,越低,與事實相符。如,65、5、92 號重點人的空間文本均對應同一空間實體,但描述的細致程度不同,其關聯度分別為:0.651、0.626、0.598。在相同拓撲關系下,重疊的占比越大、距離越近,關聯度越高。
文獻[16]的傳統方法,沒有考慮到空間尺度對關聯度的影響,只計算2 個空間數據在其最小尺度下的關聯度,并更加關注實體之間距離對關聯度的影響。因此,該方法面對即便是相離的2 個空間數據,在最小尺度下其關聯度也可能較高。如,48 號重點人的空間數據與目標空間數據在“四級行政區域尺度”上相離,50 號重點人的空間數據與目標空間數據在“四級行政區域尺度”上包含,因此50 號重點人的關聯度理應大于48 號重點人的關聯度,但傳統方法卻得到了大相徑庭的結論。同時,傳統方法在量化空間實體的度量關系關聯度時,只要2 個空間數據對應的空間實體距離較遠,就會存在關聯度可能為負的不足。如55 號重點人使用傳統方法計算得到的關聯度為-0.427。
本文將重點人的空間數據定義為空間文本與空間實體,并在此基礎上定義了空間文本的文本專名、文本類別、空間實體的實體幾何類型等3 個多維特征及其表達。其次,提出了多維空間數據關聯分析的方法,通過計算空間文本關聯度和空間實體關聯度,再將其結合得到空間數據的關聯度。采用字符串相似度的方法計算文本專名的關聯度,并建立了重點人空間數據文本類別的輕量級上層本體,以計算文本類別關聯度,由此得到空間文本關聯度。本文考慮了空間尺度對實體關聯度的影響,認為空間實體關聯度由2 個實體在各個尺度下的實體關聯度加權得到。并且空間實體的拓撲關系和度量關系決定了實體關聯度的大小,因此通過拓撲關系和度量關系量化了每個尺度下的實體關聯度。