李建勛,唐子豪,張永進,王小江
西安理工大學,西安710054
隨著大數據時代的來臨,數據價值與數據質量獲得了人們的廣泛關注,然而由于人員疏忽、自然災害、設備故障、采集環境條件限制、數據錄入違反規則等原因,數據缺失、數據冗余、數據延時、數據錯誤、數據沖突等現象時有發生。在這一系列數據問題中,數據沖突是標示同一實體對象的多個數據間明顯差異所形成的不可調和矛盾,它包括數據結構沖突、數據模型沖突、數據整合沖突[1],嚴重地影響了后續的數據關聯、數據挖掘、數據展現工作。時空數據沖突分析,作為探索具備時間維度和空間維度的屬性值之間關聯、約束和協調性問題的重要手段,在改善和提升地理信息、位置信息、商業信息、氣象信息等數據資源質量與價值領域有廣闊的應用前景,更是數據沖突研究的一個重要方向,但受限于研究方法、分析角度和關注程度,相關研究較為匱乏,目前研究主要集中在符合結構化、關系型或面向對象特征的一般性數據資源方向。
在數據結構沖突方面,張斌[2]較早探討了面向對象數據結構中的對象標識沖突、模式沖突、語義沖突以及數據沖突,分析了數據不兼容和數據表示差異等問題。其后,唐新余[3]針對數據清理過程存在的數據沖突,提出一種基于簡單一致性和概率分布的判別方法。劉萬增[4]則綜合考慮空間數據精度、目標類型、時態語義等因素,利用元數據結構、專家經驗等形成了空間數據沖突的甄別方案。考慮到數據被水平或垂直劃分時面臨的沖突判別困難,仲志平[5]提出了一個分布式數據結構下的沖突檢測算法,從而獲得了違背條件函數依賴集的數據項。滿靖[6]還研究了異構數據結構中數據交換的結構沖突和語義沖突。Wang[7]則以大規模數據中心為背景,使用博弈理論實施資源沖突的量化分析,有效地解決了同一數據集所引起的不同決策間的沖突問題。在數據模型沖突方面,被廣泛探討的是貝葉斯模型先驗數據的沖突判別問題[8],其逐漸被Al-Labadi[9]推廣到魯棒性和先驗數據沖突之間的關系上,并在認識到共軛先驗模型對先驗數據沖突不敏感的基礎上,由Walter[10]提出了一種基于威布爾分布的生存期模型,形成了先驗數據沖突的分析方法。而針對分布式模型,從實踐角度出發,封明玉[11]討論了系統運行中數據沖突問題并提出了解決方案,Zhu[12]則依靠擴展關聯和相似性理論,建立了擴展數據挖掘模型中的沖突分析和處理機制。在充分認識大信號處理模型的復雜性后,張德豐[13]、蘇衛星[14]、宋巧紅[15]則分別提出了基于小波變換的信號沖突判別算法,避免了傳統檢驗統計量隨著數據增多而無限增大的缺點。而在證據模型方面,Jiang[16]則基于修正的余弦相似度,提出了一種基本概率賦值(BPAs)方法來實現證據體間沖突程度的測度。另外,通過對多元數據間的一致性分析,李楚淮[17]還利用多邊形間相似度、語義分類對比建立了多元數據模型中幾何沖突和屬性沖突的判別方法。在數據整合沖突方面,文靜[18]研究了模式層次和語義層次上因數據細致程度、空間位置、結構差異等導致的數據沖突問題[19]。有鑒于不同沖突程度之間的相互影響,張永新[20]則提出了一種基于Markov邏輯網的兩階段數據沖突解決方法,Ichinokawa[21]更是建立了面向數據整合過程中的多數據集中的數據沖突分析方案。隨著研究的深入,為了解決多數據源沖突[22]的主數據真值發現問題,王繼奎[23]提出了一種非對稱的數據值支持度計算算法,Khazalah[24]則提出了依靠反饋環節的沖突解決方法,并通過和解操作處理不同組之間的任何數據沖突。除此而外,Maunder[25]還在統計推斷中實現了來自多個不同數據集的數據沖突的分析,為大規模數據集成數據質量提升奠定了基礎。
綜上所述,經過多年的研究,人們已經充分認識了數據沖突產生的根源和機理,基于概率分布模型、語義分析模型、變換域模型等開展了數據沖突判別,為來自不同數據源、結構迥異的數據沖突探索提供了解決方案。但仍存在一些不足:(1)現有研究重點是解決不同數據源、不同屬性值、不同數據模型間的沖突問題,缺乏對具有多維特征的時空數據結構的探討。(2)大多直接將時間維度、空間維度和屬性值進行集成分析,忽略了空間位置、時間序列與屬性值之間的沖突,僅有Jiang[26]和王巧燕[27]等少數學者分析了時空特征的數據資源沖突,探索了時空拓撲關系、實體屬性變化等方面沖突問題。(3)依靠概率分布、先驗模型的分析手段,通常假設時空數據符合某個特定分布,而抹殺了數據資源本身所具有的自然規律,降低了沖突分析的適用性和精度。為了進一步判別單個屬性值與時空數據規律性之間的沖突,本文構建了一個基于Kriging方法和Pettitt檢驗的時空數據沖突判別方法:(1)將時空數據抽象為一個由時間、空間位置、觀測值構成的元組,并通過緊致周邊點集的構建為密切相關空間點位的確定提供解決方案;(2)給出周邊點集Kriging轉化方法,按照空間維度數據規律將屬性值等效到判別點位上,為緊致周邊點集屬性值與判別點位屬性值之間趨勢規律的比較提供依據;(3)通過建立統計量來刻畫Kriging轉化獲得的估計值與屬性值間的差異,并借助Pettitt檢驗對差異曲線幅度突變的強識別能力,形成了一個時間維度和空間維度相融合的時空數據沖突判別方法,對時空數據是否違背時間、空間維度規律性進行了有效評判,支撐了時空數據質量與價值的提升。
時空數據是處于時間維度和空間維度連續變化環境中所采集到的客觀實體對象的屬性值(觀測值),它依賴于時空信息而存在,并常常呈現出動態的變化特征,具有明顯的連續性和趨勢性。這里的連續性體現為屬性值沿著時間軸不間斷的變化,且無論觀測間隔何等微小總可以測得一個數據值。趨勢性則是觀測值受到內在機制和自然條件的影響,按地理位置呈現一種趨向性變化,因此時空數據的屬性值通常不孤立存在,而沿著特定的時間演進過程或者地理空間路徑存在一定的規律性。若定義l為位置、t為時間,則時空數據的屬性值可以表示為Z(l,t),也即是說t時刻在l位置測站所采集到的屬性值為Z(l,t),其中Z(l,t)依賴于時刻t呈現出連續性,而依賴于位置l呈現出趨勢性。
目前,傳統的時空數據沖突判別主要研究多個測站對應于同一個觀測對象的情況,此時觀測時間t一致,但可以獲得l位置的多個屬性值Zi(l,t)。如圖1(a)所示,在t0時刻l1,l2,l3位置對l0位置實體對象的觀測值Z1(l0,t0),Z2(l0,t0),Z3(l0,t0)之間存在沖突,此時沖突一方面來自Zi(l0,t0)之間數據結構,也可來自Zi(l0,t0)的計算模型。然而,對于另一類與歷史信息和周邊狀況密切相關的時空數據來說(如氣溫、人口、降雨、水質等),受限于觀測技術、儀器設備和實施環境,各測站只能觀測其所在位置實體對象的屬性值,因此上述沖突并不存在,但卻引發了另外兩種數據沖突,如圖1(b)所示:(1)違背屬性值的空間維度規律,Z(l0,t0)與同一時刻周邊位置的屬性值Z(lj,t0),lj∈Ω構成空間維度沖突,其中Ω為l0的周邊位置;(2)違背屬性值的時間維度規律,Z(l0,t0)與l0位置t0前后時刻的屬性值Z(l0,tk),tk<t?tk>t構成的時間維度沖突,甚至與前后時刻l0周邊位置的屬性值Z(lj,tk)構成時空沖突,如氣溫數據脫離周邊數據的陡然升高,或者相較前后時刻數據毫無跡象的突然降低。由于這兩類沖突形成原因的特殊性,倘若僅僅依靠單個測站位置的觀測值及其相似度分析來判別數據沖突實際上抹殺了空間維度,而將時空數據簡化為空間數據進行探討卻又勢必降低時間維度的信息量,因此需要一種能夠融合判別點位l0周邊信息以及判別時間t0的前后時刻信息的時空維度匯集方案,從而充分地利用時空數據資源形成數據沖突判別方法。
時空數據沖突判別是對來自不同時刻面狀時空信息的一種數據分析工作,它要求以與判別點位密切相關的周邊空間數據為背景,通過數據分析檢測判別點位l0、判別時刻t0的屬性值是否與周邊位置及前后時刻數據存在沖突,亦即是否違反了時空數據時間維度和空間維度的規律性。為此,本文首先依靠空間位置關系確定出與判別點位l0密切相關的緊致周邊點集,以避免僅僅依靠判別點位進行分析的片面性和將全體數據納入判別過程而對算法精度的影響;然后借助Kriging方法將該點集上不同時刻的屬性數據等效轉化到判別點位上,實現空間維度和時間維度數據規律的匯集,摒除依靠相似度、語義分析時的無標度融合對時空信息和屬性信息不同表征的忽視;最后利用t0前后時刻的數據以及等效轉化后數據之間差異構造曲線,采用非參數檢驗方法,通過Pettitt突變檢驗在假定分布未知的情況下判斷出判別點位l0、判別時刻t0的屬性值是否存在沖突。
判別點位信息是時空數據沖突判別的關鍵依據,其周邊點位的時空信息和屬性信息也起著重要的支撐作用,然而傳統方法對此類信息的忽視,導致沖突判別被簡化為一個與空間分布規律、時間序列效應相無關的問題,從而時空數據的時空維度與屬性值被割裂開來,降低了判別精度。為了能夠把與判別點位緊密相關的空間點位信息納入到判別分析過程,根據時空數據特征的分析,本文設n+1個測站的空間位置集合為L,li∈L,i=0,1,…,n為測站標號,并考慮到沖突檢驗對兩端數據的遲鈍性,定義時間窗口寬度為2wθ,時間跨度為判別時刻t0兩端連續的2w+1個時間點tm,m=-w,-w+1,…,0,…,w-1,w分別表示時刻-wθ,-(w-1)θ,…,0,…,(w-1)θ,wθ,其中θ為數據采集的時間間隔,沖突判別則是給定(n+1)×(2w+1)個空間數據Z(li,tm),i=0,1,…,n,m=-w,-w+1,…,0,…,w-1,w,來判斷t0時刻在判別點l0位置的屬性值Z(l0,t0)是否與Z(li,tm),i≠0?m≠0存在沖突。此處要求i≠0?m≠0的目的是確保空間數據沖突的判別不僅僅依賴于l0位置的時間維度屬性數據Z(l0,tm),m≠0并且依賴于周邊位置的空間維度屬性數據Z(li,tm),i≠0。但對于一個判別點l0來說,其周邊測站或采集點眾多,如果將其全部納入到與判別信息相關的范疇,將使得部分無關數據被引入到評判中而降低精度,但如果僅僅依靠距離最近的若干采集點判斷,則又喪失了數據分析的全面性,因此需要確定一個與判別點密切相關的緊致周邊點集Θl0,Θl0?L。

圖1 不同類型時空數據沖突
緊致周邊點集由直接緊致周邊點集和間接緊致周邊點集構成。直接緊致周邊點集記為Ωl0,它要求Ωl0內任意兩采集點與判別點位所構成的三角形外接圓范圍內不存在其他采集點(即每個采集點擁有強代表性),且在緊致周邊點集中增加一個采集點,則必然使得原點集內中至少一個采集點不滿足該相關性條件,該要求使得所選中的周邊點集與判別點位密切關聯并不可替代。緊致周邊點集Ωl0的生成是一個類似局部TIN網形成過程,可參考文獻[28]構建,或者如圖2所示的簡便方法:首先連接判別點位l0與各采集點,然后剔除共線但距離判別點位較遠的點,最后以最短距離所構成的邊按逆時針順序尋找符合直接緊致要求的采集點,如果不滿足則將其剔除重新尋找,找到后則以新采集點所構成的邊為基礎繼續尋找直到所有采集點均被檢索。對于間接緊致周邊點集來說,則是考慮到Ωl0中任意一個采集點l∈Ωl0的直接緊致周邊點集Ωl也與判別點位間接的緊密相關,由于Ωl中必然包括了l0,因此屬于l的間接緊致周邊點集可記為Ωl?{l′|l′∈L,l′≠l0},進而將直接緊致周邊點集和所有間接緊致周邊點集合并起來即可構成l0的緊致周邊點集Θl0:

緊致周邊點集給出了判別沖突時可以使用的測站或采集點的位置,雖然這些測站的一系列屬性值與判別點位的屬性值有著密切的聯系,但空間位置不同而規律不同,并不能代表判別點位的屬性值,也無法直接根據這些數據做出是否存在沖突的判斷,因此需要把這些空間維度數據規律聚集起來,如圖3所示,按照一種轉化方式將屬性值等效到判別點位上,從而支持緊致周邊點集屬性值與判別點位屬性值之間的趨勢規律比較。該轉化相當于探尋一個函數關系,使得其能在假定判別點位屬性值未知的情況下由已知的緊致周邊點集數據推求出一個判別點位的屬性值,這恰恰等價于空間插值過程。插值時,由于在空間范圍內連續性變化的時空數據屬性值極其不規則,僅適合于用隨機表面進行刻畫,而Kriging方法作為地理空間領域所采用的核心統計方法,能夠在考慮數據的空間變異性特征的同時融合數據的空間位置和相關程度,對時空數據的隨機表面插值具有良好的適用性,因此本文采用Kriging方法并擴展至離散時間序列中,借助空間自協方差的最佳插值、探索性統計分析和變異函數建模,使得內插函數提供最佳線性無偏估計,依據協方差函數和回歸算法對時空數據隨機場進行空間估計,將緊致周邊點集數據轉化到判別點位,得到tm時刻l0位置Θl0點集轉化值:

式(2)中λi為線性方程的系數。對來自不同空間位置li∈Θl0的屬性值的線性組合正是對緊致周邊點集空間維度規律的匯集,若令n=|Θl0|為Θl0中元素個數,根據無偏估計和方差最小條件可得到λi滿足:

其中μ為拉格朗日乘數,C(Z(li,tm),Z(lj,tm))為Z(li,tm),Z(lj,tm)的協方差。為了獲取λi的數值解,設l⊕h表示距離l為h的空間位置,N(h)為被h分割的空間點位的數據點個數,引入變異函數γ(h)及其估計量γ~(h):


圖2 直接緊致周邊點集確定方法

圖3 時空數據沖突判別過程
基于式(4),考慮到在一個均勻的自然過程中,Z(l,t)與Z(l⊕h,t)之間的相關性常常依賴于它們之間位置,符合二階平穩假設,其滿足研究時段內區域化變量Z(l,t)期望等于常數(E[Z(l,t)]=m),且區域化變量的空間協方差函數平穩(C[Z(l,t),Z(l⊕h,t)]=E[Z(l,t)Z(l⊕h,t)]-m2=C(h)),故而依據協方差函數與變異函數的關系C(h)=C(0)-γ(h),則可以得到利用變異函數表示的Kriging方程組:

式中li⊙lj表示li與lj之間的空間距離。從中求解出λi并代入到式(2)中即可獲得緊致周邊點集轉化值。滿足Kriging方程組式(5)的轉化值其期望為常數、方差最小,并體現了區域化變量的空間結構性變化和隨機性變化,因此是最佳的線性無偏估計。
由于時空數據種類繁多且內在規律復雜多樣,傳統依靠參數檢驗的分析方法只能主觀地假定時空數據服從某種概率分布然后加以判別,因而限定了時空數據的判別范圍也為分析結論帶了較大的不確定性。為了便于在分布未知的情況下采用非參數檢驗方法進行沖突數據的探索,強化時空數據規律在沖突分析中的重要地位,本文將沖突分析轉化為差異曲線的突變檢驗,通過構造Pettitt統計量,以判別點位屬性值與周邊點集估計值的差異變化趨勢來衡量數據違背時空規律性的程度。通過緊致周邊點集的Kriging轉化,將與判別點位密切相關的|Θl0|(2w+1)個屬性值按照時間順序依次轉化到判別點位上,從而獲得了按照空間維度匯集的2w+1個屬性值Z~(l0,tm),這些屬性值可以看作是根據時空數據規律對tm時刻判別點位l0屬性值Z(l0,tm)的估計,且在適度的時間窗口范圍內Z~(l0,tm)與Z(l0,tm)沿著時間維度方向應具有相類似的連續性,之間差異變化的幅度不大,因此只需要檢驗這個差異值是否存在突變點,且如果突變正好發生在判別時刻t0,則說明Z(l0,t0)違背了時空數據的時間維度和空間維度的規律性,故而呈現為時空數據沖突。藉此,在給定時間窗口寬度2wθ下,抽取不同時間tm下的時空數據Z(l0,tm)以及通過Kriging轉化獲到的估計值Z~(l0,tm),求其差值δm=|Z(l0,tm)-,如圖3所示,按照時間順序得到一個δm代表的屬性值差異曲線,對該曲線判斷其是否在t0時刻存在突變,如果存在則說明其統計特征發生急劇變化,故而Z(l0,t0)存在時空數據沖突。判斷時,考慮到Pettitt方法是一種非參數檢驗方法,更適應于僅有單個突變點的檢驗,因此,對于樣本容量為2w+1的時間序列δm,m=-w,-w+1,…,0,…,w-1,w,構建統計量Sk如式(6)所示:

這里的秩序列Sk是第tm時刻大于或小于tj時刻數值個數的累計數。根據樣本容量修改顯著性條件為p=2exp(-/(w3+4w2+5w+1))≤0.5后,那么依照Pettitt方法,如果t0時刻對應的統計量S0符合該條件并滿足則認為在t0時刻l0位置出現了時空數據沖突,且所判別出的沖突在統計意義上是顯著的。
為了驗證本文提出的時空數據沖突判別方法的有效性,使用陜西省寶雞地區的降雨數據作為研究對象。地理空間信息來自1∶10 000的SHP矢量地圖,涵蓋29個重點測站,如圖4(a)中圖釘狀圖標所示,測站間最大距離155.6 km,最小距離8.7 km,每個測站在半徑為40.0 km的范圍內至少有2個臨近測站。降雨數據中,時空位置對應于測站所在經緯度位置,采集時間間隔則為θ=2h,如表1所示,共計從2012年1月1日至2016年12月31日提取降雨量時空數據635 796個。

圖4 研究區域測站分布及緊致周邊點集

表1 測站空間位置及部分降雨數據
為了便于數據分析,對于降雨數據缺失的時刻使用“0”值進行填補,同時考慮季節變化以及地勢形態對降雨狀況的影響,時空數據沖突判別重點判斷由于計量儀器設備故障所導致降雨數據明顯違背自然降水規律,而與周邊以及歷史數據不協調的沖突。在進行網狀圖生成后,進行臨近周邊點集分析,逐步建立29個測站的緊致周邊點集,如圖4(b)所示,各測站的直接緊致周邊點均大于3個、間接緊致周邊點均不少于5個,而部分測站的緊致周邊點總數則高達20個,為沖突判別提供了充分的周邊時空數據資源。考慮到強降雨一般持續不超過2天,故選取時間窗口寬度為48 h(w=24),共計2w+1=49個時間點開展實驗如下:
(1)以岐山站為判別點位,按照直接緊致周邊探索方法,從正東方向開始依次獲得良舍站、楊家河站、五曲灣站、鳳翔站、虢鎮站、高碼頭站、扶風站等7個直接臨近站,其距離岐山站在[21.6,34.1]km范圍內。進而得到間接緊致周邊點集由麟游站等13個測站構成,處于岐山站[35.5,81.4]km范圍內,總計緊致周邊點n=20個。限于篇幅,對于從0時至6時的連續四個時刻,使用式(5)計算得到用于周邊點集轉化的線性組合參數λi,i=1,2,…,20,分別如表2所示,將各參數應用到式(2)逐個把緊致周邊點集的降雨數據使用Kriging方法轉化到岐山站,為了清晰地表示數據結果及其與周邊數據情況,此處綜合其他各測站位置降雨數據,在經度[106.5,108.0]、緯度[33.6,35.2]研究區域內,構造一個175×140像素的圖像,將各時刻降雨信息按地理位置映射到該二維圖像中,如圖5所示,可見存在一個降雨中心。單獨抽取岐山站的時間序列計算差值δm,并繪制δm與采用Pettitt方法構造出的秩序列Sk曲線,如圖6所示,可以看出在判別時刻t0秩序列曲線恰為最大值,計算得p=0.47<0.5,這表明此時岐山站降雨數據存在沖突,分析其實際原因發現岐山站周邊28 km范圍內楊家河站等測站普遍降雨,超過了20.0 mm,形成降雨中心,而其他位置則為0 mm,違背了降雨分布自然規律,產生沖突,這是由于強降雨引起自然災害導致數據傳輸丟失。另外,考慮到緊致周邊點集Kriging轉化實際上是根據周邊情況估計出判別點位的屬性值,因此可以使用轉化值來替換判別點位的屬性值,以消除時空數據沖突。

表2 線性組合系數演算結果

圖5 不同時刻空間數據圖像

圖6 時空數據沖突判別差值曲線及秩序列曲線
(2)考慮到數據沖突均是偶爾發生,因此為了通過批量數據驗證方法的合理性,以時間窗寬度48 h為間隔將降雨數據庫進行修改,形成一個人工樣本。如表3所示,將第①組測站中數據中隨機的50個降雨數據修改為0,假定其為數據丟失,而將第②組測站中非零值的50個降雨數據修改為原值的1/3,將第③組測站中50個降雨數據修改為原值的3倍。針對這150個時空數據判斷是否存在沖突。從第①組中判別得到31個數據沖突,正確率為70%,而未被判別出的時空數據沖突為19個,其主要是因周邊測站及前后時刻均只有零星降雨且不超過3 mm,因此0值被認定為無降雨,符合降雨分布規律,故而造成誤判。從第②和③組中正確判斷出85個沖突數據,正確率分別為88%和82%,有良好的沖突判別能力,但仍有15處誤判。分析這誤判點位發現其均發生在降雨范圍小、短期強降雨情況下,此時降雨過程短促,在不到采集間隔θ=2小時內降雨從峰值降低到20%以下,且又由于周邊測站相距較遠而不能準確獲取小范圍雨量信息,因此將降雨起始時刻急劇增長的屬性值或降雨結束時刻急劇下降的屬性值修改為普通值,并不能從周邊測站或前后時刻信息中所感知,此時降低至1/3或提升3倍被看作符合降雨量變化規律,從而導致誤判。顯然,在這種情況下,增加測站的分布密度、縮短采集時間則能夠有效應對短期、小范圍數據變化,從而提升時空數據沖突判別的正確率。

表3 不同時空數據樣本沖突判別正確率
(3)為了與傳統方法比較,選取參數檢驗方法和相似度方法開展對比分析,其中參數檢驗方法假定日降雨數據服從正態分布,以時間窗寬度48 h內24個數據作為樣本采用拉依達準則作為數據沖突判別條件;相似度方法將空間維度和屬性值分別使用Min-Max方法進行歸一化,然后進行無權值匯集,在時間維度利用向量夾角余弦分析當前數據與歷史數據的相似度,時間窗寬度仍取48 h,以引入判別點位數據使相似度降低超過閾值0.1作為判別沖突的條件。經過對3組數據判別可以發現:因干旱或強降雨數據影響,參數檢驗方法對賦“0”數據和超大數據沖突僅具有一定的識別能力,而對于離均值相對較近的沖突判別則精度極低;而相似度方法因采用了與分布無關的數據向量分析,幾乎不受沖突樣本的影響,但這種時空融合方案損失了時空維度信息,判別率均未超過70%;本文方法由于在判別過程中綜合了周邊數據以及時空規律因而獲得更高的檢驗精度,相對傳統方法在不同沖突樣本下精度分別提升6%、22%、20%,進一步提升了沖突判別的實用性。
數據沖突的識別與處置一直以來是提升信息資源質量的重要環節,并隨著大數據技術的不斷發展,逐漸成為了眾多學者研究的熱點。為了實現地理位置分散固定的時空數據采集系統中數據沖突的判別,本文在分析時空數據沖突特征的基礎上,構建了一個以屬性值為核心并融合時間維度和空間維度信息的時空數據判別方法,該方法通過確定緊致周邊點集來獲取與判別點位密切相關的測站分布,并經過Kriging方法開展周邊位置、前后時刻的屬性值的轉化,繼而通過Pettitt檢驗對差異值跳躍性轉變的識別,為時空數據沖突的判別提供了一個解決方案,并經過實驗驗證了方法的有效性和實用性,不同沖突樣本下可分別獲得70%、88%、82%的判別正確率。考慮到緊致周邊點集建立時以構建三角外接圓為條件,這勢必在邊界處將距判別點甚遠的測站納入到點集中(如邊界處崔木站與其直接緊致周邊清河里站相距竟達86.2 km),影響了時空數據判別精度,因此下一步的工作主要是嘗試不同要求下緊致周邊點集的建立方法,并綜合時空數據的趨勢性構建與判別點位更為密切的緊致周邊點集,進一步提升時空數據判別能力。