基于歷史預警準確率的時空重排掃描最大掃描半徑優化方法

2021-08-12 08:28:50張亞楠，龍華，邵玉斌，杜慶治，陳騰飛

地理與地理信息科學 2021年4期

關鍵詞：方法

張亞楠，龍華，邵玉斌，杜慶治，陳騰飛

(昆明理工大學信息工程與自動化學院，云南昆明 650500)

0 引言

隨著大數據時代的到來，通過時空數據異常探測可發現諸多重要信息。例如：識別路況中的時空異常數據，有助于檢測造成交通擁堵的交通事件[1]；搜尋疾病[2]、犯罪[3]、火災[4]、極端高溫[5]等發生的熱點地區，有助于分析事件發生的規律并對未來事件提出預警。為利用時空異常數據中蘊含的重要信息并挖掘其中的價值，越來越多的學者開始探索時空異常數據的探測方法[6-8]。

異常探測可分為事物異常探測、空間異常探測、時空點事件異常探測、時空序列異常探測、時空軌跡異常探測5類。其中，時空點事件包括離群事件和熱點事件：前者指存在于時空域內的孤立事件點以及少量事件的聚集；后者指顯著程度較大的局部聚集[9]。Kulldorff于1997年首次提出掃描統計方法[10]并對時空熱點事件進行異常探測，2001年在僅考慮空間屬性的掃描模型中加入時間屬性，提出時空掃描統計方法[11]，2005年進一步提出無需人口數據，僅根據區域病例數即可進行時空掃描分析的時空重排掃描統計方法[12]。該方法使用圓柱體掃描窗口對研究區域進行尺寸限定，但圓柱體掃描窗口對于不規則大型實際數據集的探測存在局限性[13]。因此，相關學者對圓柱體掃描窗口的關鍵參數之一——掃描形狀進行了優化。例如：Duczmal等提出非圓形簇方法[14]，以提升檢測非常不規則形狀簇的能力；Takahashi等通過將相鄰子區域組合，生成形狀不規則的窗口進行掃描，提出一種靈活時空掃描統計方法[15]，并在算法中加入集群尺寸(一般為整個研究區域面積的10%～15%)控制，可進行較小尺寸異常點的檢測；Kulldorff等提出橢圓形掃描窗口[16]，對潛在聚集區的形狀進行限定，防止識別出過度不規則的聚集區；萬幼等提出一種改進的不規則形狀時空異常聚類模式挖掘方法[17]，基于時空鄰近單元格構建時空鄰接矩陣，對蟻群最優化掃描統計方法進行改進，使其適應時空區域掃描，有效識別了時空范圍內的不規則形狀異常聚類。然而，目前對圓柱體掃描窗口的另一關鍵參數——最大掃描半徑的優化研究較少。在時空重排掃描方法中，多以50%研究區面積所對應的圓形半徑作為最大掃描半徑[12]，掃描半徑隨研究區擴大而增加，但最大掃描半徑過大將導致計算資源浪費。另外，由于未有效區分和篩選實際異常點，會影響預警的準確率。為此，楊威等提出基于歷史命中率的時空重排掃描方法[18]選取最大搜索半徑，但該方法逐一計算不同最大掃描半徑下的預警命中率，耗時較長，且仍未有效區分和篩選實際異常點，影響合適的掃描半徑篩選，從而影響預警準確率。鑒于此，本文提出一種基于歷史預警準確率的時空重排掃描最大掃描半徑優化方法，在保證預警準確率的同時，能快速選取較小的最大掃描半徑。

1 研究方法與數據

1.1 時空重排掃描方法

時空重排掃描方法的基本原理為：假設事件發生的概率在時空范圍內服從泊松分布，在研究區域內劃分掃描區域并將該區域內事件發生概率與掃描區域外事件發生概率之比作為掃描統計量；不斷擴大掃描范圍并改變位置中心，尋找出整個研究區域中掃描統計量值較大的區域。為消除掃描結果的隨機性影響，對尋找出的監測點用蒙特卡洛模擬方法，篩選保留可信度較大的地點作為事件發生的預警點[12]。對研究區域以街道或其他行政區分配ID，每個ID對應一個監測點；時間節點(t=1,2,…,T)可選取天、月、年，本文以天為單位。假設研究區域某時段內某時空事件的數量和為C，其計算公式為[12]：

(1)

式中：Cot表示監測點o(o=1,2,…,O)在時間點t監測到的事件總數。

設Co表示監測點o在研究時間T內發生的事件總數，Ct表示所有監測點在時間點t發生的事件總數，則監測點o在時間點t上期望事件數量μot的計算公式為[12]：

(2)

時空重排掃描過程可模擬為一個圓柱體M的移動過程，設圓柱體M的底面圓心為掃描區域中一個監測點OM，掃描半徑為RM，M的高度為研究的時間范圍。每次掃描指定圓心OM，遍歷所有o=1,2,…,O，o∈M，選出事件地點間距小于RM的監測點，并根據期望事件數構成期望矩陣μ=[μot],則圓柱體M內實際發生事件數量CM和期望值μM為[12]：

(3)

(4)

當CM遠小于研究時間范圍內發生的事件總數C時，可認為CM近似服從泊松分布，其均值為μM[19]。采用泊松模型的掃描統計量對事件聚集區進行識別和探測，通過判斷事件發生數量服從泊松分布的程度，識別事件發生的獨立性程度。對圓柱體M用廣義似然比GLRM檢驗泊松分布[12，20]：

(5)

本文研究內容為熱點事件聚集的監測，即只考慮CM>μM的情況。為計算方便，使用對數化處理后的形式，即對數廣義似然比(LGLRM)(式(6))。LGLRM越大，說明柱體M內事件聚集性越強。通過蒙特卡洛模擬方法對聚集性較高的監測點進行顯著性檢驗，計算在對數似然比下的概率估計P值，最后選擇P值較小的監測點作為發生異常事件的預警點。

(6)

式中：u為指示函數，在CM>μM情況下，指示函數為階躍函數，u=1。

1.2 實際異常點判定及歷史預警準確率

(7)

(8)

利用該方法得到的預警結果中包含的假異常點更少，歷史預警命中率較高，從而可更準確地預警出類似事件發生可能性更大的監測點。本文將歷史預警準確率(α)定義為：在給定空間范圍內，對歷史數據通過時空重排掃描方法預警到發生異常事件的監測點數量(β1)與實際發生異常事件的監測點數量(β2)之比(式(9))，其中β1≤β2，β2>0，β1/β2∈[0,1]；將預警準確率(λ)定義為：在給定空間范圍內，對研究數據通過時空重排掃描方法預警到發生事件的監測點數量(γ1)與實際發生事件的監測點數量(γ2)之比(式(10))，其中γ1≤γ2，γ2>0，γ1/γ2∈[0,1]。

α=β1/β2×100%

(9)

λ=γ1/γ2×100%

(10)

1.3 基于歷史預警準確率的時空重排掃描最大掃描半徑二分選取方法

基于歷史預警準確率的時空重排掃描方法最大掃描半徑的優化，就是在搜索區間內尋找使得歷史預警準確率最高的最小半徑。本研究采用一維搜索方法尋找最佳半徑。精確一維搜索常用于求解非線性函數極值點[21，22]，對函數的連續性、可微性沒有嚴格要求，只要求選定的插入點有對應的函數值即可，因此普適性較好。精確一維搜索算法中的二分法通過取值試探的方式，求解原函數的導函數，即通過求解非線性方程的根獲得最優解。假定在搜索區間[a,b]內取中點c(c=(a+b)/2)，同理在區間[a,c]、[c,b]內分別取中點d、e(d

本文以歷史預警準確率為目標函數的原函數，在選定的掃描半徑區間內是一個非連續性函數，不存在導函數。為得到最優半徑或最優半徑所在區間，借鑒二分法思想，不求解目標函數的導函數，而采用試探選點的方法,即:確定搜索起始區間后，選擇一個搜索區間的中點作為試探點，計算試探點相應的函數值并進行比較，以確定新的搜索區間；不斷重復該過程，將區間縮小至給定搜索區間的精度范圍，若搜索區間達到設定的區間間隔精度，停止二分搜索，逼近最優值。綜合不同歷史時段預警結果，選擇半徑長度最小、歷史預警命中率最高的掃描半徑作為最優掃描半徑。與文獻[18]確定最大掃描半徑的方法相比，該方法在保證歷史預警準確率的前提下，試探選點比順序選點選取的次數更少，能快速選取較小的最大掃描半徑，再利用該半徑進行前瞻性的區域時空重排掃描，可減少因最大掃描半徑過大引起的計算資源損耗。具體步驟如圖1所示。

圖1 最大掃描半徑二分選取流程Fig.1 Flow chart of dichotomy selection of maximum scanning radius

1.4 實驗數據

相關研究[24-26]證明，火災事件可以使用時空掃描方法進行時空異常探測。為便于實驗結果的驗證，本文從舊金山地區數據協調網站(https://datasf.org/opendata/)提供的“Fire Department Calls for Service”數據集中提取2018-2020年的火災事件數據進行實驗。由于公共安全事件預警通常為短期預警，因此，本文選取1周作為事件監測與預警的時間閾值，以增強事件間的相關性[27]；同時通過耗時驗證方法有效性，即前瞻性時空重排掃描統計分析的運行時間。為減少實驗結果的偶然性和隨機性，本文設計了3組實驗對結果進行驗證;為驗證選擇不同最大掃描半徑的探索效果，實驗中引入q統計量作為分層異質性的探測方法[28]。通過對舊金山地區2018-2020年的火災事件進行預處理，獲取可進行時空掃描的數據。對研究的40個監測點進行編號(表1)，并篩選統計出監測點相應的火災事故數據(表2)。

表1 監測點對應編號Table 1 Corresponding numbers of monitoring points

表2 監測點火災事件統計Table 2 Statistics of fire incidents at monitoring points

2 實驗與結果分析

采用回顧性時空重排掃描分析方法對40個監測點進行實驗，選取2019年4個不同時間段(3月1-14日、6月1-14日、9月1-14日、12月1-14日)的實驗數據，作為預警對比數據。為避免局部異常，基于2018年相同研究月份的數據，繪制相應監測點的火災事件分布箱線圖(圖2)。

圖2 2018年3月、6月、9月、12月監測點火災事件分布Fig.2 Fire incident distribution at monitoring points in March,June,September and December 2018

2018年3月、6月、9月、12月，分別在一天內發生大于2起、1起、0起、1起火災事件(圖2中粗橫線對應數值)，即異常行為。本研究分析時間為一周(d=7)，利用式(8)計算出各監測點的異常事件數閾值分別為14、7、0、7。根據閾值大小以及2019年3月8-14日、6月8-14日、9月8-14日、12月8-14日各監測點實際發生火災的情況(圖3中虛線對應刻度值為觀測點研究時間段內發生異常事件數的閾值)，篩選出研究時間段內發生火災事件的實際異常監測點(表3)。因2019年3月8-14日各監測點均無火災事件發生，故實驗中省略3月的數據。針對其余3個時間段的數據，參照本文方法，以[0 km,10 km]為二分法的搜索起始區間，以0.1 km為搜索區間的最小間隔精度(即當搜索區間的間隔小于等于100 m時停止搜索)，通過比較試探選取最大掃描半徑，利用式(9)計算歷史預警準確率，連續二分縮小搜索區間，得到最佳的最大掃描半徑為1.25 km(表4)。

表3 2019年6月、9月、12月實際異常監測點統計Table 3 Statistics of actual abnormal monitoring points in June,September and December 2019

圖3 2019年3月8-14日、6月8-14日、9月8-14日、12月8-14日實際異常監測點Fig.3 Actual abnormal monitoring points from March 8th to 14th,June 8th to 14th,September 8th to 14th,and December 8th to 14th,2019

表4 2019年6月、9月、12月基于本文方法的掃描結果歷史預警準確率Table 4 Historical warning accuracy of the scanning results based on the proposed method in this paper in June,September and December 2019

地理現象普遍具有空間分異性。分異及因子探測器可以探測因變量(研究區域火災事件發生的預警準確率)的空間分異性，探測影響因子(最大掃描半徑)對因變量的空間分異性解釋程度(本文用q統計量表示[28])。對本文方法在不同最大掃描半徑下的空間聚集情況進行分析(圖4)，可以看出，第1組實驗數據(2019年6月)的q統計量在最大掃描半徑為1.25 km時最大，且接近1；第2組實驗數據(2019年9月)的q統計量隨最大掃描半徑的增大而減小，在最大掃描半徑為1.25 km時，q統計量不再發生變化；第3組實驗數據(2019年12月)的q統計量隨最大掃描半徑的增大而增加，在最大掃描半徑為1.25 km時，q統計量不再發生變化。綜上，在最大掃描半徑為1.25 km時，空間分異性顯著，影響因子對研究區域火災事件發生的預警準確率解釋度較好。

圖4 3組實驗數據在不同最大掃描半徑下的空間異質性情況Fig.4 Spatial heterogeneity of three groups of experimental data under different maximum scanning radii

本文借助測試集(2020年1月8-14日數據)驗證各方法的預測效果與泛化能力。如表5所示，本文方法與文獻[12]、文獻[18]方法的RMSE、MAE與MAPE相同，表明3種方法在泛化能力、預測效果方面一致，但本文方法選取的最大掃描半徑最小、耗時最短，優于另外兩種方法。

表5 3種方法泛化能力、預測效果及耗時比較Table 5 Comparison of generalization ability,prediction effect and time consumption of the three methods

為減少實驗結果的偶然性和隨機性，選取2020年1月1-7日、2月1-7日、3月1-7日3組數據進行對比實驗，并將2020年1月8-14日、2月8-14日、3月8-14日的數據作為驗證數據。用3種最大掃描半徑進行時空重排掃描并統計掃描耗時(表6)，發現本文方法在保證預警準確率的前提下，選擇1.25 km作為最大掃描半徑，耗時最短，效率最高。

表6 2020年1月、2月、3月時空重排方法及其優化方法時空重排掃描結果預警準確率及耗時對比Table 6 Comparison of early warning accuracy and time consumption of the scanning results of spatiotemporal rearrangement scan statistic method and its optimization method in January,February and March 2020

3 結論與展望

時空重排掃描統計方法是時空事件異常探測的常用方法，為擴展其普適性，本文提出一種基于歷史預警準確率的時空重排掃描最大掃描半徑優化方法：考慮歷史數據集的同期平均值對實際異常點的影響，采用二分法對歷史時空數據集進行回顧性時空重排掃描統計分析；選擇預警準確率最高的最大掃描半徑作為前瞻性掃描統計分析的最大掃描半徑。該方法在保證預警準確率的前提下，縮短了尋找合適最大掃描半徑的計算時間，從而優化了時空重排掃描統計方法的性能；在半徑選擇過程中，雖然會占用一些計算資源，但考慮到同一觀測點的長期觀測研究，可為未來預警節省更多計算資源。該方法仍存在不足之處：在篩選實際異常點時，使用歷史數據的同期均值作為判斷閾值，掃描預警可能會遺漏發生事件數較少的部分異常點；在選擇合適的最大掃描半徑時，需對研究區域歷史數據進行處理，對于歷史事件數量較少或缺失的監測點，會降低其普適性。今后將繼續對上述問題進行改進。