高月明,林清華,柳樹票,徐朝陽
(廣東華南水電高新技術開發有限公司,廣東 廣州 510610)
雨量異常數據是雨量站自動測報的非自然、不真實的雨量,如偏大或偏小。由于設備或操作等因素,自動測報的雨量不可避免地含有異常數據,可能引發錯誤預警,為災害防范工作帶來困擾。雨量站數量巨大,自動測報頻繁,絕大多數無人值守,使得人工校驗雨量成為不可能。因此,應用有效方法實時檢測并自動過濾異常雨量是非常必要的。
目前,國內外已有較多用于檢測雨量異常數據的方法,比較常見的有基于規則、統計和機器學習的方法。
基于規則的方法從業務知識或專家經驗中總結異常雨量的匹配規則。例如極值檢測方法規定雨量的正常范圍,判定范圍之外的雨量為異常[1-2];缺測檢測方法計算雨量站缺失測量值的次數或時長,判定缺測過多的雨量為異常[2];連續無變化檢測方法判定長時間保持某一數值的雨量為異常[2];內部一致檢測方法判定與相關氣象、設備狀態和遙感等要素不一致的雨量為異常[3-4]。基于規則的方法能夠快速而準確地找出符合規則的異常雨量,但可能會受限于不完善的規則庫無法周到照顧各種特殊情況。
基于統計的方法運用統計學理論探究雨量統計分布或建立預測模型。例如箱形圖、拉依達準則(PauTa’s Criterion)、肖維勒準則(Chauvenet’s Criterion)、格拉布斯檢驗(Grubbs’ Test)和迪克遜檢驗(Dixon’s Q Test)等檢測方法判定足夠遠離樣本分布主體的雨量為異常[5-8]。線性或廣義線性模型、馬爾可夫隨機場(Markov Random Field)等模型預測雨量,判定與預測值有顯著殘差的雨量為異常[7,9]。基于統計的方法能夠綜合考慮數據整體,但也因此容易被邊緣數據撬動。如果數據不全、數據偏離總體或異常數據占比較大,統計分布或預測模型就不能準確反映真實情況。
基于機器學習的方法通過監督學習、半監督學習或無監督學習等算法模型對雨量進行分類、聚類或預測。例如變分自動編碼器(Variational Auto Encoder)輸入雨量和多元氣象要素,生成雨量異常的概率分數,判定分數超過閾值的雨量為異常[10]。類似于統計預測,機器學習模型也預測雨量,判定與預測值有顯著殘差的雨量為異常[11-12]。此類方法靈活性高,擁有很強的學習能力和自適應性,但模型所學到的內容很大程度上取決于數據集,如監督學習要投入大量精力標注數據。如果用于建模的數據集不具有代表性,那么所建立的模型泛化能力就不會太高。
目前,各類方法主要應用在時間維度上,針對單一雨量站的雨量時間序列,解釋雨量的趨勢和周期性變化,而在空間維度相鄰的雨量站可以相互驗證同時刻雨量的劇烈變化[13-14]。本文以廣東省內5 967座雨量站實測雨量為依據,探究雨量在空間平面上的相關性,將拉依達準則、肖維勒準則、格拉布斯檢驗和狄克遜檢驗4種統計方法運用到空間維度對比分析,以期找到一種準確過濾異常雨量的方法,為防汛預警部門提供有效的技術支持。
數據來源于廣東省5 967座雨量站(圖1),包含2022-6-18 4:30、2022-6-21 4:00、2022-6-21 7:45、2022-6-21 8:45和2022-6-21 10:00等5個時刻的15 min雨量記錄。因部分雨量站損壞、維護等造成數據缺測,上述5個時刻雨量分別有4 889、4 794、4 840、4 804、4 995條,共計24 322條雨量記錄。每條雨量記錄包含測站編碼、測站名稱、東經、北緯、時間和雨量等變量,見表1。

圖1 廣東省雨量站地理信息

表1 15分鐘雨量示例
與小時整點雨量相比,15分鐘雨量粒度更小,容易發現細微差異,減少漏掉長時段里不同雨量站的實時雨量存在較大差異而累計雨量卻相近的情況。雨量時間序列的變化相當劇烈(圖2)。單從時間維度完全解釋短時雨量的趨勢和變化是十分困難的。

圖2 青年水庫雨量時間序列
方法包括區域劃分和假設檢驗等統計方法。區域劃分針對某中心雨量站將其周邊的雨量站劃分到該中心雨量站的分組。統計方法推斷該中心雨量站某時刻雨量在其組內是否異常。
區域劃分利用經緯度坐標和測地線計算雨量站之間的距離,針對某中心雨量站將與其相距特定范圍內的雨量站劃分到該中心雨量站的分組。分組可重疊,即每座雨量站既是自己分組的中心雨量站,也可能是其他一組或多組的周邊雨量站。
區域劃分的關鍵是選擇合適的距離閾值,為此選擇廣東省內相距20 km以內的關聯雨量站,篩選出兩雨量站相同時段有雨的雨量,計算其皮爾遜相關系數,探究相鄰雨量站雨量相關程度與其距離的關系。假設兩雨量站各有n條對應雨量,相關系數公式如下:
(1)

相鄰雨量站雨量相關程度隨其距離的變化見圖3,雨量相關程度隨距離變遠而大致呈下降趨勢,且趨勢慢慢減弱,點逐漸發散。兩雨量站距離越近其雨量相關程度越強,距離越遠其雨量相關程度越弱,但也存在少數不符合認知的特殊情況,如距離非常近的雨量站其雨量卻幾乎不相關,或者距離非常遠的雨量站其雨量卻高度相關,甚至還有高度負相關。特殊情況可能包含異常雨量,也可能是由復雜的環境因素造成的,如地形。高山相隔的雨量站即使距離近,其降雨規律也會非常不同。

圖3 雨量相關程度與雨量站之間距離的關系
綜合考慮上述關系和雨量站密度,區域劃分選擇10 km作為距離閾值,針對某中心雨量站將與其相距10 km以內的雨量站劃分到該中心雨量站的分組,圖4所示圓圈是以下洋水庫雨量站為中心的分組。

圖4 下洋水庫周邊24 h雨量分布
假設上述劃分的某區域中有n座雨量站,其某時刻的雨量樣本,可以利用拉依達準則、肖維勒準則、格拉布斯檢驗和狄克遜檢驗判斷某雨量站的雨量在其區域內是否異常。對于一維的雨量,異常數據通常為離群點,表現為遠離樣本總體的極值。
2.2.1拉依達準則
拉依達準則通過離群點與樣本均值的差值判斷該離群點是否異常,是應用最普遍的一種異常數據檢測方法,適用于較大樣本(一般不低于10)。它計算中心雨量站的雨量與樣本均值的差值和樣本標準差:
(2)
(3)

如果差值D大于3s,則可疑值被認定為異常[15-16]。
2.2.2肖維勒準則
肖維勒準則同樣通過離群點與樣本均值的差值判斷該離群點是否異常,但增加考慮樣本容量。如果差值D>ws,則可疑值被認定為異常。其中,w為肖維勒準則的系數,對應不同的樣本容量。根據肖維勒準則,當樣本容量為200時,肖維勒準則系數為3,拉依達準則才有效[15,17]。
2.2.3格拉布斯檢驗
格拉布斯檢驗通過衡量離群點遠離樣本均值的程度來判斷該離群點是否異常,通過式(4)—(6)計算檢驗統計量G:
(4)

上限檢驗統計量G為:
(5)
式中xmax——區域中的最大雨量,mm。
下限檢驗統計量G為:
(6)
式中xmin——區域中的最小雨量,mm。
上限檢驗統計量用來檢驗區域中的最大雨量是否異常,而下限檢驗統計量用來檢驗區域中的最小雨量是否異常。如果計算得到的統計量大于格拉布斯檢驗的臨界值,則可疑值被認定為異常。臨界值與樣本容量和置信度對應。置信度α表示將不拒絕(1-α)%的數據,即對判定的異常有(1-α)%的自信[15,18-19]。
2.2.4狄克遜檢驗
狄克遜檢驗通過衡量離群點遠離樣本群體的程度來判斷該離群點是否異常,適用于較小樣本(一般不超過30)。它按照升序排列雨量樣本,通過式(7)計算檢驗統計量Q:
(7)
式中xc——中心雨量站的雨量,mm;xa——升序排列中與xc最近的雨量,mm;xmax——區域中的最大雨量,mm;xmin——區域中的最小雨量,mm。
狄克遜檢驗統計量的計算公式在不同樣本容量上也有區別(表2)。類似格拉布斯檢驗,上限檢驗統計量用來檢驗區域中的最大雨量是否異常,而下限檢驗統計量用來檢驗區域中的最小雨量是否異常。如果計算得到的統計量大于狄克遜檢驗的臨界值,則可疑值被認定為異常。臨界值同樣與樣本容量和置信度對應[20-21]。

表2 樣本容量與狄克遜檢驗統計量公式對應
24 322條雨量記錄對應24 322個分組,除去經緯度為0、雨量站少于3座等無效分組,剩余23 228個分組。每組平均包含15.96座雨量站,組內周邊雨量站平均距離其中心雨量站6.33 km。雨量站數量分布和各雨量站到其中心雨量站距離分布見圖5。

a)分組雨量站數量分布
假設當半徑為10 km的圓形區域內普遍降雨時,其雨量也近似服從正態分布,但左側被0截斷。夏皮洛-威爾克檢驗(Shapiro-Wilk Test),簡稱S-W檢驗,對雨量進行正態性檢驗,統計量接近1,P值大于0.05,表示雨量樣本來自正態分布[22]。經過檢驗,79%(18 246/23 228)分組的區域雨量能通過S-W檢驗(表3)。

表3 區域雨量S-W檢驗
4種統計方法推斷23 228個分組的區域雨量的報錯率(預測陽性數量/數據數量)分別為0.33%、1.08%、0.96%和0.91%。對比測試過程分別用4種方法區分236條正樣本和472條負樣本,得到混淆矩陣,見表4—7。

表5 肖維勒準則的混淆矩陣

表6 格拉布斯檢驗的混淆矩陣

表7 狄克遜檢驗的混淆矩陣
拉依達準則判定雨量異常的條件非常寬松,是真陽性和假陽性(第二類錯誤)最少的,也是真陰性和假陰性(第一類錯誤)最多的,僅將2例真實正常雨量辨別成了異常雨量,卻放過了大量的真實異常雨量;另外3種方法的結果十分相似,但值得注意的是,肖維勒準則判定雨量異常的條件最嚴厲,是真陽性和假陽性最多的,也是真陰性和假陰性最少的;然后依次是格拉布斯檢驗和狄克遜檢驗條件相對寬松一點,可能與置信度的選擇有關,但更大程度上是受區域劃分的分組中異常雨量不唯一影響。
為進一步量化對比4種方法,計算準確率、精確率、召回率和F1分數等衡量方法準確性的指標,見表8。準確率為判斷正確的結果占總樣本的百分比:
(8)
精確率為預測為正的樣本中實際為正樣本的百分比:
(9)
召回率為實際為正的樣本中被預測為正樣本的百分比:
(10)
F1分數被定義為精確率和召回率的調和平均數,是衡量二分類準確性的一種指標:
(11)

表8 統計推斷方法的準確性指標
綜合對比4種方法,肖維勒準則表現最好,雖然精確率稍低,但其他各項指標都是相對最好的。當流程多次檢測到同一雨量站在不同時刻的雨量異常時,那么判定該雨量站的雨量異常的準確性將大大提高。
雨量野值很少,異常最普遍的原因是雨量計的關鍵水流通路被異物阻塞,使得承雨器內承接的雨水無法及時流下,造成雨量計讀數不準。阻塞影響水流速度,當實際降雨快于承雨器內雨水下滲的速度時,表現為該雨量站讀數比周圍雨量站讀數小。阻塞嚴重時,測量雨量甚至經常為0,見圖6。當實際降雨慢于承雨器內雨水下滲的速度且承雨器內尚存大量積水時,表現為該雨量站讀數比周圍雨量站讀數大,見圖7。

圖6 小地水庫周邊同時段雨量分布

圖7 茶亭下水庫周邊同時段雨量分布
雨水下滲很慢很均勻,使得急促的降雨沿時間平展開來,表現為雨量時間序列很平滑,甚至保持同一讀數直到承雨器內所有雨水滲完曬干,見圖8、9對比。

圖8 茶亭下水庫雨量時間序列(阻塞)

圖9 雞公塘水庫雨量時間序列(正常)
同時刻雨量在空間分布上具有很高的相關性,其距離越近相關系數越高的規律符合基本生活常識,也為從空間平面判斷某點雨量是否異常提供支持。當區域內普遍降雨時,該區域內的雨量近似服從正態分布,為應用統計方法推斷異常雨量提供假設依據。對比4種統計方法,各有利弊。拉依達準則過于保守,但卻是精確率最高的;格拉布斯檢驗和狄克遜檢驗理論上更精妙,但容易被區域分組中多個異常雨量干擾。綜合評價肖維勒準則表現最好,簡單便捷,且各項指標都相對優秀。需要注意的是在選用拉依達準則時盡量保證區域內雨量站大于等于10座,其他3種方法大于等于3座。事實證明,從空間平面判斷某點雨量是否異常是可行的,能夠切實幫助水利監管部門提高預警質量,降低人工成本。但該領域方法還有很大進步空間,從數據特征的角度,考慮充分利用時間和空間雨量,同時加入經緯度和距離權重或許能夠有更好的效果;從區域劃分的角度,距離、地形、氣候等因素值得深入探究;從判斷方法的角度,運用自適應的人工神經網絡等機器學習模型,識別異常雨量的準確性和穩定性定能有全面大幅提升。