孔 震,張華魯,2,岳圣凱,袁明磊,路 通
(1. 南瑞集團有限公司,江蘇 南京 211106;2. 東北電力大學電氣工程系,吉林 吉林 132012;3. 南京大學計算機軟件新技術國家重點實驗室,江蘇 南京 210023)
天氣預測在電力系統的電力規劃、防災減災、實時監測等諸多領域都有著非常重要的作用,如光伏發電系統的輸出功率很大程度上取決于光伏面板所能接收到的太陽輻射量,且與多種天氣因素直接相關,光伏輸出功率的預測則離不開天氣的預測[1]。再如風力發電系統,由風速隨機變化引起的風電功率波動直接影響電力系統的穩定和控制[2]。在防災減災方面,隨著全球氣候變暖和環流異常,極端天氣的出現愈加頻繁,近幾年我國南方發生的冰災事故造成了電網大面積的倒塔、桿塔損壞、斷線、絕緣子脫落等故障,導致大面積、長時間停電,嚴重影響正常生產和生活,帶來了沉重的電網修復負擔。為了能夠提早預測冰災類天氣、及時部署預防措施,對氣溫和風速等天氣信息進行及時準確的預測非常必要。
傳統的天氣預測主要是通過衛星云圖、統計學或動力-統計方法來進行的。近年來隨著人工智能技術的飛速發展,出現了許多與其相關技術進行天氣預測的研究,在智能化程度和精準度等方面有了一定提升。如深度網絡中的循環神經網絡(recurrent neural network,RNN)、長短時記憶網絡(long short-term memory network, LSTM)[3],作為時序預測研究方法和手段得到了廣泛關注,在天氣預測的研究中也取得了良好的效果。
目前的研究已經取得了很多進展,但是由于天氣預測問題本身的復雜性和困難性,直今仍舊是一個沒有完全解決的問題。為了進一步提高天氣預測的精度,本文基于深度學習中的時域卷積網絡(temporal convolutional network, TCN)對天氣預測問題進行了研究,發現TCN在很多時序預測任務中有著比RNN更好的表現[4]。進一步地,本文提出一種新的基于TCN的多尺度雙線性天氣預測模型,可利用歷史天氣觀測數據進行學習,進而輸出對未來天氣的預測值。為了驗證該模型的有效性,還在大型公開天氣數據集上與多種常用天氣預測模型進行了對比。實驗結果表明,與現有常見天氣預測模型相比,該模型能夠在多項天氣指標的預測精度上達到或超過已知的現有方法。達到更加準確預測冰風災害的目的,以最大限度的減少冰風災害對輸電線路帶來的各種損失,具有非常重要的現實意義。
從已知的歷史氣象信息推測未來時段的天氣信息,是一種典型的時間序列分析-預測問題。深度學習方法中使用最為廣泛的序列處理方法則是基于RNN及其改進模型,如LSTM、門控循環單元(gated recurrent unit,GRU)[5]及HUANG等[6]將遞歸注意模塊與CNN結合的新方法等。LSTM和GRU都在序列預測任務中取得了良好的效果。然而這類模型存在時序上的計算連接、無法進行并行優化、需要消耗大量的計算資源的問題。
BAI等[4]提出使用TCN對時序任務進行建模,其好處在于TCN可以使用并行計算的方法運行,比起RNN更加高效,對于長輸入序列,訓練需要的內存更少;YUAN等[7]提出了一種基于雙因素注意力機制的天氣預測模型,并得到了比LSTM等傳統時序預測方法更好的結果;LEA等[8]在TCN的基礎上提出了一種編解碼模型,在計算機視覺檢測和分割問題上取得了比RNN更好的效果;ZENG等[9]通過實驗證明了TCN應用于堿基檢測實際任務中在準確性和速度方面具有巨大的潛力;同時,BAI等[4]在11個不同的問題上將TCN與LSTM,RNN,GRU等方法進行了比較,結論是TCN不僅速度更快,而且有更高的精度。但由于TCN是一維的卷積結構,因此特征表征能力受卷積感受野的限制,在長時數據上,預測精度的表現不盡人意。
針對上述問題,本文進一步結合天氣數據的特征,設計了一種新的基于TCN的多尺度雙線性模型,通過加強網絡的特征表達能力,提高了TCN的長時間預測能力,并在長時間預測的多項指標上達到了本文所知的最好結果。
1.1.1 輸入
輸入Y包括2部分:①Y1是過去一段時間的歷史氣象信息;②Y2是超級計算機的預測值。歷史中的T個連續時刻(1,2,···,T),與其對應的天氣指標觀測值記為Y=(y1,y2,···,yT),對應的超級計算機預測值記為,其中某個時刻t所對應的氣象信息數據yt包含了k個天氣指標值,其可表示為。
1.1.2 輸出
輸出是未來一段時間的氣象信息,包括未來的P個連續時刻對應的天氣指標值,可表示為,其中每個時刻的數據同樣包含k個天氣指標值。
1.1.3 天氣預測模型
定義了輸入輸出后,天氣預測模型F可以表示為

在基于神經網絡模型的時序問題研究中,通常采用RNN結構,如經典的LSTM,GRU網絡等,另外一種經典網絡結構——卷積神經網絡則通常被用于圖像數據的深度學習。最新的研究結果表明,在某些任務上,如音頻合成、機器翻譯等,卷積網絡結構可以達到甚至優于RNN的效果,用于時序問題的卷積網絡叫做TCN。
典型的TCN網絡的基本結構如圖1所示。

圖1 時域卷積網絡模型Fig. 1 Temporal convolutional netwok
其中,TCN中包含了3種基本的結構:因果卷積[10]、擴張卷積[11]和恒等映射[12]。
1.2.1 因果卷積
為了保證沒有未來信息的泄露發生,TCN中嚴格按照時間先后順序進行卷積操作,即時刻t的卷積操作僅發生在前一層的時刻t-1和t-1之前的數據上,不妨令卷積核為F=(f1,f2,···,fK),其中K為卷積核的大小,輸入序列為X=(x1,x2,···,xT),則xT處的因果卷積可以表示為

1.2.2 擴張卷積
由于簡單因果卷積網絡的感受野與網絡的深度呈線性關系,學習長時間時序依賴關系時網絡會變得非常深,引入擴張卷積可以減少簡單因果卷積的深度,引入擴張卷積后的因果卷積操作為

其中,d為擴張卷積的系數。
為了能讓網絡學習到更長的時序依賴,需讓天氣預測模型能夠利用更早的氣象數據,可以通過擴大TCN中卷積的感受野來實現,也就是增加卷積核的大小K或者增大擴張系數增加卷積核的大小d。本文所提方法通過增大擴張系數來擴大卷積感受野,從而實現多尺度。擴張系數可選參數分別為1,2,4,6,8。
1.2.3 恒等映射
為了學習到長時間依賴,網絡的深度變大,再加上擴張卷積,網絡的穩定性就變得很重要。為了增加網絡穩定性,還要加入恒等映射,加上恒等映射后網絡的輸出結果為

LIN等[13]提出一種適用于二維圖像卷積的雙線性池化方法,其在一階信息相同時,利用了二階信息的不同進行分類的優化,在細粒度圖像分類領域取得了當時最好的效果。LIN等[14-15]在后續的實驗中證明,由于引入高階統計信息的同時會帶來計算復雜度成倍的提升、特征矩陣更加病態難以優化等問題,綜合訓練效率與測試性能,雙線性的方法要優于三線性、四線性等。因此,為了合理地將多尺度TCN提取到的特征進行有效融合,同時引入高階信息以增強方法性能,本文提出一種適用于一維卷積的雙線性池化方法,令模型中一路TCN卷積層輸出為A1=(a1,···,an),另一路輸出為A2=(a′1,···,a′n),雙線性層的融合輸出G′為

雙線性的輸出層是格拉姆矩陣,實際可以看作特征之間的偏心協方差矩陣,每個元素由特定濾波器在特定位置卷積得到,格拉姆計算實際上是計算兩兩特征之間的相關性,而對角線元素度量各個維度自己的特性以及各維度之間的關系。取G′的對角線元素并按式(6)~(8)進行規范化,得到雙線性層的最終輸出G,即

其中,diag(·)為取矩陣的對角線元素作為輸出向量。
本文提出一種基于TCN的多尺度雙線性模型來進行天氣預測,該模型的框架如圖2所示。

圖2 基于TCN的多尺度雙線性天氣預測模型Fig. 2 TCN-based multi-scale bilinear weather prediction model
整個模型包含雙路TCN網絡,每個TCN網絡由擴張(因果)卷積層構成,每個卷積層應用修正線性單元(rectified linear unit,ReLU)作為激活函數,另外為了緩解過擬合現象,加入了隨機丟棄層(Dropout),為了增強網絡的穩定性,還加入了恒等映射層,2個不同尺度網絡(在右分支網絡加入了d=6的卷積層后,兩路輸出可視為不同網絡得到)的輸出在雙線性層進行雙線性融合,在規范化操作后,最終得到網絡的輸出。除去擴張卷積帶來的卷積核尺度變化之外,其余網絡參數均保持一致。
最后,本模型訓練過程中采用均方差函數(mean square error,MSE)作為損失函數,其計算方法如下

其中,p為天氣預測的時間長度;q為每個時刻所預測的天氣指標的個數;為預測值;為實際觀測值。
本文的實驗是在天氣預報數據集2018上進行,其是一個由全球AI挑戰賽所提供的基準數據集[16]。WFD2018的數據采集是通過多站點的、多維度、長序列且高時間密度的氣象觀測站得到的。該數據集包含了北京10個氣象站點,共3年多的逐小時歷史觀測和氣象預測數據組成,由中國氣象局北京城市氣象研究所公開發布,時間跨度長、密度高、缺失少。數據集由兩部分組成:一部分由氣象觀測站通過氣象儀器實時監測獲得的9個地面氣象要素組成;另一部分由中國北京氣象局獲得的29個氣象預測要素組成,這個29個氣象預測要素是氣象要素估計值。
本文所采用的訓練數據包括了從為2015年3月1日至2018年5月31日的樣本,共1 188天。而validation集則為2018年6月1日至2018年8月18日的樣本,共89天;test集A覆蓋從2018年8月29日至2018年9月24日的樣本,共27天。
為了評估基于TCN的天氣預測模型,本文在實驗中主要考察了該模型對多個氣象站的3項天氣指標的預測結果,包括了地面以上2 m高度處溫度(單位:℃)、地面以上2 m高度處相對濕度(單位:%)和地面以上10 m高度處風速(單位:m/s)。
這里采用3個評價指標來衡量預測效果,分別是均方根誤差(root mean square error,RMSE)、平均絕對百分比誤差(mean absolute percentage error,MAPE)和確定系數(R2)。
其中,RMSE與所評估數據一致的數值大小有關,而MAPE和確定系數與數值大小無關,只與重合度有關。特別是確定系數,可衡量變量之間的線性相關性。RMSE和MAPE越接近0,則意味著預測值與真實值越接近。當確定系數接近1時,說明預測值和實際值之間有著很強的相關性。這4個評估指標的數學定義如下:
(1) 均方根誤差

(2) 平均絕對百分比誤差

(3) 確定系數R2

WRF (the weather research and forecasting model[17]):是一種傳統的氣象預測模式,不僅可以用于真實天氣的個案模擬,也可以用其包含的模塊組作為基本物理過程探討的理論根據。
GBR(gradient boosting regressor[18]):是一種嵌入式學習方法,適用于回歸預測任務,有著很強的泛化性能。在本文的對比試驗中,GBR模型采用了100個深度為5的基礎估算子。
LED(LSTM encode decode[19]):基于LSTM編碼-解碼模型的方法,適用于序列預測人物。將輸入轉換為一個固定長度的向量,而解碼過程將該向量解碼為一個輸出序列。
LEDA (LSTM encode decode with attention[20]):加入了時序注意力的LSTM編碼-解碼模型。注意力機制可以克服將輸入序列轉化為固定長度向量的問題。
為了對本文所提出的基于TCN的多尺度雙線性天氣預測模型的實際效果進行評估,在上文提到的WFD數據集上進行了天氣預測實驗,實驗采用一次處理數據長度為128,預測長度為24,得到實驗結果見表1~3。

表1 地面上2 m相對濕度預測結果對比Table 1 Comparison of prediction results of 2 m relative humidity on the ground

表2 地面上2 m溫度預測結果對比Table 2 Comparison of prediction results of the temperature of 2 m above ground

表3 地面上10 m高度風速預測結果對比Table 3 Comparison of prediction results of wind speed at 10 m height on the ground
從表1~3的數據可看出,本文提出方法在3類9項指標中,5項指標優于TCN,1項與TCN持平,3項略遜于TCN,并在4項預測指標上達到了本文所知的最好效果,因此,本文所提出的多尺度、雙線性方法在WFD數據集上經過驗證是有一定效果的。為了證明本文方法在長時數據上可以改善TCN捕獲時序能力較差的問題,在WFD數據集上,分別在預測用歷史數據長度參數為32,64,128,其預測長度分別為6,12,24的情況下,與TCN進行對比試驗,實驗結果分別如圖3~5所示。圖中顯示,本文方法在面對長時數據時,相較于TCN更加的穩定,部分預測指標更加精確。

圖3 地面以上2 m高度處濕度對比Fig. 3 Comparison of humidity at a height of 2 m above the ground

圖4 地面以上2 m高度處溫度對比Fig. 4 Temperature comparison at a height of 2 m above the ground
為了評估網絡參數dilate對實驗效果的影響,以地面上2 m溫度(℃)RMSE為評價指標進行對比試驗,一次處理數據長度為128,預測長度為24,其中TCN-1參數保持不變,逐漸增加TCN-2中的不同尺度d的卷積層。實驗結果如圖6所示,綜合3個指標,本方法在d=6時表現最佳。

圖5 地面以上10 m高度處風速對比Fig. 5 Comparison of wind speed at a height of 10 m above the ground

圖6 不同尺度對模型性能影響Fig. 6 The impact of different scales on model performance
針對TCN面對長時數據預測效果不盡人意的問題,本文提出了一種基于TCN的多尺度雙線性的天氣預測方法。多尺度卷積可以提升模型卷積的感受野,在處理像天氣這種季節性數據時,可以增強模型對局部信息特征變化的處理能力,學習到更好的時序特征。雙線性池化操作可以在一階統計信息相同的情況下利用模型的二階統計信息,在多尺度特征中融合各個尺度所特有的維度關系,從而使多尺度的方法更容易訓練和擬合。經過實驗驗證,本文提出的天氣預測模型在WFD數據集上有一定的優勢。