









關鍵詞:蒸發皿蒸發量;時間卷積網絡;K-近鄰算法;空間因素
中圖分類號:P426;TP183 文獻標志碼:A doi:10.3969/ j.issn.1000-1379.2024.06.019
引用格式:謝育珽,鄭翔天,史俊才,等.基于KNN-TCN 模型的蒸發皿蒸發量預測研究[J].人民黃河,2024,46(6):113-118,125.
陸地水量平衡的3 個基本要素包括降水、蒸發和徑流[1] 。蒸發是水分子從液態轉化為氣態的相變過程,是自然界水循環過程中的主導因素之一,能綜合反映水分和熱量,是水量平衡的重要影響因素[2] 。蒸發皿蒸發量是估算大氣蒸發量的重要指標之一。
蒸發過程具有高度復雜的物理和非線性性質,利用傳統經驗公式法很難對其進行精確預測[3] 。隨著深度學習方法的快速發展,加之其操作的簡便性和良好的泛化性,為蒸發皿蒸發量的預測研究提供了新思路。Afshin 等[4] 在印度喜馬拉雅中部地區,采用多層感知器神經網絡(MLPNN)、協同神經模糊推理系統(CANFIS)等對蒸發皿蒸發量進行了預測研究,結果表明基于螢火蟲算法的MLPNN 模型是Astara氣象站的蒸發皿蒸發量預測的最佳模型。塔布里茲大學將支持向量機(SVM)模型和K-近鄰(KNN)算法和隨機森林(RF)模型、高斯過程回歸(GPR)用于伊朗地區4 個氣象站的蒸發皿蒸發量預測研究,結果表明輸入氣象參數氣溫、風速、日照的高斯過程回歸(GPR)對蒸發皿蒸發量的預測最為準確[5] 。齊建東等[6] 引入注意力機制,對LSTM 模型進行優化,提出AT-LSTM 模型,對鹽池縣的蒸散發量進行精確預測,并將AT-LSTM 模型與ELM、SVM 兩種模型進行對比,驗證AT-LSTM 模型的性能,證明了注意力機制對LSTM 模型優化效果明顯。
利用深度學習模型對蒸發皿蒸發量預測進行建模有一定的優勢,實現起來較為簡單,且適用性較強。但是國內外大多數研究僅考慮氣象參數的時序特征,是基于觀測站單站點的研究,并沒有考慮到蒸發皿蒸發量的區域空間相關性,這樣會導致預測結果有一定的片面性,預測精度不高[7] 。因此,本文綜合了國內外研究現狀,將其中具有代表性的神經網絡模型、長短期記憶網絡模型和近年來提出的時間卷積網絡TCN 模型用于對中國地面國際交換站的蒸發皿蒸發量進行預測,探究模型的適用性,并引入K-近鄰算法對TCN 模型進行優化,構建預測混合模型。從時間和空間兩個方面充分獲取特征,對區域蒸發皿蒸發量進行全面和準確的預測,探尋穩定、可靠的蒸發皿蒸發量預測模型,以期為相關研究提供參考。
1研究區概況
本文的研究站點位于我國北方,遍布5 個省、1 個自治區和1 個直轄市,共計14個中國地面國際交換站,站點的地理位置見圖1(其中大同-53487、太原-53772為本文的預測目標站點,城市名稱后5 位數字為中國地面國際交換站區站號)。這14 個站點均屬于溫帶季風氣候區,夏季高溫多雨,冬季寒冷干燥,四季分明。其中大同、太原、介休、原平、運城、榆林和延安地面國際交換站位于黃土高原地區,海拔較高,受夏季風影響較弱,空中水汽較少,降水較少,氣溫年較差大;鄭州、安陽、石家莊、濟南和北京地面國際交換站位于華北平原地區,海拔較低,距離海洋較近,空氣中水汽豐富,降水量較多;呼和浩特地面國際交換站所處中溫帶大陸性季風氣候區,日溫差較大,春季干旱多風,夏季短暫,秋季降溫迅速,冬季漫長,為典型的蒙古高原大陸性氣候區;懷來地面國際交換站位于燕山地區,屬于中溫帶半干旱區,光照充足,雨熱同季,晝夜溫差大[8-10] 。
2數據來源與研究方法
2.1數據來源
本文數據源于國家氣象科學數據中心發布的中國地面國際交換站氣候資料日值數據集(V3.0)。選取了數據集中的7 類氣象參數,分別為氣溫、氣壓、相對濕度、降水量、蒸發量、風速和日照時數。研究中將1960 年1 月1 日至2019 年12 月31 日共計21 914 組日值氣象數據按照時間排序,然后利用滑動窗口的方法構建時間序列,設置時間步為6,即將連續6 d 的氣象數據作為一個最小時間序列,最終獲得了21 909 個時間序列數據。于是,把6 個時間節點的7 類氣象參數作為輸入項構成21 909×6×7 的矩陣,以下一個時間節點的蒸發皿蒸發量為輸出項構成21909×1×1 的矩陣。選取研究站點80%的數據作為訓練集,20%的數據作為測試集。
2.2研究方法
膨脹卷積是基于因果卷積改進而來的。由于原始因果卷積在處理較長的時間序列問題時,會導致網絡層數變多,模型結構變得很深,影響模型的預測效果,因此,膨脹卷積應運而生,引入膨脹因子,可以在有限的模型深度條件下,保持較大的感受野,同時也緩解了梯度消失或梯度爆炸的問題。
TCN模型引入殘差結構起到補充信息作用。其中,每個殘差結構由兩層一維膨脹卷積組合而成,并加入跨層連接的恒等映射,將原始輸入信息與經過膨脹卷積提取的信息相加,從而起到信息補充的作用;同時,殘差塊的引入使得淺層網絡很容易擴展為深層網絡。
TCN模型在時序預測問題上具有結構上的優越性,本文將該模型應用到蒸發皿蒸發量的預測上,探究TCN 模型的適用性。
2.2.2K-近鄰算法
K-近鄰(K-Nearest Neighbors,KNN)算法是一種較為簡單的監督分類算法[12] 。KNN 算法的總體思想是將分類目標與現有樣本進行距離度量,找分類目標與樣本之間距離最近的K 個樣本點,K 個樣本中哪個類別的數量最多,此樣本的類別為分類目標的類別,其中分類目標可以是一維、二維或多維。
假設數據集有兩類不同的樣本數據,分別用黃色的小正方形和綠色的小三角形表示(見圖2)。圖2 正中間紅色的圓點代表分類目標點,不同的樣本分別對應特征空間中的一個點。
KNN 算法中K 值的選擇直接影響到分類精度。假設K=3,紅色圓點的最鄰近的3 個點分別是2 個綠色小三角形和1 個黃色小正方形,少數從屬于多數,判定紅色的分類目標點屬于綠色的三角形一類;K=5,紅色圓點的最鄰近的5 個點分別是2個綠色小三角形和3 個黃色小正方形,同樣少數從屬于多數,判定紅色的分類目標點屬于黃色的正方形一類。因此,K 值的選擇影響到分類的結果。
KNN 算法能夠對時間序列進行距離度量,并作為區域內序列時間相似性的分類算法,為空間因素的篩選提供依據。常見的距離度量方法有歐氏距離(Eu?clidean Distance)、曼哈頓距離(Manhattan Distance)和切比雪夫距離(Chebyshev Distance)3 種,本文所使用的為歐氏距離。
表1、表2 是基于歐氏距離對目標站點大同-53487、太原-53772的空間因素的篩選結果,K 值越大,所需的空間因素個數就越多。依據篩選結果,本節設置了兩個目標站點26 組對比試驗,探究最優K 值,從而得到最佳TCN 預測模型,預測結果見表3。不同歐氏距離(K 值)對應的均方根誤差如圖3所示。
由表3、圖3 可知,隨著空間因素的增多(即空間相關性站點數量增多),TCN 模型預測的判定系數有所升高,平均絕對誤差和均方根誤差有所降低。當K =4時,目標站點太原-53772 的預測效果最好,平均絕對誤差、均方根誤差、判定系數分別為0.33651 mm/ d、0.693 80 mm/ d、0.880 43;當K >4 時,TCN 模型的判定系數小幅降低。因此,K = 4 時為預測目標站點太原-53772 站最優模型;同樣,K = 6 時為預測目標站點大同-53487站最優模型,平均絕對誤差、均方根誤差、判定系數分別為0.59967mm/ d、0.90201mm/d、0.84464。
本文將最優K 值的KNN-TCN 模型與LSTM 模型和TCN 模型做對比,預測目標站點太原53772 站模型預測結果分析見表4。由表4 可知,KNN-TCN 模型利用區域空間因素,比基礎KNN 模型對蒸發皿蒸發量的預測效果提升十分明顯,KNN-TCN 模型的判定系數相較于TCN 和LSTM 模型提升了2.52%和4.60%、平均絕對誤差相較于TCN 和LSTM 模型降低了0.239 73mm/d 和0.261 82 mm/d、均方根誤差相較于TCN 和LSTM 模型降低0.130 60mm/d 和0.18556 mm/d。
KNN-TCN模型的預測效果較好原因為:一是加入了空間因素,二是空間因素的篩選利用歐氏距離進行度量較為合理。在此繪制目標站點觀測值與預測值的擬合圖(見圖4)、回歸圖(見圖5),將預測結果進行可視化。
由圖4 可知,蒸發量的變化具有明顯的周期性和季節性,在年變化中,具有明顯的單峰趨勢,整體的蒸發量變化呈現夏季偏高、冬季偏低的特點。從宏觀預測效果來看,3個預測模型均能較好地擬合蒸發皿蒸發量的變化趨勢;從局部擬合效果來看,KNN-TCN模型對峰值和谷值的擬合效果最好,預測效果明顯優于LSTM 和TCN模型。
由圖5可知,紅色虛線Y=X是預測結果回歸的“完美直線”,即模型預測值完全等于站點觀測值。若模型預測值無限接近于站點觀測值,那么所繪制的點數據就無限靠近Y =X 直線,總體呈現離散點少且繪制點的離散距離近的特點。在區間[0,2]中,3種模型的預測效果均不錯,離散點較少,離散距離較近。隨著蒸發皿蒸發量的數值增大,預測效果變差,離散點較多,且繪制點偏離Y =X直線的距離越來越大。從整體可以看出,KNN-TCN模型的離散點個數最少,相較于LSTM 和TCN 模型,KNN-TCN模型預測結果更加接近Y =X 直線。
綜上可知,3種預測模型均能較好地擬合蒸發皿蒸發量,其中KNN-TCN 模型對峰值和谷值的擬合效果最好,明顯區別于其他模型;同時,KNN-TCN 模型的離散點最少,即模型預測值與觀測值無限接近。
4結論
1)TCN 模型僅僅在單站點的時間序列中對蒸發量預測效果較好。KNN 作為較好的分類算法,將蒸發量的空間因素進行了有效篩選,在時間和空間雙因素作用下,TCN 模型的蒸發皿蒸發量預測效果提升明顯。
2)TCN 模型的膨脹卷積和恒等映射是時序問題中有效保留了歷史信息的重要手段。
3)在太原地面國際交換站的蒸發皿蒸發量的預測試驗中,KNN-TCN 模型的平均絕對誤差、均方根誤差和判定系數分別為0.336 51 mm/ d、0.69380mm/d、0.880 43,預測結果明顯優于LSTM 模型,同時相較于基礎TCN 模型, 在3 項評價指標上分別優化了23.97%、13.06%、2.52%;在空間因素的距離度量試驗中,歐氏距離的篩選結果較好。KNN-TCN 模型充分利用了蒸發皿蒸發量的時間因素和空間因素,對蒸發皿蒸發量的預測效果提升明顯。