



摘要:
為了提高傳統潮位插補方法的計算精度,以黃浦江的4個站點為研究對象,采用了LightGBM(Light Gradient Boosting Machine)人工智能算法構建了潮位序列相關關系模型,并進行了誤差分析。結果表明:LightGBM算法能夠有效建立輸入特征與輸出響應之間的復雜非線性關系,適用于潮汐波動傳播過程中的內在相關性分析。隨著輸入特征值維度的增加,模型預測精度在初期快速提高,隨后逐漸趨于穩定,且預測誤差隨著源數據站點與目標數據站點距離的減小而減小,計算得出了誤差均方根為0.016 9 m的目標站潮位預測插補值序列,驗證了該方法在潮位資料插補計算中的有效性。研究成果為潮位插補提供了一種新的方法,有助于提高潮位觀測數據的連續性。
關鍵詞:
水文測驗; LightGBM; 人工智能算法; 潮位插補; 黃浦江
中圖法分類號:P333.9
文獻標志碼:A
DOI:10.15974/j.cnki.slsdkb.2025.03.004
文章編號:1006-0081(2025)03-0021-04
收稿日期:
2024-03-15
作者簡介:
錢" 春,男,工程師,主要從事水文測驗方面的工作。E-mail:2037344@qq.com
引用格式:
錢春.人工智能算法在潮位數據插補中的應用
[J].水利水電快報,2025,46(3):21-24.
0" 引" 言
潮汐運動是一種規律性的自然水文現象,是由月球和太陽等天體引力對地球表面液態水體(主要是海洋)產生的周期性擾動所引起的海平面升降和海水水平流動[1]。掌握潮汐規律對于船舶進出港口、安全航行、海洋資源利用、海洋能源開發、保護環境等至關重要。因此,中國在沿海地區設有眾多潮位站,目的就是實時監測潮位,在此基礎上進行精準的水文預報與深入分析。在實際觀測中,水文原始數據缺失較為普遍,其成因多樣,包括但不限于觀測站點條件變遷、監測儀器故障、電力供應中斷以及人為操作失誤等多種因素,對后續的水文分析造成一定影響。水文資料整編中采用直線插補法、比例插補法對潮位資料進行插補。但在感潮河段,上潮波傳播受徑流、地形等因素的影響,沿程呈現出非線性變化規律[2],缺測時間較長時使用傳統方式插補的精度較差,難以滿足實際需求。
隨著人工智能算法的應用日益廣泛,其優點在于有效構建輸入特征與輸出響應之間的復雜非線性聯系,這一特性適用于探究潮汐波動傳播過程中的內在相關性分析。LightGBM(Light Gradient Boosting Machine)是一種基于梯度提升框架的機器學習算法,專門用于解決分類和回歸等問題,由微軟團隊開發,屬于一種輕量級(Light)的梯度提升機器(GBM),是GBDT(Gradient Boosting Decision Tree)模型的另一個進化版本。黃浦江地處長江入??诟谐焙佣?,潮位受外海潮汐、海岸地形、河流徑流等因素共同影響[3-4]。本文以黃浦江段上、下游4個站點為例,提出了使用LightGBM算法構建上下游站潮位序列相關關系模型,實現潮位序列的插補計算,并進行了初步誤差分析。
1" 研究區域與數據
研究站點為黃浦江段上沿江4個站,從下游至上游分別為金匯港北閘(閘外)、沙港、松浦大橋、米市渡站,站點間沿河道距離分別為9.6,9.0 km和7.3 km,地理位置如圖1所示。使用數據為2013~2023年的實測潮位過程序列,采樣間隔為5 min,潮位高程基面為吳淞基面,時間為北京時間。
2" 研究方法
2.1" LightGBM算法原理
LightGBM算法是一種能將特征向量轉化成整數構造的直方圖,再基于GBDT算法采用分布式計算方式的決策樹算法。在遍歷整個數據集的過程中,算法會將離散化后的值作為索引,在直方圖中累積統計量,即將離散后的特征值放入直方圖對應的數據塊中,每個數據塊的高度表示該數據塊內特征值的數量。完成一次數據遍歷后,直方圖便收集了必要的統計信息。算法根據這些直方圖的離散值來尋找最優分割點,如圖2所示。圖2中的每一個豎條就是一個數據塊,每一個特征對應一個直方圖,每個直方圖中豎條是一個數據塊且對應一定范圍的特征值。
2.2" 構建單站相關性模型
LightGBM模型訓練數據輸入層參數結構如圖3所示,取單站按等間隔采樣間隙的水位觀測序列作為原始序列,記作Zstn,取同樣時段長的目標站觀測水位序列,且采樣間隙與原始序列相同,將其作為目標序列記作Zttn,以t=tn說明。輸入層的特征向量由tn時刻水位Zstn往前連續w個數據與往后w個數據組成,其特征維度為2w+1,輸入層的結果向量取tn時刻的水位Zttn,其維度為單維。計算預測值時,輸入層采用相同方法取數,輸出層結果為與源水位序列同時刻對應的目標水位序列值。模型算法的學習控制參數可以用GridSearchCV函數進行優化[5],參數w通過訓練集數據取最優值。
2.3" 構建多站相關性模型
單站源水位序列與目標水位序列相關性不強,預測值精度較低,對此可采用多站源水位序列構建模型。構建模型方法:先構建各站單站LightGBM模型,分別計算出訓練集的輸出預測值序列Ztm(m為站數),建立多元線性回歸模型,可采用最小二乘法[6]求解各項系數θk,公式如下:
Ztt=∑mk=1θkZtkt(1)
3" 實例研究及分析
3.1" 單站模型
分別選取金匯港北閘(閘外)、沙港、米市渡站作為源數據站點,松浦大橋站作為目標數據站點,采用2013~2023年潮位數據,并劃分為模型訓練數據與調節參數數據,2023年數據作為測試數據評估模型計算結果。
各站訓練數據分別按w∈1,72(其中w=1對應5 min時長數據,72對應6 h時長數據)計算誤差均方根RMSE:
RMSE=" ∑ni=1Hi-hi2n(2)
式中:Hi為實測值,hi為預測值,n為樣本數量。計算結果的變化趨勢如圖4所示。隨著w取值的增大,不同源數據站點所得誤差均方根越小且變化趨勢越緩直至穩定。當w足夠大時,誤差均方根RMSE變化趨勢足夠小,對分析結果影響不大,最終w取試算最大值為72個。從圖4可看出,源數據站點與目標數據站點距離越近,預測值的誤差也相應越小,擬合效果更為優異。
模型取w=72,算法的學習控制參數使用GridSearchCV函數進行優化,調節參數后使用最優值重新建模,由此得到的LightGBM模型采用測試數據的計算預測值,與目標站松浦大橋實測數據做進一步對比分析,其均方根誤差RMSE=0.016 9 m。以米市渡站2023年1月1~7日數據為例,計算結果如圖5所示,預測值與實測值極為接近,誤差在±0.02 m范圍內的數據占比為95.4%,準確性較高。
為探究單站模型建模所用訓練數據長度與預測計算誤差之間的關系,以米市渡站為例,取w=72,采用2013~2022年訓練數據從起始時刻截取不同序列長度,建模計算預測值誤差均方根RMSE,結果如圖6所示。當系列長度較小時,預測值誤差均方根隨訓練數據量增加而減小,達到約10萬條數據后,誤差均方根處于較低的穩定狀態,其誤差水平與全部訓練數據建模的水平相差不大,按每條數據間隔時間為5 min計算,其對應的時長約為1 a。為了確保單站模型具備較高的精度,需要兩站大約1 a的同步水位觀測序列作為模型訓練數據。
3.2" 多站模型
根據金匯港北閘(閘外)、沙港站單站模型,計算得到金匯港北閘(閘外)站預測值序列Zt1和沙港站預測值序列Zt2。構建多站模型,線性回歸分析求得系數θ1=0.242 3,θ2=0.757 6,所得線性回歸公式:Ztt=0.242 3Zt1t+0.757 6Zt2t。對比分析結果如表1所示,相較于單站模型,多站模型模擬精度均略有提升。
3.3" 結果分析
根據研究區域2013~2023年實測潮位數據測算結果,隨著數值的增加,單站模型的輸入層特征值維度呈現出初期精度快速提高隨后逐漸趨于穩定的特征,說明在初期隨著輸入層特征值維度增加,對不同潮型波的分類準確度也會相應增加,但達到一定數值后分類準確度就趨于穩定。模型的預測插補值精度會隨著與兩站點之間距離的減小而提高,說明隨著兩站之間的距離減小,潮波傳播規律性就越強,潮位相關關系就越好。單站模型預測目標站潮位的誤差均方根RMSE為0.016 9 m,預測精度較高。單站預測精度不高時,可基于單站模型建立多個模型,對結果再進行線性回歸分析計算,多站模型的誤差均方根RMSE從單站較好的0.029 7 m下降到0.028 8 m,在一定程度上小幅提升了預測精度,但兩站之間由于潮波傳播的距離所引起的誤差依然無法被有效降低。
4" 結" 語
本文以上海市黃浦江段的4個潮位站點為例,探討了LightGBM人工智能算法在潮位數據插補中的應用及其有效性。通過對2013~2023年的潮位觀測數據進行深入分析,發現LightGBM算法能夠準確捕捉潮汐波動傳播過程中的非線性特征,構建的單站潮位插補模型能輸出誤差均方根為0.016 9 m的目標站潮位預測插補值序列,從而有效地預測和插補較長時間缺失的潮位數據。通過進一步結合單站模型的預測結果,利用多元線性回歸分析構建多站模型的方法,能夠小幅提高預測的準確性。本研究證實了LightGBM人工智能算法在潮位數據插補中應用的可行性,為提高潮位觀測數據的連續性和完整性提供了一種新的解決方案。
參考文獻:
[1]" 王娟.平原區產匯流模擬[D].南京:河海大學,2007.
[2]" 劉麗.BP神經網絡模型在流量資料插補中的應用[J].水資源開發與管理,2023,9(10):20-23,30.
[3]" 錢福軍,肖文仁,束長寶,等.沿江感潮段閘站流量實時監測系統設計[J].水利水電快報,2022,43(8):122-127.
[4]" 羅亮,解超,蔣陳娟,等.長江感潮河段徑流對潮波變形和傳播的影響研究[J].人民長江,2024,55(1):6-13.
[5]" 張賽賽.長江口潮差的時空變化及其環境意義[D].上海:華東師范大學,2019.
[6]" 李航,統計學習方法:第二版[M].北京:清華大學出版社,2019.
(
編輯:李" 慧
)
Application of artificial intelligence algorithms in tide level data interpolation
QIAN Chun
(Shanghai Hydrological Administration,Shanghai 200232,China)
Abstract: To improve the accuracy of traditional tidal level interpolation methods,taking four stations on the Huangpu River as the research objects,the LightGBM (Light Gradient Boosting Machine) artificial intelligence algorithm was adopted to construct a correlation model of the tidal level sequence,and an error analysis was carried out.The results showed that the LightGBM algorithm could effectively establish the complex nonlinear relationship between input features and output responses,which was applicable to the analysis of the inherent correlation in the process of tidal fluctuation propagation.As the dimension of input feature values increased,the prediction accuracy of the model improved rapidly in the initial stage and then gradually tended to be stable.Moreover,the prediction error decreased as the distance between the source data station and the target data station decreased.It was calculated that the root mean square error of interpolated sequence of tidal level predictions for the target station was 0.016 9 m,verifying the effectiveness of this method in the interpolation calculation of tidal level data.The research results can provide a new method for tidal level interpolation and are of great significance for improving the continuity of tidal level observation data.
Key words:
hydrometry; LightGBM; artificial intelligence algorithm; tide level interpolation; Huangpu River