




摘要:
為提升H-ADCP在平原水網區的測流精度,以淮河流域平原水網區東臺(泰)水文站為例,選取纜道和固定式H-ADCP 2022~2023年河道全斷面點流速實測數據,基于Python軟件,分別運用6種機器學習模型:多層感知機模型、支持向量機回歸模型、最小二乘線性回歸模型、嶺回歸模型、袋裝算法和隨機森林算法擬合河道斷面流量,并對6種模型的斷面流量計算精度進行了比較分析。結果表明:隨機森林算法的流量計算精度高于其他模型,系統誤差、隨機不確定度、符號檢驗、適線檢驗、數值檢驗均能達到水文資料整編規范三類精度要求。研究成果對H-ADCP流量在線監測的應用推廣有借鑒意義。
關鍵詞:
流量測算; H-ADCP; 機器學習模型; 平原水網區; 淮河流域
中圖法分類號:P332.4
文獻標志碼:A
DOI:10.15974/j.cnki.slsdkb.2025.02.004
文章編號:1006-0081(2025)02-0022-04
0 引 言
水文測驗是水文工作的基礎,可為防汛抗旱、江河治理、工程建設、水資源管理等提供重要依據。其中,河道斷面流量測驗是水文測驗的重要任務之一[1]。聲學多普勒流速剖面儀(Acoustic Doppler Current Profiler,ADCP)能夠在不干擾流場情況下測出流速剖面,具有測量精度高、數據體量大、自動化程度高和效率高等特點,可實現流速數據的實時連續采集、傳輸和處理,以及流量的在線監測[2]。ADCP已廣泛應用于水文流量測驗工作中,并逐漸取代機械式、電磁式流速儀成為標準的流速測量儀器。目前最為常見的是水平式ADCP,即H-ADCP。
H-ADCP測得斷面某一水層的流速分布與斷面平均流速有相關性,因此數據獲取后需經過分析處理才能用于推求斷面流量。斷面流量的推求方法主要有流速剖面法和代表流速法[3]。代表流速法通過分析某一水層上的流速分布,建立某一區間的代表流速與斷面平均流速之間的相關關系,進而推求斷面平均流量[1]。諸多應用成果表明,在形狀基本穩定,寬度、深度、流態等水力因素基本相同的斷面,代表流速與斷面平均流速之間存在著較強的相關關系,一般采用一元一次方程或二次方程擬合計算得到的流量就能達到滿足規范和生產要求的推流精度[4-8]。
近年來,機器算法、神經網絡等先進技術逐步應用于H-ADCP流量在線監測推流。劉墨陽等[3]綜合考慮儀器入水深度、落差等因素,建立多元線性回歸模型推算斷面平均流速,利用最小二乘法求解模型參數,同時針對小流量下推流精度低的問題,充分考慮相關性較強的單個流速網格單元,采用機器學習中的LASSO回歸模型進行參數估計,充分挖掘每個網格流速與實測斷面平均流速的關系,構建推流方案。胡焰鵬等[9]采用小波分析法進行濾波處理,通過BP神經網絡建立斷面平均流速與H-ADCP代表流速關系,實現了復雜水流河段(三峽—葛洲壩段)的流量自動測報及資料整編。袁德忠等[10]采用支持向量機、BP神經網絡、極限學習機等機器學習方法,根據清泉溝水文站H-ADCP數據模擬斷面流速分布,探究了機器學習方法與傳統水文測驗結合的可能。
目前對于小流速且受通航影響的平原水網區的H-ADCP 應用研究較少。本文基于Python軟件,以淮河流域東臺(泰)水文站纜道和固定式H-ADCP實際觀測資料為基礎,利用多層感知機模型、支持向量機回歸模型、最小二乘線性回歸模型、嶺回歸模型模型、袋裝算法模型和隨機森林算法模型等6種機器學習算法擬合斷面流量,并利用均方誤差、平均誤差等進行精度比較研究,以此探索平原水網區小流速、通航條件下H-ADCP推流方案,研究結果對H-ADCP流量在線監測推流的應用推廣有借鑒意義。
1 研究方法
通過應用Python機器學習開源框架scikit-learn,對水文資料整編中常用的纜道常測法所獲取的數據進行分析,以實現流量的高精度推算。具體而言,本研究選取了多層感知機(Multilayer Perceptron,MLP)模型、支持向量機回歸(Support Vector Regression,SVR)模型、最小二乘線性回歸(Ordinary Least Squares Regression,OLS)模型、嶺回歸(Ridge Regression,RG)模型、袋裝(Bagging,BAG)算法模型及隨機森林(Random Forest Algorithm,RF)算法模型作為模型框架。這些模型以測流時段的水位、斷面面積、斷面平均水深以及H-ADCP單元流速等水文參數作為自變量,通過自動尋優算法優化網絡層數、神經元個數和優化器等關鍵參數,以期獲得更為精確的流量推算結果。
同時,采用實測流量與推算流量之間的系統誤差、標準差和隨機不確定度作為評估指標,對各模型的預測精度進行了綜合評估。
1.1 多層感知機模型
多層感知機是一種基于前饋神經網絡的分類模型,它由輸入層、隱藏層和輸出層組成[11]。輸入樣本從輸入層經隱藏層依次傳遞至輸出層。輸出與期望輸出誤差反向傳播[12]分攤至隱藏層、輸入層各個單元,并據其修正各單元權值,直至誤差滿足要求,或達到預定學習次數為止[13]。
1.2 支持向量機回歸模型
支持向量機是有監督的機器學習算法,可用于分類和回歸分析[14]。將支持向量機應用至回歸問題中,被稱之為支持向量機回歸。該方法是將非線性關系使用核函數映射至特征空間,達到降維目的,只有能產生支持向量的樣本點會影響函數模型,經過最小化總損失和最大化間隔優化后得出最佳模型[15]。
1.3 最小二乘線性回歸模型
最小二乘線性回歸模型的基本思想是通過最小化殘差平方和,找到使模型與觀測數據擬合最好的參數值。
1.4 嶺回歸模型
嶺回歸模型是一種專用于共線性數據分析的有偏估計回歸方法,實質上是一種改良的最小二乘估計法,通過放棄最小二乘法的無偏性,以損失部分信息、降低精度為代價獲得回歸系數更為符合實際、更可靠的回歸方法,對病態數據的擬合要強于最小二乘法。
1.5 袋裝算法模型
袋裝算法通過從觀測數據中抽取多個數據集,對每個數據集分別建立預測模型,再對模型的多個預測值求均值,減小預測值方差以提高預測精度,尤其對于那些不穩定的預測模型,通過求均值減小方差使預測值更加穩定[16]。
1.6 隨機森林算法模型
隨機森林算法常用于解決回歸問題、分類問題,能使模型預測方差減小,泛化能力較強[17]。隨機森林算法基本思路是訓練樣本集經過訓練后構造一棵決策樹,但由于單棵決策樹易導致過度擬合,因此將多棵決策樹集成“森林”,形成強大的決策分類器[18]。
1.7 評價指標
采用系統誤差、標準差和隨機不確定度評價流量模擬精度。以n表示觀測值數量;Qi表示i次實際觀測流量,m3/s;Qci表示模型i次擬合流量,m3/s。
(1) 系統誤差(ME)采用實測點與關系線相對誤差的平均值,計算公式如下:
ME=1n∑ni=1Qi-QciQci×100%
(2) 標準差(Se)計算公式如下:
Se=1n-2∑ni=1Qi-QciQci×100%212
(3) 隨機不確定度計算公式如下:
X′Q=2Se
式中:X′Q為置信水平為95%的隨機不確定度。
2 應用實例
2.1 研究區概況
東臺(泰)水文站設于2003年1月1日,位于江蘇省鹽城市的通榆河和泰東河接線段,是鹽城市和泰州市分界河道監測站。測驗河段下游150.0 m處開始彎曲與通榆河相連,河道邊坡高程0~3.0 m,部分為混凝土護坡,坡比1∶3;邊坡底高程-4.0~0 m部分為自然土坡,坡比1∶5;河底較為平坦,底寬45.0 m,斷面實測最低高程為-4.88 m,主泓道位于起點距50.0~65.0 m處。河道流速一般為-0.10~0.45 m/s,最大流速約0.50 m/s。河段水位、流量受泰東河上游來水及其下游通榆河來水影響。
自2003年建站以來,東臺(泰)水文站一直采用傳統的連實測流量過程線法進行資料整編。2014年3月開始嘗試采用H-ADCP測量河道流速,但因河道水流受行船影響,H-ADCP代表流速與斷面流速之間相關關系無法達到滿足規范要求的推流精度,增大了H-ADCP在該河段應用的難度。
2.2 數據選擇及處理
本研究數據采用東臺(泰)水文站2022年1月至2023年5月纜道實測斷面平均流速、斷面面積、斷面平均水深。船行波對觀測數據的影響是一個不可忽視的因素,為了最大限度地減少這種影響,采取了與纜道測流法中垂線位置一致的策略,即選擇在河道中心進行測量。H-ADCP同期平均流速選取左側第23單元和中間第45單元各39組實測數據。H-ADCP 選用的第23單元和第45單元起點位置如圖1所示。隨機選取數據集的75%作為訓練集,25%作為測試集。
2.3 結果分析
6種模型測試數據預測精度成果見表1。由表1可知,從系統誤差、標準差以及系統不確定度來看,隨機森林(RF)算法擬合結果最優,其次是袋裝算法(BAG),支持向量機回歸模型(SVR)擬合結果最差。多次隨機選取訓練集和測試集,測試結果雖稍有差異,但均未影響精度評定結論。
為進一步驗證隨機森算法的推流精度,選取未參加模型訓練的2023年6~8月實測數據進行分析。模擬結果顯示,推算流量與實測流量的系統誤差為0.8%,標準差為6.9%,系統不確定度為13.8%,模擬結果較好。實測流量與推算流量的曲線見圖2。根據SL/T 247-2020《水文資料整編規范》規定,對實測流量與模擬流量進行符號、適線和偏離檢驗,檢驗結果均符合三項檢驗允許值要求(表2)。
3 結 語
為加強H-ADCP在平原水網區小流速、通航河段的應用,以東臺(泰)水文站纜道實測斷面流速和H-ADCP同期流速為基礎,將6種機器學習模型應用于H-ADCP推流,并比較模擬結果,得出下列結論:
(1) 對于平原水網區小流速、通航河段,在H-ADCP代表流速與斷面流速之間相關關系無法達到規范要求時,可以通過機器學習模型開展推流工作。
(2) 從系統誤差、標準差來看,隨機森林算法模型擬合效果最好,精度最高,在實際推流中可優先考慮。
由于H-ADCP在東臺(泰)水文站運行時間不長,其間又經歷維護改造,本次應用采用的樣本數量集還不夠多,后續應持續開展觀測比較,以進一步驗證模型的準確性和穩定性。本次研究取用2個單元流速作為輸入變量,實際中也可以根據斷面流速分布特點及其復雜性,選取3個或者多個單元流速作為輸入,可進一步提高模型的精度。
參考文獻:
[1] 朱彩琳,陳利晶,李冰瑤,等.感潮河道 H-ADCP 代表流速優選[J].水利水電快報,2024,45(1):12-17.
[2] 吳志勇,徐梁,唐運憶,等.水文站流量在線監測方法研究進展[J].水資源保護,2020,36(4):1-7.
[3] 劉墨陽,蔣四維,林云發,等.復雜水情下H-ADCP 流量在線監測推流方法[J].水利水電科技進展,2022,42(2):27-34.
[4] 韋立新,蔣建平,曹貫中.南京水文實驗站ADCP 流量測驗方法改進研究[J].水利水電快報,2017,38(6):11-14.
[5] 曾雅立,張偉革,樊麗娜,等.宜昌站H-ADCP 流量關系率定及應用[J].水利水電快報,2019,40(2):14-16,25.
[6] 洪為善,鄭月光,羅玉全,等.水平式聲學多普勒流速儀在受水工程影響測站的應用[J].水文,2011,31(增1):84-86.
[7] 杜興強,秦凱,楊成,等.湖北清江高壩洲水文站流量自動化監測實踐[J].水利水電快報,2020,41(7):14-17.
[8] 徐剛,胡焰鵬,樊云,等.H-ADCP 實時流量在線監測系統研究[J].中國農村水利水電,2009(9):92-95.
[9] 胡焰鵬,葉德旭,李云中.基于小波分析和 BP 神經網絡的水平式聲學多普勒流速儀整編方法研究[J].水文,2011,31(增1):143-147.
[10] 袁德忠,曾凌,蔣正清.機器學習模型在H-ADCP在線測流系統中的應用[J].人民長江,2020,51(11):70-75.
[11] 齊煥東,朱程,李序春,等.基于規則集和多層感知機的Argo溫度數據質量控制方法[J].熱帶海洋學報,2024,43(5):190-202.
[12] 何如,管兆勇,金龍.一種神經網絡的云圖短時預測方法[J].大氣科學學報,2010,33(6):725-730.
[13] 李倩,申雙和,曹雯,等.南方塑料大棚冬春季溫濕度的神經網絡模擬[J].中國農業氣象,2012,33(2):190-196.
[14] 吳慧臻,李東升,楊再強,等.基于四種算法比較分析 Venlo 型玻璃溫室氣溫季節預報模型[J].中國農業氣象,2024,45(2):135-146.
[15] 王定成.溫室環境的支持向量機回歸建模[J].農業機械學報,2004(5):106-109.
[16] 李香飛,張曉光,吳鴻雁.機器學習模型在切削力預測中應用研究[J].機電工程技術,2022,51(5):123-127.
[17] 薛薇.Python機器學習數據建模與分析[M].北京:機械工業出版社,2021.
[18] 李文娟,趙放,酈敏杰,等.基于數值預報和隨機森林算法的強對流天氣分類預報技術[J].氣象,2018,44(12):1555-1564.
(編輯:江 文)
Accuracy comparative study on H-ADCP flow measurement based on machine learning models in plain water network area
PAN Daohong1,XIN Penglei2,XIA Fei1,WANG Qi1,LI Ang1,ZHA Hong1
(1.Yancheng Substation,Bureau of Hydrology and Water Resources Survey of Jiangsu Province,Yancheng 224000,China;
2.Nantong Substation,Bureau of Hydrology and Water Resources Survey of Jiangsu Province,Nantong 226001,China)
Abstract: In order to improve the accuracy of H-ADCP flow measurement in plain water network,we took the Dongtai hydrographic station of Huaihe River Basin plain water network area as an example,and selected full section flow velocity measurement data of the cable type and fixed H-ADCP from 2022 to 2023.Then we used six machine learning models,namely multi-layer perception,support vector regression machine,least squares linear regression,ridge regression model,bagging method,and random forest algorithm to fit the river section flow based on Python software.And an comparative study on accuracy of the flow by the 6 models was conducted.The results showed that the random forest algorithm had a higher accuracy than other models,and the system error,random uncertainty,symbol test,fitting test,and numerical test could meet the third class accuracy requirements of the hydrological data compilation standards.The research results can provide a reference for the application and promotion of H-ADCP online traffic monitoring.
Key words:
flow measurement; H-ADCP; machine learning model; plain water network area; Huaihe River Basin