999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于XGBoost的水庫大壩基礎設施潛在風險評估預測

2023-06-27 03:57:20丁煒金有杰張日俞蕊
人民長江 2023年4期
關鍵詞:模型

丁煒 金有杰 張日 俞蕊 

摘要:水庫大壩基礎設施潛在風險評估是水庫大壩風險評估體系的重要組成部分,然而水庫大壩基礎設施數據量大、數據特征多、還存在數據缺失的情況。XGBoost算法作為一種基于決策樹的集成算法,在應對大規模含有缺失情況的、具有混合類型的特征數據方面具有獨特優勢。為了更快速準確地對水庫大壩基礎設施潛在風險進行評估,提出了一種基于XGBoost的水庫大壩設施潛在風險評估預測方法。首先將水庫大壩統計數據進行預處理,并用該數據對XGBoost模型進行訓練,然后通過GridSearch和Cross-validation計算模型最優參數,最后根據準確率、召回率等精度指標對模型進行評價。預測結果表明:XGBoost在測試集上的準確率達91.26%,相比于其他4種常規機器模型(隨機森林、人工神經網絡、最鄰近算法、支持向量機)高出2.12%,5.59%,19.31%,38.65%,滿足工程實際的要求。

關 鍵 詞:水庫大壩; 風險評估預測; 準確率; 召回率; XGBoost

中圖法分類號: TV63

文獻標志碼: A

DOI:10.16232/j.cnki.1001-4179.2023.04.035

0 引 言

第一次全國水利普查報告以及相關的統計數據顯示,中國大陸地區共有水庫98 002座,其中小型水庫93 308座,中型水庫3 938座,大型水庫756座,總庫容達到9 323.12億m3,有相當一部分興建于1950~1970年間[1-2]。受限于當時科學技術發展水平以及經濟條件,部分大壩存在設計缺陷、施工質量[3-4]等病險問題。由于水庫數量眾多、分布較廣,難以通過專家判斷的方式評估每座水庫基礎設施的風險。因此,如何準確、快速地評估水庫大壩基礎設施風險便成為亟需解決的問題。

國內外在水庫風險評估方面已有一定的研究,Chauhan等[5]將不確定性分析和水庫大壩風險評估相結合,更為全面準確地評估多種因素下的水庫大壩風險;Xin等[6]利用影響尾礦壩變形和穩定的壩體材料、壩高等影響因素構建水庫大壩風險評估體系,并建立了基于風險評估指標法的風險評估模型;Kuo等[7]在納入水庫特性不確定性和水文事件自然隨機性的基礎上,通過考慮溢洪道閘門的可用性來評估水庫大壩的溢流風險,結果表明考慮到基礎設施可用性的風險高于不考慮溢洪道閘門可用性的風險;Pinto等[8]提出了一種小型水庫大壩安全指數(SDSI),構建了具備分類標準的評價矩陣,用以評估水庫大壩的安全性,并且能夠為小型水庫大壩維護行動優先級的確定提供支持;Smith[9]采用貝葉斯網絡分析了巖土、水文、結構等風險因素,確定了對總體風險影響最大的因素;Li等[10]基于AHP方法篩選出12個風險指標,并采用動態灰色關聯分析法預測了尾礦壩動態風險等級,實現了風險等級的智能化評估;徐耀等[11]采用主成分分析法確定了影響水庫大壩的主要風險指標;楊德瑋等[12]以脆弱度和后果系數為依據建立水庫風險指數,并對實際案例進行了分析;周端祺等[13]基于層次分析法,以脆弱度和模糊數學為工具,構建了水庫大壩風險評價體系。隨著人工智能技術的快速發展,各種機器學習算法逐漸在水庫大壩風險評估領域得到應用并取得了較好的效果,Mcmanamay等[14]利用美國水庫大壩統計數據,建立了基于決策樹的水庫大壩風險評價模型,實現了水庫大壩風險的快速評估;Assaad等[15]利用ANN等機器學習方法建立了水庫大壩風險預測模型,用以評估水庫大壩的安全風險等級。

水庫大壩基礎設施數據量大、數據特征多,還存在缺失情況。XGBoost算法是一種集成機器學習算法,在處理大規模水庫大壩基礎特征數據時更高效、快速,面對缺失情況還具有一定的魯棒性,同時在模型構建、模型優化等方面能夠減少主觀因素。因此本文選取XGBoost算法構建水庫大壩基礎設施潛在風險評估模型,旨在為水庫大壩早期風險預警提供一種簡便有效的手段,為水庫大壩進行全面風險評估提供支持。

1 研究方法

1.1 XGBoost基本原理及參數

XGBoost全名為eXtreme Gradient Boosting,是一種基于樹的集成模型,它的核心思想就是在訓練過程中不停將特征參數作為變量加入目標函數,通過新的目標函數擬合損失函數,并在訓練中不斷地調整特征權重,以達到最好的效果。

1.2 潛在風險評估與預測流程

本文主要研究思路是利用機器學習模型從水庫大壩基礎設施相關數據中學習風險評估的一般規律,使其能通過水庫大壩基礎設施數據評估預測大壩的風險等級。潛在風險評估與預測的流程如圖1所示。

(1) 數據清洗。由于主觀和客觀因素,研究數據中大多存在數據缺失、內容格式異常等問題,無法直接讀入模型訓練,因此首先需要查看各字段數據類型、數據缺失、異常值分布情況,然后將不符合要求的數據進行相應的處理。

(2) 數據編碼。模型對于輸入數據格式和類型有一定的要求,通常數據包含文本型、數值型等多種類型,因此在輸入模型前需對文本數據編碼。當前主要編碼方式有LabelEncoder和OneHot。

(3) 模型優化。模型優化是指通過對模型參數調整使得該模型在訓練樣本上獲得高預測準確度,并且在對未知數據預測時能夠有良好的表現。

(4) 模型評估。模型在訓練數據上的準確率無法表明其性能優劣,需要用測試數據來綜合評估模型性能,常用的評價指標依據有Precision、Recall、混淆矩陣、總體精度等。

1.3 模型評估方法

為了能客觀評估模型的評估預測能力,采用混淆矩陣對模型進行綜合評價?;煜仃囀且环N可視化的、能比較分類結果和真實值的可視化工具,基本結構如表1所列,其主要評價指標包括準確率(Accuracy)、精確率(Precision)、召回率(Recall)以及F-Score。

由此評價指標可分別表示為

式中:Accuracy(準確率)為測試數據中分類正確的樣本占全部樣本的比值;Precision(精確率)為測試數據中預測結果為正確類別(類別1)的樣本在分類結果中的比例;Recall(召回率)表示實際為類別1的樣本中被預測為類別1的比例;F-Score為衡量Precision和Recall的調和值,它能較為全面地評估模型分類能力;β為Precision和Recall的權重。

2 實例評估與結果驗證

2.1 研究數據

本文選擇2019年美國水庫大壩清單(National Inventory of Dams)作為研究數據,該數據將水庫大壩潛在風險等級分成3類,如表2所列。從中選取39 396條數據并篩選出25項大壩重要基礎特征,特征情況如表3所列。

2.2 數據預處理

數據預處理的好壞將直接影響模型的預測能力,依據模型要求對輸入數據采用的預處理包括數據清洗、數據編碼。

本文研究數據為實地勘測和統計數據,針對特征數據中存在的數據內容、數據格式異常等問題,通過數據清洗使其符合模型要求,并將特征數據缺失嚴重的刪除。

針對研究數據包含文本數據、數值數據等多類型的情況,通過數據編碼將數據形式進行統一。

以處理后的數據為基礎,隨機選取80%數據作為訓練數據,剩余20%數據作為測試集數據。為防止數據泄露,在訓練階段測試數據不參與模型訓練的任何過程,確保能科學評估模型的評估預測能力。

2.3 模型最優參數設置

模型最優參數計算采用網格搜索和交叉驗證相結合的方式,首先將數據集分為k個子集,將其中1個子集作為測試樣本,k-1個子集作為訓練樣本;在此基礎上將k-1個訓練樣本輸入模型訓練,并使用網格搜索獲取最優參數,計算其預測準確度;通過交叉驗證k次并計算k次結果的平均值。本文最終參數選擇結果見表4。

2.4 實驗結果分析與討論

將訓練模型應用于測試集數據,評估水庫大壩基礎設施潛在風險并獲得每個特征因子的重要性排序結果,如圖2所示。在25個特征中,檢查頻次、筑壩材料、防滲體類型、閘門寬度和閘門數量的重要性顯著高于其他特征。相關研究結果表明,在實際工程狀況下,筑壩材料和防水材料分別對水庫大壩的變形和滲流有著重要影響[10],例如1908年美國赫勒拿的豪瑟水庫因水壩建造材質以及結構問題使得在面對洪水時出現潰壩;而水庫大壩閘門寬度、閘門數量決定了水庫的泄洪能力,在歷史潰壩事件中,水庫泄洪能力不足、無法及時泄洪是潰壩發生的重要原因之一;在水庫大壩建成后大壩安全檢查是確保水庫大壩安全極為重要的一環,大壩安全檢查具有及時性、全面性和直觀性的特點,能及時發現滲流、裂縫、設備故障等重大安全隱患,增加檢查頻次能極大提升大壩的安全性,這表明模型對于水庫大壩基礎潛在風險的預測評估具有一定的合理性。

分類結果預測準確度如圖3混淆矩陣所示,高風險預測準確率為95%,中風險預測準確率為89%,低風險準確率為91%。利用式(11)計算可得模型預測結果總體準確率為91.3%。水庫大壩失事往往會帶來極為嚴重的后果,因此工程應用中對高風險等級的預測準確率有著較高的要求。而本文模型高風險預測準確度達到95%,并且總體準確率超過90%,滿足實際應用的需要。為了更為全面地評估模型,利用公式(12)~(14)計算Precision(精確率)、Recall(召回率)和F-Score,從表5中可以看到3種分類結果的F-Score均超過90%,表明模型預測準確率具有高可靠性。

為進一步驗證XGBoost相較于其他方法的優越性,現將XGBoost與最鄰近算法(KNN)、人工神經網絡算法(ANN)、支持向量機(SVM)、隨機森林算法(RandomForest)等研究方法進行對比,結果如表6所列。從準確率來看,5種模型中SVM和KNN表現不盡人意,準確率僅有52.61%和71.95%,其主要原因是采用的研究數據是實際數據,數據缺失值較多,而SVM和KNN對于缺失值極為敏感,因此準確率較低。相比SVM和KNN模型,神經網絡和極限梯度提升樹模型在應對存在缺失值的數據集有更好的表現,故ANN、RandomForest和XGBoost準確率更高,其中XGBoost準確率達到91.26%,分別比ANN模型、RandomForest模型高5.59%和2.12%,這充分說明XGBoost不僅預測精度優于其他模型,并且受缺失數據的影響較小,具有一定的魯棒性,適合在工程實際中推廣應用。

3 結 論

迅速準確地評估水庫大壩基礎設施潛在風險對降低水庫大壩失事風險有著重要意義。本文結合水庫大壩基礎資料,提出了基于XGBoost的水庫大壩潛在風險評估預測模型,實驗結果表明,該模型與SVM、KNN、ANN、RandomForest等模型相比,預測能力更加突出,在準確率、召回率和F-score指標上均優于其他模型,能準確地評估預測水庫大壩風險等級;同時該模型受數據缺失的影響較小,具有良好的泛化性能,能夠在實際場景中進行使用。

然而,潛在風險評估預測研究以水庫大壩基礎特征為主,尚未將全部影響因素納入研究范圍,后續可以結合洪水、滲流、降雨等動態風險因子,針對水庫大壩風險動態預警做進一步研究。

參考文獻:

[1]中華人民共和國水利部,中華人民共和國國家統計局.第一次全國水利普查公報[J].中國水利,2013(7):1-2.

[2]黃強,劉東,魏曉婷,等.中國筑壩數量世界之最原因分析[J].水力發電學報,2021,40(9):35-45.

[3]楊啟貴,高大水.我國病險水庫加固技術現狀及展望[J].人民長江,2011,42(12):6-11.

[4]孫繼昌.中國的水庫大壩安全管理[J].中國水利,2008(20):10-14.

[5]CHAUHAN S S,BOWLES D S.Dam safety risk assessment with uncertainty analysis[J].Ancold Bulletin,2004:73-88.

[6]XIN Z,KAILI X.Study on the risk assessment of the tailings dam break[J].Procedia Engineering,2011,26:2261-2269.

[7]KUO J T,HSU Y C,TUNG Y K,et al.Dam overtopping risk assessment considering inspection program[J].Stochastic Environmental Research and Risk Assessment,2008,22(3):303-313.

[8]PINTO W L H,FAIS L M C F.The small dam safety index(SDSI):a tool for small dam safety assessment[J].International Journal of River Basin Management,2022:1-26.

[9]SMITH M.Dam risk analysis using Bayesian networks[J].ECI Digital Archives,2006,43:51-62.

[10]LI W,YE Y,HU N,et al.Real-time warning and risk assessment of tailings dam disaster status based on dynamic hierarchy-grey relation analysis[J].Complexity,2019,26:711-736.

[11]徐耀,趙春,汪洋.基于主成分分析法的水庫大壩風險排序綜合指標研究[J].水利發展研究,2018,18(2):43-47.

[12]楊德瑋,彭雪輝,盛金保.基于大壩缺陷的群壩風險排序方法研究[J].安全與環境學報,2016,16(2):11-15.

[13]周端祺,周志維.基于模糊層次分析法的大壩風險評價方法研究[J].江西水利科技,2019,45(4):235-240,246.

[14]MCMANAMAY R A,OIGBOKIE C O,KAO S C,et al.Classification of US hydropower dams by their modes of operation[J].River Research and Applications,2016,32(7):1450-1468.

[15]ASSAAD R,EL-ADAWAY I H.Evaluation and prediction of the hazard potential level of dam infrastructures using computational artificial intelligence algorithms[J].Journal of Management in Engineering,2020,36(5):04020051.

(編輯:胡旭東)

Evaluation and prediction of potential risks of reservoir dam infrastructures based on XGBoost

DING Wei1,JIN Youjie1,2,ZHANG Ri1,YU Rui1

(1.Nanjing Research Institute of Hydrology and Water Conservation Automation of MWR,Nanjing 210012,China; 2.Hydrology and Water Resources Engineering Research Center for Monitoring of MWR,Nanjing 210012,China)

Abstract:

The potential risk evaluation of the reservoir dam infrastructures is an important part of the reservoir dam risk evaluation system.However,the monitoring data of reservoir dam infrastructures is large with many characteristics and easy to lose.As an integrated algorithm based on decision tree,XGBoost algorithm has unique advantages in dealing with feature data with large-scale missing data and mixed type.Therefore,in order to evaluate the potential risk of reservoir dam infrastructures quickly and accurately,this paper proposed a potential risk assessment and prediction method for reservoir dam infrastructures based on XGBoost.Firstly,the reservoir dam monitoring data was preprocessed,and the XGBoost model was trained with the data.Then,the optimal parameters of the model were calculated by GridSearch and Cross-validation.Finally,the model was evaluated according to accuracy indicators such as accuracy and recall rate.The prediction results showed that the accuracy of XGBoost on the test set reached 91.26%,which was 2.12%,5.59%,19.31% and 38.65% higher than the other four conventional machine models (random forest,artificial neural network,nearest neighbor algorithm and support vector machine).The proposed model can meet the requirements of engineering practice.

Key words: reservoir dam;risk evaluation and prediction;accuracy;recall rate;XGBoost

收稿日期:2022-04-01

基金項目:中央級公益性科研院所基本科研業務費專項資金資助項目(Y520022,Y520009)

作者簡介:丁 煒,男,助理工程師,碩士,研究方向為水利信息化及機器學習。 E-mail:dingwei@nsy.com.cn

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 天堂成人在线| 国产亚洲高清在线精品99| 欧美成人免费一区在线播放| 在线精品欧美日韩| 99精品一区二区免费视频| 亚洲色精品国产一区二区三区| 久久精品无码一区二区国产区 | 中文无码精品A∨在线观看不卡 | 国内精品九九久久久精品| 无码中文字幕乱码免费2| 自慰高潮喷白浆在线观看| 成人另类稀缺在线观看| 婷婷亚洲视频| 日韩天堂视频| 高清免费毛片| 欧美日本激情| 香蕉在线视频网站| 高清国产va日韩亚洲免费午夜电影| 伦伦影院精品一区| 国产精品手机视频一区二区| 毛片网站免费在线观看| 丰满少妇αⅴ无码区| 免费人成又黄又爽的视频网站| 国产成人麻豆精品| 嫩草国产在线| 91国语视频| 国产在线一二三区| 99热这里只有免费国产精品| 免费中文字幕在在线不卡| 99热国产这里只有精品9九| 亚洲精品片911| 亚洲精品成人片在线播放| 免费一级α片在线观看| 国产成人综合亚洲欧洲色就色| 成人国产一区二区三区| 免费看美女自慰的网站| 亚洲第一天堂无码专区| 欧美成人亚洲综合精品欧美激情| 亚洲精品卡2卡3卡4卡5卡区| 毛片基地视频| 国产毛片高清一级国语| 成人字幕网视频在线观看| 亚洲欧美日韩天堂| 亚洲国模精品一区| 久久久国产精品免费视频| 亚洲无码高清视频在线观看| 日本免费一区视频| 五月婷婷综合网| 亚洲日韩图片专区第1页| 91av国产在线| 国产精品漂亮美女在线观看| 免费在线播放毛片| 欧美区一区| 三上悠亚在线精品二区| 日韩精品毛片人妻AV不卡| 在线看片免费人成视久网下载| 这里只有精品在线| 成年女人a毛片免费视频| 无码日韩视频| 成AV人片一区二区三区久久| 亚洲高清无在码在线无弹窗| 扒开粉嫩的小缝隙喷白浆视频| 少妇露出福利视频| 亚洲侵犯无码网址在线观看| 2019年国产精品自拍不卡| 亚洲an第二区国产精品| 免费人成又黄又爽的视频网站| 91丝袜乱伦| 日本午夜精品一本在线观看| 国产福利在线观看精品| 亚洲乱码视频| 26uuu国产精品视频| 97视频在线精品国自产拍| 国产精品香蕉在线| 男女男免费视频网站国产| 亚洲成人播放| 国产在线自在拍91精品黑人| 久热re国产手机在线观看| 日韩AV手机在线观看蜜芽| 在线一级毛片| 91小视频在线观看免费版高清| 中文字幕无码av专区久久|