999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于變量重要性評分-隨機森林的溶解氧預測模型——以深圳灣為例

2022-08-23 13:55:34楊明悅毛獻忠
中國環境科學 2022年8期
關鍵詞:重要性模型

楊明悅,毛獻忠

基于變量重要性評分-隨機森林的溶解氧預測模型——以深圳灣為例

楊明悅,毛獻忠*

(清華大學深圳國際研究生院海洋工程研究院,廣東 深圳 518055)

運用Pearson相關性分析,變量重要性評分和隨機森林方法構建了溶解氧(DO)實時預測模型,并以深圳灣為例采用浮標資料預測1,3,6和12h的溶解氧.模型預測結果表明,模型最優的輸入條件為pH值,水溫,葉綠素a,氧化還原電位和藍綠藻5個水質指標,1h預報的相關系數在0.9以上,6h預報結果一定程度上可以滿足工程要求,但對低溶解氧事件的預報必須在3h以內.

溶解氧;預測模型;變量重要性評分;隨機森林

隨著社會經濟發展,污染不斷增加導致水環境惡化,并對全球水生生態系統構成嚴重威脅[1].溶解氧(DO)水平對水生生物的多樣化至關重要,是評估水環境質量的重要指標之一[2],及時準確地預報DO具有重要意義.水體DO建模可追溯到20世紀20年代,DO模型主要是基于Streeter-Phelps方程,其機理是包含DO相互作用過程的質量平衡理論[3].隨著環境在線監測技術的普及,數據驅動建模成為環境質量管理和預測的重要手段.比如,人工神經網絡方法預測水庫[4],濕地[5]和河流[6]中的DO;支持向量機[7]以及基于模糊邏輯和深度學習方法[8]等用于DO建模.Tung等[9]綜述了209項人工智能模型的研究成果,表明2000~2020年數據驅動建模已成為重要的研究方法之一.

隨機森林方法[10]對輸入數據的質量要求相對較低,對異常值不敏感,可處理大量高維數組,計算密集程度也較低.這些優點使得模型可采用環境水質數據集作為模型輸入,用于回歸和分類問題,以開發特定的預測模型.該方法在水文和環境領域中有成功的應用案例,如水質預警模型[11],使用衛星圖像進行全球降水分析[12],長江徑流預報[13],近地面NO2濃度估算[14],海灣環境容量評價[15]和水華預警[16]等.然而目前預測模型建模復雜,預報時間短,較少結合在線監測數據實時預測DO.本文采用Pearson相關性分析,變量重要性評分和隨機森林方法構建了DO實時預測模型,并以深圳灣浮標監測資料為例,對模型結果進行分析,對海灣溶解氧的預報具有重要意義.

1 材料和方法

1.1 研究區域和數據收集

深圳灣位于珠江口伶仃洋東側,是一個半封閉型淺水海灣,屬亞熱帶季風氣候,年均氣溫22℃,年均降雨量1830mm,受珠江口和陸源污染的影響,水質嚴重富營養化[17].深圳市海洋監測預報中心在深圳灣布設浮標自動監測儀,位置如圖1所示.本文采用該浮標在線監測資料(2014年11月1日~2017年9月6日,每0.5h一個數據),以DO作為目標變量,其它8項水質指標包括水溫,pH值,葉綠素a,氧化還原電位,藍綠藻,電導率,鹽度和渾濁度作為輸入因子,建立最優化的DO預測模型.

圖1 研究區域及浮標監測點

審圖號:GS(2016)2556號

經過適當數據清洗與插值處理后,表1統計了各項水質參數特征.深圳灣平均水溫為30.07℃,平均葉綠素a含量為15.50μg/L,最高能夠達到89.30μg/L.平均DO為5.36mg/L,最低為2.03mg/L,DO低于3mg/L的頻率為2.2%,低于4mg/L的頻率為11.5%,由此可見,深圳灣低氧現象頻發,DO的預報對深圳灣水質管理非常重要.

表1 水質參數特征的統計

1.2 相關系數矩陣

相關系數是研究變量間相關程度的量,本文采用皮爾遜相關系數計算相關系數矩陣.通過計算2個相應變量之間的線性相關度得到矩陣的單元值,對于可能存在多重共線性的重要信息也可以通過相關系數矩陣來可視化.對于變量和,其相關系數矩陣為:

式中: Cov是方差,Var是協方差.采用顯著性水平(值)來檢驗相關系數中樣本統計值和假設的總體參數之間的顯著性差異.若£0.01,檢驗高度顯著; 0.01<£0.05,檢驗顯著;>0.05,檢驗不顯著.

1.3 基于變量重要性評分的預測變量組合

選擇最佳數量的預測變量對數據驅動模型至關重要[18].變量重要性評分(VIM)主要評估每個特征在隨機森林的每顆樹上做了多大貢獻,這個貢獻通常可以用基尼系數或者袋外數據誤差等作為評價指標來衡量,每個變量的得分可根據下列均方誤差矩陣(MSE)估計.

通過誤差矩陣確定第個特征變量的相對重要性,VIM的計算公式為:

為選擇最有影響力的預測變量組合,并將其用于最終模型,本研究采用以下步驟進行篩選:

(1)使用VIM對預測變量的重要性進行排序.

(2)挑選排名靠前的預測變量創建第一個隨機林,并計算評估模型性能.

(3)依次添加排名后一位的變量,重新創建隨機林,并重新評估模型性能.

(4)重復上述過程,直到再次添加變量不會顯著提高模型整體效率為止.

最終模型被稱為“最優(簡化)模型”[19],它包含一組最少的變量,并能夠最大限度地提高預測模型的準確性.

1.4 隨機森林模型

隨機森林聚合了許多決策樹,其結果是由多個決策樹輸出的匯總.決策樹是一種決策支持工具,它使用樹狀結構,由節點和鏈接組成.每個決策樹都以一個父節點開始,該父節點表示一個審議和決策點,并創建分支,直到做出決策.本研究通過袋外誤差法確定了決策樹的最佳數量,具體步驟如下:

(1)原始訓練集有個樣本,且每個樣本有維特征.從數據集中隨機抽取個樣本組成訓練子集,一共進行次采樣,即生成個訓練子集.

(2)每個訓練子集形成一棵決策樹,一共形成棵決策樹.

(3)針對單個決策樹,樹的每個節點處從個特征中隨機挑選個特征,并根據結點不純度最小原則進行分裂.每棵樹都依照此方法分裂下去,直到該節點的所有訓練樣本均屬于同一類,在此過程中不剪枝.

(4)根據生成的多個決策樹分類器進行預測,統計每棵樹的投票結果,利用平均值得到最終結果.

本研究使用隨機森林構建的DO實時預測模型有以下3點前提假設與適用條件: (1)DO的變化具有一定的規律性,目標值與變量間存在一定的關聯性,受其中一個或多個變量共同影響; (2)短期內DO的變化是連續的,不會突變; (3)當前DO狀態受前一相鄰時段的影響更大,即數據之間的間隔越遠,其相關性越弱.

1.5 模型性能評估指標

選擇4種性能指標評估模型性能,包括: 納什效率系數(NSE),均方根誤差(RMSE),平均絕對誤差(MAE)以及均方根誤差與標準偏差之比(RSR).計算公式為:

式中:是數據點數,Yo是觀測真實值, Ym是建模預測值, Ymean是觀測值的平均值.

NSE是廣泛使用的統計評分指標之一,其范圍從負無窮到1,接近1的值表示模型擬合完美,負NSE則表明擬合不良.RSR值為評估模型校準和驗證提供了基礎,并建議模型應該被接受還是被拒絕[20].采用RSR值評價模型擬合效果,分別以RSR值為0~0.5,0.5~0.6,0.6~0.7和>0.7范圍分為完美模型,良好模型,一般模型和較差模型.此外,RMSE和MAE接近0表示模型和觀測值完美擬合.

2 結果與討論

2.1 預測因子的篩選

DO和其他8項水質指標的相關系數矩陣見圖2.其中,DO與水溫和pH值呈中度相關性(= 0.464~0.505),與葉綠素a呈弱相關性(=0.382).并具有統計學意義(£0.05).其他預測因子如氧化還原電位,藍綠藻,電導率,鹽度和渾濁度與DO的相關性非常弱(=-0.058~0.197),其中與藍綠藻的相關性不顯著(>0.05).此外,結果還顯示各預測因子間存在中度至強多重共線性.例如,電導率和鹽度具有強相關性(=0.997);藍綠藻與葉綠素a具有中等相關性(= 0.444),與pH值和氧化還原電位均具有弱相關性(||=0.285~0.383); pH值與氧化還原電位,電導率和鹽度表現出中度相關性(||=0.416~ 0.569).

隨機森林的變量重要性評分結果如圖3所示.pH值是預測DO最有影響力的因子,重要性為25.56%;而后依次是水溫,葉綠素a,氧化還原電位等,重要性分數高于10%的有4個;渾濁度的影響力最弱,僅3.52%.對比圖2和圖3可知,基于VIM的預測因子重要性排序與Pearson相關矩陣結果不同,這種差異可能源于數據相關矩陣存在多重共線性.此外,DO動力學的非線性特性也無法從相關系數的線性分析中體現出來.因此,在數據驅動模型建模過程中,一般采用VIM而不是相關性來選擇主要的預測變量,這可避免受到多重共線性效應的影響.

根據以上分析,按照各變量重要性相對排名順序,可以產生8種不同的預測變量組合方案(表2)作為模型的輸入條件.

圖2 水質預測因子間的Pearson相關系數

圖3 各種變量重要性評分

表2 不同預測變量組合的8種方案

2.2 隨機森林模型驗證

選取80%的觀測數據用于不同預測變量組合的隨機森林決策樹模型建模,剩余20%的觀測數據用于驗證評估模型的精度.如圖4所示,當僅使用pH值作為唯一變量輸入時,NSE為0.25,RSR為0.909,表明此時模型擬合不良,效果較差; 隨著輸入模型變量數量增加,NSE呈現上升趨勢,RMSE,MAE和RSR也隨之降低,表明模型的精度逐漸提高,擬合效果也越來越好.從方案5開始(即5個及以上的輸入變量),NSE>0.8,RSR<0.5,表明模型可解釋>80%的數據方差,達到較好的擬合效果.

圖4 8種變量組合輸入方案的模型性能

圖5 方案5模型的DO驗證

但值得注意的是,并非輸入的變量越多,模型的性能就會越好.本模型試驗表明,6個以上輸入變量模型精度趨于穩定,輸入變量繼續增加,NSE值不升反降,說明模型性能在下降.造成這一現象的原因是排名較后的預測因子重要性較低,且與其他因子間還存在中度至強多重共線性,相當于為訓練集增加了“噪聲”.因此,合理選擇輸入預測因子的種類和數量是建模的基礎.

根據模型的精度和簡約原則,選擇方案5(即pH值,水溫,葉綠素a,氧化還原電位,藍綠藻5個模型輸入變量)作為最終模型的輸入方案,用于預測DO,此時的NSE,RMSE,MAE和RSR分別為0.873,0.398,0.285和0.383.方案5的模型驗證結果如圖5所示,散點均沿=直線兩側分布,位于95%置信區間內占比94.4%,表明應用VIM-隨機森林模型的DO預測精度較高,模型的擬合效果較好.

2.3 不同預測期的模型精度

表3 不同預測期的誤差與相關系數

圖6 不同預測期模型預測值和實測值對比

目前大部分DO預測模型在1~2h的短期預測效果較好[21-22],但是對于預測模型來說,在滿足精度的基礎上預測期越長說明功能越強大.參考文獻[23]將預測期分為短期(1,3h),中期(6h)和長期(12h),測試模型的有效性.采用隨機森林模型在不同時段的預測誤差與相關系數如表3所示,模型預測值和實測值對比見圖6.模型的精度隨著預測時長的增加而降低,預測期為1h預測效果最好,此時RMSE,MAE和相關系數分別為0.481,0.317和0.913.

從相關系數和精度看,隨機森林模型預測6h后的RMSE,MAE和相關系數分別為0.801,0.627和0.633,表明預測結果在一定程度能滿足工程實踐要求.但是預測低氧過程,比如DO濃度小于4mg/L時,1和3h預測的效果更好,幾乎與實測值同步變化(圖6),說明模型能夠預報極端值從而達到及時預警的效果.

在觀測數據的時間序列中,數據之間的間隔越遠,相關性越弱,隨著預報時長的增加,模型誤差也會逐步積累,從而影響預報精度[24];同時,在預測過程中模型提取信息隨時間的推移越來越困難,因為隨時間的推移,信息的不確定性越大.這些都是數據驅動模型的局限性.當預測期為12h時,RMSE值大于1,相關系數僅為0.201,說明構建的DO模型對于長期預測的表現仍有待提高.

盡管本文構建的DO模型在短、中期預測上表現良好,但長期預測的準確性仍有待提高.盡早預測低氧事件可以為緊急預案處置提供充分的反應時間,其重要性不言而喻.因此,如何提高模型長期預測能力將是今后的研究重點.

3 結論

3.1 采用變量重要性評分和隨機森林相結合的方法構建了DO預測模型,并以深圳灣為例通過變量重要性評分方法篩選了pH值,水溫,葉綠素a,氧化還原電位,藍綠藻5個模型輸入變量,建立了性能評價最優模型,其中NSE,RMSE,MAE和RSR分別為0.873,0.398,0.285和0.383.

3.2 模型預測結果表明,在深圳灣采用隨機森林模型預測6h內的DO在一定程度上能滿足工程要求;但是如果要精準預測低氧過程及極端缺氧事故,預報時長應該小于3h.

[1] Ji X,Shang X,Dahlgren R A,et al. Prediction of dissolved oxygen concentration in hypoxic river systems using support vector machine: A case study of Wen-Rui Tang River,China [J]. Environmental Science and Pollution Research,2017,24(19):16062-16076.

[2] Wen X,Fang J,Diao M,et al. Artificial neural network modeling of dissolved oxygen in the Heihe River,Northwestern China [J]. Environmental Monitoring and Assessment,2013,185(5):4361-4371.

[3] Li G.Stream temperature and dissolved oxygen modeling in the lower Flint River basin,GA [D]. University of Georgia,2006.

[4] Antanasijevi? D,Pocajt V,Peri?-Gruji? A,et al. Modelling of dissolved oxygen in the Danube River using artificial neural networks and Monte Carlo Simulation uncertainty analysis [J]. Journal of Hydrology,2014,519:1895-1907.

[5] 江春波,張明武,楊曉蕾.華北衡水湖濕地的水質評價 [J]. 清華大學學報(自然科學版),2010,50(6):848-851.

Jiang C B,Zhang M W,Yang X L. Water quality evaluation for the Hengshui Lake wetland in northern China [J]. Journal of Tsinghua University (Science and Technology),2010,50(6):848-851.

[6] Ahmed A A M. Prediction of dissolved oxygen in Surma River by biochemical oxygen demand and chemical oxygen demand using the artificial neural networks (ANNs) [J]. Journal of King Saud University-Engineering Sciences,2017,29(2):151-158.

[7] Heddam S,Kisi O. Modelling daily dissolved oxygen concentration using least square support vector machine,multivariate adaptive regression splines and M5model tree [J]. Journal of Hydrology,2018,559:499-509.

[8] Ay M,Ki?i ?. Estimation of dissolved oxygen by using neural networks and neuro fuzzy computing techniques [J]. KSCE Journal of Civil Engineering,2017,21(5):1631-1639.

[9] Tung T M,Yaseen Z M. A survey on river water quality modelling using artificial intelligence models: 2000~2020 [J]. Journal of Hydrology,2020,585:124670.

[10] 姚登舉,楊 靜,詹曉娟.基于隨機森林的特征選擇算法 [J]. 吉林大學學報(工學版),2014,44(1):137-141.

Yao D J,Yang J,Zhan X J. Feature selection algorithm based on random forest [J]. Journal of Jilin University (Engineering and Technology Edition),2014,44(1):137-141.

[11] 李若楠,王 琦,劉書明.基于典型相關系數和隨機森林的水質預警方法 [J]. 中國環境科學,2021,41(9):4457-4464.

Li R N,Wang Q,Liu S M. Water quality warning method based on canonical correlation coefficient and random forest [J]. China Environmental Science,2021,41(9):4457-4464.

[12] Bhuiyan M A E,Nikolopoulos E I,Anagnostou E N,et al. A nonparametric statistical technique for combining global precipitation datasets: development and hydrological evaluation over the Iberian Peninsula [J]. Hydrology and Earth System Sciences,2018,22(2): 1371-1389.

[13] 趙銅鐵鋼,楊大文,蔡喜明,等.基于隨機森林模型的長江上游枯水期徑流預報研究 [J]. 水力發電學報,2012,31(3):18-24,38.

Zhao T T G,Yang D W,Cai X M,et al. Predict seasonal low flows in the upper Yangtze River using random forests model [J]. Journal of Hydroelectric Engineering,2012,31(3):18-24,38.

[14] 游介文,鄒 濱,趙秀閣,等.基于隨機森林模型的中國近地面NO2濃度估算 [J]. 中國環境科學,2019,39(3):969-979.

You J W,Zou B,Zhao X G,et al. Estimating ground-level NO2concentrations across mainland China using random forests regression modeling [J]. China Environmental Science,2019,39(3):969-979.

[15] 鄒佳奇,張亦飛,方 欣,等.基于隨機森林的入海污染源對海灣環境容量的影響排序研究 [J]. 海洋環境科學,2021,40(5):675-682.

Zou J Q,Zhang Y F,Fang X,et al. Impact ranking of pollution source discharge on the bay environmental capacity based on the random forest algorithm [J]. Marine Environmental Science,2021,40(5):675-682.

[16] 劉云翔,吳 浩.基于隨機森林算法的水華預警模型 [J]. 人民黃河,2018,40(8):75-77,90.

Liu Y X,Wu H. Water bloom early warning model based on random forest [J]. Yellow River,2018,40(8):75-77,90.

[17] Zhou Y,Wang L,Zhou Y,et al. Eutrophication control strategies for highly anthropogenic influenced coastal waters [J]. Science of the Total Environment,2020,705:135760.

[18] Asadollah S B H S,Sharafati A,Motta D,et al. River water quality index prediction and uncertainty analysis: A comparative study of machine learning models [J]. Journal of Environmental Chemical Engineering,2021,9(1):104599.

[19] Laird J. The law of parsimony [J]. The Monist,1919,29(3):321-344.

[20] Moriasi D N,Arnold J G,Van Liew M W,et al. Model evaluation guidelines for systematic quantification of accuracy in watershed simulations [J]. Transactions of the ASABE,2007,50(3):885-900.

[21] Cao W,Huan J,Liu C,et al. A combined model of dissolved oxygen prediction in the pond based on multiple-factor analysis and multi-scale feature extraction [J]. Aquacultural Engineering,2019,84:50-59.

[22] Khan U T,Valeo C. Optimising fuzzy neural network architecture for dissolved oxygen prediction and risk analysis [J]. Water,2017,9(6):381.

[23] Liu Y,Zhang Q,Song L,et al. Attention-based recurrent neural networks for accurate short-term and long-term dissolved oxygen prediction [J]. Computers and Electronics in Agriculture,2019,165:104964.

[24] Kamranzad B,Etemad-Shahidi A,Kazeminezhad M H. Wave height forecasting in Dayyer,the Persian Gulf [J]. Ocean Engineering,2011,38(1):248-255.

Dissolved oxygen prediction model based on variable importance measures and random forest: A case study of Shenzhen Bay.

YANG Ming-yue,MAO Xian-zhong*

(Institute for Ocean Engineering,Shenzhen International Graduate School,Tsinghua University,Shenzhen 518055,China).,2022,42(8):3876~3881

A real-time prediction model for dissolved oxygen was established by using Pearson correlation analysis,variable importance measures and random forest method. Taking Shenzhen Bay as an example,the model was used to predict the dissolved oxygen in 1h,3h,6h and 12h based on the buoy data. The results showed that the optimal input conditions of the model were pH,water temperature,chlorophyll A,redox potential and blue-green algae. The correlation coefficient of 1h prediction results was more than 0.9,and the 6h prediction results could meet the engineering requirements to a certain extent. However,the prediction of low dissolved oxygen events might be within 3h.

dissolved oxygen;prediction model;variable importance measures;random forest

X832

A

1000-6923(2022)08-3876-06

2022-01-17

國家自然科學基金資助項目(42076150)

* 責任作者,副教授,maoxz@sz.tsinghua.edu.cn

楊明悅(1999-),男,安徽六安人,清華大學深圳國際研究生院碩士研究生,主要從事海洋環境預測研究.

猜你喜歡
重要性模型
一半模型
土木工程中建筑節能的重要性簡述
“0”的重要性
論七分飽之重要性
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
幼兒教育中閱讀的重要性
甘肅教育(2020年21期)2020-04-13 08:09:24
論七分飽之重要性
3D打印中的模型分割與打包
讀《邊疆的重要性》有感
唐山文學(2016年11期)2016-03-20 15:26:04
主站蜘蛛池模板: 免费女人18毛片a级毛片视频| 日韩免费中文字幕| 91小视频在线| 99精品在线看| 精品久久国产综合精麻豆| 在线亚洲小视频| 国产在线观看99| 免费jjzz在在线播放国产| 自拍偷拍一区| 欧美一区二区人人喊爽| av免费在线观看美女叉开腿| 亚洲精品色AV无码看| 日韩精品资源| 亚洲天堂视频网站| 亚洲天堂精品视频| 国产精品夜夜嗨视频免费视频| 她的性爱视频| 亚洲愉拍一区二区精品| 欧美国产在线看| 91精品人妻一区二区| 欧美成人午夜视频免看| 精品欧美日韩国产日漫一区不卡| 色悠久久久久久久综合网伊人| 真实国产乱子伦视频| 免费毛片网站在线观看| 99热亚洲精品6码| 91精品网站| 全午夜免费一级毛片| 第九色区aⅴ天堂久久香| 国产精品蜜臀| 国产亚洲精品无码专| 国产成熟女人性满足视频| 亚洲视频二| 九九热在线视频| 国产成人AV综合久久| 精品日韩亚洲欧美高清a| 国产精品99久久久| 四虎影视无码永久免费观看| 思思99热精品在线| 国内精品伊人久久久久7777人| 久久9966精品国产免费| 国产区成人精品视频| 国产无码制服丝袜| 国产一级无码不卡视频| 欧美一区二区三区欧美日韩亚洲| 国产美女人喷水在线观看| 日本道综合一本久久久88| 国产在线观看成人91| 极品尤物av美乳在线观看| 在线播放国产99re| 五月婷婷导航| 欧美中文字幕在线二区| 国产97视频在线| 中文字幕永久在线观看| 亚洲第一中文字幕| 欧美影院久久| 午夜福利在线观看入口| 亚洲欧美成人综合| 日韩在线观看网站| 国产精品主播| 四虎国产永久在线观看| 又爽又大又光又色的午夜视频| 又猛又黄又爽无遮挡的视频网站| 国产成人精品18| 幺女国产一级毛片| 亚洲欧美日韩成人高清在线一区| 国产亚洲精品无码专| 无码一区中文字幕| 亚洲成人动漫在线观看| 久久国产精品嫖妓| 91人妻在线视频| 国产精品成人不卡在线观看| 国产aⅴ无码专区亚洲av综合网| 国产激情在线视频| 国产精品福利一区二区久久| 日本精品影院| 麻豆精品在线视频| 亚洲免费三区| 亚洲人成网址| 国产精品免费p区| 久久人体视频| 国产成人精品三级|