999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于LightGBM的水質(zhì)預(yù)測模型研究與應(yīng)用

2023-01-31 00:15:16歐陽群文
智能城市 2022年11期
關(guān)鍵詞:水質(zhì)特征模型

歐陽群文

(廣州市城建規(guī)劃設(shè)計(jì)院有限公司,廣東廣州 510000)

廣州以河長制為“統(tǒng)領(lǐng)”,深入開展清四亂和源頭控污工作,全市水環(huán)境治理水平及治理成效實(shí)現(xiàn)了根本性提升,完成了對(duì)原有黑臭河湖的治理。然而河道水安全和水環(huán)境依然較為脆弱,各類問題有反彈風(fēng)險(xiǎn),治水成效難以鞏固,河湖水質(zhì)存在返黑返臭風(fēng)險(xiǎn)。隨著廣州河長制工作的不斷深入,以信息化為主要手段的河長管理機(jī)制不斷更新迭代,并積累了大量數(shù)據(jù)[1-3]。但現(xiàn)有的廣州河長信息管理系統(tǒng)主要功能是收集整理和發(fā)布河湖管理方面的基本信息,缺乏對(duì)數(shù)據(jù)的深入分析與挖掘,并沒有結(jié)合實(shí)際需求進(jìn)行模型的開發(fā),例如如何進(jìn)行水質(zhì)預(yù)警、如何根據(jù)預(yù)報(bào)結(jié)果進(jìn)行針對(duì)性治理等[4]。利用數(shù)據(jù)資源指導(dǎo)實(shí)際工作是河長制信息化推進(jìn)的主要方向。鑒于此,文章利用廣州河長管理信息系統(tǒng)中的數(shù)據(jù)(下稱“系統(tǒng)數(shù)據(jù)”),通過對(duì)數(shù)據(jù)進(jìn)行深入挖掘與分析,基于擅長挖掘數(shù)據(jù)縱深的LightGBM(light gradient boosting machine)算法建立水質(zhì)預(yù)測模型。通過建模型預(yù)測水質(zhì)等級(jí),并據(jù)此分析河湖水質(zhì)變化趨勢及系統(tǒng)數(shù)據(jù)的重要程度,從而提高河長對(duì)河湖事件的預(yù)測能力以及河湖管理的執(zhí)行能力,全面促進(jìn)河長制實(shí)施。

1 模型目標(biāo)及算法選擇

模型中,采取廣州河長管理信息系統(tǒng)數(shù)據(jù)(河涌問題數(shù)據(jù)、河長行為數(shù)據(jù)等)、河涌上月水質(zhì)數(shù)據(jù)作為特征數(shù)據(jù),河涌本月水質(zhì)數(shù)據(jù)作為標(biāo)簽數(shù)據(jù),通過多分類機(jī)器學(xué)習(xí)算法深入挖掘特征數(shù)據(jù)與標(biāo)簽數(shù)據(jù)之間的映射關(guān)系,得到一個(gè)可以根據(jù)上月特征數(shù)據(jù)預(yù)測當(dāng)月水質(zhì)的機(jī)器學(xué)習(xí)模型,即LightGBM的水質(zhì)預(yù)測模型。通過內(nèi)業(yè)模型輸出結(jié)果指導(dǎo)外業(yè)對(duì)于水質(zhì)較差以及有變差趨勢的河涌,并執(zhí)行定向巡查,通過多分類機(jī)器學(xué)習(xí)算法實(shí)現(xiàn)水質(zhì)預(yù)測的目標(biāo)。

2 基于LightBGM的水質(zhì)預(yù)測模型構(gòu)建

模型構(gòu)建環(huán)節(jié)包括數(shù)據(jù)整合、樣本劃分、數(shù)據(jù)預(yù)處理、特征工程、模型訓(xùn)練及參數(shù)優(yōu)化、模型結(jié)果分析評(píng)價(jià)、變量重要性評(píng)分及內(nèi)外業(yè)融合分析。

2.1 數(shù)據(jù)整合

根據(jù)廣州河長管理信息系統(tǒng)中的不同數(shù)據(jù)源,將不同來源的數(shù)據(jù)整合成一張建模寬表。由于每條河涌對(duì)應(yīng)多個(gè)河長,故河涌對(duì)應(yīng)的河長行為數(shù)據(jù)采用均值平滑方法處理,即采用多個(gè)河長的行為數(shù)據(jù)均值作為特征數(shù)據(jù)。

2.2 樣本劃分

考慮到樣本數(shù)據(jù)比較有限,為了保證模型能夠充分地訓(xùn)練,需要擴(kuò)大訓(xùn)練集的占比,所以采取9∶1的比例將1 771條樣本數(shù)據(jù)劃分成訓(xùn)練集及測試集,其中訓(xùn)練集1 593條,測試集178條。

2.3 數(shù)據(jù)預(yù)處理

鑒于設(shè)備故障、網(wǎng)絡(luò)通信等不可控因素的影響,原始數(shù)據(jù)中可能存在臟數(shù)據(jù)、缺失數(shù)據(jù)等情況。因此,首先對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理。預(yù)處理工作主要包括數(shù)據(jù)清洗、特征分類、缺失值處理、異常值檢測等,包括數(shù)據(jù)清晰、特征分類、數(shù)據(jù)缺失值處理、數(shù)據(jù)異常值處理。

2.4 特征工程

特征工程是指將預(yù)處理后的數(shù)據(jù)進(jìn)行加工,轉(zhuǎn)變?yōu)槟P退枰奶卣鲾?shù)據(jù),同時(shí)將原有特征通過計(jì)算、組合等方式轉(zhuǎn)換為新的特征[5-9]。研究中,對(duì)于河涌問題數(shù)據(jù)進(jìn)行了縱向(多級(jí)河長)與橫向(同級(jí)河長上報(bào)的不同問題)的特征工程處理,共得到31個(gè)特征數(shù)據(jù)。

2.5 模型訓(xùn)練及參數(shù)優(yōu)化

將上月特征數(shù)據(jù)作為輸入,當(dāng)月水質(zhì)等級(jí)預(yù)測作為輸出,構(gòu)建基于LightGBM的水質(zhì)預(yù)測模型。采用LightGBM算法在訓(xùn)練集中訓(xùn)練模型,并通過模型在驗(yàn)證集上的表現(xiàn)進(jìn)行算法參數(shù)優(yōu)化。初步訓(xùn)練時(shí),設(shè)置參數(shù)如下:決策樹的數(shù)量設(shè)置為200,樹最大深度設(shè)置為3,其他參數(shù)均使用默認(rèn)參數(shù)。初步訓(xùn)練的準(zhǔn)確率為48.31%,參數(shù)優(yōu)化效果以此基準(zhǔn)模型作為參考。

LightGBM模型參數(shù)較多,研究選取LightGBM最重要的7個(gè)參數(shù)進(jìn)行算法優(yōu)化,以準(zhǔn)確率為評(píng)價(jià)指標(biāo)通過網(wǎng)格搜索法選取最優(yōu)參數(shù)。優(yōu)化的結(jié)果如圖1所示,評(píng)價(jià)指標(biāo)均為測試集上的準(zhǔn)確率。

圖1 LightGBM模型參數(shù)調(diào)優(yōu)結(jié)果

由圖1可知,將決策樹的數(shù)量初始值設(shè)為20,準(zhǔn)確率為0.48,當(dāng)決策樹的數(shù)量取50時(shí),準(zhǔn)確率變?yōu)?.51,繼續(xù)增大決策樹的數(shù)量到100、200、300、400、500、600,準(zhǔn)確率呈現(xiàn)下降趨勢。將浮點(diǎn)數(shù)設(shè)定為0.6~1.0的調(diào)整范圍,當(dāng)浮點(diǎn)數(shù)取值為0.7、0.8、0.9時(shí),準(zhǔn)確率趨于穩(wěn)定。當(dāng)樹最大深度取值小于4時(shí),準(zhǔn)確率上升,當(dāng)取值大于4時(shí),準(zhǔn)確率呈上下波動(dòng)變化,但均小于取值為4的準(zhǔn)確率。最小樣本數(shù)量在4種取值下(10、30、50和100)的準(zhǔn)確率分別為0.51、0.52、0.47和0.47。將正則化系數(shù)設(shè)定為0~3.0的調(diào)整范圍,隨著參數(shù)增大,模型預(yù)測效果反而變差,調(diào)參后最優(yōu)解仍保持為0。選擇兩種正則化系數(shù)進(jìn)行調(diào)參,正則化系數(shù)1.0與正則化系數(shù)2.0參數(shù)取值范圍相同,調(diào)參后最優(yōu)解為1。對(duì)于學(xué)習(xí)速率,0.1為最佳取值。由以上分析可知,參數(shù)決策樹的數(shù)量、浮點(diǎn)數(shù)、樹最大深度、最小樣本數(shù)量、正則化系數(shù)1、正則化系數(shù)2.0、學(xué)習(xí)速率的最優(yōu)取值分別為50.0、0.9、4.0、30.0、0、1.0、0.1。特征選擇結(jié)果如表1所示。

表1 特征選擇結(jié)果

2.6 模型結(jié)果分析評(píng)價(jià)

研究采用“準(zhǔn)確率”為評(píng)價(jià)指標(biāo)。將上述尋優(yōu)的參數(shù)代入模型,輸出預(yù)測結(jié)果。通過混淆矩陣可以得出,Ⅱ類、Ⅵ類(劣五類)水質(zhì)的河涌預(yù)測比較準(zhǔn)確,Ⅱ類、Ⅲ類水質(zhì)容易相互混淆。總體準(zhǔn)確率為53.37%。除了準(zhǔn)確率之外,還可以通過針對(duì)某一類別的查準(zhǔn)率、查全率分析模型的分類結(jié)果。對(duì)于重點(diǎn)關(guān)注的Ⅴ類、Ⅵ類(劣五類)水質(zhì),計(jì)算其查準(zhǔn)率、查全率。Ⅴ類查準(zhǔn)率為40%,Ⅴ類查全率為11.76%,Ⅵ類查準(zhǔn)率為63.16%,Ⅵ類查全率為68.57%。因此,5類水質(zhì)河涌的查準(zhǔn)及查全表現(xiàn)較低,尤其是查全率,原因在于訓(xùn)練樣本中Ⅴ類水質(zhì)河涌的樣本數(shù)過少,模型無法學(xué)習(xí)到相應(yīng)特征。雖然Ⅴ類水質(zhì)的模型效果并不理想,但Ⅵ類水質(zhì)的查準(zhǔn)和查全比較理想,查全率達(dá)到68.57%,Ⅵ類水質(zhì)的模型效果對(duì)于河涌黑臭預(yù)警、水質(zhì)惡化預(yù)警有重要意義。

2.7 特征重要性分析

研究中采用Gini Importance方法得到重要性評(píng)估結(jié)果如圖2所示。

圖2 變量重要性評(píng)價(jià)結(jié)果

由圖2可知,責(zé)任一般河湖數(shù)量、上月水質(zhì)、連續(xù)打卡式巡河的次數(shù)是影響水質(zhì)的3個(gè)重要特征。責(zé)任一般河湖數(shù)量是指河涌對(duì)應(yīng)河長所管轄的一般河湖數(shù)量,反映出河涌管理者的精力分散程度,由此結(jié)果可以推測,河涌管理者的精力分散程度對(duì)水質(zhì)有較大影響,此結(jié)論對(duì)于河長的人手分配、河涌分配具有指導(dǎo)意義。連續(xù)打卡式巡河次數(shù)反映出河長巡河行為對(duì)水質(zhì)的影響,此結(jié)論對(duì)河長管理、培訓(xùn)、督導(dǎo)具有指導(dǎo)意義。另外,特征重要性分析結(jié)果表明,所有問題、問題上報(bào)率、一般河湖巡河率等特征對(duì)河涌水質(zhì)也會(huì)產(chǎn)生較大影響。此外,可以發(fā)現(xiàn)在眾多河涌問題中,工業(yè)廢水排放是影響水質(zhì)的最大問題。

3 模型驗(yàn)證及模型應(yīng)用

3.1 模型驗(yàn)證

為了進(jìn)一步驗(yàn)證模型效果,采用后一個(gè)月具有水質(zhì)數(shù)據(jù)的河涌共計(jì)422條作為驗(yàn)證樣本,將河涌的前一個(gè)月特征數(shù)據(jù)輸入訓(xùn)練好的模型中,輸出各河涌后一個(gè)月水質(zhì)預(yù)測數(shù)據(jù),根據(jù)輸出的預(yù)測結(jié)果與實(shí)際結(jié)果進(jìn)行比對(duì),對(duì)模型進(jìn)行驗(yàn)證。

驗(yàn)證結(jié)果顯示其總體準(zhǔn)確率為53.10%,基本不變。對(duì)于重點(diǎn)關(guān)注的Ⅴ類、Ⅵ類(劣五類)水質(zhì),計(jì)算其查準(zhǔn)率、查全率分別為:Ⅴ類查準(zhǔn)率為40%、Ⅴ類查全率為18.60%、Ⅵ類查準(zhǔn)率為63.63%、Ⅵ類查全率為67.96%。與測試集的模型效果相比,總體準(zhǔn)確率略有下降,但Ⅴ類查全率有明顯提升、Ⅵ類查準(zhǔn)率略微提升,Ⅵ類查全率略微下降,模型錯(cuò)分樣本大部分集中在Ⅱ、Ⅲ、Ⅳ類水質(zhì)。總體來說,模型效果與測試集上相當(dāng),說明模型比較穩(wěn)定、泛化能力強(qiáng),具有應(yīng)用價(jià)值。

3.2 模型應(yīng)用

根據(jù)LightGBM水質(zhì)預(yù)測多分類模型輸出結(jié)果,可以構(gòu)建兩個(gè)重點(diǎn)河涌庫,其一是Ⅵ類(劣Ⅴ類)水質(zhì)河涌庫;其二是水質(zhì)惡化河涌庫,根據(jù)預(yù)測的水質(zhì)等級(jí)與河涌上月水質(zhì)等級(jí)做對(duì)比,等級(jí)衰退兩個(gè)以上的河涌應(yīng)被列為“有水質(zhì)惡化傾向”的河涌。在實(shí)際工作過程中,根據(jù)模型分析結(jié)果,分別對(duì)南沙區(qū)、荔灣區(qū)相關(guān)河涌進(jìn)行現(xiàn)場調(diào)研反饋,從現(xiàn)場調(diào)研情況看,其河涌存在的問題能夠反映出河涌存在一定的黑臭風(fēng)險(xiǎn)。從而得出,基于LightGBM水質(zhì)預(yù)測模型能有效指導(dǎo)外業(yè)定向巡查、定向督導(dǎo)河長,防患于未然,對(duì)于重點(diǎn)河涌進(jìn)行提前干預(yù),提前發(fā)現(xiàn)問題,防止河涌水質(zhì)惡化以及反黑反臭。

4 結(jié)語

以廣州河長管理信息系統(tǒng)中2020年3月—11月的樣本數(shù)據(jù)為例,基于LightGBM的水質(zhì)預(yù)測模型輸出結(jié)果,在訓(xùn)練集和測試集上,準(zhǔn)確率都超過了53%,重點(diǎn)類別河涌Ⅵ類(劣Ⅴ類)的查準(zhǔn)率達(dá)到63%以上、查全率達(dá)到68%以上,模型整體預(yù)測效果較好,具有應(yīng)用價(jià)值。同時(shí)將水質(zhì)等級(jí)預(yù)測與重要性評(píng)估的內(nèi)業(yè)工作成果相結(jié)合,針對(duì)性地對(duì)水質(zhì)有變差趨勢的河涌及疑似劣Ⅴ類河涌開展外業(yè)專項(xiàng)巡查工作,找出重大污染源的來源以及分析河涌流域污染源的分布、特性。通過內(nèi)業(yè)數(shù)據(jù)挖掘,并結(jié)合外業(yè)專項(xiàng)的巡查,能夠彌補(bǔ)內(nèi)業(yè)發(fā)現(xiàn)問題的局限性,在有限的資源利用背景下,達(dá)到最優(yōu)化分配,減少資源浪費(fèi),提升督導(dǎo)巡查效率和準(zhǔn)確性,實(shí)現(xiàn)了對(duì)河長的定向督導(dǎo),進(jìn)一步壓實(shí)河長履職責(zé)任,提升履職水平。

猜你喜歡
水質(zhì)特征模型
一半模型
水質(zhì)抽檢豈容造假
環(huán)境(2023年5期)2023-06-30 01:20:01
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
如何表達(dá)“特征”
不忠誠的四個(gè)特征
一月冬棚養(yǎng)蝦常見水質(zhì)渾濁,要如何解決?這9大原因及處理方法你要知曉
抓住特征巧觀察
3D打印中的模型分割與打包
線性代數(shù)的應(yīng)用特征
河南科技(2014年23期)2014-02-27 14:19:15
主站蜘蛛池模板: 夜夜爽免费视频| 一级毛片在线播放| 亚洲日韩精品伊甸| 国产欧美性爱网| 国产激情第一页| 思思99思思久久最新精品| 中文字幕伦视频| 在线色综合| 国产成人超碰无码| 中文字幕在线免费看| 青草国产在线视频| 一级全黄毛片| 四虎永久在线| 暴力调教一区二区三区| 国产亚洲视频在线观看| 试看120秒男女啪啪免费| 国产97视频在线| 无码AV动漫| 91欧美亚洲国产五月天| 色妞www精品视频一级下载| 精品一區二區久久久久久久網站| 熟妇人妻无乱码中文字幕真矢织江| 精品国产成人av免费| 亚洲欧美一区二区三区图片| 欧美一区国产| 亚洲精品国产综合99| 无码精品国产VA在线观看DVD| 五月婷婷精品| 国产精品林美惠子在线播放| 欧美在线视频不卡第一页| 亚洲天堂网在线视频| 欧美日本中文| 人妻丰满熟妇啪啪| 国产高清在线观看91精品| 2020国产在线视精品在| 国产精品私拍99pans大尺度| 丝袜国产一区| 久久精品国产91久久综合麻豆自制| 亚洲精品波多野结衣| 一级毛片免费不卡在线 | 精品国产网站| 91久久偷偷做嫩草影院精品| 97无码免费人妻超级碰碰碰| 国产无码高清视频不卡| 91精品福利自产拍在线观看| 中文字幕调教一区二区视频| 992tv国产人成在线观看| 国产视频久久久久| 亚洲综合色婷婷| 亚洲精品欧美日本中文字幕| 国产自在线拍| 亚洲色无码专线精品观看| www.日韩三级| 欧美高清日韩| 亚洲男人天堂2018| 欧美三级不卡在线观看视频| 成人中文在线| 日韩一级二级三级| 91破解版在线亚洲| 真实国产乱子伦视频| 无遮挡国产高潮视频免费观看| 久久人妻系列无码一区| 国产人碰人摸人爱免费视频| 91色在线视频| 精品无码一区二区三区电影| 国产亚洲精品91| 中文无码伦av中文字幕| 成人午夜天| 欧美另类图片视频无弹跳第一页| 国产区网址| 最新午夜男女福利片视频| 国产一区亚洲一区| 国产精品一区二区不卡的视频| 青草视频久久| AⅤ色综合久久天堂AV色综合| 国产福利免费视频| 综合网天天| 五月婷婷欧美| 四虎成人免费毛片| 久久无码免费束人妻| 色综合日本| 好吊色妇女免费视频免费|