歐陽群文
(廣州市城建規(guī)劃設(shè)計(jì)院有限公司,廣東廣州 510000)
廣州以河長制為“統(tǒng)領(lǐng)”,深入開展清四亂和源頭控污工作,全市水環(huán)境治理水平及治理成效實(shí)現(xiàn)了根本性提升,完成了對(duì)原有黑臭河湖的治理。然而河道水安全和水環(huán)境依然較為脆弱,各類問題有反彈風(fēng)險(xiǎn),治水成效難以鞏固,河湖水質(zhì)存在返黑返臭風(fēng)險(xiǎn)。隨著廣州河長制工作的不斷深入,以信息化為主要手段的河長管理機(jī)制不斷更新迭代,并積累了大量數(shù)據(jù)[1-3]。但現(xiàn)有的廣州河長信息管理系統(tǒng)主要功能是收集整理和發(fā)布河湖管理方面的基本信息,缺乏對(duì)數(shù)據(jù)的深入分析與挖掘,并沒有結(jié)合實(shí)際需求進(jìn)行模型的開發(fā),例如如何進(jìn)行水質(zhì)預(yù)警、如何根據(jù)預(yù)報(bào)結(jié)果進(jìn)行針對(duì)性治理等[4]。利用數(shù)據(jù)資源指導(dǎo)實(shí)際工作是河長制信息化推進(jìn)的主要方向。鑒于此,文章利用廣州河長管理信息系統(tǒng)中的數(shù)據(jù)(下稱“系統(tǒng)數(shù)據(jù)”),通過對(duì)數(shù)據(jù)進(jìn)行深入挖掘與分析,基于擅長挖掘數(shù)據(jù)縱深的LightGBM(light gradient boosting machine)算法建立水質(zhì)預(yù)測模型。通過建模型預(yù)測水質(zhì)等級(jí),并據(jù)此分析河湖水質(zhì)變化趨勢及系統(tǒng)數(shù)據(jù)的重要程度,從而提高河長對(duì)河湖事件的預(yù)測能力以及河湖管理的執(zhí)行能力,全面促進(jìn)河長制實(shí)施。
模型中,采取廣州河長管理信息系統(tǒng)數(shù)據(jù)(河涌問題數(shù)據(jù)、河長行為數(shù)據(jù)等)、河涌上月水質(zhì)數(shù)據(jù)作為特征數(shù)據(jù),河涌本月水質(zhì)數(shù)據(jù)作為標(biāo)簽數(shù)據(jù),通過多分類機(jī)器學(xué)習(xí)算法深入挖掘特征數(shù)據(jù)與標(biāo)簽數(shù)據(jù)之間的映射關(guān)系,得到一個(gè)可以根據(jù)上月特征數(shù)據(jù)預(yù)測當(dāng)月水質(zhì)的機(jī)器學(xué)習(xí)模型,即LightGBM的水質(zhì)預(yù)測模型。通過內(nèi)業(yè)模型輸出結(jié)果指導(dǎo)外業(yè)對(duì)于水質(zhì)較差以及有變差趨勢的河涌,并執(zhí)行定向巡查,通過多分類機(jī)器學(xué)習(xí)算法實(shí)現(xiàn)水質(zhì)預(yù)測的目標(biāo)。
模型構(gòu)建環(huán)節(jié)包括數(shù)據(jù)整合、樣本劃分、數(shù)據(jù)預(yù)處理、特征工程、模型訓(xùn)練及參數(shù)優(yōu)化、模型結(jié)果分析評(píng)價(jià)、變量重要性評(píng)分及內(nèi)外業(yè)融合分析。
根據(jù)廣州河長管理信息系統(tǒng)中的不同數(shù)據(jù)源,將不同來源的數(shù)據(jù)整合成一張建模寬表。由于每條河涌對(duì)應(yīng)多個(gè)河長,故河涌對(duì)應(yīng)的河長行為數(shù)據(jù)采用均值平滑方法處理,即采用多個(gè)河長的行為數(shù)據(jù)均值作為特征數(shù)據(jù)。
考慮到樣本數(shù)據(jù)比較有限,為了保證模型能夠充分地訓(xùn)練,需要擴(kuò)大訓(xùn)練集的占比,所以采取9∶1的比例將1 771條樣本數(shù)據(jù)劃分成訓(xùn)練集及測試集,其中訓(xùn)練集1 593條,測試集178條。
鑒于設(shè)備故障、網(wǎng)絡(luò)通信等不可控因素的影響,原始數(shù)據(jù)中可能存在臟數(shù)據(jù)、缺失數(shù)據(jù)等情況。因此,首先對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理。預(yù)處理工作主要包括數(shù)據(jù)清洗、特征分類、缺失值處理、異常值檢測等,包括數(shù)據(jù)清晰、特征分類、數(shù)據(jù)缺失值處理、數(shù)據(jù)異常值處理。
特征工程是指將預(yù)處理后的數(shù)據(jù)進(jìn)行加工,轉(zhuǎn)變?yōu)槟P退枰奶卣鲾?shù)據(jù),同時(shí)將原有特征通過計(jì)算、組合等方式轉(zhuǎn)換為新的特征[5-9]。研究中,對(duì)于河涌問題數(shù)據(jù)進(jìn)行了縱向(多級(jí)河長)與橫向(同級(jí)河長上報(bào)的不同問題)的特征工程處理,共得到31個(gè)特征數(shù)據(jù)。
將上月特征數(shù)據(jù)作為輸入,當(dāng)月水質(zhì)等級(jí)預(yù)測作為輸出,構(gòu)建基于LightGBM的水質(zhì)預(yù)測模型。采用LightGBM算法在訓(xùn)練集中訓(xùn)練模型,并通過模型在驗(yàn)證集上的表現(xiàn)進(jìn)行算法參數(shù)優(yōu)化。初步訓(xùn)練時(shí),設(shè)置參數(shù)如下:決策樹的數(shù)量設(shè)置為200,樹最大深度設(shè)置為3,其他參數(shù)均使用默認(rèn)參數(shù)。初步訓(xùn)練的準(zhǔn)確率為48.31%,參數(shù)優(yōu)化效果以此基準(zhǔn)模型作為參考。
LightGBM模型參數(shù)較多,研究選取LightGBM最重要的7個(gè)參數(shù)進(jìn)行算法優(yōu)化,以準(zhǔn)確率為評(píng)價(jià)指標(biāo)通過網(wǎng)格搜索法選取最優(yōu)參數(shù)。優(yōu)化的結(jié)果如圖1所示,評(píng)價(jià)指標(biāo)均為測試集上的準(zhǔn)確率。


圖1 LightGBM模型參數(shù)調(diào)優(yōu)結(jié)果
由圖1可知,將決策樹的數(shù)量初始值設(shè)為20,準(zhǔn)確率為0.48,當(dāng)決策樹的數(shù)量取50時(shí),準(zhǔn)確率變?yōu)?.51,繼續(xù)增大決策樹的數(shù)量到100、200、300、400、500、600,準(zhǔn)確率呈現(xiàn)下降趨勢。將浮點(diǎn)數(shù)設(shè)定為0.6~1.0的調(diào)整范圍,當(dāng)浮點(diǎn)數(shù)取值為0.7、0.8、0.9時(shí),準(zhǔn)確率趨于穩(wěn)定。當(dāng)樹最大深度取值小于4時(shí),準(zhǔn)確率上升,當(dāng)取值大于4時(shí),準(zhǔn)確率呈上下波動(dòng)變化,但均小于取值為4的準(zhǔn)確率。最小樣本數(shù)量在4種取值下(10、30、50和100)的準(zhǔn)確率分別為0.51、0.52、0.47和0.47。將正則化系數(shù)設(shè)定為0~3.0的調(diào)整范圍,隨著參數(shù)增大,模型預(yù)測效果反而變差,調(diào)參后最優(yōu)解仍保持為0。選擇兩種正則化系數(shù)進(jìn)行調(diào)參,正則化系數(shù)1.0與正則化系數(shù)2.0參數(shù)取值范圍相同,調(diào)參后最優(yōu)解為1。對(duì)于學(xué)習(xí)速率,0.1為最佳取值。由以上分析可知,參數(shù)決策樹的數(shù)量、浮點(diǎn)數(shù)、樹最大深度、最小樣本數(shù)量、正則化系數(shù)1、正則化系數(shù)2.0、學(xué)習(xí)速率的最優(yōu)取值分別為50.0、0.9、4.0、30.0、0、1.0、0.1。特征選擇結(jié)果如表1所示。

表1 特征選擇結(jié)果
研究采用“準(zhǔn)確率”為評(píng)價(jià)指標(biāo)。將上述尋優(yōu)的參數(shù)代入模型,輸出預(yù)測結(jié)果。通過混淆矩陣可以得出,Ⅱ類、Ⅵ類(劣五類)水質(zhì)的河涌預(yù)測比較準(zhǔn)確,Ⅱ類、Ⅲ類水質(zhì)容易相互混淆。總體準(zhǔn)確率為53.37%。除了準(zhǔn)確率之外,還可以通過針對(duì)某一類別的查準(zhǔn)率、查全率分析模型的分類結(jié)果。對(duì)于重點(diǎn)關(guān)注的Ⅴ類、Ⅵ類(劣五類)水質(zhì),計(jì)算其查準(zhǔn)率、查全率。Ⅴ類查準(zhǔn)率為40%,Ⅴ類查全率為11.76%,Ⅵ類查準(zhǔn)率為63.16%,Ⅵ類查全率為68.57%。因此,5類水質(zhì)河涌的查準(zhǔn)及查全表現(xiàn)較低,尤其是查全率,原因在于訓(xùn)練樣本中Ⅴ類水質(zhì)河涌的樣本數(shù)過少,模型無法學(xué)習(xí)到相應(yīng)特征。雖然Ⅴ類水質(zhì)的模型效果并不理想,但Ⅵ類水質(zhì)的查準(zhǔn)和查全比較理想,查全率達(dá)到68.57%,Ⅵ類水質(zhì)的模型效果對(duì)于河涌黑臭預(yù)警、水質(zhì)惡化預(yù)警有重要意義。
研究中采用Gini Importance方法得到重要性評(píng)估結(jié)果如圖2所示。

圖2 變量重要性評(píng)價(jià)結(jié)果
由圖2可知,責(zé)任一般河湖數(shù)量、上月水質(zhì)、連續(xù)打卡式巡河的次數(shù)是影響水質(zhì)的3個(gè)重要特征。責(zé)任一般河湖數(shù)量是指河涌對(duì)應(yīng)河長所管轄的一般河湖數(shù)量,反映出河涌管理者的精力分散程度,由此結(jié)果可以推測,河涌管理者的精力分散程度對(duì)水質(zhì)有較大影響,此結(jié)論對(duì)于河長的人手分配、河涌分配具有指導(dǎo)意義。連續(xù)打卡式巡河次數(shù)反映出河長巡河行為對(duì)水質(zhì)的影響,此結(jié)論對(duì)河長管理、培訓(xùn)、督導(dǎo)具有指導(dǎo)意義。另外,特征重要性分析結(jié)果表明,所有問題、問題上報(bào)率、一般河湖巡河率等特征對(duì)河涌水質(zhì)也會(huì)產(chǎn)生較大影響。此外,可以發(fā)現(xiàn)在眾多河涌問題中,工業(yè)廢水排放是影響水質(zhì)的最大問題。
為了進(jìn)一步驗(yàn)證模型效果,采用后一個(gè)月具有水質(zhì)數(shù)據(jù)的河涌共計(jì)422條作為驗(yàn)證樣本,將河涌的前一個(gè)月特征數(shù)據(jù)輸入訓(xùn)練好的模型中,輸出各河涌后一個(gè)月水質(zhì)預(yù)測數(shù)據(jù),根據(jù)輸出的預(yù)測結(jié)果與實(shí)際結(jié)果進(jìn)行比對(duì),對(duì)模型進(jìn)行驗(yàn)證。
驗(yàn)證結(jié)果顯示其總體準(zhǔn)確率為53.10%,基本不變。對(duì)于重點(diǎn)關(guān)注的Ⅴ類、Ⅵ類(劣五類)水質(zhì),計(jì)算其查準(zhǔn)率、查全率分別為:Ⅴ類查準(zhǔn)率為40%、Ⅴ類查全率為18.60%、Ⅵ類查準(zhǔn)率為63.63%、Ⅵ類查全率為67.96%。與測試集的模型效果相比,總體準(zhǔn)確率略有下降,但Ⅴ類查全率有明顯提升、Ⅵ類查準(zhǔn)率略微提升,Ⅵ類查全率略微下降,模型錯(cuò)分樣本大部分集中在Ⅱ、Ⅲ、Ⅳ類水質(zhì)。總體來說,模型效果與測試集上相當(dāng),說明模型比較穩(wěn)定、泛化能力強(qiáng),具有應(yīng)用價(jià)值。
根據(jù)LightGBM水質(zhì)預(yù)測多分類模型輸出結(jié)果,可以構(gòu)建兩個(gè)重點(diǎn)河涌庫,其一是Ⅵ類(劣Ⅴ類)水質(zhì)河涌庫;其二是水質(zhì)惡化河涌庫,根據(jù)預(yù)測的水質(zhì)等級(jí)與河涌上月水質(zhì)等級(jí)做對(duì)比,等級(jí)衰退兩個(gè)以上的河涌應(yīng)被列為“有水質(zhì)惡化傾向”的河涌。在實(shí)際工作過程中,根據(jù)模型分析結(jié)果,分別對(duì)南沙區(qū)、荔灣區(qū)相關(guān)河涌進(jìn)行現(xiàn)場調(diào)研反饋,從現(xiàn)場調(diào)研情況看,其河涌存在的問題能夠反映出河涌存在一定的黑臭風(fēng)險(xiǎn)。從而得出,基于LightGBM水質(zhì)預(yù)測模型能有效指導(dǎo)外業(yè)定向巡查、定向督導(dǎo)河長,防患于未然,對(duì)于重點(diǎn)河涌進(jìn)行提前干預(yù),提前發(fā)現(xiàn)問題,防止河涌水質(zhì)惡化以及反黑反臭。
以廣州河長管理信息系統(tǒng)中2020年3月—11月的樣本數(shù)據(jù)為例,基于LightGBM的水質(zhì)預(yù)測模型輸出結(jié)果,在訓(xùn)練集和測試集上,準(zhǔn)確率都超過了53%,重點(diǎn)類別河涌Ⅵ類(劣Ⅴ類)的查準(zhǔn)率達(dá)到63%以上、查全率達(dá)到68%以上,模型整體預(yù)測效果較好,具有應(yīng)用價(jià)值。同時(shí)將水質(zhì)等級(jí)預(yù)測與重要性評(píng)估的內(nèi)業(yè)工作成果相結(jié)合,針對(duì)性地對(duì)水質(zhì)有變差趨勢的河涌及疑似劣Ⅴ類河涌開展外業(yè)專項(xiàng)巡查工作,找出重大污染源的來源以及分析河涌流域污染源的分布、特性。通過內(nèi)業(yè)數(shù)據(jù)挖掘,并結(jié)合外業(yè)專項(xiàng)的巡查,能夠彌補(bǔ)內(nèi)業(yè)發(fā)現(xiàn)問題的局限性,在有限的資源利用背景下,達(dá)到最優(yōu)化分配,減少資源浪費(fèi),提升督導(dǎo)巡查效率和準(zhǔn)確性,實(shí)現(xiàn)了對(duì)河長的定向督導(dǎo),進(jìn)一步壓實(shí)河長履職責(zé)任,提升履職水平。