999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Adaboost集成模型的城市短期供水量預測方法

2020-05-19 05:12:16高赫余吳瀟勇
凈水技術 2020年5期
關鍵詞:特征模型

高赫余,王 圣,吳瀟勇

(上海城投水務<集團>有限公司供水分公司,上海 200444)

供水量預測分為長期預測和短期預測,長期預測是指對未來一周、一個月乃至一年的預測,而短期預測可以細化到未來1 h、1 d的預測[1]。本文主要研究的是短期預測,即日供水量預測和時供水量預測。在管網中水壓和供水量能滿足用戶的前提下,根據(jù)模型所預測的日與時供水量優(yōu)化供水模式,使水管網在能耗最小、漏損最小的情況下,保證給水質量,同時,能夠達到優(yōu)化調度的目的[2]。

由于我國需水量數(shù)據(jù)可靠性低,且時間系列較短,用傳統(tǒng)的預測方法如灰色預測、時間序列[3]、回歸分析以及定額法等不僅工作量大,精度也很難保證[4]。隨著現(xiàn)在計算機硬件及軟件的發(fā)展,機器學習和深度學習模型已經廣泛地應用在工業(yè)界中。如王盼等[5]采用隨機森林算法構建需水預測模型;BAI等[6]采用多尺度相關向量回歸方法構建城市日供水量需求預測模型;郭冠呈等[7]采用雙向長短時神經網絡構建了短期供水量預測;SHABANI等[8]通過對混沌時間序列進行相空間重構,并結合支持向量機模型構建城市水量需求預測模型。這些回歸模型能高精度的擬合非線性函數(shù),從而能在訓練樣本上得到預測結果,但是,易引發(fā)過擬合,泛化性能較差,在測試樣本上往往不理想,無法在實際中得到較好的推廣應用。

目前,集成學習在工業(yè)界和學術界受到越來越多的關注,所謂集成學習即訓練多個弱回歸模型,對最終的結果進行聯(lián)合決策[5]。目前,集成模型主要有Bagging策略、隨機森林模型、Adaboost等策略。其中,隨機森林中,各個決策樹相互獨立,每個決策樹在樣本堆里隨機選一批樣本,隨機選一批特征進行獨立訓練,各個決策樹之間無聯(lián)系;Bagging是在決策樹的基礎上并行生成一系列決策樹,相比于隨機森林,Bagging是選取全部特征屬性進行訓練;相比于以上兩種流行的集成模型,Adaboost模型建立的多個弱學器之間均相互聯(lián)系,使得最終的預測值盡量接近真實值,且有很強的泛化能力[9]。本文首次采用Adaboost集成模型構建水量預測模型,通過對供水量原始數(shù)據(jù)的預處理,并引入天氣、日期、空氣質量以及人為構造的屬性等信息[10],使模型具有更好的泛化能力。與傳統(tǒng)的研究方法如BP神經網絡模型[11-14]、決策樹模型、隨機森林模型、支持向量機模型[8]相比,Adaboost模型的精度和效率更高。

1 回歸建模

1.1 Adaboost模型

Adaboost 算法是機器學習中一種重要的特征分類算法,主要解決分類問題和回歸問題。目前,該算法已經運用到電力系統(tǒng)負荷預測、交通量預測,得到了不錯的預測效果。

Adaboost 算法通過對同一個訓練集訓練不同的弱學習器,然后將這些弱學習器組合形成強學習器,通過組合使弱學習器互補,從而使組合后的強學習器有較強的泛化能力。其核心思想是重視預測誤差大的樣本和性能好的弱學習器,即提高訓練集中訓練效果差的樣本權值和學習能力強的弱學習器權值,降低訓練效果好的樣本權值和學習能力弱的弱學習器權值[15]。

正是由于Adaboost 算法核心思想的特性:重視預測誤差大的樣本和性能好的弱學習器,對于基礎數(shù)據(jù)不夠完善、不夠準確、不夠豐富的數(shù)據(jù)集有很好的適用性,能夠在水務行業(yè)短期供售水量的預測中取得較好的應用效果。

1.2 評價標準

對于水量預測,本文研究更加關注預測的結果和真實的供水量之間的誤差大小,因此,采用平均絕對值誤差(mean absolute error)作為評價指標,數(shù)學定義如式(1)。

(1)

其中:nsamples——樣本數(shù)量;

yi——真實值;

另外一種可作為參考的指標為平均相對誤差(mean relative error),數(shù)學定義如式(2)。

(2)

2 日水量預測模型

2.1 數(shù)據(jù)描述

本節(jié)水量數(shù)據(jù)來源于上海市城投水務(集團)有限公司供水分公司,自2015年11月3日—2019年11月30日共1 489條日供水數(shù)據(jù)。

上海市城投水務(集團)有限公司供水分公司包括黃浦區(qū)、徐匯區(qū)、長寧區(qū)、閔行區(qū)、楊浦區(qū)、虹口區(qū)、閘北區(qū)、普陀區(qū)、寶山區(qū)、松江區(qū)、青浦區(qū)11個行政區(qū)的全部或部分地域,下設11個供水管理所、36個供水管理站,供水面積高達1 034 km2,在裝表數(shù)450余萬只,供水管網總長16 205 m。

考慮到原始數(shù)據(jù)所包含的特征只有供水日期,單一的特征會造成較差的擬合結果。因此,本文進一步考察并挖掘影響供水量的多方面因子,同時,將日期信息進一步細化,對特征進行組合擴展,衍生出一系列影響供水量的特征,結合這些特征因子和實際供水量訓練Adaboost模型。

圖1為該市實際供水量的變化情況。由圖1可知,該市供水量為300萬~500萬t,且不具有周期性,局部波動較大,與日期之間無明顯的線性關系,因此,需挖掘其他影響因子。

圖1 供水量趨勢Fig.1 Trend of Water Supply Demand

2.2 供水因子的選取與解釋

2.2.1 異常數(shù)據(jù)處理

2015年11月3日—2016年3月1日的數(shù)據(jù),由于上海市幾十年一遇寒潮的影響,波動非常劇烈,不具備普遍規(guī)律予以刪除。對于缺失的數(shù)據(jù),采用以下補全方法:

(a) 對于某一天數(shù)據(jù)的缺失,以這一天前后兩天的平均值代替;

(b) 對于某兩天水量差距巨大的數(shù)據(jù),這兩天的數(shù)據(jù)以這兩天數(shù)據(jù)的平均值代替。

2.2.2 特征選取

本節(jié)研究的重點是日供水量預測,根據(jù)預測結果調整每天的供水調度,所以,需要挖掘對供水量有影響的因子。結合以上考慮,本文考察了星期、月、日、四季、日最高溫度、日最低溫度、日平均溫度、天氣、轉天氣、風向、風力、空氣質量指數(shù)、空氣污染程度、節(jié)假日情況這14個影響因子,同時,根據(jù)人為構造,對數(shù)據(jù)進行深度挖掘,定義了溫度等級、溫差、取對數(shù)、開根號、求E、多項式運算6個影響因子,且將日期信息深度挖掘,可從日期中抽取該日期屬于一周內的第幾天、一個月內的第幾天、一年內的第幾天3個影響因子。通過特征擴展,將原本單一的特征構造為22特征,即星期、月、日、四季、日最高氣溫、日最低氣溫、日平均氣溫、天氣、轉天氣、風向、風力、節(jié)假日、空氣質量指數(shù)、空氣污染程度、溫度等級、取對數(shù)、開根號、多項式、Day_of_week、Day_of_month、Day_of_year、溫差等。

考慮到特征的相關性,通過Pearson相關系數(shù)法計算得到各特征與水量之間的相關性,并通過相關較高的數(shù)值型變量進一步挖掘得到取對數(shù)、開根號、求E及多項式4維特征值,由于現(xiàn)有特征維度未必能夠充分地描述目標變量,通過現(xiàn)有數(shù)據(jù)構造新特征。此方法叫做特征構建,用于擴大特征維度,從而盡可能的提高預測精度。

2.2.3 Pearson相關系數(shù)

Pearson能幫助理解特征和響應變量之間關系的方法,該方法衡量的是變量之間的線性相關性,結果的取值為[-1,1], -1表示完全的負相關,+1表示完全的正相關,0表示沒有線性相關。本文采用Pearson相關系數(shù)檢驗各個特征與觀測值之間是否存在線性關系。一是Pearson速度快,易于計算;二是通過Pearson相關系數(shù)篩選特征可以降低特征維度,在實際應用中便于使用[16]。

2.3 試驗及結果分析

2.3.1 特征確定

通過Pearson相關系數(shù)計算特征相關性,并對其中高度相關的特征數(shù)據(jù)進行深度挖掘。圖2為不同特征與供水量之間的相關性指數(shù)(對于負相關的特征取其絕對值)。

圖2 Pearson相關系數(shù)Fig.2 Pearson Correlation Coefficient

表1為不同的相關系數(shù)對應的相關性。

表1 相關性Tab.1 Correlation

通過深度挖掘構造的4維特征通過Pearson相關系數(shù)法計算后得到較好的相關性(圖3),可以最終使用。

圖3 Pearson相關系數(shù)Fig.3 Pearson Correlation Coefficient

通過圖2及圖3相關性計算結果,選取相關系數(shù)大于等于0.15的特征,最終得到13維特征:最高氣溫、平均氣溫、最低氣溫、溫度等級、節(jié)假日、溫差、月、四季、開根號、取對數(shù)、求E、多項式、Day_of_year。

2.3.2 結果比較

將整體數(shù)據(jù)劃分為測試集和訓練集。分別使用決策樹[17]、BP神經網絡、支持向量機、隨機森林,以及Adaboost建立水量預測模型。對于相同的測試集,不同的模型有不同的擬合曲線,分別計算以上5種模型的相關統(tǒng)計量。表2為各種模型在測試集上的平均相對誤差和平均絕對誤差。

表2 結果比較Tab.2 Comparison of Results

由表2可知,在相同的測試集上,Adaboost表現(xiàn)結果最佳,平均絕對誤差為65 817 t,平均相對誤差為0.015,與其他4種傳統(tǒng)模型相比有較大的提升。

驗證的結果表明,Adaboost平均預測誤差為65 817 t/d,平均相對偏差為1.5%。與現(xiàn)在流行的BP神經網絡和隨機森林預測模型相比有顯著的提升,平均絕對誤差分別降低44 602 t和8 952 t,平均相對誤差分別降低1.0%和0.3%。

3 時水量預測模型

3.1 數(shù)據(jù)描述

本節(jié)水量數(shù)據(jù)均來源于上海市城投水務(集團)有限公司供水分公司,自2017年01月01日—2019年6月30日共21 864條時供水數(shù)據(jù),每天從1時—24時共24條數(shù)據(jù)。

原始數(shù)據(jù)所包含的特征只有供水日期,單一的特征會造成較差的擬合結果。因此,本文進一步考察并挖掘影響供水量的多方面因子,同時,將日期信息進一步細化,對特征進行組合擴展,衍生出一系列影響供水量的特征,結合這些特征因子和實際供水量訓練Adaboost模型。

3.2 供水因子的選取與解釋

本節(jié)研究的重點是時供水量預測,根據(jù)預測結果調整1 d之內每小時的供水調度,所以需要挖掘對供水量有影響的因子。結合以上考慮,本文考察了四季、星期、月、日、時間、小時氣溫、最高氣溫、最低氣溫、平均氣溫、天氣、轉天氣、風向、風力、空氣質量指數(shù)、空氣污染程度、節(jié)假日情況16個影響因子,同時,根據(jù)人為構造,對數(shù)據(jù)進行深度挖掘,定義了氣溫等級、時溫度等級、取對數(shù)、開根號、求E、多項式運算6個影響因子,并將日期信息深度挖掘,可以從日期中抽取該日期屬于一周內的第幾天、一個月內的第幾天、一年內的第幾天3個影響因子。通過特征擴展,將原本單一的特征構造為25維的特征,即:星期、月、日、四季、最高氣溫、最低氣溫、平均氣溫、天氣、轉天氣、風向、風力、節(jié)假日、空氣質量指數(shù)、空氣污染程度、溫度等級、取對數(shù)、開根號、多項式、Day_of_week、Day_of_month、Day_of_year、小時氣溫、求E、時間。

考慮到特征的相關性,通過Pearson相關系數(shù)法計算得到各特征與水量之間的相關性,并對小時氣溫特征進一步挖掘得到取對數(shù)、開根號和求E這3個特征值,對相關性較高的數(shù)值型變量進行多項式計算,得到1個特征值。

通過Pearson相關系數(shù)計算特征相關性,并對其中高度相關的特征數(shù)據(jù)進行深度挖掘,圖4為不同特征與供水量之間的相關性指數(shù)(對于負相關的特征取其絕對值)。

圖4 Pearson相關系數(shù)Fig.4 Pearson Correlation Coefficient

選取相關性最強的前3個特征,進行多項式運算得到:多項式=3×最高氣溫+2×平均氣溫+最低氣溫。

通過Pearson相關系數(shù)法計算得到開根號、取對數(shù)、求E和多項式運算4維特征有較好相關性,可以最終使用。通過圖4及新構造特征相關性計算結果,選取相關系數(shù)大于等于0.15的特征,最終得到的13維特征:最高氣溫、平均氣溫、最低氣溫、溫度等級、節(jié)假日、氣溫等級、氣溫、時間、開根號、取對數(shù)、求E、多項式、Day_of_year。

3.3 結果比較

將整體數(shù)據(jù)劃分為測試集和訓練集。分別使用決策樹[17],線性回歸,支持向量機,隨機森林,以及AdaBoost建立水量預測模型。對于相同的測試集,不同的模型有不同的擬合曲線,分別計算以上5種模型的相關統(tǒng)計量。表3為各種模型在測試集上的平均相對誤差和平均絕對誤差。

表3 結果比較Tab.3 Comparison of Results

驗證的結果表明,Adaboost平均預測誤差為3 466 t/h,平均相對偏差為1.9%。與現(xiàn)在流行的決策樹和隨機森林預測模型相比有顯著的提升,平均絕對誤差分別降低1 480 t和533 t,平均相對誤差分別降低0.8%和0.3%。

4 結語

上述日水量模型和時水量模型的建模通過特征選取、相關性分析和數(shù)據(jù)建模3個核心步驟,得到較高精度的模型。其中,特征選取所確定的特征因子均為天氣、溫度和日期等與供水量息息相關的公司外部數(shù)據(jù),相對于以往通過歷史水量數(shù)據(jù)增長率簡單的預測未來水量和通過員工經驗進行供水調度的方式,此模型具有客觀、動態(tài)、準確、方便和快速的特征,最后數(shù)據(jù)建模通過橫向對比突出了Adaboost 算法在短時供水量預測中的優(yōu)越性。

通過此模型進行短期的供水量預測,可以根據(jù)天氣、氣溫和日期等影響用戶用水習慣的因素準確快速計算得到未來1 h和1 d的供水量,依據(jù)模型數(shù)據(jù),配合老員工的經驗合理供給區(qū)域內水量及水量調度,可以減少水量損失,提高經濟效益。

猜你喜歡
特征模型
一半模型
抓住特征巧觀察
重要模型『一線三等角』
新型冠狀病毒及其流行病學特征認識
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 国产午夜无码专区喷水| 色综合手机在线| www亚洲天堂| 亚洲国产天堂久久九九九| 国产视频一二三区| 欧美亚洲国产一区| 永久成人无码激情视频免费| 怡红院美国分院一区二区| 色婷婷色丁香| www精品久久| 亚洲中文精品人人永久免费| 久久性视频| 国产精品亚洲va在线观看| 亚洲日本在线免费观看| 国产成人精品2021欧美日韩| 福利在线免费视频| AV熟女乱| 人妻21p大胆| 99re这里只有国产中文精品国产精品| 免费看久久精品99| 在线看片中文字幕| 看国产毛片| 午夜啪啪福利| 国产69精品久久久久孕妇大杂乱| 美女无遮挡免费网站| 五月天综合婷婷| 亚洲AⅤ无码日韩AV无码网站| 国产国产人在线成免费视频狼人色| 国产欧美性爱网| 国产丰满大乳无码免费播放| 国产欧美在线观看视频| 欧美国产日本高清不卡| 国产欧美日韩精品综合在线| 久久精品一品道久久精品| 国产人人射| 日本国产精品一区久久久| 国产男女免费完整版视频| 久久精品国产精品青草app| 波多野结衣在线se| 综合色在线| 国产三级国产精品国产普男人| 91av成人日本不卡三区| 喷潮白浆直流在线播放| 亚洲综合久久成人AV| 午夜不卡视频| 亚洲经典在线中文字幕| 国产精品永久在线| 99伊人精品| 亚洲成av人无码综合在线观看| 色欲综合久久中文字幕网| 久久www视频| 久久久久国产精品熟女影院| 99精品免费在线| 国产又色又刺激高潮免费看| 99精品国产自在现线观看| 自拍欧美亚洲| 91小视频版在线观看www| av大片在线无码免费| 视频二区亚洲精品| 国外欧美一区另类中文字幕| 日韩第八页| 四虎在线观看视频高清无码 | 久久综合伊人77777| 国产色爱av资源综合区| 九九热视频在线免费观看| 欧美无专区| 毛片免费视频| 麻豆AV网站免费进入| 国产丝袜第一页| 成人蜜桃网| 国产午夜无码片在线观看网站| 亚洲免费三区| 四虎国产精品永久一区| 久久99精品久久久久久不卡| 国产精品女同一区三区五区| 天天干伊人| 久久99精品久久久久久不卡| 欧美专区在线观看| 天天综合网亚洲网站| 一级毛片免费观看久| 97国内精品久久久久不卡| 国产精品久久国产精麻豆99网站|