李彥彬,閆文晶,,張海濤,杜軍凱
(1.華北水利水電大學,鄭州 450046;2.中國水利水電科學研究院,北京 100044)
我國是水資源嚴重短缺的國家之一,水資源供需矛盾的突出是實現可持續發展目標的瓶頸[1]。隨著高質量發展理論的提出,提高城市用水量預測的準確度顯得尤為重要。因此,探明影響城市用水量主要因素,并建立合理的預測模型是促進水資源可持續發展、優化水資源合理配置的重要舉措[2]。經過大量研究表明,用水量的主要影響因素主要包括人口、經濟、氣候、土地利用等[3,4]。高學平等[5]認為社會經濟發展、土地利用情況、生態環境是城市用水量變化的主要驅動因-素;張陳俊等[6]研究表明經濟發展是用水量增加的主動力,技術進步、產業結構及人口的變化均與用水量有關;劉裕輝等[7]認為人口增長、社會經濟發展、氣候變化是影響用水量的主要因素;朱世垚[8]等為了表征區域用水變化和影響因素之間的關系,采用STIRPAT 模型解析用水總量對人口規模、經濟發展水平、節水技術水平變化的變動響應關系,結果表明:人口規模和經濟發展水平對用水增長起到正向促進作用,節水技術水平起到負向抑制作用。但以上用水量影響因素的研究大多數針對當地情況得出的結論,分析結果不具有通用性,因此各個地區對于用水量影響因素的研究仍要根據當地實際情況。
目前常用的城市需水量預測模型有:時間序列法[9]、回歸模型法[10]、神經網絡法[11]、灰色預測法[9,12,13]。幾種方法各有優勢和不足,目前還不能建立一個確定性模型對區域用水系統的復雜性進行描述[14]。相較于其他方法,傳統灰色預測模型具有少量建模的優勢[12,13],但該預測模型也存在著預測精度不高、誤差大等缺點[15,16]。針對該問題,鄧權龍[9]等基于小波分析理論與灰色GM(1,1)模型、自回歸滑動平均模型[ARMA(p,q)]組合的預測模型預測了礦井防塵用水量;杜懿[12]等提出函數變換改進的灰色模型、殘差修正后的灰色模型、經弱化算子處理后的灰色模型;孫麗芹[13]等運用AM(簡單滑動平均)殘差修正GM(1,1)模型。實際研究表明,單一模型的預測精度較低,而組合預測結果中有些實際值與預測值的相對誤差較大[17]。最小二乘支持向量回歸(LSSVR)針對非線性、小樣本數據具有良好擬合性能且學習性能強[18],將LSSVR 引入灰色模型中來彌補灰色模型預測對波動性序列預測精度不高的缺陷。
基于此,本文針對城市用水量預測展開研究,通過采用灰色關聯分析法篩選主要影響因素,結合LSSVR 對波動序列良好的擬合優勢,選用HP 濾波分解法將用水量及主要影響因素序列分為長期趨勢序列和短期波動序列,構建GM-LSSVR 組合模型,并對鄭州市2011-2019年城市用水量進行預測,最后與傳統灰色預測GM(1,1),BP 神經網絡預測模型結果進行對比分析,驗證基于HP 濾波分解的GM-LSSVR 預測模型的準確性,以期為提高鄭州市城市用水預測準確度提供參考。
灰色關聯分析法適用于小樣本計算,應用范圍廣,對樣本數量要求少,且計算量不大[19]。在進行灰色關聯分析時,將用水量數據序列記為:,k =0,1,…,n,其中n 為數列長度;影響因素指標序列記為:xi(k)=[xi(1),xi(2),…,xi(n)],i = 0,1,…,m,其中m 為指標序列。由于各影響因素的物理意義和量綱均可能不同,因此對數據要進行無量綱化的數據處理:

其中,k=l=1,2,…,n;k≠l。
用水量序列y(k)與各影響因素序列xi(k)的絕對差值序列為:

確定最大值M和最小值m:

計算各影響因素的關聯系數δi(k):

式中:ρ為分辨系數,0<ρ<1。
ρ越小,關聯系數間差異越大,分辨能力越強,通常ρ取0.5。
計算各影響因素序列xi(k)對用水量序列y(k)的關聯系數γi(k):

利用灰色關聯分析法篩選出與用水量關聯度高的指標(即絕對值越接近于1的指標),作為主要影響因素。
HP(Hodrick-Prescott)濾波分解法是一種常見的針對時間序列數據的分解方法。針對用水量序列存在的波動性,可以將用水量序列及影響用水量的主要因素序列分解為能夠預測用水量的趨勢性序列和無規律序列,從而對兩種不同序列進行組合預測。本研究將用水量及主要影響因素的時間序列Y(Y=y1,y2,…,yn)分解為一個用水量及主要影響因素的長期趨勢序列T(T=t1,t2,…,tn)和一個用水量及主要影響因素的短期波動序列C(C=c1,c2,…,cn)。則:

其原理[20]是把長期趨勢序列T 分解出來,長期趨勢序列T常被定義為最小化問題的解,即使損失函數最小:

HP濾波分解法最核心的問題在于參數λ值的確定,針對年度數據,λ通常取100。
1.3.1 GM(1,N)模型
灰色GM(1,N)模型由多變量的一階微分方程構成,不僅具有對影響因素樣本要求少的特點,而且預測結果具有很好的趨勢,可用于預測長期趨勢序列。用水量數據序列記為n-1個影響因素數據序列記為,(i = 2,3,…,N,k =1,2,…,n),把生成的向量i = 1,2,…,n)數據序列進行依次累加:

其中:

并且滿足建立的微分方程為:

式中:a 為發展系數;bi為驅動系數;bi(k)為驅動項(k)為背景值,且稱式(12)為灰色GM(1,N)模型。

其中:


1.3.2 最小二乘支持向量回歸(LSSVR)模型
最小二乘支持向量回歸(LSSVR)是一種基于統計學習理論的建模方法,訓練算法為求解凸二次規劃,解法是將求解凸二次規劃轉變為求解線性方程組,降低算法的復雜性,從而達到全局最優[22],針對短期波動序列,具有很好的擬合效果。
假設樣本集為S ={(xi,yi),xi∈Rn,yi∈R}(i = 1,2,…,l),xi和yi分別為輸入和輸出樣本,l為樣本容量。在LSSVR 模型訓練前,先對xi和yi進行歸一化處理,如下:

式中:xmin、ymin為輸入樣本和輸出樣本的最小值;xmax、ymax為輸入樣本和輸出樣本的最大值。
將歸一化處理的數據分為訓練集和測試集。在設定最大迭代次數內,利用訓練集學習,得到最佳的參數組合。兩個參數優化的目標函數如下:

式中:yi和分別為第i年用水量的實際值和預測值。
1.3.3 GM-LSSVR模型構建
由于用水量序列的波動性較強,采用單一的用水量預測模型會導致某些年份的預測值與實測值相對誤差較大,為了解決用水量預測結果中有些實際值與預測值的相對誤差較大這一問題,本文利用HP 濾波分解法將用水量序列和主要影響因素分解為長期趨勢序列和短期波動序列,采用GM(1,N)模型與機器學習算法LSSVR模型來進行預測。具體步驟如下:
(1)利用灰色關聯分析法篩選出與用水量關聯度高(r≥0.75)的指標,作為主要影響因素;
(2)根據篩選出的主要影響因素,利用HP 濾波分解法,將所有的主要影響因素及用水量均分解為主要影響因素及用水量的長期趨勢序列T 和主要影響因素及用水量的短期波動序列C;
(3)由于GM(1,N)模型所得預測結果具有良好趨勢性,故采用該模型預測用水量的長期趨勢序列T。利用t-1年的用水量及其主要影響因素得到t年用水量的長期趨勢序列預測值i);
(4)由于LSSVR 算法對于無規律數據具有良好的擬合效果,故采用該算法預測用水量的波動趨勢序列C。利用t-1年的用水量及主要影響因素得到t年用水量的波動趨勢序列預測值;

圖1 基于HP濾波分解的GM-LSSVR模型流程圖Fig.1 Flow chart of GM-LSSVR model based on HP filter decomposition
本文擬從模型擬合優度和擬合誤差兩個角度來評價模型的擬合結果。
(1)模型擬合優度。定義模型擬合優度R2為:

式中:Yt為t 時刻的實際值為模型給出的t 時刻的預測值為序列平均值。
擬合優度R2≥0.7且越接近于1,則模型的擬合效果越好。
(2)模型擬合誤差。定義模型擬合誤差為平均相對誤差:

式中:N為觀測個數。
鄭州市地處我國華中地區、黃河下游、中原腹地、河南中部偏北,是中原地區唯一的國家一線城市。截至2019年底,鄭州市總人口已增加至1 035.2 萬人,城鎮化率達74.58%,GDP 總額為11 589.7 億元,第一、二、三產業占比為1.2∶39.8∶59,人均水資源占有量209 m3,遠遠低于世界公認極度缺水標準值。近年來,鄭州市進入國家中心城市的建設行列,經濟社會快速發展、人口急速增加,造成水資源嚴重惡化、供需矛盾問題嚴重。準確地預測鄭州市用水量,是完成鄭州市水資源優化配置的基礎,更是促進該區域可持續發展的重要舉措。
考慮到2011年水利普查調整總用水量數據等情況,本文選取2011-2019年總用水量數據進行預測。又考慮到2018年之前鄭州市用水統計數據未統計鞏義市用水量,為了確保數據準確性,在2011-2017年用水數據中加入鞏義市用水量數據。
數據來源于2011-2019年《鄭州統計年鑒》、《鄭州市水資源公報》,總用水量數據見表1。

表1 2012-2019年鄭州總用水量統計 億m3Tab.1 Statistics of total water consumption in Zhengzhou from 2012 to 2019
由于影響城市用水量的因素較多,本文擬從人口規模、經濟規模、產業結構、用水結構、氣象條件等多角度出發,對20 多個指標進行灰色關聯分析,最終篩選出關聯度在0.75 以上的8個指標:總人口、平均氣溫、綠化覆蓋率、建成區面積、污水處理率、糧食總產量、工業用書重復率、人均生產總值作為主要影響因素(數據來源于《鄭州統計年鑒》、國家氣象信息中心:http:∕∕data.cma.cn∕),其灰色關聯度見表2。
取r≥0.9 的因素作為主要影響因素,r<0.9 的因素作為次要影響因素。由表2 可知,在影響鄭州市城市用水量中,總人口、平均氣溫為主要因素;人均生產總值、糧食總產量、污水處理率、建成區面積、綠化覆蓋率、工業用水重復率為次要影響因素。隨著鄭州市進入國家中心城市的建設行列,經濟社會快速發展、人口急速增加[24],所以人口可作為影響用水量主要因素;另外,鄭州市近幾年夏季持續高溫,日供水持續攀升[25],所以平均氣溫也可作為影響用水量的主要因素。

表2 用水量影響因子灰色關聯度Tab.2 Grey correlation degree of water consumption influencing factor
2.3.1 用水量預測模型驗證
選用灰色關聯度分析法篩選關聯度出的8個用水量影響因子序列及用水量序列作為組合預測模型的輸入變量,以用水量為輸出變量,以鄭州市2011-2017年的數據作為訓練樣本,以2018-2019年的數據作為檢驗樣本,模型擬合結果如表3所示。

表3 用水量預測結果 億m3Tab.3 Water consumption forecast results
通過表3 可知,訓練樣本的最大相對誤差絕對值2.40%,最小相對誤差絕對值0.1%,平均誤差為0.9%,說明該模型訓練過程誤差較小,擬合程度較好。檢驗樣本的相對誤差不超過1%,平均誤差為0.05%,預測精度較高,可滿足用水預測要求。
2.3.2 用水量預測結果分析
由HP 濾波分解得到的用水量長期趨勢序列Tr以及用水量短期波動序列Cr,在經過GM(1,N)模型和LSSVR模型預測后得到用水量長期趨勢序列Tp以及用水量短期波動序列Cp,結果見圖2和圖3。
由圖2可知,由HP 濾波分解得到的用水量長期趨勢序列Tr呈現線性遞增規律,而GM(1,N)模型所得預測結果具有良好趨勢性且適用于短期預測。GM(1,N)模型擬合得到的用水量長期趨勢序列Tp擬合總體上較好,但2012年、2013年擬合誤差明顯大于其他年份,原因可能與2011年水利普查調整總用水量數據有關。

圖2 長期趨勢序列用水量Fig.2 Long-term trend series water consumption
由圖3可知,由HP濾波分解得到的用水量短期波動序列Tp呈反復波動且無明顯規律,采用傳統的模型擬合精度不高,故采用機器模型LSSVR進行擬合。LSSVR模型擬合效果較好。

圖3 短期波動序列用水量Fig.3 Short-term fluctuation series water consumption
為了進一步檢驗模型的精度和有效性,利用傳統GM(1,N)模型和BP神經網絡模型預測了鄭州市總用水量,并對比了3種模型的預測結果,其中各個模型的預測效果見表4,預測相對誤差見圖4。

表4 3種模型預測結果 億m3Tab.4 The prediction results of the three models

圖4 幾種模型的相對誤差Fig.4 Relative errors of several models
由圖4 可以看出:各模型擬合結果平均相對誤差從大到小依次為GM(1,N)模型、BP 神經網絡模型、GM-LSSVR 模型,且GM-LSSVR 模型的每一個擬合值的相對誤差都小于0.03,說明GM-LSSVR模型預測的精確度優于其他兩種模型。
將表4 中預測結果帶入公式(5)進行計算,GM(1,N)模型、BP 神經網絡模型、GM-LSSVR 模型,優化度R2分別是0.790、0.947、0.981,由此可知,相較于GM(1,N)模型、BP 神經網絡模型,GM-LSSVR 模型實際值的擬合效果最好。綜上所述,GMLSSVR 模型無論從擬合優度結果還是擬合誤差結果都優于GM(1,N)模型、BP神經網絡模型。
從總用水數據來看,近幾年鄭州市城市用水總量不斷攀升,其主要原因有:①鄭州過去大力發展經濟,造成河道污染嚴重、地下水開采過度、形成地下水漏斗,生態惡化[26],從而近幾年生態補水持續增加;②鄭州市近幾年夏季持續高溫,日供水持續攀升;③鄭州市進入國家中心城市的建設行列,經濟社會快速發展、人口急速增加,總用水量逐年攀升。
經研究發現,鄭州過去大力發展經濟,造成河道污染嚴重、地下水開采過度、已形成地下水漏斗,生態惡化[24],生態補水在未來幾年依舊會持續增加,且根據“十四五”規劃[27]鄭州計劃增加建成區綠地覆蓋率和增加人均公園面積,生態用水勢必持續增加;2000年鄭州實施一戶一表改造且加大管理力度增強民眾節水意識[28],生活用水隨著人口的增長而必然持續增長;近兩年工業用水和農業用水已開始下降,但隨著鄭州市進入國家中心城市的建設行列,經濟社會的快速發展、人口的急速增加,近幾年農業、工業用水量下降幅度不會太大,因此鄭州市未來幾年用水量仍會呈現增加趨勢。
針對用水量預測結果中有些實際值與預測值的相對誤差較大這一問題,本文先采用灰色關聯分析篩選出用水量及主要影響用水量因素,后根據用水量及主要影響因素構建了基于HP 濾波分解的GM-LSSVR 模型預測用水量,以鄭州市用水量預測為例檢驗其效果,得到以下結論。
(1)城市用水量受多種因素的影響。灰色關聯分析結果表明,引起鄭州市用水量變化的主要因素是人口和平均氣溫,其次是綠化覆蓋率和建成區面積,這也表明了未來鄭州市用水的增加主要集中在生活用水和生態用水。
(2)相較于以往對灰色模型的改進,本文提出的改進的GM-LSSVR 模型不僅充分考慮了影響用水量的相關因素,而且采用HP 濾波分解法將用水量序列分解為長期趨勢序列和短期波動序列,并采用適用于相應序列的模型進行預測,效果較好。
(3)根據2011-2019年用水量及和主要影響因素采用HP濾波分解的GM-LSSVR 模型預測出鄭州市2020年總用水量為21.71 億m3。
本文嘗試運用傳統預測模型與機器模型組合的基于HP 濾波分解的GM-LSSVR 模型進行用水量的預測,從預測結果來看,該模型明顯比傳統的GM(1,N)模型、BP 神經網絡模型預測精度高,效果好。該組合模型尚存在改進地方:考慮對未來的用水量影響因素考慮不夠充分,目前只能用于短期預測。今后,可嘗試進一步改進該組合模型并檢驗其推廣性。 □