劉 冬
(赤峰學(xué)院 數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院, 內(nèi)蒙古 赤峰 024000)
伴隨著我國(guó)國(guó)民經(jīng)濟(jì)的快速發(fā)展以及人口的迅速增加,人民的生活水平有了質(zhì)的飛躍,城市生活用水和工業(yè)用水的需求也隨之增加,城市中供水匱乏的問題日益突出。城鎮(zhèn)用水量的準(zhǔn)確預(yù)測(cè)是城市供水系統(tǒng)規(guī)劃、設(shè)計(jì)和運(yùn)行的重要依據(jù),對(duì)城市的未來發(fā)展具有重要意義。通常對(duì)用水量的預(yù)測(cè)一般采用經(jīng)驗(yàn)類推的方法,如綜合指數(shù)法、平均增長(zhǎng)率法,可以得到較好的結(jié)果。 在向經(jīng)濟(jì)型城市發(fā)展的進(jìn)程中, 城市水資源的利用高度依賴于人的活動(dòng), 市場(chǎng)中的各項(xiàng)資料以及數(shù)據(jù)的變化是不規(guī)律的,與歷史資料比較也不能達(dá)到預(yù)期的效果。 因此目前城市用水量預(yù)測(cè)的方法主要有定量預(yù)測(cè)、回歸分析法及灰色預(yù)測(cè)法[1]。 運(yùn)用所學(xué)的spss 軟件,在多元線性回歸分析的基礎(chǔ)上,根據(jù)數(shù)據(jù)構(gòu)建出赤峰市城市用水量的預(yù)測(cè)模型。多元線性回歸法不但需要考慮到回歸的系數(shù), 還要考察預(yù)測(cè)和假設(shè)性檢驗(yàn),考慮獨(dú)立變量之間的關(guān)系以及是否存在共線性的問題。為了更好地解決赤峰市城市用水量預(yù)測(cè)模型中存在的共線性問題,提高城市用水量預(yù)測(cè)的精度,本文采用了多元線性逐步回歸方法對(duì)模型進(jìn)行了檢驗(yàn)。
在日常生活中,當(dāng)我們需要對(duì)某一個(gè)因變量進(jìn)行統(tǒng)計(jì)分析的時(shí)候,往往會(huì)有一個(gè)或著多個(gè)自變量來影響這個(gè)因變量。所以當(dāng)我們建立回歸方程的時(shí)候需要考慮k 種自變量x1,x2,…,xk和因變量y 之間的關(guān)系:

這個(gè)式中:
b0,b1,b2,…,bk是需要進(jìn)行參數(shù)估計(jì)的回歸系數(shù);
i=1,2,…,m(n 表示樣本容量);
ωi是隨機(jī)誤差。
我們假定隨機(jī)誤差ωi服從來自總體分布N(0,σ2)的獨(dú)立同分布。 用最小二乘法的方法在X,Y 兩個(gè)觀測(cè)樣本下估計(jì)b0,b1,b2,…,bk,這樣我們可以以矩陣的形式寫出回歸方程。
矩陣表示的多元線性回歸模型為:

Y 為因變量觀測(cè)值的向量;B 為參數(shù)向量;X為自變量向量;u 為隨機(jī)誤差向量。 采用最小二乘法估計(jì)法估計(jì)總體參數(shù),其估計(jì)量為B=(b0,b1,…,bk)的轉(zhuǎn)置。
用F 統(tǒng)計(jì)量對(duì)回歸方程進(jìn)行顯著性檢驗(yàn),記:

式中:
如果F 統(tǒng)計(jì)量的P<0.05, 則回歸方程通過了顯著性檢驗(yàn),即方程具有統(tǒng)計(jì)學(xué)意義。 用T 統(tǒng)計(jì)量對(duì)回歸系數(shù)進(jìn)行顯著性檢驗(yàn)。 記:

如果T 統(tǒng)計(jì)量的P<0.05, 則回歸系數(shù)通過了顯著性檢驗(yàn),即系數(shù)具有統(tǒng)計(jì)學(xué)意義。
有許多因素影響城市用水。選擇若干個(gè)影響城市用水量的因素,如表1 所示,這些影響城市用水量的因素是根據(jù) 《赤峰市統(tǒng)計(jì)年鑒2010-2019》和《赤峰市水資源公報(bào)2010-2019》所確定的。其中,x1是國(guó)內(nèi)生產(chǎn)總值(萬元),x2是人均國(guó)內(nèi)生產(chǎn)總值(萬元),x3是固定資產(chǎn)投資(萬元),x4是工業(yè)增加值,x5是城鎮(zhèn)人口總數(shù)(萬人),x7是工業(yè)用水(104m3/a),x8是人均日用水(L),Y 是總用水量(104m3/a),建立預(yù)測(cè)赤峰市城市用水的數(shù)學(xué)模型。

表1 城市用水量及其影響因素的基本資料
做變量之間的相關(guān)分析, 用spss 得到相關(guān)系數(shù)矩陣

表2 相關(guān)性
從相關(guān)陣看出,y 與7 個(gè)自變量x1,x2,x3,x4,x5,x6,x7的相關(guān)系數(shù)都在0.8 以上,且p<0.05,說明所選自變量與y 有很強(qiáng)的線性相關(guān),用y 與自變量做多元線性回歸模型是適合的。

x1 x2 x3 x4 x5 x6 x7 y x4 皮爾遜相關(guān)性 -.301 -.150 -.090 1 .052 -.394 -.796** .995 Sig.(雙尾) .398 .680 .805 .886 .260 .006 .026個(gè)案數(shù) 10 10 10 10 10 10 10 10 x5 皮爾遜相關(guān)性 .455 .502 .615 .052 1 -.545 .114 .997 Sig.(雙尾) .186 .140 .058 .886 .103 .755 .007個(gè)案數(shù) 10 10 10 10 10 10 10 10 x6 皮爾遜相關(guān)性 -.202 -.606 -.619 -.394 -.545 1 .575 .865**Sig.(雙尾) .576 .063 .056 .260 .103 .082 .001個(gè)案數(shù) 10 10 10 10 10 10 10 10 x7 皮爾遜相關(guān)性 .373 -.178 -.138 -.796** .114 .575 1 .820**Sig.(雙尾) .289 .622 .703 .006 .755 .082 .004個(gè)案數(shù) 10 10 10 10 10 10 10 10 y 皮爾遜相關(guān)性 .996 .992 .982 .995 .997 .865** .820** 1 Sig.(雙尾) .009 .008 .000 .026 .007 .001 .004個(gè)案數(shù) 10 10 10 10 10 10 10 10
下面用spss 對(duì)原始數(shù)據(jù)做多元線性回歸分析:

表3 模型摘要

表4 ANOVAa
從回歸的效果看,R 方=0.999, 說明回歸效果很好。 用x1,x2,x3,x4,x5,x6,x7預(yù)測(cè)y 正確率可以達(dá)到99%以上。

表5 系數(shù)a
從方差分析表,F(xiàn) 統(tǒng)計(jì)量的值為397.169,P值=0.003<0.05,表明回歸方程有統(tǒng)計(jì)學(xué)意義。
回歸系數(shù)的顯著性檢驗(yàn), 自變量x1,x2,x3,x4,x5,x6,x7整體上對(duì)y 有顯著影響, 但是x1,x2,x3,x4,x5,x6系數(shù)沒有通過顯著性檢驗(yàn)。
在多重共線性的診斷中也發(fā)現(xiàn)有幾個(gè)自變量的VIF 值大于10,說明存在嚴(yán)重多重共線性。
在現(xiàn)實(shí)生活中,我們一般都會(huì)選擇多個(gè)相對(duì)于因變量y 的具有重要決定性的變量,此時(shí)將這個(gè)變量稱之為自變量,在生活中我們所研究的各種因變量和自變量之間的關(guān)系中, 可以使用多元回歸分析,初步地創(chuàng)建一個(gè)由因變量進(jìn)行預(yù)測(cè)分析的“最佳”的回歸方程。 漸進(jìn)式回歸分析就是在此基礎(chǔ)上發(fā)展起來的。 其基本思想是,在多元線性回歸方程時(shí),應(yīng)分階段進(jìn)行自變量的選取,即每步選取一個(gè)自變量。 每一步都要進(jìn)行F 檢驗(yàn),確保每次引入新的自變量,回歸方程只包含顯著的變量。 同時(shí)要保證引入自變量的顯著性水平小于剔除自變量顯著性水平。直到在回歸方程中的變量都不能被剔除而又沒有新的變量可以被引入時(shí)為止,這時(shí)逐步回歸過程才算結(jié)束完成。
表6 中,多元線性逐步回歸分析模型中第五個(gè)模型的調(diào)整R 方為0.998,是五個(gè)模型中調(diào)整R 方最大的。表明模型五中的自變量與因變量之間有良好的相關(guān)性。表明模型五的多元線性回歸方程比較適合,即因變量Y 與所選的5 個(gè)解釋變量x3,x4,x5,x6,x7線性關(guān)系非常密切。

表6 模型摘要

表7 ANOVAa
五個(gè)模型中的顯著性檢驗(yàn)的P<0.05,都通過了顯著性檢驗(yàn),模型都具有統(tǒng)計(jì)學(xué)意義。 相比較第五個(gè)模型F 統(tǒng)計(jì)量的值最大。
回歸系數(shù)的顯著性檢驗(yàn),通過上表也能夠看到第五個(gè)模型的系數(shù)都有意義,因此逐步回歸的回歸方程為:


采用多元線性回歸模型擬合誤差檢驗(yàn)的方法,并且結(jié)合赤峰市2010-2019年城市用水量的實(shí)際值,并通過回歸方程,由此得到該指標(biāo)的擬合值y?與城市實(shí)際用水量yi 的相對(duì)誤差。 由表9 可知,該模型的最大相對(duì)誤差為0.378%, 平均誤差為0.241%,最小誤差為0.058%。 預(yù)測(cè)結(jié)果表明該回歸模型具有較好的預(yù)測(cè)精度,且采取了一種逐步回歸式的分析。所構(gòu)造的多元線性回歸模型對(duì)于預(yù)測(cè)其價(jià)值具有十分重要的意義。

表8 系數(shù)a

表9 多元線性回歸方程的城市用水量擬合檢驗(yàn)
為了使用逐步回歸方程預(yù)測(cè)2021年到2024年的年用水量,需要知道x4和x5兩個(gè)變量在2021年到2024年的數(shù)據(jù)。 要獲得變量x4和x5,2021-2024年的數(shù)據(jù),需要分別建立變量x4和x5和時(shí)間的擬合方程。 將變量x4和x5分別繪制變量x4和x5時(shí)間曲線,以表1 中變量x4和x5的數(shù)據(jù)為縱軸。
圖1 顯示x4與時(shí)間t 近似為圓錐曲線,x5與時(shí)間t 近似為直線。 假定擬合方程式:


圖1 變量x4 和x5 和時(shí)間的曲線圖
其中a0,a1,a2,b,c 為待估參數(shù)。 將數(shù)據(jù)代入擬合方程, 運(yùn)用非線性最小二乘法, 計(jì)算得a0=410,a1=-4563,a2=15430,b=1945.9,c=7316.7。
于是得擬合曲線方程為

分別在t=16,t=17,t=18,t=19 計(jì)算出變量X4和X5的計(jì)算值(3)和(4)的預(yù)測(cè)值,然后用公式(1)計(jì)算出每年排水量Y,在預(yù)測(cè)年度計(jì)算結(jié)果中見表10。

表10 2012-2024年的預(yù)測(cè)值
從表10 可以看出, 赤峰市2022-2024年預(yù)期年用水量為9.594 億立方米、1.0613 億立方米、1.11708 億立方米和1.8888 億立方米。
城市用水量是由多種因素來決定的。運(yùn)用多元線性回歸的方法分析赤峰市的水資源供求狀況,并采取了多元線性回歸分析的原理和模型,對(duì)赤峰市的城市的用水量做出了預(yù)測(cè)。 利用自己所學(xué)spss軟件基礎(chǔ)知識(shí),采取逐步回歸分析方法,通過線性回歸分析,建立回歸方程,準(zhǔn)確分析城市的用水量。最大誤差為0.387%,最小誤差為0.058%,平均誤差為0.241%。 通過此次對(duì)赤峰市城市用水量的預(yù)測(cè)結(jié)果表明該模型具有良好的適用性,可以用于城市用水量的預(yù)測(cè)。 結(jié)果表明,該模型的相對(duì)預(yù)測(cè)誤差最大值為0.378%,最小值為0.058%,平均誤差為0.241%,表明該模型具有較高的精度,符合實(shí)際情況。 可以預(yù)測(cè)水的消耗量。 然后建立了一個(gè)多變量線性逐步回歸模型,對(duì)赤峰市2021-2022年的用水量進(jìn)行預(yù)測(cè)。 赤峰市的年用水量預(yù)計(jì)在2024年前達(dá)到12.88 億立方米。 赤峰市應(yīng)進(jìn)一步優(yōu)化水資源配置,防治缺水,以適應(yīng)城市經(jīng)濟(jì)發(fā)展的需要。該方法建模過程簡(jiǎn)單,結(jié)果直觀,精度高,大大減少了計(jì)算量,便于推廣應(yīng)用。
赤峰學(xué)院學(xué)報(bào)·自然科學(xué)版2022年7期