任芳玲,李佳佳,黃 蓉
(延安大學數學與計算機科學學院,陜西延安716000)
中國是世界石油消費大國,中國石油產量的多少與世界經濟的發展有著直接的關系。精準地預測出石油產量的多少,對于企業的經營有著重大的意義[1]。石油作為一種不可再生的資源,如何合理地開采并且保證其產量的增長是石油產業面臨的主要問題之一。
本文所用的多元線性回歸模型和主成分分析法,是數理統計的重要方法[2],它在社會經濟學、生物醫藥學、氣象等方面有著廣泛的應用,在當今的大數據時代,只要有數據信息和資料的地方,都要科學地對數據進行分析[3],要有效地提取信息和科學地應用數據進行預測,以上方法不可或缺。線性回歸法作為預測未來值的一種重要的方法,已被用于社會生活的各個方面,比如國亮[4]給出改進的多元線性回歸模型在某油田產量預測中的應用,本文對多元線性回歸模型進行優化,從數理統計的角度出發,反復進行篩選預測所用的變量,使其對預測指標的顯著性影響程度提高,得出了較為精準的預測結果。為了避免多重共線性影響建模質量,然后對其進行主成分分析。例如彭平等[5]利用主成分分析法的特點,建立了鋼坯質量的預測模型。本文利用主成分分析法結合數學軟件SPSS,降低數據的維度,得出預測石油產量的主要影響因素,之后對兩種不同的方法進行總結,分析其優點和缺點,對以后石油產量的預測提供一定的參考。
設因變量y表現為m個自變量x1,x2,…,xm的線性組合,即y有m組實際觀察數據。在這個觀察樣本中,第k組觀察值(k=1,2,…,m)可以表示為(x1k,x2k,…,xmk,yk),且(x1k,x2k,…,xmk,yk)是m+1維空間中的一個點,從而建立如下的m元線性組合關系[6]
yk=β0+β1x1k+β2x2k+…+βmxmk+εk,
記Y=(y1,y2,…,ym)T,β=(β0,β1,…,βm)T,
ε=(ε1,ε2,…,εm)T,

β0,β1,β2,…,βm為m+1個待估計參數,x1,x2,…,xm,yk是可觀察的隨機變量,yk隨x1,x2,…,xm的變化而變化,并且受實驗誤差的影響,εk是均值為零的隨機變量,相互獨立并且服從正態分布[6-7]N(0,δ2)。

所反應回歸效果的殘差平方和為


由此,可以得出影響產量變化F值統計量,t值統計量的表達式為:
其中cjj是(X′X)-1中主對角線上的第j個元素。上述統計量可以檢驗回歸方程的顯著性[2]。
若F≥Fα(k,m-k-1),則拒絕H0,該回歸顯著。若F 本文篩選采油開井數(口)x1、累計產油量(噸)x2、新井數(口)x3、綜合含水率(%)x4、自然遞減率(%)x5、綜合遞減率(%)x6、采油速度率(%)x7、采出程度率(%)x8八個可能會影響石油產量的因素為自變量,年產油量(萬噸)y為因變量,對2016年延長石油某采油廠年產油量進行預測,所篩選出的數據如表1: 表1 延長石油某采油廠油田開發數據表 從而可建立如下的多元線性關系: y=β0+β1x1+β2x2+β3x3+β4x4+β5x5+β6x6+ β7x7+β8x8+ε, (其中β0~β8為回歸系數,ε為隨機變量)。 將以上篩選的數據依次輸入數學軟件SPSS數據編輯窗口,利用“分析回歸線性進行”,然后選擇變量,所得到的系數如表2。 對上述的結果進行殘差分析,如表3。 表2 系數表 表3 殘差分析表 從殘差分析表可見,F檢驗不通過,T檢驗通過,所以之后建立的回歸方程所得的預測值誤差較大。 所得到的線性回歸模型為: y1=149.53-0.79x1-2.294x2-0.149x3+ 1.367x4-0.348x5-0.73x6-0.786x7+0.431x8 (1) 將2016年的采油開井數、累計產油量、新開井數、綜合含水率、自然遞減率、綜合遞減率、采油速度、采出程度的數據代入式,可預測得2016年延長石油該采油廠年產油量y1=34.7×104t,其實際產量為31.3×104t,誤差大約為10.8%。 為了使結果更接近真實值,“分析回歸線性逐步”對自變量進行篩選,得到的結果如表4。 表4 系數表 根據結果數據表知,逐步回歸法進行了變量的剔除,最終選取新開井數(口)x3,自然遞減率(%)x5作為最終變量,對上述的結果進行殘差分析,分析結果如表5。 表5 殘差分析表 從殘差分析表可見,F檢驗和T檢驗均通過,所以之后建立的回歸方程所得的預測值誤差較小,線性回歸方程為: y2=47.81+0.945x3-0.278x5 (2) 將2016年的新開井數、自然遞減率的數據代入式,可預測得2016年延長石油該采油廠年產油量y2=32.8×104t,其實際產量為31.3×104t,誤差大約為4.8%,該誤差符合浮動的范圍。(浮動范圍小于5%) 設研究某一問題共涉及p個指標,分別用X1,X2,…,XP表示,這p個指標構成p維隨機向量X=(X1,X2,…,XP)′,設隨機向量X的均值E(X)=μ,協方差矩陣Var(X)=∑,對X進行線性變換,合成變量用Y表示,Y=(Y1,Y2,…,YP)[4]: (3) 設ai=(ai1,ai2,…,aip)′,(i=1,2,…,p), A=(a1,a2,…,ap)′,可得出: Y=AX, 對原有變量進行線性變換,不同的線性變換合成變量的特征值也不同[3]。每個Yi的方差值越大,原有信息的比重就越大。由上式可得系數向量擴大任意倍,Yi的方差將會無限擴大,問題也就變得沒有意義。為了解決問題,約束的原則是: 為了反映原有變量的信息,Y的不同分量包含的信息不應重合。因此(3)式的線性變換需滿足[8]: 2)Y1在滿足約束1的情況下,方差最大;Y2是在滿足約束1且與Y1不相關的情況下,其方差達到最大,以此類推,Yp是在滿足約束1且與Y1,Y2,…,Yp-1不相關的條件下,在各種線性組合中方差達到最大值[8]。 對于上述得到的合成變量Y1,Y2,…,Yp原有變量的稱為第一、第二,…,第p主成分,在每個成分中占得比重不同。在現實研究中,挑選前幾個方差較大的主成分,以達到抓住問題實質的目的[9]。 此處篩選六項指標:開井數(口)X1、累計產油量(噸)X2、新開井數(口)X3、綜合含水率(%)X4、自然遞減率(%)X5、綜合遞減率(%)X6,數據如下表6。 表6 某采油廠油田開發數據表 將篩選出的數據依次輸入數學軟件SPSS數據編輯窗口,利用“分析降維因子分析”,選取好變量,得到如下表7。 表7 解釋的總方差表 在上述表格,“合計”列為個因子所對應的特征根,前兩個的成分特征根比較大[10],所以可提取前兩個主成分;由解釋的總方差表格(表7)可知,前兩個主成分已經可以解釋87.535%的方差了,損失掉的信息不超過13%。將原始變量的信息基本保留,得到了兩個新的綜合變量,我們選取1為第一主成分,2為第二主成分,這樣就由原來的六項指標轉化為兩個新的指標,起到了降維的作用。 從SPSS結果輸出中導出成分矩陣表8。 表8 成分矩陣表 將成分矩陣輸入數據編輯窗口,然后計算第一個特征向量,點擊“轉換計算變量”,第一次輸入公式e1=a1/SQRT(3.852)公式,點擊確定按鈕,得到命名為e1的第一特征向量,再次調出“計算變量”對話框再次輸入公式e2=a2/SQRT(1.4),點擊確定按鈕,可以得到命名為e2的第二特征向量,進而可以得到特征向量矩陣,所得的結果如表9。 表9 特征向量矩陣表 根據表9的特征向量矩陣可以得出所得的兩個主成分y1,y2的線性組合形式如下: y1=0.51x1+0.5x2-0.47x3+0.44x4- 0.12x5-0.31x6, y2=0.84x1+0.83x2-0.78x3+0.72x4- 0.2x5-0.52x6。 從各個主成分的系數可以看出,第二主成分在X1,X2,X3,X4,X5,X6上的系數相對較大。 在計算主成分得分之前,首先對原始變量X1~X6進行標準化,得到的標準化后的變量分用ZX1~ZX6表示,選擇“分析描述統計描述命令”,并且選中將標準化得分存為變量,得到的標準變量如圖1: 圖1 標準化后的變量 點擊“轉換計算變量”,得到表10 表10 主成分得分及其排序 從主成分及其排序表可以看出,在所篩選的六項因素中,影響最為顯著的是自然遞減率,綜合含水率和新開井數,影響最不顯著地是累計產油量,該方法由原來的六個影響指標降低到了現在的兩個新指標,不僅起到降維的作用,而且兩個新指標累計占了全部方差的87.535%,即保留了87.535%的原始信息,與多元線性回歸模型所得的結論吻合。 綜合來說,多元線性回歸模型在預測方面的精確度更高,但是同時因變量受多個自變量的影響,操作過程又太過于復雜。而主成分分析模型雖然誤差相對于多元線性回歸模型來說比較大,但是操作起來較為簡單,將多個變量通過線性變換篩選出幾個綜合變量,容易學習和掌握,主成分分析模型可以運用在那些不太嚴格要求數據的準確性,預測的主成分的數值可以作為參考,若將兩種預測模型可以很好地融合在一起應用,這將會擴大預測模型的應用范圍,同時也可以提高預測模型的預測精度。1.2 多元線性回歸模型下的石油產量預測



1.3 逐步回歸優化模型


2 主成分分析模型
2.1 模型介紹
2.2 利用主成分分析法預測石油產量




2.3 計算主成分得分及其排序

