賈洪艷
(連云港職業技術學院 信息工程學院, 江蘇 連云港222006)
由一個或者一組非隨機變量來估計或預測某一個隨機變量的觀測值時,所建立的數學模型和進行的統計分析稱為回歸分析[1].長期以來,回歸分析在宏觀經濟預測、醫療診斷、農業產量分析等方面得到了廣泛應用.回歸分析本質上是借助于函數模型,分析并確定函數模型中的參數.一直以來,由于計算手段的限制,對模型參數的估計常常依賴單因素方差分析、最小二乘法等經典統計方法,這些經典統計方法都有一個共同的特點,那就是參數估計必須有明確的數學公式.近十幾年來,計算機技術的飛速發展,以及吉布斯抽樣方法(Gibbs方法)的引入,為回歸分析拓寬思路和方法提供了可能.本文依據函數模型Y=(a+bX)/X+ε,根據貝葉斯統計原理,對模型進行參數估計,然后利用SAS程序對參數進行概率抽取,從而實現對模型的參數估計.
本文針對如下函數模型討論
(1)

由回歸模型(1),設
(2)

或者





由于n組樣本觀測值可看作n個相互獨立的隨機變量,因此其似然函數為
利用
可計算出參數a,b的估計值,其估計結果表達式為
依據上述參數a,b的估計公式,對參數進行估計.
設θ為包含所有未知參數的向量,p(θ|Y)是θ關于事件Y的條件概率,由統計學原理[2]知
p(θ,Y)=p(Y)p(θ|Y)=p(θ)p(Y|θ)
進一步有
(3)
其中:p(θ)和p(θ|Y)分別為先驗概率和后驗概率,p(Y|θ)為Y的概率密度函數.由于p(Y)無法計算且不依賴參數θ,故可略去,(3)式可進一步改寫為
p(θ|Y)∝p(θ)p(Y|θ)
(4)
依據(4)式可以推導出θ中各個參數的后驗分布.由于這些后驗分布并不是明確的數學公式,因此,需要編寫SAS程序,依據SAS程序,運用Gibbs抽樣產生后驗樣本,通過一定的方法,分析該后驗樣本數據,進而獲得該參數的估計.

(5)

(6)
(7)

(8)
(9)

(10)
2)根據式(6)~式(7),運用SAS程序更新a;
3)根據式(8)~式(9),運用SAS程序更新b;
5)重復步驟2)~步驟4)t輪;
6)分析樣本(a(1),b(1),σ2(1)),(a(2),b(2),σ2(2)),…,(a(t),b(t),σ2(t)),計算各參數的估計值.
選用文獻[5]中例12.1演示上述算法.
例研究“岱字棉”自播種至齊苗(以80%出苗為準)的天數(X)與日平均土溫(Y,℃)的關系,得表1結果,試作回歸分析.

表1 土溫(Y,℃)和岱字棉播種至齊苗天數(X)的關系

長期以來,對數學模型參數進行估計,一直采用最小二乘法、極大似然法等經典統計方法.這些方法的主要優點是利用偏導函數指導搜索尋優方向,搜索效率比較高,在適合的初始值條件下,可以較快實現目標函數的優化.但是,這些方法也明顯存在著諸多缺陷,主要體現在:(1)對于一個需要進行參數估計的非線性方程必須提供其偏導函數,但事實上某些方程本身較為復雜,不易獲得其偏導函數.(2)編制通用軟件難度較大.(3)對于不同數據進行估計時,必須根據數據的基本情況對模型提供合適的初始值,否則很容易陷入局部最優陷阱.盡管貝葉斯方法早就被提出,但是,由于計算上的困難,其統計方法很少提及.得益于計算機技術的快速發展,貝葉斯方法重新被提起.貝葉斯統計對所要進行參數估計的非線性方程,不需要提供其偏導函數,只是對方程模型的參數進行概率抽取,因此,無論方程復雜與否,均不受影響.同時,與經典統計不同的是,貝葉斯學派很重視先驗信息的收集、挖掘和加工,使它數量化,形成先驗分布,參加到統計推斷中來,從而極大地提高了統計推斷的質量.本研究嘗試將SAS程序和貝葉斯統計相結合對數學模型參數進行估計,為統計方法提供了新的手段和途徑.
[1]何蘊理,賀亞平,陳中和,等.概率論與數理統計[M].北京:高等教育出版社,2010.
[2]茆詩松.貝葉斯統計[M].北京:中國統計出版社,2008.
[3]Geman S,Geman D.Stochastic relaxation,Gibbs distribution and the Bayesian restoration of images[J].IEEE Tansactions on Pattern Analysis and Mechine Intelligence,1984,6:721~741.
[4]Gelfand A E,Smith A F M.Sampling based on approaches to calculating marginal densities[J].Journal of American Statistical Association,1990,85(2):339~355.
[5]莫惠棟.農業試驗統計[M].上海:上??茖W技術出版社,1984.