鄧平穩,謝治州
(1.貴州財經大學 大數據統計學院,貴州 貴陽 550025;2.黔南民族師范學院 數學與統計學院,貴州 都勻 558000)
隨著國民生活水平日益提高,買房也逐漸成為了大部分家庭的首要目標,但房價也隨著各種因素不斷上漲,房價漲跌一時備受關注。隨著房價的熱度提高,房價預測問題也成為了學者們的研究焦點。早期,Nelder[1]對線性回歸模型的推廣至廣義線性回歸模型;李賢增[2]利用多元回歸分析與支持向量機方法對中國房價波動進行了預測分析,得出多元回歸分析與支持向量機方法適用于對中國房價波動進行有效預測分析;張利君[3]基于部分線性回歸模型分析了2000~2015年全國商品房平均銷售價格,發現部分線性回歸模型適合預測全國商品方銷售價格;雷雨甜[4]利用線性回歸、Lasso回歸等回歸模型對房價進行預測分析,得出在使用的單一模型中Lasso回歸預測效果最好。唐媛媛[5]對Gamma回歸模型的定義和參數估計方法進行介紹,并提出參數分離法,證明2種方法的等價性,并進行了實例分析。Idais Osama等[6]概述廣義線性模型實驗設計中的等方差和不變性概念,并論證其有用性。Wu Zixu[7]基于加州房價數據,對影響因素進行線性和lasso回歸分析,解決了如何通過多個變量預測加州房屋的平均年銷售價格的問題。Myrovali Glykeria等[8]評估出租車數據相對于總體交通的可靠性,在處理傾斜和異方差流量數據時,使用伽馬模型的廣義線性模型的建模似乎是合適的。本文旨在將線性回歸模型推廣至廣義線性回歸模型中伽馬回歸模型和逆高斯回歸模型,并將其應用于臺灣新北市新店區的房子單價的預測。
伽馬回歸模型與逆高斯回歸模型均是廣義線性模型,分別是在假設因變量服從伽馬分布與逆高斯分布下建立。兩者主要用于大于零的連續型因變量的擬合與預測。
假設y是廣義線性模型中的因變量,形狀參數為α,尺度參數為β,Γ表示伽馬函數,StacyEW[9]將伽馬分布的密度函數表示為:
(1)
(2)
式(2)中,指數分布族的參數與伽馬分布的關系如下:
(3)
由式(3),對b(θ)求一階導、二階導,則伽馬指數分布族的均值和方差函數分別為b'(θ)=μ,b''(θ)=μ2,故伽馬分布的方差為var(y)=φb''(θ)/ω=φμ2。利用伽馬分布易得到其對數似然函數[11],求得伽馬回歸模型的殘差偏差D為:
(4)
綜上所述,伽馬回歸模型的一般形式表示為式(5):
如果因變量y服從正態分布,常用逆高斯分布的概率密度函數[13]如下:
(6)
式(6)中,σ是標準差,對數指數化后,可以將其表示為指數分布族的一般形式,其密度函數為:
(7)
式(7)中,逆高斯分布與指數分布族的參數對應關系如下:
(8)
式(8)中,b(θ)是已知參數(θ為自然參數),同理逆高斯指數分布族的均值和方差函數分別為b'(θ)=μ,b''(θ)=μ3,故逆高斯分布的方差為var(y)=σ2μ3。利用逆高斯分布易得其對數似然函數,進而可以求得逆高斯回歸模型的殘差偏差D為:
(9)
為了與伽馬回歸模型進行對比,本文在逆高斯回歸模型中也選擇對數函數作為的連接函數,即g(μ)=η=lnμ。
綜上所述,逆高斯回歸模型的一般形式表示為:
(10)
本文選用迭代加權最小二乘估計法[14]對參數進行估計,其迭代公式為:
β(m)=(XTW(m-1)X)-1XTW(m-1)z(m-1)
(11)
式(11)中,β為回歸參數向量,m為迭代次數,X為設計矩陣,W為一個n×n的對角矩陣,z為一個n維向量。
(12)
z=[ηi+(yi-μi)g'(μ)]n×1
(13)
式(12)中,v(μi)為逆高斯分布的方差函數。若W為單位陣時,式(11)可以簡化為:
β(m)=(XTX)-1XTz(m-1)
(14)
因此,將伽馬分布的方差函數v(μi)=μ2和連接函數一階導數g'(μ)=1/μ代入式(12)和式(13)可得W=diag[1/φ]n×n,z=[ηi+(yi-μi)/μi]n×1,將逆高斯分布的方差函數v(μi)=μ3和g'(μ)=1/μ代入式(12)和式(13)可得W=diag[1/σ2μi]n×n,z=[ηi+(yi-μi)/μi]n×1。
伽馬和逆高斯回歸模型的迭代加權最小二乘估計算法如表1所示。
本文使用臺灣新北市新店區的房價數據集源自UCI[15],數據集中共有414個樣本,6個解釋變量,1個被解釋變量(房子單價)。
利用上述迭代加權最小二乘估計算法編寫相應R程序可對伽馬回歸模型和逆高斯回歸模型進行估計,也可利用R自帶函數Gamlss估計參數,參數估計結果如表2所示。
由表2,伽馬和逆高斯回歸模型各個解釋變量參數估計的P值均小于0.05,說明2個模型中每個解釋變量參數估計均顯著;前者周邊便利店數量和緯度對臺灣新北市新店區的房子單價有正向影響,交易時間、地鐵站距離和經度對臺灣新北市新店區的房子單價有負向影響。除了前者已有的解釋上,后者對房子單價有著正向影響的還有經度;另外,伽馬回歸模型的離散參數估計為0.232(通過exp(-1.46255)計算),逆高斯回歸模型的離散參數估計為0.042。
利用AIC函數[16]調出伽馬和逆高斯回歸模型的AIC值分別為2938.518、2991.044,伽馬斯回歸模型擬合效果優于逆高斯回歸模型的擬合效果。也可利用分位殘差圖來比較模型的擬合效果。本文伽馬和逆高斯回歸模型的分位殘差圖如圖1和圖2所示。
表1 迭代加權最小二乘算法
表2 伽馬和逆高斯回歸模型參數估計結果
圖1 伽馬回歸模型分位殘差圖
由圖1和圖2,在Against Fitted Values圖和Against index圖中的散點均是均勻分布在零值周圍,說明兩者擬合效果都較好,而且差異不是很大;在Density Estimate圖中,密度函數均是近似對稱的,表明兩者擬合效果較好,但是伽馬回歸模型的密度函數比逆高斯回歸模型更具對稱性;在Normal Q-Q plot圖中,兩模型的散點分布在斜線附近,說明兩者擬合效果較好,對比兩圖發現,斜線首尾位置,伽馬回歸模型的散點更為集中靠近斜線。綜上所述,伽馬和逆高斯回歸模型的擬合效果均較好,但是伽馬回歸模型擬合效果優于逆高斯回歸模型。
圖2 逆高斯回歸模型分位殘差圖
在R中,伽馬回歸模型和逆高斯回歸模型可以通過predict函數進行預測,伽馬回歸模型預測值與觀測值、逆高斯回歸模型預測值與觀測值的對比圖分別如圖3和圖4所示。
圖3 伽馬回歸模型預測值與觀測值對比
圖4 逆高斯回歸模型預測值與觀測值對比
在圖3和圖4中,多數散點分布在直線附近,說明伽馬和逆高斯回歸模型預測值與觀測值相接近,兩個模型適用于對臺灣的房價進行預測。本文還利用R計算出兩模型的均方誤差(MSE),以此來評價預測效果。計算伽馬和逆高斯回歸模型的均方誤差分別為81.368、 82.517。說明兩者預測效果很好,而且伽馬回歸模型比逆高斯回歸模型的預測效果更好些。
從模型檢驗和預測效果來看,伽馬回歸模型和逆高斯回歸模型均適用于對臺灣新北市新店區房價數據進行建模和預測,而且伽馬回歸模型擬合效果和預測效果均優于逆高斯回歸模型擬合效果和預測效果。本次研究為臺灣新北市新店區房價的預測提供了可行性。
2個模型的參數估計都大致說明了周邊便利店數量越多,則該地區房子單價相對較高,反之,房子房價較低。交易時間越晚,房子單價相對較低,反之,則房子單價相對較高。其次地鐵站距離越近,房子單價相對較高,反之,房子單價相對較低。因此分別從房地產開發商和購房者兩個角度提出以下建議:對于前者,對該地區便利店的店家進行優惠補貼,吸引更多的商店入駐,為該地區的居民提供便利服務,同時開展大量的購房優惠活動,以吸引更多的人前來買房;對于后者,能夠為客戶提供一個相對合理的購房參考。