徐穎 黃素珍
摘 要:大數據時代推動了房地產市場思維方式、管理方式和商業模式的變革。本文利用百度搜索數據,以江蘇省南京市為例建立了新建住宅銷售價格指數的多元線性回歸、完全二次多項式回歸和逐步回歸模型,仿真結果表明,逐步回歸模型預測精度高,穩定性好。
關鍵詞:大數據 百度指數 新房價格 逐步回歸模型
中圖分類號:F726 文獻標識碼:A 文章編號:2096-0298(2017)02(a)-134-04
1 引言
2016年12月中旬,中央經濟工作會議提出,要堅持“房子是用來住的,不是用來炒的”的定位,要求回歸住房居住屬性。住房價格高居民承受能力低,居住水平和居住質量會由此下降;反之住房價格水平低,能增強居民的購房能力,相應提高居民的居住水平和居住質量。因此,住房價格的高低成為關系到居民切身利益的重大經濟問題和社會問題。
影響房地產價格的因素有很多,如果把所有可能影響的因素全部考慮進去,所建立起來的回歸方程卻不一定是最好的。首先由于自變量過多,使用不便,而且在回歸方程中引入無意義的量,會使誤差方差的估計值增大,降低預測的精確性及回歸方程的穩定性。另一方面,通常希望回歸方程中包含的變量盡可能多一些,特別是對房價有顯著影響的自變量,這樣會減小誤差方差的估計值,從而提高預測的精度。
本文嘗試利用百度引擎提供的影響房價的因素搜索指數,建立新建住宅銷售價格指數和二手住宅銷售價格指數的多元線性回歸、完全二次多項式回歸和逐步回歸模型,仿真結果表明,逐步回歸模型預測精度高,穩定性好。
2 房價預測模型構建


3 數據的獲取與處理
因變量分別是新建商品住宅銷售價格指數。采用2014年1月~2016年8月共32個月的月度同比數據,來源于國家統計局網站。
解釋變量是與新房價格相關的某些關鍵詞的網絡搜索指數。根據董倩等在文中的方法[2],對于新房價格預測,最終選取了8個關鍵詞,分別是房價走勢、房源、裝修、房產網、公積金、房貸利率、新樓盤、保障房。
為了與因變量保持一致,我們對所有關鍵詞的搜索指數做如下處理:首先將根據日搜索指數計算月度平均搜索指數,然后將月度平均搜索指數轉換為同比數據,最終得到所有關鍵詞從2014年1月到2016年8月的月度同比數據。
最后將因變量和解釋變量的月度同比數據先加1再取對數。
4 仿真分析


本文采用matlab技術,以南京市為例建立和分析新房價格預測模型。
4.1 可視化相關性分析
對表1中的數據按照上述方法進行數據處理,并在matlab中讀入處理后的數據,建立因變量矩陣和解釋變量矩陣,計算變量間的相關系數矩陣R和線性相關性檢驗的P值矩陣P,繪制相關系數矩陣圖如圖1。

4.2 多元線性回歸
第一步,模型的建立。

從圖3可以看出,殘差基本服從正態分布。
第五步,模型改進。

4.4 擬合效果圖
上面調用fi t函數作了8元線性回歸擬合、6元線性回歸擬合和完全二次多項式擬合,得出了3個經驗回歸方程⑻⑼⑽。擬合效果圖如圖4所示。

單純從擬合的準確性來看,完全二次多項式回歸擬合的擬合效果較好,8元和6元線性回歸擬合的擬合效果差不多,相對都比較差。
4.5 逐步回歸
在完全二次多項式回歸模型的基礎上,利用linearmodel類對象的stepwise方法,經過19次回歸,得到二次多項式回歸方程如下:


5 結語
房地產行業多年畸形發展催生了畸高的房價,從嚴調控、保持房地產市場的平穩健康發展被寫入多個省份的政府工作報告。本文以百度搜索數據為基礎,建立了房價預測的“最優”模型——逐步回歸模型,該模型不但可以即時預測房價的走勢,而且為地方政府制定調控房價措施提供有效的參考依據。另外,本文建立的房價預測模型還可以拓展到其他城市新房價格的預測和二手房價格的預測,可以預見,在人們利用網絡搜索房產信息越來越多的將來,由于搜索數據量越來越大,從而預測的精度會越來越高.
參考文獻
[1] 謝中華.MATLAB統計分析與應用[M].北京:北京航空航天大學出版社,2015.
[2] 董倩,等.基于網絡搜索數據的房地產價格預測[J].統計研究,2014(10).
[3] 成鴻飛,等.基于MATLAB的房價預測與調控模型研究[J].科技論壇,2010(6).
[4] 楊志輝,等.基于MATLAB的房地產銷售預測的科學計算[J].統計與決策,2005(1).
[5] 劉悅婷,等.基于MATLAB的蘭州市商品住宅價格變動分析及預測[J].甘肅科學學報,2011(9).