趙云柯



摘 ?要:最近十幾年里普通民眾對房價的漲跌始終保持著很高的關注度,而這一關注度或許可以通過百度搜索指數得到量化。
而另一個面向,我們相信房地產銷售額的波動會與多數民眾某些經濟行為的特性發生關聯。這或許可以通過電影排片場次得到側面的體現。
基于上述思考,我們希望利用神經網絡,通過以某一周“上海房價”的百度搜索指數、上海電影排片場次和上海房地產平均單位面積銷售價格為自變量建立模型,來擬合計算得出該周上海房地產銷售額。
關鍵詞:神經網絡;機器學習;多元回歸;房地產
一、具體問題及分析
1)收集并整理從2016年到2019年每周“上海房價”百度搜索指數、每周上海電影排片場次、每周上海房地產單位面積平均售價,每周上海房地產銷售額的數據,并制作樣本與測試集。
2)搭建并使用1)中的數據訓練基于深度學習的神經網絡模型,利用均方差損失函數和梯度下降法擬合求解回歸模型。
3)在2)所得出的回歸模型當中,解釋結果模型的各自變量對上海房地產銷售額的影響,解釋其在現實生活中的含義并進行相關探討。
二、模型的假設
本文所要研究的是百度搜索指數、電影排片場次及平均銷售價格對于房地產銷售總額的影響。對于本文所考慮的問題,基礎的線性回歸問題不足以擬合出貼合度較好的函數,因此我們將線性關系轉為高次的函數。考慮到三個自變量之間關聯度并不高,我們將模型定義為:
對應索引i,即:
同線性回歸問題一致,我們采用平方誤差函數作為損失函數,小批量隨機梯度下降法作為優化算法。可以得出索引i的損失函數為:
因此同線性回歸問題,一次迭代中的平均損失函數為:
即:
顯然,每次迭代對于參數調整的優化方法為:
對于超參數的設置,我將迭代次數定為100000次,初始學習率定為0.1。隨著迭代的進行,我使用了類似于離散下降的方式來動態調整學習率:當該次迭代損失函數優于上次時,學習率增長上次的5%;當該次迭代損失函數劣于上次時,學習率減少上次的50%,且保證學習率的波動范圍一直處在0.01與0.8之間。如此設置,既保證了迭代的效率,使得模型能夠在有限次內高效地得出較優解,也確保了準確度,使得函數不會波動過于動蕩。
將所有數據進行整合后,我們令2016年1月4日到1月10日為第1周,將第1周至第200周的數據作為樣本,其余數據作為測試集。
三、模型擬合結果
我們設百度搜索指數為x1,電影排片場次為x2,單位面積平均售價為x3。通過python編程,可知w參數對應不同自變量不同次項分別為:
四、回歸模型擬合結果分析
機器學習所得到的回歸模型平均損失函數值為0.000476。相比之下,沒有經歷過任何優化的初始模型損失函數值約為0.001,可以發現精確度得到了顯著的提升。對于樣本而言,我們的模型剔除了樣本中的極端值,預測結果的平均值與樣本因變量接近,而方差比樣本更小,相較于樣本更為平滑連貫,兩者的比對圖形如下圖1:
其中橫軸為周數,縱軸為上海每周房地產總銷售額除以10,000后的商。藍色為實際值的函數,黃色為預測值的函數。藍色幾個異常的極低點,都是發生在春節期間。由于在春節放假期間幾乎不會有任何房屋交易,所以在這一非經濟和關注度條件的影響下,藍色曲線的值會異常的低。社會文化因素也導致藍色實際值出現了個別因變量極高的數據,這些都無法被我們基于經濟水平和大眾關注的模型預測出來。但依然,我們可以看出兩者的趨勢大致吻合,總體來說依舊具有一定的適用性。
而對于測試集所計算出的預測值與實際值,即使測試集中包含了2020年春節時期的數據,具有顯著社會文化因素的影響,但兩者差距在5%顯著性對應的z分數1.64個標準差之內的占比依舊超過了80%。可以看出,即使對于在樣本時間段之外的測試集,我們的模型依舊擁有客觀的正確率。
五、結論與展望
本文針對百度搜索指數、電影排片場次及平均銷售價格對于房地產銷售總額的影響,提出了基于神經網絡利用機器學習對各參數進行高次函數建模擬合的方法,并通過對百度搜索指數、電影排片場次、平均銷售價格與房地產銷售總額建立函數關系進行了應用,為未來利用不同自變量對因變量的預測提供了指導。本文獲得的主要結論如下:
(1)基于單層神經網絡,采用平方誤差函數作為損失函數,小批量隨機梯度下降法作為優化算法,近似離散下降的方式動態調整學習率,進而建立了以百度搜索指數、電影排片場次及平均銷售價格為自變量,房地產銷售總額為因變量的5次函數。所建模型適用于與處理后單位相同,且位于上海的數據。
(2)以房地產銷售總額為對象,基于神經網絡實踐了機器學習模型在互相之間關系較淺的多特征擬合問題的應用。本文所建模型的預測值與實際值雖然有一定的誤差,但函數更為平緩,有利于對于樣本時期之外的數據進行預測。同時小批量隨機梯度下降法與動態調整學習率的使用使得模型效率較高,100000次迭代在普通的家用筆記本電腦上可以在約30分鐘內完成。
當然,本文的模型由于僅僅考慮了經濟水平與大眾購買意愿這兩個因素,在實際使用時出于社會文化因素等原因的影響會出現一定的偏差。若要完全了解并構建出能夠精準預測房地產銷售額的多特征模型,我們仍需在未來投入大量的工作,考慮更多的因素,并展開更深入的研究。
參考文獻
[1] ?基于MATLAB的房價預測與調控模型研究[J]. 成鴻飛,王江鵬,余琴.科協論壇(下半月). 2010(06)
[2] ?基于BP神經網絡的房價預測[D]. 崔慶都.西南石油大學 2011
[3] ?動手學深度學習[M]. 阿斯頓·張.人民郵電出版社.2019