呂 昊
(天津市南開城市建設投資有限公司 天津300110)
隨著經濟的持續發展,房地產行業已經成為支柱產業,房屋價格不僅直接影響著居民的生活水平,也間接影響著國家經濟的持續、健康、平穩發展,房屋價格已經成為關系民生的熱點問題[1]。
房屋價格受到很多因素的制約和影響,在當前房屋價格預測模型中,主要提取的因素集中在綜合國民經濟發展水平、消費水平、人均生產總值、人均居住面積、人均可支配性收入等方面[1],所選取的指標涵蓋了從人均水平到整體經濟水平的描述,但是所選指標依然不夠,對房屋的位置、屬性、格局等自身屬性考慮不足。因此,在房屋價格預測模型中,選取的特征因素應當具有全面性、多樣性[2]。
近年來,國內外學者已經應用多種學習模型對房屋銷售價格進行預測。申瑞娜等[3]收集了影響房價的8個因素,結合主成分分析和支持向量機對房屋價格進行預測;周學君等[4]采用了影響房價的6個主要因素輸入到人工神經網絡中進行房價預測;劉瓊芳[5]建立灰度 GM(1,1)預測模型,預測福州市的房價走勢,具有較高的精確度;王瑾等[6]通過多元逐步回歸方法建立房價預測模型對北京市房屋價格進行統計分析;陳世鵬等[7]根據襄陽房貸數據建立隨機森林模型對測試樣本進行房價預測,取得了較好的效果;韋光蘭等[8]以馬爾可夫鏈為預測模型,采用數理統計的計算方法,預測了昆明近期房價走勢,分析房價的動態變化過程。從以上研究成果來看,在進行房屋價格預測時,由于所選取的特征維數有限,并不能全面反映影響房屋價格的制約因素,并且所選用的預測模型較為簡單,能夠分析處理的特征維數較少,并不能全面挖掘特征因素與房價之間的影響關系。
以受限玻爾茲曼機為基礎構造的深度置信網是深度學習的典型算法之一,通過多層特征的學習與訓練,能夠有效挖掘輸入特征的關鍵信息,在一定程度上,克服了人工神經網絡容易局部最優和訓練時間長的問題,已經在信號處理、圖像分析等領域取得了較為成功的應用。本文以深度置信網模型為基礎,以Kaggle平臺的房屋價格作為數據庫,建立影響房屋價格的多維因素與房屋價格之間的深度學習預測模型。
深度置信網(Deep Belief Network,DBN)的基本構成元件是受限玻爾茲曼機(Restricted Boltzmann Machines,RBM) 。上一層的 RBM 的特征訓練輸出作為下一層 RBM 的特征訓練輸入,依此進行多層RBM 的疊加訓練 DBN結構,能夠更加深入全面地進行特征分析,避免人工神經網絡容易局部最優的缺點,是深度學習的典型結構之一[9-10]。
圖 1顯示了 DBN的網絡結構模型。可以看出,其中主要包括特征輸入層、隱藏層和特征輸出層。將收集的影響房屋價格的特征因素經過預處理之后輸入到特征輸入層;隱藏層是由多個 RBM 疊加形成的深度特征處理結構,每一個隱藏層的特征計算作為下一個隱藏層的輸入迭代計算;最后的特征輸出層是一層人工神經網絡,將特征計算結果映射到房屋價格,完成房屋價格的預測。

圖1 深度置信網絡結構模型Fig.1 Structure of deep belief network
基于深度置信網的房屋價格預測模型在訓練過程中,首先無監督地訓練其中的每一層 RBM,將影響房屋價格的特征因素經過預處理之后作為特征輸入映射到不同的特征空間中進行訓練;然后將經過多層 RBM 訓練之后得到的輸出特征作為輸入因素,輸入到最后一層的人工神經網絡,并在其中進行監督預測,得到房屋價格的預測結果,計算預測結果與實際結果的差異并反向傳播,不斷調整 DBN網絡,直至差異在允許范圍之內或連續訓練達到一定次數時,完成訓練過程,輸出最終的房屋價格預測結果[11-12]。
在本文中得到的房屋價格為預測的連續值,因此采用平均誤差(RMSE)和決定系數(R-squared)對房屋價格預測模型的準確度和可靠性進行評價[13-14]。平均誤差能夠衡量預測結果與真實結果之間的偏差,平均誤差越小表示預測結果與真實結果越接近,反之則差異越大;決定系數能夠評價房屋價格預測模型的擬合優度值,決定系數越接近 1,代表預測結果與真實結果之間的擬合程度越好。通過 RMSE和R-squared兩個評價標準能夠衡量房屋價格預測模型的優劣。兩個評價標準的公式定義分別為:

式中:ypred代表本文模型得到的房屋預測價格;yact為該房屋的真實價格;n為樣本的個數;為yact的平均值。
Kaggle建立于 2010年,是一個進行數據挖掘與預測競賽的在線平臺。本文所使用的數據庫是其中的House Prices:Advanced Regression Techniques(https:// www.kaggle.com/c/house-prices-advanced-regression-techniques)。
Kaggle House Prices中列出了愛荷華州埃姆斯(Ames)房屋市場已經成交的1461座房屋的79個特征(其中包括 41個分類變量,38個連續數值變量) ,主要涉及地段、面積、層數、地下室、與街道之間的距離、房屋的外墻材料等項數據,根據這些數據特征來預測房屋的銷售價格。
對 Kaggle中的房屋價格數據進行預處理操作,刪除其中某一特征缺失較多的選項,同時刪除個別離散較大的特征,最終得到用于房屋價格預測模型輸入的較重要特征。
本文所使用的數據庫中共包含 1461套已經成交的房價特征與其出售價格。按照訓練集∶測試集=3∶1的比例分割數據庫,得到隨機的訓練集樣本數為1096個,測試集樣本數為365個,采取10折交叉驗證的方式進行模型的訓練,得到最終的房屋價格預測結果。
本文所使用的DBN模型中包含3個隱藏層,隱藏層中的節點數分別為 300、150、100,學習率為0.01,動量為 0.4。
偏最小二乘回歸(PLSR) 、支持向量機(PCA+SVM) 、神經網絡(PCA+ANN)是機器學習領域中經典和常用的預測模型,本文使用這3種模型作為對比實驗,以R-square和RMSE作為評價指標,驗證基于深度置信網的房屋價格預測模型的準確性。
表 1中列出了本文方法與 3種對比實驗方法的預測結果,從中可以看出,本文方法的 R-square達到了0.6872,高于3種對比模型,說明本文方法預測的結果與真實結果的擬合程度最好。同理,本文方法的RMSE達到了 23511,小于 3種對比方法,說明本文方法預測得到的結果與真實結果之間的偏差最小。綜上所述,本文基于深度置信網模型進行房屋價格預測的結果要優于3種常用的預測模型。
房屋價格受到多種因素的影響,是社會關注的熱點問題之一,對房屋價格進行預測,能夠有效輔助房地產業研究。本文使用基于深度置信網的預測模型,在 Kaggle房屋價格數據庫上進行實驗驗證,結果表明,該方法的預測結果要優于對比實驗中3種經典預測模型的預測結果,能夠更有效地進行房屋價格的預測。