周亮錦 趙明揚
(1.韓山師范學院經濟與管理學院金融大數據中心,廣東 潮州 521000;2.韓山師范學院數學與統計學院,廣東 潮州 521000)
房地產業是影響我國經濟發展的重要因素,尤其在2003年國務院18號文件正式確立房地產業為國民經濟支柱產業的地位之后。隨著房地產業的快速發展,我國的房價在過去的二十年間經歷了多次較大幅度的持續上漲,甚至陷入“越調越長”的怪圈,直到被稱為史上最嚴樓市調控的北京“3·17”調控政策的出臺。以此為契機,“因城施策”“一城一策”等以“穩房價、穩地價、穩預期”為目標,以“堅持房子是用來住的,不是用來炒的”為定位的房價調控政策成為各地房地產市場的關鍵詞。再加上2020年以來全球范圍內新型冠狀病毒肺炎的暴發,以及樓市“三道紅線”的出臺,房地產市場正遭受多元化沖擊,由此帶來的民生問題、社會問題和經濟發展問題引發人們對房地產市場,尤其是房價的廣泛關注。
圍繞房價相關問題,學術界、政府和實際工作者展開了深入探究。歸納起來,這些研究主要集中在房價泡沫、房價影響因素和房價預測三個方面。其中:對房地產泡沫問題的研究主要涉及對泡沫是否存在的討論、對泡沫化程度的度量和對泡沫化成因的探究;對房價影響因素的研究涉及對各相關因素,如供求因素、消費者個體因素、住宅特征和宏觀調控政策等對房價的影響;對房價預測的研究則主要體現宏觀經濟(Crawford等,2003;胡六星等,2010;高玉明等,2014;黃明宇等,2019)和住宅特征兩個視角(Bin,2004;Selim,2009;李恒凱等,2012;孫逸等,2020)。
近年來,隨著國外內關于房價預測研究的日趨成熟,很多學者都將研究重點放在了預測模型的對比、優化和修正上(Bork,2015;Wei,2017;李寶強等,2017)。同時,隨著互聯網和大數據研究的蓬勃發展,基于大數據方法的相關模型,如支持向量機模型、BP神經網絡、隨機森林和K鄰近模型等(Plakandaras等,2015;江源,2019;王葛成,2020)也被引入到房價預測中來。本文使用K近鄰法、支持向量機、決策樹和隨機森林這幾類機器學習算法建立房價預測模型,該研究將從理論和方法上豐富和完善房價預測問題的研究體系。通過該研究,以期有助于政策制定者了解房價的發展走勢,繼而為政府的宏觀調控提供更好的參考,同時也為房地產開發商、購房者作出更好的投資決策提供借鑒,促進房地產市場的平穩健康有序發展。
作為人工智能領域發展最快的分支之一,機器學習在各個領域已得到廣泛的應用(周志華,2016;王宇韜等,2020;韓寶國等,2018;黃文等,2014)。本文主要借助于機器學習庫scikit-learn來實現的相應的算法。scikit-learn發布于2017年,它提供了分類、回歸、降維和聚類等機器學習算法(華校專等,2017;Gavin,2017)。
房價的波動在本質上依賴于市場上供求關系的變化,但也受到國家宏觀政策、城市發展等宏觀環境的影響。借鑒已有相關研究,本文在實證分析部分選取的指標主要包括需求、供給及宏觀環境三類。
就需求而言,人口數量的增加、收入水平的增長以及住宅銷售面積的增加在一定程度上能推動房價的上漲。其中,代表人口數量的指標有年末人口數量,常住人口數量。代表收入的指標有人均可支配收入、人均消費支出、在崗職工平均工資和年末儲蓄余額。
就供給而言,房價波動主要受到土地價格、建造成本、住宅開發投資額、土地購置面積和住宅竣工面積的影響。土地價格、建造成本作為成本能推動房價的上漲,而在需求不足的情況下,房地產開發住宅投資額、土地購置面積和住宅竣工面積的增加會對房價產生負向影響。
就宏觀環境而言,主要是城市發展以及國家宏觀政策。其中,代表城市發展的指標有經濟發展水平GDP、人均GDP和物價水平CPI,而代表國家宏觀政策的因素有利率、信貸和貨幣供應量。考慮到我國土地國有的特殊國情,房價的波動還受到地方政府土地財政的影響,相應的代表性指標有財政缺口和土地財政依賴。各指標的簡要說明如表1所示。

表1 指標名稱及相應說明
鑒于數據的可獲得性,本文選取1999年~2019年我國35個大中城市為考察對象。其中,住宅商品房的銷售額和銷售面積、住宅商品房的竣工價值和竣工面積、當期房地產開發企業到位資金和自籌資金、當期住宅商品房開發投資額和土地購置面積的相關數據來自《中國房地產統計年鑒》(1999年~2020年)。年末人口數量、常住人口數量、城鎮家庭人均可支配收入、人均消費支出、在崗職工平均工資、國內生產總值、人均國內生產總值和地方一般公共預算收入/支出的數據來自各城市《城市統計年鑒》(1999年~2020年)。土地價格的數據來自中國地價監測網,國有建設用地土地成交價款的數據來自《中國國土資源統計年鑒》(2000年~2018年),5年期及以上貸款基準利率和物價水平的數據來自《中國統計年鑒》(1999年~2020年);缺失數據采用Lagrange插值法插入。為消除通貨膨脹的影響,所有價格均經各城市CPI平減,住宅開發投資和信貸數據則經各城市固定資產價格指數平減,平減后的數據以1998年為基期。

在機器學習中,通常把學習器的實際預測輸出與樣本的真實輸出之間的差異稱為“誤差”,把模型在訓練集上的誤差稱為“經驗誤差”,在新樣本上的誤差稱為“泛化誤差”。學習器的泛化誤差越小,模型的預測精度越高。但新樣本是未知的,且模型的泛化誤差也無法直接獲得。因此,我們通常采取的策略就是將得到的數據拆分為訓練數據集和測試數據集,在訓練數據集上進行模型的訓練,然后以測試集上的“測試誤差”對模型的泛化誤差進行估計,繼而選擇泛化誤差最小的模型。常用的數據拆分方法有留出法、交叉驗證法、留一法等。這里采用的是留出法。數據拆分使用模塊sklearn.model_selection中的train_test_split()函數來實現,參數test_size的值設置為0.25,即隨機選取數據的1/4作為測試集,剩余的3/4作為訓練集。為方便各機器學習模型之間的性能比較,需保證每次使用的訓練集和測試集都是相同的,借助于tram_test_split()函數中的參數random_state來實現。
機器學習的各個模型都帶有一些參數,如決策樹中的深度參數,K近鄰法中的K值選擇,隨機森林中決策樹的個數等。通常情況下,使用模型的默認參數設置即可獲得較好的結果和預測準確度。但如果要獲得更為精確的結果,就需要對模型的這些參數進行調整,以尋求在給定數據集下的最優參數。對于該參數尋求過程,通常使用交叉驗證和GridSearch來實現。在下面的模型訓練過程中,設置K折交叉驗證的劃分份數為5。
K近鄰法最早由Cover和Hart于1968年提出,是一種基本的分類和回歸算法。其作為回歸算法的基本原理是通過計算新數據與訓練數據對應特征之間的距離,選取距離最近的K個樣本的樣本輸出值的平均數作為預測值。在K近鄰算法中,K值的選擇對預測效果有較大影響。若K值過小,則整體模型變復雜,易造成數據的過擬合;若K值過大,則整體模型變簡單,易發生預測錯誤。除了K值這一重要影響因素外,計算距離的方式也對結果有較大的影響。在K近鄰法中,距離的計算有歐式距離和加權歐式距離兩種方式。使用歐式距離時,距離近的點和距離遠的點對結果的影響是相同的,這明顯與實際不符。對于現實中的房價,當影響房價的各個因素比較接近,相應地區的房價也會趨向一致;而當各因素相差較大時,房價相應也會呈現出較大的差異。基于這樣的事實,加權歐式距離的結果在理論上應優于歐式距離的結果。K近鄰法借助于sklearn的子模塊neighbors實現。K近鄰法借助于sklearn的子模塊neighbors實現。在網格參數尋優時,距離計算的方式分別設置為歐式距離和加權歐式距離,K值取{i∈,1≤i≤10}。模型訓練結果表明,當使用加權歐式距離且K值為3時,效果最優,與實際相符。進一步地,為了更清晰地觀察使用加權歐式距離時,K值的選擇對最終結果的影響。這里以參數K為橫坐標,以訓練集和測試集上的擬合度(R2)為縱坐標繪制K值與R2之間的折線圖(如圖1所示),以探究K值對模型預測效果的影響。

圖1 加權歐式距離下K值與R2之間的關系
根據圖1,可以發現參數K的最優值為3,這與GridSearch尋求的最優值是相符的。此時在訓練集上的為1.0000,在測試集上的R2為0.9571。
支持向量機模型是一種建立在統計學習理論的VC維(Vapnik-Chervonenkis dimension)理論和結構風險最小化原則上的預測模型。它可通過非線性變換將輸入變量映射到高維特征空間,即便在有限樣本情況下,仍能在求解問題時以較好的泛化能力得到較小的誤差。對于支持向量機而言,核函數(用于實現非線性變換)的選取至關重要。這里,我們分別選取多項式核、高斯核和Sigmoid核進行模型的訓練和測試。其中多項式核的表達式為

γ,ρ,r為參數。高斯核函數的表達式為:

γ為參數。Sigmoid核的表達式為

γ,r為參數。
支持向量機借助于sklearn的子模塊SVM來實現。網格參數尋優結果表明,當使用多項式核,參數設置為γ=1,ρ=1,r=5時,效果最優,此時該參數組合在訓練集上的擬合度(R2)為0.8939,而在測試集上的擬合度(R2)為0.9177。為了更清晰地觀察各個參數對最終結果的影響,將其中兩個參數固定為最優值,繪制剩余的那個參數(橫坐標)和擬合度(R2)(縱坐標)之間的折線圖(如圖2、圖3所示),以探究不同參數對模型結果的影響。

圖2 參數p與R2之間的關系

圖3 參數與R2之間的關系
從圖4可以發現,其結果與網格搜索的參數最優值是相符的。

圖4 參數與R2之間的關系

根據圖5,可以發現決策樹深度的最優值為4。此時在訓練集上的擬合度(R2)為0.9470,在測試集上的擬合度(R2)為0.9007。

圖5 決策樹深度與R2之間的關系

從圖6、圖7、圖8可以發現,其結果與網格搜索的參數最優值是相符的。

圖6 決策樹數目與R2之間的關系

圖7 決策樹深度與R2之間的關系

圖8 特征選擇比例與R2之間的關系
綜上,本文分別使用K近鄰法、決策樹、隨機森林和支持向量機對1998年~2019年全國35個大中城市房價及其影響因素的數據集進行了房價預測模型的構建與測試。借助于K折交叉驗證和GridSearch參數尋優,得到各模型的最優參數組合,如表2所示。

表2 各模型的最優參數組合
結果表明,從R2(測試集)的角度來看,最優參數組合中K近鄰法>隨機森林>支持向量機>決策樹。但從理論上可知,K近鄰法嚴重依賴于訓練數據集,無法從模型本質上尋求房價影響因素與房價之間的數量關系,所以從理論角度來看,隨機森林應是這4類模型中的最優模型。
盡管我們已經取得了一些有價值的結論,但仍有很多問題有待解決,例如利用數據降維降低影響因素的維數,通過引入其他機器學習方法(如XGBoost,CNN等)并結合GridSearch等技術提高模型的精度,以期構建穩健性更好、精度更高的房價預測模型。