






關鍵詞:房產估價;XGBoost;估價模型;存量房
中圖分類號:TP391 文獻標志碼:A
0 引言(Introduction)
在商品房交易市場中,商品房的價格相對固定,其房產稅則依據國家規定的固定比例進行征收。相比之下,存量房的價格具有波動性[1],其交易過程需先對房屋的價值進行評估,再根據規定的稅收政策交稅[2]。ANDERSON等[3]的研究認為房產稅最早起源于中世紀的歐美發達國家。在我國存量房交易中,有一個存量房交易稅收的“取大優先”規則:如果交易金額小于房產評估值,仍將基于評估值收稅;反之,則依據交易金額收稅。在此規則下,房產估價顯得尤為重要,它不僅有助于防止稅收流失,還對中國經濟實現高質量發展具有積極的意義[4],這也是本課題的核心研究意義所在。
房產價格是在眾多特征因素綜合影響下的量化結果[5]。當前,主流的房產價格研究大多聚焦于房屋的影響因素,并基于特征價格理論、區位理論、地租理論等知識體系構建估價模型[6]。本文使用XGBoost模型研究并建立存量房的估價模型,并改進了XGBoost模型的參數組合,使用真實樣本數據對模型進行訓練和測試。結果顯示,改進后的模型性能得到了顯著的提高。
1 相關理論(Related theory
其中:L(θ)為訓練損失函數,是衡量模型對訓練數據擬合性能的關鍵指標;Ω(θ)為正則化懲罰項,旨在控制模型的復雜性,防止過擬合。通過優化訓練損失函數和正則化懲罰項得到XGBoost模型的目標函數。
1.2 貝葉斯優化理論
超參數調整是機器學習中的一個重要概念[9]。XGBoost模型包含眾多超參數,通過調整參數,找到合適的參數組合,可以顯著提升模型性能。在機器學習模型中,常用的超參數優化方法有網格搜索(Grid Search,GS)、隨機搜索(Random Search,RS)和貝葉斯優化,但GS和RS并不適合超參數較多的XGBoost模型。相比之下,貝葉斯優化更適用于參數空間連續、復雜或大型的場景;它通過建模和利用參數之間的關系,智能化地選擇下一個參數組合,從而在相對較少的迭代次數內找到更好的結果。貝葉斯優化提供的是一種更優雅和高效的調參方法,因此本研究中,采用貝葉斯優化調整XGBoost模型的參數。此外,設置動態學習率和隨機種子提高模型的性能和可復現性。
貝葉斯優化是一種用于超參數調整的強大技術,它通過對模型性能進行反復評估,動態地搜索超參數空間,以找到最優的超參數組合。本文使用貝葉斯優化工具Bayesian Optimization庫,可以在給定的超參數范圍內尋找最佳組合,從而提升模型的性能。貝葉斯參數優化流程如圖1所示。
2 房產估價模型構建(Construction of propertyvaluation model)
2.1 選取特征變量
國外學者較早地開展了住宅價格影響因素的研究,很多學者借鑒了國外學者的評估理論并結合我國的實際情況,客觀地分析影響我國房地產市場價格的主要特征因素,并總結了合適的特征變量[10]。在國內,很多學者依據理論從建筑、鄰里、區位3個方面選擇特征價格變量[11],但各地政府會根據每個城市的特性,因地制宜地制定一些房地產政策,這會涉及一些二手住宅的交易稅率、補貼政策等方面。本文參考了國內學者的研究成果,并調研某市房地產市場的特點,對變量的選擇進行了總結,一共有12個特征變量(表1)。
2.2 特征工程
本文實驗中使用的房屋信息數據通過Python爬取某房產網的數據獲得,因此數據集存在數據項缺失或者異常情況。這些數據對后期的建模過程有一定的影響,進而造成模型效果不理想。為了解決這一問題,需要先對數據進行預處理,處理缺失值,進行離散化和歸一化。為了使數據格式統一,利用特征工程將數據處理為易于訓練的數據,針對各項特征變量采用了不同的方式進行量化。特征變量包含建筑面積、房間數、所在樓層、房齡、朝向、裝修、電梯、價格、公交線路條數、附近公園、附近學校、附近醫院共計12個指標,各項指標的具體量化方式如表2所示。例如,中間樓層因兼顧采光及樓梯層高而被視為最優樓層;低樓層因樓層較低而被視為較差樓層;高樓層雖然采光好,但是因樓層高而被視為一般樓層[12]。價格采用的是某房產網的掛牌房價,雖然并不是真正的交易價格,但是由于掛牌價和交易價格是線性相關的,所以不會影響評估模型的效果[13]。
2.3 貝葉斯優化調參
在模型訓練之前,設置超參數至關重要。為了提升XGBoost模型的性能,本文根據貝葉斯優化思想和流程對其參數進行調整。此外,引入動態學習率可在訓練過程中根據模型的性能自適應地調整學習率,這有助于模型加速收斂并提高魯棒性。本文使用XGBoost的內置參數learning_rates 實現動態學習率的設置。設置隨機種子實現對模型的復現,確保每次的訓練結果可預測,這有助于在不同運行中獲得相似結果,具體通過XGBoost中的seed 參數實現。經過這組操作,可得到一組優化后的參數,XGBoost的超參數優化搜索空間如表3所示。
2.4 構建模型
在本研究中,對XGBoost回歸模型的優化是在已有研究的基礎上開展的。首先篩選出對XGBoost模型準確率和性能影響顯著的關鍵參數。這一過程旨在從眾多參數中識別出對模型性能影響最為關鍵的參數,為后續優化提供方向。其次利用貝葉斯優化算法找到最優的超參數組合,以提升模型性能。最后構建XGBoost房產估價模型,其流程如圖2所示,其具體步驟如下。
(1)收集研究相關數據,了解數據特征和結構。
(2)清理數據,處理缺失值、異常值,進行數據標準化或歸一化處理,確保數據質量。
(3)選擇研究相關特征,進行特征工程,提取新的特征以提升模型的性能。
(4)劃分訓練集和測試集,其中80%作為訓練集,20%作為測試集,確保模型在未見過的數據上進行驗證。
(5)構建XGBoost模型,用訓練集訓練XGBoost模型。
(6)使用測試集評估模型性能,設置評價指標,與其他模型進行對比。
3 實驗設計及結果分析(Experimental designand result analysis)
3.1 實驗環境與數據
本研究數據來源于某房產網的某市存量房部分歷史成交數據,交易時間跨度為2023年5月1日至2023年12月5日。
本實驗在一臺“聯想”筆記本電腦展開,系統為64位Windows 10操作系統。采用Python3編程語言,Python版本為3.7.6,軟件平臺為Pycharm。在機器學習模型方面使用XGBoost庫、LightGBM庫、sklearn.ensemble庫的函數分別構建不同的機器學習評估模型。
3.3 實驗結果
本研究中采用XGBoost庫中的XGBRegressor函數、LightGBM庫中的LGBMRegressor函數,以及sklearn.ensemble庫的RandomForestRegressor函數,分別構建了XGBoost、LightGBM和隨機森林回歸模型。以影響房屋價格波動的多個特征變量為自變量,房屋價格為因變量,建立3種房產估價模型。完成模型構建后,使用模型對測試集的房屋樣本進行價格評估預測,并輸出模型評價指標數值。評估效果如表4和圖3所示。從這些評估結果中可以看出,XGBoost模型在三者中的表現較為出色。因此,經過優化后的XGBoost模型性能得到了顯著提升。
4 結論(Conclusion)
對于存量房房產估價問題,本文基于房屋的建筑、區位、鄰里等因素,并采用XGBoost、LightGBM 和隨機森林回歸等模型展開研究。本研究旨在探討機器學習算法在房地產批量評估中的應用潛力,以期實現估價準確性和效率的提升。這些算法在處理復雜數據集和非線性關系方面展現出顯著優勢。為了進一步提高房產估價的效果,本研究引入了貝葉斯優化方法,通過調整XGBoost模型的超參數,提升了模型性能。此外,采用動態學習率策略,以適應不同情境下的數據特征,提高了模型的泛化能力和魯棒性。通過對XGBoost模型的優化,使模型的估價效果得到顯著提升,其中MAE 指數提高了0.4百分點,MAPE指數提高了1百分點,RMSE指數提高了0.6百分點,有效地提高了房產估價的準確率,為存量房估價問題提供了更為精準和高效的解決方案。
作者簡介:
柳越(1999-),女,碩士生。研究領域:智能信息處理。
劉從軍(1974-),男,碩士,高級實驗師。研究領域:智能信息處理。