文/潘巍 晉松
房地產的價格隨國民經濟的發展上下波動,房地產價格主要用于房產交易所和銀行等金融機構進行抵押貸款或資產清算等活動時,對房地產的估算價格的準確性高低對于金融行業和房產交易等為回避風險給出了至關重要的預測尺度。近幾十年來,國內外常應用相關的經濟模型和方法來對房地產價格進行估價,如市場比較法、成本法和收益還原法等。但這些方法存在單一性和片面性。針對上述方法存在的問題,許多學者將機器學習技術引入到房地產估價中,在房地產的多元屬性和價格間構建出回歸模型并得到了良好的效果。許多研究人員將層次分析、特征選擇、神經網絡和SVM等技術應用到房地產估價中,楊和禮等人利用RS-BPNN神經網絡模型對房地產的價格進行預測,并采用粗糙集的屬性粒度計算來約簡掉冗余房地產屬性。再者,李毅等人將SVM模型應用到房地產估價中取得了良好的效果,有效解決了神經網絡局部最優的缺陷。
本文選取LS-SVM來建立房地產價格的回歸模型,從而實現對房地產評估的增量學習。
但在本文中,采集的房地產樣本是通過網絡爬蟲獲得的WEB數據,它是隨著時間序列獲得的或在線采集的致使數據量將不斷增大,就必須使用增量式學習算法或在線學習算法來訓練模型,以減少訓練的存儲開銷。更重要的是增量學習算法會使學習機具有在線自適應的能力,能夠隨著時間而進化。
根據系統需求,房地產數據主要由人工采集、購買和WEB數據組成。由此我們可將房地產數據定義為,其中為人工采集房產交易數據,為購買的房產交易數據,為WEB的房產交易數據(),xh為一個房產交易數據樣本,yh為房產交易價格而 xh=(Xh1, Xh2, …, Xh10),每個房產交易數據樣本由10個屬性組成,它們分別是房屋新舊程度、戶型、裝修程度、樓層、朝向、建筑面積、樓盤綠化率、樓盤類型、所處區域和所處城市。

表1:房地產估價算法準確性對比表

表2:房地產估價算法運行時間(s)對比表
為了便于建立增量學習模型,令i+j+l=N,因l是隨時間不斷增大的,因此房產數據的整體規模N也是隨時間不斷增大的,因此我們對于整體的樣本而言,認為樣本集D隨著時刻t的遞進而每次新增一個樣本。增量學習的樣本集可以表示為,其中
那么,在數據樣本集D上,房產價格預測的LS-SVM回歸模型為:

來擬合樣本集,式(1)中x為房產交易數據樣本,y為房產價格,w和b為回歸參數,w為超平面的法向量,b為超平面的截距。
根據結構風險最小化原理和擬合誤差,回歸問題可以表示為約束優化問題:

其中ξ為樣本的損失。
在房產價格的LS-SVM回歸模型中,以便使輸入空間中的非線性擬合問題變成高維特征空間中的線性擬合問題,可利用k(·)非線性映射把數據集從輸入空間映射到特征空間,我們選取高斯核對樣本做非線性映射。

則可轉化為如下形式



其中

本文提出的房產估價算法簡稱為mySVRLSSVM。將本文使用得到方法與回歸支持向量機(R-SVM)和回歸神經網絡算法(RNN)進行性能對比分析。在從房產代理公司購買到的近1年哈爾濱市的真實房產交易數據用于實驗,該數據集包含10000條數據,稱它為RestateData數據集。其中R-SVM和mySVRLSSVM算法中采用了RBF核且利用十折交叉驗證來得到上述三種算法中的參數。從RestateData數據集中選取出7個房產交易記錄作為最終的測試預測值的準確性來使用,具體的對比結果見表1所示。
通過表1可以看出,R-SVM和mySVRLSSVM算法比RNN算法誤差率至少低1%,且mySVR-LSSVM算法比R-SVM算法的誤差率低0.14%,因此可知mySVR-LSSVM算法有良好的預測準確性。
接下來,為了對比三種算法的實際訓練時間,我們用RestateData數據集對其進行測試。在RestateData數據集中分別選100,200,500,1000,2000,5000,10000個樣本作為訓練樣本,并分別對每組樣本進行重復10次實驗來分析三種算法的運行效率。房地產估價算法的運行時間對比結果,見表2。
通過表2可以看出,隨著樣本數目的增加三種算法中mySVR-LSSVM的訓練時間最少,RNN算法的訓練時間最長,且在算法的測試時間上三種算法基本相同。