池 嬌,焦利民
(1.武漢大學 資源與環境科學學院,湖北 武漢430079;2.武漢大學地理信息系統教育部重點實驗室,湖北 武漢430079)
住宅房地產價格評估的空間型BP神經網絡模型
池 嬌1,2,焦利民1,2
(1.武漢大學 資源與環境科學學院,湖北 武漢430079;2.武漢大學地理信息系統教育部重點實驗室,湖北 武漢430079)

住宅房地產價格與交通、環境等各類影響因子之間存在著非線性復雜關系,住宅價格的空間自相關性對住宅價格建模也有重要的影響。考慮到住宅價格的空間自相關性,構建了3種空間型BP神經網絡模型,并利用遺傳算法(GA)進行模型訓練。第一種空間型模型的輸入層神經元為樣本坐標,第二種空間型模型的輸入層神經元為空間滯后向量,第三種空間型模型的輸入層神經元既包括樣本坐標也包括空間滯后向量。以武漢市為例進行實證分析,選取了2010年291個住宅價格樣本。實驗結果表明,空間型BP神經網絡模型的擬合精度優于普通BP神經網絡模型及空間滯后模型,其中第三種空間型BP神經網絡模型效果最優,輸出結果與實際價格相關性達86.69%,均方根誤差明顯小于其他模型。
住宅房地產價格評估;BP神經網絡;空間回歸;空間滯后向量;遺傳算法
住宅房地產價格評估建模涉及商服繁華度、道路通達度等諸多影響因素,住宅價格與其影響因子之間是一種復雜非線性關系。BP神經網絡模型可以自動地向樣本學習,將輸入和輸出之間的復雜關系分布存儲在神經元之間的連接權中,具有自組織、自適應、自學習、非線性映射能力等優點,可同時處理定性和定量數據,容易實現并行計算,可較好地處理住宅價格評估中多因素、非確定性、非線性問題。
很多學者將BP神經網絡引入房地產估價領域,如申玲建立了房地產評估BP神經網絡模型[1]。部分學者在房地產價格評估的神經網絡模型方面做進一步研究,將BP神經網絡與模糊數學、遺傳算法、粗糙集理論等相結合[2-4]。但傳統的BP神經網絡只是在輸入層中加入了房價影響因子,沒有考慮房價的空間自相關性,忽略了空間性提供的關于空間格局、結構和過程的相關信息[5],限制了模型精度。
住宅房地產的空間分布特征對其價格建模有顯著的影響[6]。房地產價格評估中,空間自相關研究已超過30 a的歷史[7],有學者研究了在房地產市場中采用空間分析方法的可行性[8],有學者基于空間計量模型研究了杭州市住宅價格的空間效應[9]。空間回歸分析模型是空間自相關研究常用的計量模型,該模型將空間相互作用通過空間權重矩陣的形式融入到了經典回歸模型中。與傳統回歸分析模型相比,一方面能夠較大幅度地提高模型的擬合優度,提高對因變量空間變異的解釋能力,另一方面能夠在建模時考慮相鄰區域的影響[10]。但是空間回歸分析模型仍是一種線性模型,不滿足房價與其影響因子非線性關系的實際情況。
本研究將傳統BP神經網絡與房價的空間自相關分析結合起來,在模型中加入住宅房地產價格的位置信息以及空間自相關變量,構建空間型BP神經網絡模型,并通過遺傳算法對權值和閾值進行優化。選取武漢市291個住宅樣本點進行分析,根據評估結果,選擇最優模型。
根據TOBLER提出的“地理學第一定律”[11],地理實體之間總是表現出一定的空間關聯性[12]。空間自相關分析是測試空間某點的觀測值是否與其相鄰點的值存在相關性的一種分析方法[13],一般通過全局空間自相關指標Moran's I統計量和局部空間自相關指標Moran散點圖來判斷空間自相關程度,若存在顯著空間自相關,在回歸建模時需要采用空間回歸分析模型,如空間滯后模型SLM(spatial lag model)和空間誤差模型SEM(spatial error model)[14]。
構建空間型BP神經網絡進行住宅房地產價格建模的目標是在傳統BP神經網絡模型基礎上,考慮空間自相關性進行住宅房地產價格與影響因子之間的非線性建模。該模型既具有BP神經網絡的非線性、自學習、并行計算優點,又能將研究對象的空間效應考慮在內,從而提高模型精度。構建空間型BP神經網絡過程中,主要從兩個方面引入住宅價格的空間自相關性:整體空間分布趨勢與局部空間自相關效應。
由于住宅房地產價格的空間自相關性,其分布一般具有一定的空間趨勢,可表示為:

式中,p為住宅價格;(x,y)為房價樣本點坐標。上式可理解為,可以使用一個曲面代表住宅價格的空間分布,一般簡化為線性、二次或三次多項式形式。選取樣本點坐標(X,Y)加入BP神經網絡的輸入層神經元,從而將住宅價格的整體空間分布特征引入模型[15],以提高模型精確度。
當回歸建模中考慮因變量的空間自相關性時,可在回歸方程中加入空間滯后項,即建立空間滯后模型。在該模型中,因變量不僅與本區域的解釋變量有關,還與相鄰區域的因變量取值有關,表達式為:

式中,y是一個n×1維向量,代表住宅價格;x是n×k的數據矩陣,代表房價影響因子;w是空間權重矩陣;wy為空間滯后向量,即周圍房價點的加權平均;ρ是空間滯后因變量wy的系數;β反映解釋變量對因變量y變化產生的影響;μ為誤差項。空間滯后向量wy可看作影響住宅價格的虛擬變量,當wy加入BP神經網絡輸入層時,可以使BP神經網絡模型包含因變量的局部空間自相關特征。空間滯后模型是包含空間相關關系的多元回歸模型,本質上是一種線性模型。將空間滯后向量wy加入BP神經網絡模型的輸入層,使其既能像空間滯后模型一樣反映房價空間分布的局部特征,又能利用神經網絡的特點表達他們的非線性關系。
本研究構建了3種空間型BP神經網絡模型,并進行了對比分析,模型結構如圖1所示。研究將BP神經網絡輸入層神經元分為3種類型,第一種為住宅房地產價格普通影響因子,如商服繁華度、道路通達度等,如圖1中(1)所示;第二種為樣本點坐標(X,Y),如圖1中(2)所示;第三種為空間滯后向量,如圖1中(3)所示。根據輸入層神經元類型分為3種空間型BP神經網絡模型,第一種空間型BP神經網絡模型輸入層神經元為圖1中(1)和(2)部分,第二種空間型BP神經網絡模型輸入層神經元為圖1中(1)和(3)部分,第三種空間型BP神經網絡模型輸入層神經元則全部包括了圖1中(1)、(2)和(3)部分。在3種模型中,樣本點坐標、空間滯后向量作為空間型神經元與其他房價影響因子一起構成神經網絡輸入層進行模型訓練與測試。
BP算法對初始權值較為敏感[16],本研究采用遺傳算法(GA)優化空間型BP神經網絡的權值和閾值。傳統BP算法的初始權值和閾值一般由計算機的隨機函數產生,易陷于局部最小且訓練時間較長。遺傳算法具有較好的全局搜索能力,容易得到全局最優解或性能很好的次優解。在BP神經網絡的學習過程中,將權值和閾值描述為染色體進行編碼,選取實際輸出與期望輸出的誤差作為適應函數,然后循環進行選擇、交叉、變異、計算適應度操作,直到達到進化次數,得到最優的權值和閾值。

圖1 空間型BP神經網絡結構

圖2 武漢市住宅價格樣本點分布圖
2.1 研究區域及數據
武漢市地處E113°41'~115°05'、N29°58'~31°22',位于江漢平原東部。研究選取了2010年武漢市武昌區、洪山區、江漢區、江岸區、硚口區、青山區、漢陽區、東西湖區、黃陂區共9個城區的291個普通住宅項目樣本點,樣本空間位置如圖2所示。通過查詢武漢市房地產市場信息網、搜房網、億房網等網站,再結合實地調查,得到各住宅樣本點的綠化率、容積率、樓層數、房間數等信息。通過中國科學院國際科學數據服務平臺獲取2010-09-17與2010-10-13ETM+遙感影像數據,提取植被覆蓋、水域等信息。以武漢市基礎地理信息數據為基礎,結合武漢市國土資源和規劃網、天地圖(武漢)等網絡信息源,收集武漢市商服中心、道路、公交車站、學校等影響因子的空間數據。
2.2 因子指標體系構建及計算
房地產商品涉及的領域廣、產品周期長、產業鏈長,其價格形成受各種因素的影響和制約,對房地產價格影響的范圍來構建影響因子指標體系,主要分為區域因素和微觀因素,區域因素包括商服中心、交通條件、公共設施、環境以及到中心城區的距離等,微觀因素包括綠化率、容積率等,見表1。

表1 住宅價格影響因子指標體系
參照城鎮土地分等定級規程,對住宅用地定級時,對商服中心、道路、公交站點、學校等區域因素統一采用線性距離衰減法進行分值計算,首先對各要素確定級別,求取各要素不同級別的功能分值,然后采用線性距離衰減法進行計算,公式為:

其中,f為各要素對住宅樣本點的影響分值;F為各要素不同級別的功能分值;r為住宅樣本點與各要素之間的相對距離;d(x)為住宅樣本點與各要素的實際距離;R為各要素最大影響半徑。最大影響半徑R的確定根據要素屬性的不同分為線狀和點狀兩種,點狀要素(商服中心、公交車站、教育設施、水域)最大影響半徑公式為:

其中,R表示點狀要素最大影響半徑;s為區域面積;n表示等級個數;π≈3.14。線狀要素(交通道路)最大影響半徑公式為:

其中,R表示線狀因素最大影響半徑;s為區域面積;l為線狀要素長度。
因素分值計算時同級取最高分值,多級分值累加,最終得到樣本點的商服繁華度、道路通達性、公共便捷度、公共配套設施、區域環境條件等指標分值。
選取武漢市一環線以內區域作為中心城區,在ArcGIS中計算住宅樣本點到中心城區的距離,得到距中心城區距離指標。利用遙感影像獲取研究區NDVI代表植被覆蓋程度。在ENVI軟件中對影像進行輻射糾正和幾何糾正等預處理,然后進行波段計算,近紅外波段和紅外波段相減,除以近紅外波段和紅外波段的和[17],得到NDVI指數。樣本所在像元通常為屋頂等不透水表面,為了克服隨機誤差的影響,采用樣本鄰域NDVI均值代表樣本的局部植被環境。根據相關研究,將住宅樣本點鄰域范圍設為200 m,即選取樣本點200 m緩沖區內的NDVI均值代表植被覆蓋因子指標[18]。

圖3 武漢市住宅價格Moran 散點圖
2.3 武漢市住宅價格評估
2.3.1 空間自相關分析
用泰森多邊形表示每個房價樣本點與其擁有共有邊界及共同頂點的樣本點的緊密關系,創建Queen空間權重矩陣。根據空間權重矩陣計算得到武漢市291 個住宅樣本點的Moran's I指數以及局部空間自相關指標Moran 散點圖(圖3)。Moran's I指數為0.360,說明武漢市住宅價格從全局上具有強烈的正的空間自相關性;統計散點圖,共有221個樣本點位于第一、三象限,占總樣本點的75.95%,體現了武漢市在局域范圍內空間正相關特征明顯。總體來看,武漢市住宅價格存在顯著的空間自相關,因此選用空間滯后模型來表達住宅房地產價格與其影響因子的空間回歸關系。
根據空間滯后模型公式,由已建立的空間權重矩陣w,計算出空間滯后向量wy,根據極大似然法估算出公式中各個自變量的系數,得到空間滯后模型公式:

其中,y為住宅價格;w為空間權重矩陣;x1為商服繁華度;x2為道路通達度;x3為公共便捷度;x4為公共配套設施;x5為區域環境條件;x6為距中心城區距離;x7為綠化率;x8為容積率;x9為樓層數;x10為房間數;x11為NDVI指數;0.095為常數項。空間滯后向量對房價的彈性系數ρ為0.259,說明空間滯后向量對房價有著顯著影響,且武漢市住宅價格之間空間擴散的相互作用程度較高。
2.3.2 模型結構
根據Moran's I指數和空間滯后分析結果,武漢市住宅價格存在明顯的空間自相關性,房價之間空間溢出效應顯著,因此,住宅價格評估建模需要考慮其空間特性。
如上文所述,構建了3種空間型BP神經網絡,分別在輸入層中加入住宅樣本點坐標(X、Y)、空間滯后向量以及二者綜合,分別對應空間型BP神經網絡I、空間型BP神經網絡II、空間型BP神經網絡III。
根據已建立的住宅類房地產價格評估指標體系,空間型BP神經網絡I的輸入層神經元為樣本點坐標值(X、Y)及11個住宅價格評估指標,輸入節點為13個,輸出層神經元為住宅價格,節點為1個;空間型BP神經網絡II的輸入層神經元為空間滯后向量以及11個住宅價格評估指標,輸入節點為12個,輸出層神經元為相應的住宅價格,輸出節點為1個;空間型BP神經網絡III的輸入層神經元為空間滯后向量、樣本點坐標值(X、Y)及11個住宅價格評估指標,輸入節點為14個,輸出層神經元同樣為住宅價格,節點為1個。
計算得到291個住宅價格樣本點的空間滯后向量值以及樣本點坐標值(X、Y),并與其他房價影響因子進行統一的標準化處理,作為輸入數據進行網絡訓練。
采用試湊法確定隱含層節點數為15[19]。依據經驗設置BP神經網絡訓練最大次數為2000,學習速率為0.1,期望誤差為0.001。根據樣本數量確定的經驗規則,即訓練樣本數是網絡連接權總數的5~10倍[20],從武漢市291個住宅項目樣本中選擇了總樣本的85%,即246個樣本作為訓練數據,15%即45個樣本作為測試數據,構建訓練和驗證網絡的樣本數據庫。對神經網絡模型中的權值和閾值進行實數編碼,確定遺傳算法編碼長度為:

其中,R為輸入層神經元個數;S1為隱含層神經元個數;S2為輸出神經元個數。確定遺傳算法的種群規模為50,遺傳代數為100,交叉概率為0.95,變異概率為0.08。
根據確定的網絡結構及參數,基于MatlabR2011b軟件構建3種空間型BP神經網絡。采用遺傳算法進行訓練,得到BP神經網絡的權值和閾值。采用測試集測試網絡模型,若測試集上的均方誤差沒有明顯下降,則認為訓練結果是可靠的。
2.3.3 結果對比分析
采用均方根誤差(RMSE)來衡量模型擬合精度,公式為:

其中,xi為實際輸出;x為期望輸出;n為測試樣本個數。根據公式得到各模型的均方根誤差,空間滯后模型為2 173.14,普通BP神經網絡為1 716.93,空間型BP神經網絡I為1 434.90,空間型BP神經網絡II為1 362.36,空間型BP神經網絡III為996.37。
采用空間滯后模型評估武漢市住宅價格的均方根誤差明顯大于其他BP神經網絡模型,說明線性模型在住宅房地產價格評估中的解釋力低于非線性模型;普通BP神經網絡在輸入層中只加入了房價指標體系的11個因子,模型測試后,均方根誤差大于3種空間型BP神經網絡模型;加入樣本點坐標的空間型BP神經網絡I均方根誤差小于普通的BP神經網絡;加入空間滯后向量后,誤差進一步下降;而將坐標及空間滯后向量同時加入后,模型精度進一步提高,實際輸出與期望輸出的均方根誤差由2 173.14元降到1 000元以內。
研究進一步對比了4種BP神經網絡模型評估結果,比較了4種模型實際輸出與期望輸出相關性程度,如圖4所示。普通BP神經網絡模型實際輸出與期望輸出的相關性R為0.784,明顯低于三種空間型BP神經網絡;加入空間滯后向量的空間型BP神經網絡II模型效果優于加入樣本坐標的空間型BP神經網絡I,說明局部空間特征指標在模型中的效用高于整體趨勢指標。但二者都不及空間型BP神經網絡III,其相關性R達到了0.867,說明同時加入樣本點坐標和空間滯后向量后的模型精度更高。可以理解為空間型BP神經網絡III不僅考慮了房價空間分布的整體趨勢特征,還將局部空間自相關效應考慮在內,從而提高了模型精度。
綜合來看,空間型BP神經網絡III的誤差值最小,實際輸出與期望輸出的相關性程度最高。因此,加入坐標和空間滯后向量的空間型BP神經網絡較其他模型有明顯的改進和提高,可更好地用于住宅房地產價格評估。

圖4 期望輸出與實際輸出相關性分析
研究了考慮空間自相關性的住宅房地產價格神經網絡建模,構建了空間型BP神經網絡模型,在武漢市住宅價格評估實證分析中取得了良好效果。武漢市住宅價格存在明顯的空間自相關,Moran's I指數為0.360。BP神經網絡模型住宅價格評估精度高于空間滯后模型,與普通BP神經網絡模型相比,空間型BP神經網絡住宅價格評估精度更高。空間型BP神經網絡II精度優于空間型BP神經網絡I,說明在住宅房地產價格建模中,相對于樣本點坐標(X,Y)變量而言,將空間滯后向量作為解釋變量可以更為顯著地提高模型的擬合精度。空間型BP神經網絡III評估精度最高,實際輸出與期望輸出相關性達到86.69%,相對誤差更小,說明空間型BP神經網絡模型III從整體和局部上將房價空間性考慮在內,進一步提高了模型擬合精度。
空間型BP神經網絡在空間變量的關聯關系建模中考慮了空間變量的自相關性和變量關系的非線性特征,本研究的實例驗證了其有效性。將來可以進一步研究空間型BP神經網絡在其他非線性空間關聯關系研究中的應用。
[1] 申玲,唐安淮.基于BP神經網絡的房地產市場比較法價格評估[J].系統工程理論與實踐,1998(5):52-55
[2] 戚曉曜.基于模糊神經網絡的房地產價格評估問題研究[J].武漢理工大學學報,2005,27(11):117-119
[3] 高玉明,張仁津.基于遺傳算法和BP神經網絡的房價預測分析[J].計算機工程,2014,40(4):187-191
[4] 章偉.粗糙集BP神經網絡在房地產價格預測中的應用[J].計算機仿真,2011,28(7):365-368
[5] GOULD P.Is Statistics Inferens the Geographicalname for a Wild Goose[J].Economic Geography,1970,46(1):1-3
[6] 孟斌,張景秋,王勁峰,等.空間分析方法在房地產市場研究中的應用:以北京市為例[J].地理研究,2005,24(6):956-965
[7] WONG S K,YIU C Y,CHAU K W.Trading Volume-Induced Spatial Autocorrelation in Real Estate Prices[J].Journal of Real Estate Finance and Economics.2013,46(4):596–608
[8] PACE P K,BARRY R,SIRMANS C F.Spatial Statistics and Real Estate[J]. Journal of Real Estate Finance and Economics,1998,17(1):5-13
[9] 溫海珍,張之禮,張凌.基于空間計量模型的住宅價格空間效應實證分析:以杭州市為例[J].系統工程理論與實踐,2011,31(9):1 661-1 667
[10] 戴平生,陳建寶.空間統計學研究應用綜述[C].國際應用統計學術研討會,2008
[11] TOBLER W R.A Computer Movie Simulating Urban Growth in the Detroit Region[J]. Economic Geography,1970,46(2):234-240
[12] 梅志雄,黃亮.房地產價格分布的空間自相關分析:以東莞市為例[J].中國土地科學,2008,22(2):49-54
[13] 陳小勇,林鵬.我國紅樹植物分布的空間自相關分析[J].華東師范大學學報(自然科學版),2000(3):104-109
[14] ANSELIN L.Spatial Econometrics:Methods and Models[J].Jlurnal of the American Statistical Association,1990,85(411):310-330
[15] 焦利民,劉耀林,葉宗達.基于神經網絡趨勢面分析的地價樣點檢驗方法研究[J].測繪信息與工程, 2007,32(6):26-28
[16] 魏海坤,徐嗣鑫,宋文忠.神經網絡的泛化理論和泛化方法[J].自動化學報,2001,27(6):806-815
[17] CHAVEZ P S.An Improved Dark-Object Subtraction Technique for Atmospheric Scattering Correction of Multispectral Data[J].Remote Sensing of Environment,1988,24(3):459-479
[18] LI W,SAPHORES J D M,GILLESPIE T W.A Comparison of the Economic Benefits of Urban Green Spaces Estimated with NDVI and with High-Resolution Land Cover Data[J]. Landscape and Urban Planning, 2015(133):105-117
[19] 張中英,謝剛,謝克明.用messy遺傳算法確定多層前向神經網絡的隱層結點數[J].太原理工大學學報,2005,36(4):392-394
[20] 韓立群.人工神經網絡理論、設計及應用[M].北京:化學工業出版社,2002
P208
B
1672-4623(2017)02-0086-05
10.3969/j.issn.1672-4623.2017.02.027
2015-12-16。
項目來源:國家自然科學基金資助項目(41171312)。
池嬌,碩士研究生,研究方向為城市空間擴張與數據分析建模。