陳志鵬,郭 熙,趙麗紅*,郭細根
(1.江西農業大學國土資源與環境學院,330045,南昌;2.重慶理工大學經濟金融學院,400054,重慶)
改革開放以來,我國土地交易市場的建設取得重大突破。從土地公開市場的土地出讓收益來看:1999—2015年,這17 a全國土地出讓收入總額為37 457億元,2017年這一數據猛增至52 059億元[1]。由此可見,我國土地出讓市場呈現異常活躍、交易量大的特點。為了規范土地交易市場,抑制土地價格的不合理增長,對土地估價的精度要求也越來越高,提高地價評估的客觀性和科學性很有必要。在此背景下很多學者基于不同視覺、采用不同的技術方法對地價評估進行研究,如回歸模型[2]、模糊數學[3]、云模型[4]、克里金插值[5]等方法。但上述方法均未考慮地價影響因素權值確定這一主觀性問題。隨著人工智能的興起,不少學者將人工智能方法運用于地價評估,如BP神經網絡,支持向量機[6]和隨機森林[7]等方法。該些方法均規避了地價影響因素的權重問題,建立地價與其影響因素間的映射關系,更具有一定的客觀性與優越性。
與傳統估價方法中的市場比較法相比,BP神經網絡有很多相似之處,但是與市場比較法不同的是,神經網絡不需要人為地確定修正系數,這也就在很大程度上降低了人為因素對估價的影響。因此為減少在土地估價過程中人為主觀性,提高估價科學性,本文將BP神經網絡引入到住宅地價評估中,采集南昌市主城區100多個住宅土地交易案例,探討適用于南昌市主城區住宅用地的地價評估自動機制。
在整個人工神經網絡當中,BP神經網絡是精華部分,處于核心地位,廣泛用于回歸、逼近、壓縮、識別等領域。在實際應用中,大約80%的神經網絡模型采取了BP網絡或BP網絡的變化形式。BP網絡大體上由輸入層、隱含層和輸出層組成,其中隱含層可以分為一層或者多層[8],如圖1所示,該圖是一個簡單的神經網絡結構示意圖,該神經網絡包含有1個輸入層、2個隱含層、1個輸出層。

圖1 BP神經網絡結構
BP神經網絡的學習過程由兩部分組成:正向傳播和反向傳播[9]。把量化的影響因子作為輸入層,在隱含層,網絡會自動地在地價與影響因子之間建立非線性映射關系,賦予每個影響因子以一定的初始權重和偏置(即閾值),然后正向地傳播過去,發現得出的結果與給定的結果之間存在較大的誤差,那么網絡就會沿著使誤差遞減速度最快的方向反向傳播,修正權重和偏置,這個過程稱為1次迭代,這個遞減速度也叫做學習率。循環往復,經過多次迭代,直到得到的誤差小于期望誤差,至此,訓練結束。
BP神經網絡地價評估原理是建立地價及其影響因素非線性映射關系,并通過全局優化功能去獲取 BP 神經網絡最優的初始權值和閾值, 將這些參數代入網絡,然后用仿真模擬函數進行地價的模擬和預測[10]。

圖2 BP神經網絡地價評估原理

本文以南昌市中心城區建成區為研究區(依據城市總體規劃確定的城市建成區)。南昌市為江西省的省會城市,占地面積7 401 km2,地處江西中部偏北,贛江下游,鄱陽湖的西南岸,位于東經E115°27′~116°35′、北緯N28°10′~29°11′之間。全境山、丘、平原相間,地形主要以平原為主,占總面積35.8%,東南相對平坦,西北丘陵起伏,水網密布,湖泊眾多。2018年,南昌市全年實現地區生產總值(GDP)5 274.67億元,比上年增長8.9%。其中,第一產業產值190.68億元,增長3.2%;第二產業產值2 660.92億元,增長8.5%;第三產業產值2 423.07億元,增長10.1%。
本文用于地價評估的樣本數據為2016年南昌市城區基準地價評估所采用土地交易案例,從中選取了103個住宅用地交易案例作為樣本點,包括樣本點的容積率、交易價格等信息。在中國地價監測網獲取不同時期南昌市住宅用地的地價水平值,以2019年3月1號為評估基準日,將地價修正到評估基準日。住宅地價樣本點分布如圖3所示,樣本點較為均勻地分布在南昌市主城區內。本文隨機選取了90個樣本作為訓練樣本集,占樣本總數的87%,其余13個樣本作為測試樣本集,占樣本總數的13%。

圖3 樣本點分布圖
在選取影響因子時,參考南昌市城市土地定級因素因子指標體系。1)在影響地價的商業因素中選取了商服中心作為影響因子;2)在影響地價的交通因素中,選取了客運站、主要道路、普通道路、公交站點作為影響因子;3)在影響地價的基礎設施因素中選取了小學、初中、幼兒園、醫院作為影響因子;4)在影響地價的環境因素中,選取了公園作為影響因子。影響因子表見表1。

表1 住宅地價影響因素(因子)表
基礎設施點狀數據通過POI獲取,小學、公交站點、客運站(無坐標信息)利用地理編碼獲取經緯坐標,再將所獲取的點狀要素進行投影轉換為西安80坐標系。
對影響因子的量化,根據衰減模型進行分值計算。運用ArcGIS空間分析中的歐式距離和柵格計算器進行因子量化,再把計算出來的值賦予到每個樣本點上。量化分值范圍為0~100分,分值越高,土地價格的理論值越高。結果如圖4所示。

圖4 各影響因子功能分值圖
為了減小變量間的多重共線性對模型的影響,現對影響因子進行相關分析,求出影響因子兩兩間的相關系數,發現公交站點與7個影響因子顯著相關,公園與6個影響因子顯著相關,商服中心與其他6個影響因子顯著相關,幼兒園與6個影響因子顯著相關,那么剔除掉這4個影響因子。
對剩下的7個影響因子進行灰色關聯度分析,檢驗其與地價的關聯度大小。灰色關聯度是一種衡量因素間關聯程度的方法,它是根據序列曲線形狀與參考序列的曲線形狀的相似程度來計算關聯度大小的。計算步驟如下。
1)確定比較序列和參考序列,{X1(k)}、{X2(k)}、{X3(k)}、{X4(k)}、{X5(k)}、{X6(k)}、{X7(k)}作為比較序列,{X8(k)}作為參考序列。其中X1為初中,X2為客運站,X3為普通道路,X4為小學,X5為醫院,X6為主要道路,X7為容積率,X8為修正后地價。
2)數據的無量綱化處理。利用平均值標準化的方法,公式如下:
(1)
計算灰色關聯度。公式如下:
(2)
ζi(k)為灰色關聯系數,ρ為分辨系數,一般取值為0.5,得到灰色關聯度的值為:
(3)
以上過程在DPS 9.01中實現,得到關聯矩陣,其中G(8,1)=0.741 3、G(8,2)=0.749 60、G(8,3)=0.751 29、G(8,4)=0.770 46、G(8,5)=0.749 93、G(8,6)=0.761 17、G(8,7)=0.755 71,關聯序:X4>X6>X7>X3>X5>X2>X1。可見,7個影響因子與地價的關聯程度均大于0.7,對地價的影響力大,可以作為模型的解釋變量。
2.4.1 訓練樣本準備 經過量化后的樣本數據,一部分要用來對BP神經網絡模型進行學習與訓練、從而得到合格的評估模型,另一部分要用來檢測該模型的準確性與可靠性[12]。將每個住宅樣點在各影響因子下的量化分值作為輸入變量,輸出變量為經過時間修正后的住宅用地交易價格。
2.4.2 網絡結構及參數的確定
1)網絡層數的確定。本文選取了7個影響因子作為輸入變量,故輸入層節點數為7個,地價作為輸出變量,故輸出層節點數為1個;至于隱含層,一般來說,層數越多、節點越多,訓練模型上的效果越好,甚至會達到100%預期精度。但隨之帶來的問題是過擬合,將模型放在預測數據上的效果嚴重降低,而且訓練時間也會延長。因此,隱含層數設置為1層,根據節點公式:
(4)
式中:∝為1~10之間的常數、n為輸入層節點數、m為隱含層節點數,因此,確定隱含層節點數為8個[13]。在輸入層與隱含層之間選擇tansig函數為傳遞函數,在隱含層與輸出層之間選擇函數purelin作為傳遞函數。最終構建的網絡為“7-8-1”的3層網絡結構。
2)期望誤差的確定。在對神經網絡訓練前,需要設置一個期望誤差,期望誤差既不能設置得過小、也不能設置得過大。期望誤差過大,會降低預測精度;期望誤差過小,會導致網絡還沒有達到期望誤差就停止訓練。根據經驗值及多次訓練結果的比較,最終確定期望誤差為0.001。
3)學習率的確定。在逆向傳播的過程中,BP神經網絡采用的是隨機梯度下降算法去調整權值和偏置(即閾值)來減小誤差。梯度下降法需要設置學習率,學習率決定了一個小批量中權重在梯度方向要移動多遠。如果學習率過低,盡管訓練會變得更加可靠,但是朝向損失函數最小值的每個步長很小導致優化會耗費較長的時間。如果學習率過高,情況可能會更糟糕,因為訓練可能不會收斂,甚至會發散,權重的改變量非常大,使得優化越過最小值,損失函數變得更糟[14]。權重用公式表示為:
(5)
式中:α為學習率,θi為權重值,j(θi)為損失函數。學習率過小(左)和學習率過大(右)對損失函數的影響如圖9所示。綜合分析,最終確定學習率為0.1。

圖5 權重變化與損失函數的關系
4)最大訓練迭代次數。在網絡訓練結束前,為了讓最后的誤差小于期望誤差,設置最大的訓練迭代次數為10 000次。
在進行BP神經網絡預測時用Matlab語言對BP網絡進行仿真訓練。Matlab工具箱中包含了神經網絡工具箱,為神經網絡的構建、訓練、模擬、仿真模擬提供了很多函數,這樣的話,人們在使用這些函數時就不需要編寫復雜而龐大的算法程序,人們可以根據自己的需要調用相關的程序[15]。
從圖6可以很清楚地看到,模型在147次迭代以后輸出的誤差達到了設定的精度,在這個過程中所花費的時間也很短,僅為數秒鐘。訓練誤差下降很快,在50次以內下降得尤其明顯,且從回歸圖來看,線性擬合效果很好,說明網絡的學習狀態良好。利用仿真模擬sim函數預測后面20組樣本的地價,用sim函數預測出來的值是歸一化的值,再經過反歸一化得到土地價格。預測結果如圖7所示,預測誤差統計結果見表2。

圖6 誤差變化圖與回歸圖


圖7 預測輸出(上為BP網絡,下為SVM模型)
在用BP神經網絡對地價進行評估的同時,作為對比,也用支持向量機模型(簡稱SVM模型)對地價進行評估。得到的誤差變化圖與回歸圖以及驗證樣本表如下所示:可以看出,無論是BP神經網絡還是SVM模型,得到的預測值與實際值的擬合優度都很高,預測值與實際值的誤差百分比也在合理范圍之內,沒有偏差太大,只有個別點的誤差偏大一些,是由于該樣本點的選取不夠合理所致,因為對于該樣本點的預測,無論是BP神經網絡還是SVM模型,都出現較大誤差。總的來說,BP神經網絡對地價的預測是比較精確的。

表2 驗證樣本表
值得一提的是,盡管SVM模型給出的預測值的誤差要小于BP神經網絡,但是SVM模型在整個運行過程中用了數分鐘才完成,而BP神經網絡只用了數秒鐘。BP神經網絡的運行效率要遠遠高于SVM模型,SVM模型對計算機的運算性能有更高的要求。綜合預測精度跟運算性能兩者來考慮的話,BP神經網絡要好一些。
本文以南昌市主城區的住宅地價作為研究對象,根據影響地價的主要因素,選取了商服中心、客運站、主要道路、普通道路、公交站點、小學、初中、幼兒園、醫院、公園等作為影響因子,再獲取量化分值。經過相關分析和灰色關聯度分析,剔除掉了公交站點、公園、商服中心、幼兒園4個影響因子。用前83組樣本進行訓練,找出最優權重和閾值,再用仿真模擬函數對剩下的20組樣本進行預測。結果顯示預測值與實際值的誤差控制在合理范圍以內,表明BP神經網絡模型進行地價預測是可行的,且預測精度較高。
BP神經網絡有著強大的非線性映射能力,能夠在影響因素與地價之間迅速建立起一種聯系。跟傳統估價方法中的市場比較法相比,BP神經網絡有很多相似之處,不同的是,BP神經網絡不需要人為確定修正系數,這也就在很大程度上降低了人為因素對估價的影響,使得估價的過程更加符合評估的三大原則:獨立、客觀、公正。
用神經網絡對地價進行評估仍存在兩大缺陷:一是用BP網絡進行評估時,要選取具體的、可以量化的影響因子。也就是說,神經網絡只能進行定量分析。但是在影響地價的因素當中,有些只能進行定性分析,如國家宏觀政策對地價的影響;二是用BP網絡評估地價從本質上來說,與市場比較法是一致的。訓練樣本即為可比交易案例,根據可比交易案例的情況,來預測待估宗地地價。因此,市場法適用的BP網絡也適用,市場法的局限性也是BP網絡的局限性。對于劃撥出讓、協議出讓或者市場不活躍的土地價格的確定,BP神經網絡不適用,因其交易價格無法獲取。即便如此,對于南昌市城區住宅用地地價評估來說,BP神經網絡是適用的。
隨著智能化時代的到來,類似于BP神經網絡的人工智能方法將會應用到各行各業中,將BP神經網絡應用到土地估價當中,也會推動我國土地估價工作的發展,為政府和經濟主體參與經濟活動提供科學的依據。