王 華,羅 平,張 杰
(1.國土資源部城市土地資源監測與仿真重點實驗室,廣東 深圳 518034;2.鄭州輕工業學院計算機與通信工程學院,河南 鄭州 450002)
城鎮基準地價是指在城市特定區域內,根據土地用途、利用條件相似原則劃分均質區域,并評估出各地價區段在某一時點的平均水平價格[1]。城鎮基準地價成果能夠反映土地市場的時空演變格局,并且對于土地資源優化配置及土地利用效益最大化具有重要意義[2]。
城鎮基準地價與其影響因素之間存在著復雜的非線性映射關系,很難通過某種確定的數據模型來準確描述和表達。中國在基準地價評估工作實踐當中常用的方法包括算術平均模型[3]、線性、指數等回歸統計模型[4-7],算數平均模型的缺陷在于其計算結果嚴重依賴于均質區域內樣點的空間及數量分布情況,回歸模型直接模擬土地級別與樣點地價之間的數學關系進而確定某一級別基準地價,但該模型需要預先人為確定影響因素權值,具有很大的主觀性、經驗性與不確定性,導致其預測精度受到一定限制[8]。有研究人員嘗試利用模糊數學[9-10]以及云模型[11]等方法來改進傳統回歸模型,但上述方法更為關注定性因素的評估量化,仍忽略了地價因素權值確定問題。部分學者認為地價樣本空間分布不均衡,聚集或者稀缺現象均會出現,導致數據存在一定空間相關性,為消除變量本身的空間自相關對回歸結果的影響,引入了Kriging空間分析法[12-14]來構建地價求解方程,但該方法也未考慮影響因素權重取值主觀性這一問題。人工神經網絡模型具有自主學習地價樣本特征的優勢,近十幾年來在基準地價評估研究中獲得廣泛應用[15-18]。它不需要確定權重,克服了多因素權重確定主觀性強的缺陷,并可利用多層神經網絡建立地價與影響因素之間的映射關系。還有學者將支持向量機(Support Vector Machine, SVM)模型用于確定城鎮基準地價評估,通過與傳統回歸模型及人工神經網絡對比表明該方法在基準地價測算方面具有優越性[19]。無論是人工神經網絡模型或者支持向量機都屬于淺層學習算法,在訓練樣本及計算單元受限的情況下對城市地價及其影響因素之間的復雜函數的表示能力會受到一定制約[20]。
近些年興起的深度學習技術由于擁有多層非線性映射網絡層,使其獲得較強的復雜函數擬合能力,在復雜分類、識別、預測等問題的解決中獲得了廣泛應用,并取得良好的效果和效率[21-22]。深度學習可以看作神經網絡的發展,Hinton等[23]認為深層神經網絡結構可以學習到對象更深刻更本質的特征。因此本文嘗試選擇深度學習的經典算法深度置信網絡[24](Deep Belief Network, DBN)來構建城鎮基準地價評估模型,并以湖北省武漢市基準地價評估為實例,對基于深度學習的城鎮基準地價評估模型的建立流程及模型優化方法進行了探討和研究。
1.1.1 深度置信網絡結構
深度學習是一類新興的多層神經網絡學習算法,通過多隱層感知器來組合低層特征形成更加抽象的高層表示,自動地學習得到層次化的特征表示,從而有助于提高分類和預測的準確性。DBN是由若干層受限玻爾茲曼機(Restricted Boltz-mann Machine,RBM)及一層反向傳播網絡(Back-propagation, BP)組成的一種深層神經網絡,其基本思想是采用無監督學習方法逐層訓練每一個RBM,最后對整個網絡采用有監督學習進行微調。
1.1.2 受限玻爾茲曼機
受限玻爾茲曼機(RBM)是一種特殊的玻爾茲曼機,由一個可視層(v)和一個隱含層(h)組成,可以看作為一個二部圖,兩層之間通過權重w連接,同層單元之間無連接。
由圖2中可以看出,可視層中任一可見節點vi和隱含層中隱含節點hj之間都存在一條權值為wij的連接,且wij=wji,0<i<m,0<j<n。令b表示可視層偏置量、c表示隱含層偏置量。RBM網絡是對稱結構,因此可利用式(1)、式(2)互相計算可視層及隱含層節點值。

對于一個二值化信號(v1,v2,…,vm),利用式(1)可以計算得到一個相應的隱含特征信號(h1,h2,…,hm),對于給定的狀態(v,h),RBM的節點狀態滿足玻爾茲曼分布,其能量函數可以定義為:

那么,狀態(v,h)的聯合概率分布為:

RBM進行無監督學習的目的就是通過吉布斯抽樣不斷調節θ= (w,b,c)參數,最終使得聯合概率P(v,h|θ)最大,即使得隱含特征信號h還原重建成v′后與v之間誤差最小。為使狀態(v,h)趨向平穩,需要通過計算最大P(v,h|θ)與初始狀態的聯合概率的斜率Δθ來引導參數θ更新,其計算公式如下所示:

式(5)中:τ表示最大迭代次數;η為學習速率。由于難以確定概率變化斜率計算的步長,對比散度(Contrastive Divergence, CD)算法[25]被提出用于加速RBM訓練過程并保持了精度。
1.2.1 城市基準地價評估問題描述
城市基準地價受自然、經濟、區位等多種因素影響,評估結果既能夠表現出自然經濟因素影響土地價值的區域結構性特征,也能反映人文活動及其他因素對地價的隨機性擾動。城市基準地價評估問題實質就是在對自然經濟影響因素作用量化的基礎之上,利用評估模型構建起地價與多維特征之間的復雜映射關系。
對于城市基準地價評估問題,樣本特征即為評估模型的輸入,將樣本特征數據集X表示為

式(6)中:L為樣本數據集數量(1≤l≤L);D為每個樣本數據的特征個數(1≤d≤D),每一個擁有D個特征的數據都可以看做是空間RD中的一個向量,即X中的一行;xdl為第l個樣本的第d個特征值,表示第l個樣本地塊在某一個屬性特征上的量化值;Y為與樣本特征數據集對應的樣本標簽數據集,可以表示為式(7);yl表示第l個樣本地塊對應的實際市場價格。

城市地價評估的核心即為尋找映射X→Y的問題。由于特征維數較高,映射關系通常會非常復雜,通過機器學習方法,特別是深度學習方法能夠對這類問題進行較為準確的求解。基于該映射網絡可以將各級別評估單元的特征向量分別輸入獲取到評估單元地價,再通過加權或者取平均值的方法即可求取某一級別的平均地價即基準地價。
1.2.2 模型的建立
選擇DBN網絡來建立城市地價評估模型,它由輸入層、多層RBM和BP微調層構成,輸入層為土地價格影響因素xl,輸出層為評估地價yl。城市地價評估DBN模型的建立流程如圖1所示。

圖1 城市地價評估模型的構建Fig.1 Construction of appraisal model for urban land benchmark price
(1)采用z-score方法對樣本集特征數據進行歸一化預處理,如式(8)。

式(8)中:z為歸一化后的數據特征值;x為某一具體分數;φ為平均數;σ為標準差。
歸一化的目的:一是為滿足DBN算法對輸入特征數據格式的要求;二是消除不同量綱的影響從而避免部分特征無法有效參與地價評估。
(2)將原始樣本集合按照設定比例隨機拆分為訓練樣本集合(Xtrain,Ytrain)和測試樣本集合(Xtest,Ytest),并給定所有樣本的地價標簽Y。
(3)樣本預訓練。以全體訓練樣本數據集的D維特征向量作為輸入,采用逐層的無監督貪婪學習的方法來訓練模型中的RBM。在每一層,可視層H及隱含層V單元的狀態按照式(1)和式(2)進行計算,參數空間(w,b,c)可按照式(5)進行更新。
(4)微調。基于監督學習機制對最后一層的BP網絡進行訓練,將最后一層RBM的隱含輸出作為BP網絡的輸入向量,基于BP的反向傳播機制利用誤差反饋信息對整個DBN網絡參數進行微調,直到迭代次數達到設定值為止。
(5)測試及評估。將測試樣本數據集輸入到訓練好的DBN,利用模型的輸出地價與樣本標簽地價計算得到平均評估誤差率λ(式(9)),并將其作為衡量DBN評估性能的標準。

式(9)中:ytest表示測試樣本的實際地價;Ntest表示測試樣本集合的數量;y′表示模型的輸出地價。
(6)計算評估單元地價。繼續對評估單元進行特征量化,并同樣按照式(8)進行歸一化,并輸入到訓練好的DBN網絡之中,可計算得到每一個評估單元的地價。
(7)計算基準地價。本模型選用面積加權法,利用每一級別內的評估單元的地價及對應的面積權重進行基準地價計算,如式(10)。

式(10)中:BValuem表示第m級別的基準地價;Arean表示m級別內第n個評估單元的面積;TotalAream表示級別m的所有單元的面積之和;ZValuen表示利用模型求取的第n個評估單元的地價。
本文以湖北省武漢市主城區土地定級及基準地價更新項目為依托,以商業用地基準地價評估為例,利用多因素綜合評定法劃定商業用地評估單元2 110個,并將單元劃分為4個土地級別。課題組收集商業地價樣本點共12 386個,通過對樣本點的異常檢驗,對其異常數據進行糾正或剔除,經整理后保留有效樣點共9 568個,然后對修改后的樣點進行統一編號和規范化處理并入庫備用,按樣點的具體位置落實到定級單元圖上。在利用樣本點評估基準地價之前,根據交易情況、交易期日、使用年期、容積率等因素對樣點地價進行修正。
一般而言,影響城市商業用地價格的因素有交通條件、繁華程度、人口狀況、地形、城市規劃、基礎公用設施、環境質量等特征因子。本文在武漢市基準地價評估成果基礎之上,以主導性、定量化等為指導原則,并結合現有研究[4,17]最終確定武漢市商業用地評估因素體系,共計18個評價因子,如表1所示。將上述評價因子作為DBN網絡的輸入因子,其量化后的作
用分值作為網絡輸入,經過修正后的樣點地價作為網絡輸出。
為衡量特征因子對樣本點的影響程度,本文需要搜集土地利用、地形、交通條件、區位條件、基礎設施配置、環境狀況等方面的資料及空間圖件來進行空間量化分析,因子作用分值計算及對評估單元的空間量化方法均參考《城鎮土地分等定級規程》。土地利用數據及地形數據來源于武漢市國土資源局提供的土地變更調查數據、土地利用更新調查和第二次土地調查數據庫;道路通達、汽車站等交通數據主要參考交通部門提供的道路等級圖、道路分布圖、交通圖等資料;大氣污染、綠地覆蓋等數據來源于環保部門;醫院、電訊、供排水等數據來源于市政部門。

表 1 商業用地評估指標體系Tab.1 Index system for urban commercial land appraisal
將樣本點集合中的9 568個地價樣本點全部進行標注,隨機抽取其中8 000個樣本作為估價模型的訓練樣本,剩余的1 568個作為測試樣本驗證模型性能。為驗證DBN模型的評估性能,本文還實現了兩種不同網絡結構參數的BP神經網絡評估模型,分別定義為BPANN1和BPANN2,此外將SVM模型也設置為對照試驗。DBN 隱含層數目設置為3,即總層數為5層,每層的神經單元數依次為18、15、8、4、1,將特征信號逐層壓縮,最后形成4 維特征向量進行擬合。DBN模型無監督訓練階段學習率為 0.6,迭代次數為 200,為動態調整學習率設置初始動量項參數為0.5,中后期調整為0.9。BP神經網絡考慮兩種情況,BPANN1設置為單隱層結構,隱含層神經單元個數采用遍歷法確定,遍歷區間為[1,25],經搜尋后將隱層單元設定為12個。BPANN2則采用和 DBN一樣的網絡結構即18-15-8-4-1;DBN的監督學習階段和兩個ANN的訓練方式一致,均采用梯度下降算法,學習率為0.4,迭代 200 次。SVM取核函數為高斯徑向基核,利用6折交叉驗證和網格法遍歷尋找到最優的懲罰因子C為100,徑向基核函數參數σ為6.4。
考慮到多層神經網絡參數的隨機性,將上述3種算法各運行20次,并統計對應的輸出誤差及相對誤差,結果見表2。

表2 不同評估模型的測試結果Tab.2 Test results of different appraisal models
由表2的結果可以看出DBN模型的平均相對誤差比BPANN1、BPANN2、SVM三個模型分別要低2.13%,4.36%,1.05%。相比于BPANN1、SVM模型,DBN的深層架構明顯能夠更好地挖掘地價樣本集的深層特征,其將原始的22維特征抽象成了4維高階特征進行評估,能夠獲得比淺層結構更好的擬合精度。此外,DBN與BPANN2模型的網絡結構及監督訓練階段的參數設置雖然均保持一致,但兩者的擬合精度卻相差較多,這是由于DBN模型利用其無監督貪心算法有效地對網絡結構參數進行了預訓練,顯著提高了模型的擬合精度。BPANN2的網絡結構參數一般是通過隨機化方法來進行初始化,然后通過該網絡進行訓練,其參數未經過有效優化,所以對樣本集合的地價擬合精度較差,DBN與BPANN2的監督訓練過程如圖2所示。此外,BPANN2的網絡結構雖然要復雜于BPANN1,但由于傳統訓練及反饋系統的誤差傳播效應導致其復雜參數系統影響整體網絡系統的擬合功能,所以其擬合精度反而要比BPANN1低2.23%。SVM的目標函數是一個凸函數,可以保證得到問題的全局最優解,避免了人工神經網絡優化頻繁陷入局部最優的困擾,所以其擬合精度要比BPANN1高1.08%。
傳統的淺層學習方法一般僅依靠監督訓練來優化模型參數,當訓練樣本不足時,模型評估性能不夠理想。但本文DBN模型包括RBM無監督訓練和BP有監督訓練兩個訓練階段,理論上來講可以在樣本較少時依然獲得較高的擬合精度。本文通過從樣本集合中抽取少量訓練樣本來測試各個模型在訓練樣本數量不足時的評估性能。在各模型參數設置同上的情況下,從9 568個標注樣本中分別抽取400、800、1 200、1 600、2 000個樣本作為訓練樣本,剩余的作為測試樣本,各模型的測試相對誤差如表3所示。

表3 不同訓練樣本數目的測試結果Tab.3 Test results of appraisal models for training with different numbers

圖2 DBN和BPANN2的監督訓練過程Fig.2 Supervised process of DBN and BPANN2
根據表3測試結果可以看出,在訓練樣本數量較少的情況下,DBN模型顯示出了比BPANN1、BPANN2、SVM模型明顯更優越的評估性能。當訓練樣本數量僅為400時,DBN的相對誤差值比上述三個模型低了7.99、14.47、6.71個百分點。隨著訓練樣本數量的遞增,各個模型的評估精度都增長明顯,DBN模型在訓練樣本數量為1 600時,擬合精度提高到91.52%,而樣本數量為2 000時,擬合精度已經可以達到95.69%,仍然比其他模型的擬合精度高出2.86~8.93。SVM模型的評估精度雖然低于DBN但卻顯著高于BPANN1和BPANN2,這是由于其基于結構風險最小化的訓練框架能夠在一定程度上客服訓練樣本不足的問題,但是BP神經網絡是基于經驗風險最小化的模型,在訓練樣本數量不足時,網絡參數無法得到有效優化,因此其評估精度較低。DBN通過對無標簽城市樣本數據的非監督訓練來進一步抽象樣本集合特征,使得網絡結構參數盡量靠近最優區域,因此在有監督訓練階段即使通過少量標注樣本的訓練也可使模型獲得較高的評估精度。綜上述所,DBN模型在訓練樣本數量不足時依然可獲得較為理想的評估精度。
上述實驗一定程度上說明了DBN的無監督訓練過程對于模型評估性能的重要性,本文繼續通過改變參與無監督訓練的地價樣本數量來探討DBN地價模型評估精度的變化規律。首先固定有監督訓練微調階段的標注樣本數量為1 000,然后分別設置RBM無監督訓練段的無標簽訓練樣本數量為500、1 000、1 500、…、5 000,每一種參數設置的模型分別運行5次然后求取平均相對誤差如圖3所示。

圖3 DBN相對誤差Fig.3 Relative error of DBN
由圖3可以看出,隨著無標簽地價樣本數量的增加,DBN模型的測試相對誤差逐漸降低,即評估精度越來越高,當加入3 000個無標簽樣本時,評估精度達到了97.92%。從曲線變化趨勢來看,在無標簽訓練樣本數從500到2 500的過程中,DBN的評估準確率上升較快,之后的增加趨勢較為平緩。總體來看,充分的無監督訓練可以有效改善深層網絡結構參數,為監督訓練微調提供優化后的網絡結構,進而提高模型整體的評估精度。

表4 各級別基準地價Tab.4 Different classes of urban land benchmark prices
在因子作用體系下,構建各級別評估單元的特征向量矩陣,并將其輸入DBN的深層網絡結構,可輸出所有評估單元對應的地價,然后運用式(10)可計算得到各級別的基準地價,計算結果見表4。
本文針對城市基準地價評估問題,提出一種基于深度置信網絡的城市地價評估方法。以湖北省武漢市基準地價評估為實例,得出以下結論:
(1)與BPANN1、SVM這類淺層學習模型相比,DBN的深層網絡結構明顯能夠更好地挖掘城市地價樣本集的深層特征,通過將原始的22維特征抽象成4維高階特征進行評估,獲得了比淺層學習方法更好的評估精度。
(2)DBN比具有同樣網絡結構的BPANN2地價評估精度要高出4.36%,本模型借助其無監督貪心算法能夠有效對網絡結構參數進行預訓練,而BPANN2采用隨機化方法生成網絡參數,所以其評估精度較差。
(3)在訓練樣本不足時,DBN對于城市地價評估任務仍然能夠獲得較為滿意的評估精度,相比于其他模型其評估優勢更為明顯,這得益于DBN的非監督訓練階段能夠盡量優化網絡結構參數,此外實驗還證明了DBN 的無監督學習方法使其能夠利用大量無標注樣本顯著提升評估精度。
本文首次將深度學習方法與城市基準地價評估問題相結合,為地價評估課題的研究提供了新思路。但由于深度置信網絡算法的參數較為復雜,本文主要參考已有研究通過經驗式的實驗仿真選定的模型參數,但是并未能保證達到該算法求解地價評估問題的最大性能。其次在DBN訓練網絡下進一步求取了各級別均質區域的基準地價,但和現有研究[5,19]一樣還缺少進一步論證的方法來證明該基準地價的準確性。